python
sklearn速查表
sklearn速查表
以上图片来源于
随机森林
具有极高的准确性
不需要降维处理
可评估各个特征在分类问题上的重要性
集成学习方法
决策树
首先看类型 —— 是喜欢喜剧还是科幻?如果选喜剧,再看评分 —— 高于 8
分吗?如果评分够高,再看演员 —— 有没有你喜欢的明星?最后根据这些
“条件判断”,你终于定下了一部电影。
决策树算法做的事情,和这个过程几乎一模一样。它就像一个
“提问专家”,会根据数据里的特征(比如电影的类型、评分、演员)不断提出 “是
/ 否” 或 “大于 / 小于”
的问题,把数据分到不同的小群体里,直到每个小群体的答案足够明确(比如
“这部电影值得看” 或...
朴素贝叶斯算法
何谓朴素?特征与特征之间相互独立
应用场景
文本分类
单词作为特征
优点
分类准确度高,速度快
对缺失值不敏感
缺点
样本相互独立,若样本有关联则效果不佳
KNN-K近邻算法
原理#
在训练集中寻找与该样本距离最近的 K
个样本,以其多数分类作为该样本的类别
使用欧氏距离计算两者间距离
模型选择与调优
交叉验证#
将训练数据分为n份,经过n组测试,取平均值得到最终结果,称作n折交叉验证。
使得被评估的模型更加准确可信。
如四折交叉验证:
sklearn-转换器与预估器
转换器 - 特征工程的父类#
使用流程
实例化(Transformer)
调用fit_transform(建立分类词频矩阵)
标准化