有监督学习算法(二)

作者 : icbug 发布时间: 2020-06-7 文章热度:197 共795个字,阅读需2分钟。 手机浏览

目 录

有监督学习算法(二)

决策树

有监督学习算法(二)-icbug创客

准备工作

明确自变量和因变量确定信息度量的方式确定终止条件

选择特征

得到当前待处理的子集计算所有特征信息度量得到当前最佳分类特征

创建子集

根据选中的特征当前记录分成不同的分支,分支个数取决于算法。

是否终止

判断是否满足终止条件,满足则退出驯悍,不满足则集训递归调用。

生成结果

判断是否需要剪枝,需要则进行适当修建,不需要则为最终结果。


熟悉数据,明确目标

观察数据,明确自变量和因变量。


明确信息度量方式:信息增益

  • 基尼系数


明确分支终止条件

  • 纯度

  • 记录条数

  • 循环次数


信息熵

  • 信息论里的概念,香农提出

  • 描述混乱程度的度量

  • 取值范围0-1,值越大,越混乱

  • 计算公式


信息增益和特征选择

  • 信息是确定性的增加

  • 从一个状态到另一个状态信息的变化

  • 信息增益越大,对确定性贡献越大

有监督学习算法(二)-icbug创客


ID3系列算法

ID3(迭代树三代)

核心是信息熵,根据信息增益决定我们树的结点

但是也是存在问题的:

  1. 信息度量不合理:倾向于选择取值多的字段

  2. 输入类型单一:离散型

  3. 不做剪枝,容易拟合

C45与ID3相比的改进
  1. 用信息增益率代替信息增益

  2. 能连续属性进行离散化

  3. 进行剪枝

C50与C45相比的改进
  1. 使用了bootsting

  2. 前修剪,后修剪


CART

如果像具体了解决策树算法原理请查看这篇文章

https://www.cnblogs.com/keye/p/10564914.html

  • 核心是基尼系数(Gini)

  • 分类是二叉树

  • 支持连续值和离散值

  • 后剪枝可以进行修剪

  • 支持回归,可以预测连续值

总结出如下表

算法 支持模型 树结构 特征选择 连续值处理 缺失值处理 剪枝
ID3 分类 多叉树 信息增益 不支持 不支持 不支持
C45 分类 多叉树 信息增益比 支持 支持 支持
CART 分类,回归 二叉树 基尼系数 支持 支持 支持

其他常见的有监督学习算法

分类算法:

  • KNN(K最近邻,K-Nearest Neighbour)

  • NB(朴素贝叶斯)

  • DT(决策树)

  • SVM(支持向量机)

回归预测:

  • 线性回归

  • 逻辑回归

  • 岭回归

  • 拉索回归

  • ......

常见问题FAQ

本站采用标准 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明!
icbug创客 » 有监督学习算法(二)

发表评论