机器学习

决策树

计算机学院张腾

tengzhang@hust.edu.cn

大纲

符号学派规则学习

规则学习中的规则 (rule) 指狭义的逻辑规则，呈 if-then 形式

$$ \begin{align*} \quad \overbrace{\otimes}^{\text{规则头}} \underbrace{\longleftarrow}_{\text{蕴含}} \overbrace{f_1 \wedge \underbrace{f_2}_{\text{文字}} \wedge \cdots \wedge f_L}^{\text{规则体}} \end{align*} $$

文字 (literal)：对特征进行检验的布尔表达式，如$(\text{天气 = 雨天})$

规则头：也是文字，一般表示规则判定的标记、类别或概念
规则体：即前提，由逻辑文字组成的合取式，文字个数称为规则长度

一个规则可以看成一个学习模型

符合规则的样本称为被该规则覆盖 (cover)

覆盖

次序	时间	方式	天气	课业	疫情	电视	约会
1	周六	吃饭	晴天	轻松	清零	精彩	是
2	周日	吃饭	阴天	轻松	清零	精彩	是
3	周日	吃饭	晴天	轻松	清零	精彩	是
4	周六	吃饭	阴天	轻松	清零	精彩	是
5	周间	吃饭	晴天	轻松	清零	精彩	是
6	周六	逛街	晴天	轻松	平缓	无聊	是
7	周日	逛街	晴天	适中	平缓	无聊	是
8	周日	逛街	晴天	轻松	平缓	精彩	是
9	周日	逛街	阴天	适中	平缓	精彩	否
10	周六	学习	雨天	轻松	严峻	无聊	否
11	周间	学习	雨天	繁重	严峻	精彩	否
12	周间	吃饭	晴天	繁重	严峻	无聊	否
13	周六	逛街	晴天	适中	清零	精彩	否
14	周间	逛街	阴天	适中	清零	精彩	否
15	周日	逛街	晴天	轻松	平缓	无聊	否
16	周间	吃饭	晴天	繁重	严峻	精彩	否
17	周六	吃饭	阴天	适中	平缓	精彩	否

$\class{blue}{\text{是} \longleftarrow (\text{方式=吃饭}) \wedge (\text{疫情=清零})}$

$\class{red}{\text{否} \longleftarrow (\text{课业=繁重})}$

冲突

一个样本若被判定结果不同的多个规则覆盖，称发生了冲突

冲突消解 (conflict resolution)：

投票法：少数服从多数
排序法：在规则集合上定义一个优先级顺序
元规则法：规则的规则，例如“发生冲突时使用长度最小的规则”

规则集合未必能覆盖所有未知样本

$$ \begin{align*} \qquad \quad \text{规则集合} = \begin{cases} \text{是} \longleftarrow (\text{方式=吃饭}) \wedge (\text{疫情=清零}) \\ \text{否} \longleftarrow (\text{课业=繁重}) \end{cases} \end{align*} $$

默认规则：例如“未被规则集合覆盖的都不约会”

序贯覆盖

序贯覆盖 (sequential covering)，即逐条归纳

从空规则开始，将正类作为规则头，遍历每个特征的取值
若当前规则的规则体仅覆盖正类样本，则由此产生一条规则
去掉所有已被覆盖的样本
在剩下的训练数据集上重复上述过程

序贯覆盖单文字规则

次序	时间	方式	天气	课业	疫情	电视	约会
1	周六	吃饭	晴天	轻松	清零	精彩	是
2	周日	吃饭	阴天	轻松	清零	精彩	是
3	周日	吃饭	晴天	轻松	清零	精彩	是
4	周六	吃饭	阴天	轻松	清零	精彩	是
5	周间	吃饭	晴天	轻松	清零	精彩	是
6	周六	逛街	晴天	轻松	平缓	无聊	是
7	周日	逛街	晴天	适中	平缓	无聊	是
8	周日	逛街	晴天	轻松	平缓	精彩	是
9	周日	逛街	阴天	适中	平缓	精彩	否
10	周六	学习	雨天	轻松	严峻	无聊	否
11	周间	学习	雨天	繁重	严峻	精彩	否
12	周间	吃饭	晴天	繁重	严峻	无聊	否
13	周六	逛街	晴天	适中	清零	精彩	否
14	周间	逛街	阴天	适中	清零	精彩	否
15	周日	逛街	晴天	轻松	平缓	无聊	否
16	周间	吃饭	晴天	繁重	严峻	精彩	否
17	周六	吃饭	阴天	适中	平缓	精彩	否

$\text{是} \longleftarrow (\text{时间=周六})$

序贯覆盖单文字规则

次序	时间	方式	天气	课业	疫情	电视	约会
1	周六	吃饭	晴天	轻松	清零	精彩	是
2	周日	吃饭	阴天	轻松	清零	精彩	是
3	周日	吃饭	晴天	轻松	清零	精彩	是
4	周六	吃饭	阴天	轻松	清零	精彩	是
5	周间	吃饭	晴天	轻松	清零	精彩	是
6	周六	逛街	晴天	轻松	平缓	无聊	是
7	周日	逛街	晴天	适中	平缓	无聊	是
8	周日	逛街	晴天	轻松	平缓	精彩	是
9	周日	逛街	阴天	适中	平缓	精彩	否
10	周六	学习	雨天	轻松	严峻	无聊	否
11	周间	学习	雨天	繁重	严峻	精彩	否
12	周间	吃饭	晴天	繁重	严峻	无聊	否
13	周六	逛街	晴天	适中	清零	精彩	否
14	周间	逛街	阴天	适中	清零	精彩	否
15	周日	逛街	晴天	轻松	平缓	无聊	否
16	周间	吃饭	晴天	繁重	严峻	精彩	否
17	周六	吃饭	阴天	适中	平缓	精彩	否

$\text{是} \longleftarrow (\text{时间=周日})$

序贯覆盖双文字规则

次序	时间	方式	天气	课业	疫情	电视	约会
1	周六	吃饭	晴天	轻松	清零	精彩	是
2	周日	吃饭	阴天	轻松	清零	精彩	是
3	周日	吃饭	晴天	轻松	清零	精彩	是
4	周六	吃饭	阴天	轻松	清零	精彩	是
5	周间	吃饭	晴天	轻松	清零	精彩	是
6	周六	逛街	晴天	轻松	平缓	无聊	是
7	周日	逛街	晴天	适中	平缓	无聊	是
8	周日	逛街	晴天	轻松	平缓	精彩	是
9	周日	逛街	阴天	适中	平缓	精彩	否
10	周六	学习	雨天	轻松	严峻	无聊	否
11	周间	学习	雨天	繁重	严峻	精彩	否
12	周间	吃饭	晴天	繁重	严峻	无聊	否
13	周六	逛街	晴天	适中	清零	精彩	否
14	周间	逛街	阴天	适中	清零	精彩	否
15	周日	逛街	晴天	轻松	平缓	无聊	否
16	周间	吃饭	晴天	繁重	严峻	精彩	否
17	周六	吃饭	阴天	适中	平缓	精彩	否

$\text{是} \longleftarrow (\text{时间=周六}) \wedge (\text{方式=吃饭})$

序贯覆盖双文字规则

次序	时间	方式	天气	课业	疫情	电视	约会
1	周六	吃饭	晴天	轻松	清零	精彩	是
2	周日	吃饭	阴天	轻松	清零	精彩	是
3	周日	吃饭	晴天	轻松	清零	精彩	是
4	周六	吃饭	阴天	轻松	清零	精彩	是
5	周间	吃饭	晴天	轻松	清零	精彩	是
6	周六	逛街	晴天	轻松	平缓	无聊	是
7	周日	逛街	晴天	适中	平缓	无聊	是
8	周日	逛街	晴天	轻松	平缓	精彩	是
9	周日	逛街	阴天	适中	平缓	精彩	否
10	周六	学习	雨天	轻松	严峻	无聊	否
11	周间	学习	雨天	繁重	严峻	精彩	否
12	周间	吃饭	晴天	繁重	严峻	无聊	否
13	周六	逛街	晴天	适中	清零	精彩	否
14	周间	逛街	阴天	适中	清零	精彩	否
15	周日	逛街	晴天	轻松	平缓	无聊	否
16	周间	吃饭	晴天	繁重	严峻	精彩	否
17	周六	吃饭	阴天	适中	平缓	精彩	否

$\text{是} \longleftarrow (\text{时间=周日}) \wedge (\text{方式=吃饭})$

序贯覆盖双文字规则

次序	时间	方式	天气	课业	疫情	电视	约会
1	周六	吃饭	晴天	轻松	清零	精彩	是
2	周日	吃饭	阴天	轻松	清零	精彩	是
3	周日	吃饭	晴天	轻松	清零	精彩	是
4	周六	吃饭	阴天	轻松	清零	精彩	是
5	周间	吃饭	晴天	轻松	清零	精彩	是
6	周六	逛街	晴天	轻松	平缓	无聊	是
7	周日	逛街	晴天	适中	平缓	无聊	是
8	周日	逛街	晴天	轻松	平缓	精彩	是
9	周日	逛街	阴天	适中	平缓	精彩	否
10	周六	学习	雨天	轻松	严峻	无聊	否
11	周间	学习	雨天	繁重	严峻	精彩	否
12	周间	吃饭	晴天	繁重	严峻	无聊	否
13	周六	逛街	晴天	适中	清零	精彩	否
14	周间	逛街	阴天	适中	清零	精彩	否
15	周日	逛街	晴天	轻松	平缓	无聊	否
16	周间	吃饭	晴天	繁重	严峻	精彩	否
17	周六	吃饭	阴天	适中	平缓	精彩	否

$\text{是} \longleftarrow (\text{时间=周日}) \wedge (\text{方式=吃饭})$

$\class{red}{\text{是} \longleftarrow (\text{时间=周间}) \wedge (\text{课业=轻松})}$

序贯覆盖双文字规则

次序	时间	方式	天气	课业	疫情	电视	约会
1	周六	吃饭	晴天	轻松	清零	精彩	是
2	周日	吃饭	阴天	轻松	清零	精彩	是
3	周日	吃饭	晴天	轻松	清零	精彩	是
4	周六	吃饭	阴天	轻松	清零	精彩	是
5	周间	吃饭	晴天	轻松	清零	精彩	是
6	周六	逛街	晴天	轻松	平缓	无聊	是
7	周日	逛街	晴天	适中	平缓	无聊	是
8	周日	逛街	晴天	轻松	平缓	精彩	是
9	周日	逛街	阴天	适中	平缓	精彩	否
10	周六	学习	雨天	轻松	严峻	无聊	否
11	周间	学习	雨天	繁重	严峻	精彩	否
12	周间	吃饭	晴天	繁重	严峻	无聊	否
13	周六	逛街	晴天	适中	清零	精彩	否
14	周间	逛街	阴天	适中	清零	精彩	否
15	周日	逛街	晴天	轻松	平缓	无聊	否
16	周间	吃饭	晴天	繁重	严峻	精彩	否
17	周六	吃饭	阴天	适中	平缓	精彩	否

$\text{是} \longleftarrow (\text{时间=周日}) \wedge (\text{方式=吃饭})$

$\class{red}{\text{是} \longleftarrow (\text{时间=周间}) \wedge (\text{课业=轻松})}$

$\class{yellow}{\text{是} \longleftarrow (\text{方式=吃饭}) \wedge (\text{课业=轻松})}$

序贯覆盖双文字规则

次序	时间	方式	天气	课业	疫情	电视	约会
1	周六	吃饭	晴天	轻松	清零	精彩	是
2	周日	吃饭	阴天	轻松	清零	精彩	是
3	周日	吃饭	晴天	轻松	清零	精彩	是
4	周六	吃饭	阴天	轻松	清零	精彩	是
5	周间	吃饭	晴天	轻松	清零	精彩	是
6	周六	逛街	晴天	轻松	平缓	无聊	是
7	周日	逛街	晴天	适中	平缓	无聊	是
8	周日	逛街	晴天	轻松	平缓	精彩	是
9	周日	逛街	阴天	适中	平缓	精彩	否
10	周六	学习	雨天	轻松	严峻	无聊	否
11	周间	学习	雨天	繁重	严峻	精彩	否
12	周间	吃饭	晴天	繁重	严峻	无聊	否
13	周六	逛街	晴天	适中	清零	精彩	否
14	周间	逛街	阴天	适中	清零	精彩	否
15	周日	逛街	晴天	轻松	平缓	无聊	否
16	周间	吃饭	晴天	繁重	严峻	精彩	否
17	周六	吃饭	阴天	适中	平缓	精彩	否

$\text{是} \longleftarrow (\text{时间=周日}) \wedge (\text{方式=吃饭})$

$\class{red}{\text{是} \longleftarrow (\text{时间=周间}) \wedge (\text{课业=轻松})}$

$\class{yellow}{\text{是} \longleftarrow (\text{方式=吃饭}) \wedge (\text{课业=轻松})}$

$\class{blue}{\text{是} \longleftarrow (\text{课业=轻松}) \wedge (\text{电视=精彩})}$

序贯覆盖双文字规则

次序	时间	方式	天气	课业	疫情	电视	约会
1	周六	吃饭	晴天	轻松	清零	精彩	是
2	周日	吃饭	阴天	轻松	清零	精彩	是
3	周日	吃饭	晴天	轻松	清零	精彩	是
4	周六	吃饭	阴天	轻松	清零	精彩	是
5	周间	吃饭	晴天	轻松	清零	精彩	是
6	周六	逛街	晴天	轻松	平缓	无聊	是
7	周日	逛街	晴天	适中	平缓	无聊	是
8	周日	逛街	晴天	轻松	平缓	精彩	是
9	周日	逛街	阴天	适中	平缓	精彩	否
10	周六	学习	雨天	轻松	严峻	无聊	否
11	周间	学习	雨天	繁重	严峻	精彩	否
12	周间	吃饭	晴天	繁重	严峻	无聊	否
13	周六	逛街	晴天	适中	清零	精彩	否
14	周间	逛街	阴天	适中	清零	精彩	否
15	周日	逛街	晴天	轻松	平缓	无聊	否
16	周间	吃饭	晴天	繁重	严峻	精彩	否
17	周六	吃饭	阴天	适中	平缓	精彩	否

$\text{是} \longleftarrow (\text{时间=周日}) \wedge (\text{方式=吃饭})$

$\class{red}{\text{是} \longleftarrow (\text{时间=周间}) \wedge (\text{课业=轻松})}$

$\class{yellow}{\text{是} \longleftarrow (\text{方式=吃饭}) \wedge (\text{课业=轻松})}$

$\class{blue}{\text{是} \longleftarrow (\text{课业=轻松}) \wedge (\text{电视=精彩})}$

$\class{orange}{\text{是} \longleftarrow (\text{课业=适中}) \wedge (\text{电视=无聊})}$

序贯覆盖三文字规则

次序	时间	方式	天气	课业	疫情	电视	约会
1	周六	吃饭	晴天	轻松	清零	精彩	是
2	周日	吃饭	阴天	轻松	清零	精彩	是
3	周日	吃饭	晴天	轻松	清零	精彩	是
4	周六	吃饭	阴天	轻松	清零	精彩	是
5	周间	吃饭	晴天	轻松	清零	精彩	是
6	周六	逛街	晴天	轻松	平缓	无聊	是
7	周日	逛街	晴天	适中	平缓	无聊	是
8	周日	逛街	晴天	轻松	平缓	精彩	是
9	周日	逛街	阴天	适中	平缓	精彩	否
10	周六	学习	雨天	轻松	严峻	无聊	否
11	周间	学习	雨天	繁重	严峻	精彩	否
12	周间	吃饭	晴天	繁重	严峻	无聊	否
13	周六	逛街	晴天	适中	清零	精彩	否
14	周间	逛街	阴天	适中	清零	精彩	否
15	周日	逛街	晴天	轻松	平缓	无聊	否
16	周间	吃饭	晴天	繁重	严峻	精彩	否
17	周六	吃饭	阴天	适中	平缓	精彩	否

$\text{是} \longleftarrow (\text{时间=周日}) \wedge (\text{方式=吃饭})$

$\class{red}{\text{是} \longleftarrow (\text{时间=周间}) \wedge (\text{课业=轻松})}$

$\class{yellow}{\text{是} \longleftarrow (\text{方式=吃饭}) \wedge (\text{课业=轻松})}$

$\class{blue}{\text{是} \longleftarrow (\text{课业=轻松}) \wedge (\text{电视=精彩})}$

$\class{orange}{\text{是} \longleftarrow (\text{课业=适中}) \wedge (\text{电视=无聊})}$

$\class{cyan}{\text{是} \longleftarrow (\text{时间=周六}) \wedge (\text{方式=逛街}) \\ \quad \quad \quad \wedge (\text{课业=轻松})}$

决策树

序贯覆盖：删除样本
决策树：划分样本

基本算法

输入：训练集$D = \{ (\xv_i, y_i) \}_{i \in [m]}$，属性集$A = \{ a_j \}_{j \in [d]}$
过程：函数$\TG(D,A)$

生成结点$\node$
if $D$中样本全属于同一类别$C$ then // 递归情形 1
将$\node$标记为$C$类叶结点 return
if $A = \emptyset$ or $D$中样本在$A$上取值相同 then // 递归情形 2
将$\node$标记为叶结点，其类别标记为$D$中样本最多的类 return
从$A$中选择最优划分属性$a^\star$，对$a^\star$的每一个取值$a^\star_v$，为$\node$生成一个分支，令$D_v$表示$D$在$a^\star$上取值为$a^\star_v$的样本子集
if $D_v = \emptyset$ then // 递归情形 3
将分支结点标记为叶结点，其类别标记为$D$中样本最多的类 return
else
以$\TG(D_v, A \setminus \{ a^\star \})$为分支结点

输出：以$\node$为根结点的一棵决策树

信息增益

目标：随着划分的不断进行，决策树结点的纯度越来越高

设数据集$D$中第$k$类样本的比例为$p_k = p(y = k)$，熵定义为

$$ \begin{align*} \quad H(D) = - \sum_{k \in [C]} p_k \log p_k \end{align*} $$

当$p_1 = \cdots = p_C = 1/C$时，$H(D) = \log C$，熵最大，纯度最低
当某个$p_i = 1$、其余为零时，$H(D) = 0$，熵最小，纯度最高

设属性$a$取值为$a_1, \ldots, a_V$，据此可将$D$划分为$D_1, \ldots, D_V$

用属性$a$对$D$进行划分产生的信息增益 (information gain)

$$ \begin{align*} \quad \gain(D,a) = H(D) - \sum_{v \in [V]} \frac{|D_v|}{|D|} H(D_v) \end{align*} $$