机器学习 课堂二 2025


概况

授课:张腾 tengzhang@hust.edu.cn

考核

实验:头歌平台,华为 MindSpore 平台;期末:1 次大作业

课件

推荐用火狐在线浏览,Space 翻页,Esc 导航,可能需科学上网,常见符号表

题目 资料 内容
绪论 slides 1. 机器学习的常见应用,机器学习算法是一种元算法
2. 图灵测试,达特茅斯会议
3. 人工智能三次浪潮:推理期、知识期、学习期
机器学习定义 slides 1. 机器学习的常见任务类型:监督、半监督、无监督
2. 机器学习的不同学派:符号、连接、统计、类推
3. 模型评估:均方误差,错误率,查准率,查全率,F1
学习理论初步 slides 1. 泛化:PAC 学习框架,增长函数,VC 维
notes 2. 模型选择:欠拟合,过拟合,交叉验证,偏差方差分解
特征工程 slides 1. 特征提取:词袋模型,tf-idf 特征
2. 特征处理:独热编码,缺失处理,标准化
3. 特征选择:方差分析,卡方检验,互信息,相关性分析
4. 特征选择:稀疏范数
5. 特征变换:主成分分析,随机投影,核映射,函数复合
决策树 slides 1. ID3 决策树,C4.5 决策树,分类回归树 (CART)
2. 信息增益,增益率,基尼指数
3. 鸢尾花分类
4. 决策树剪枝
感知机   1. M-P 神经元模型,激活函数
slides 2. 感知机模型与算法,实现与或非运算
notes 3. 感知机理论分析:Novikoff 定理
  4. 感知机的对偶形式,核感知机,实现异或运算
对数几率回归   1. 对率回归用线性函数拟合几率的对数,输出后验概率
slides 2. 最终形式由极大似然法或最小化交叉熵损失导出
notes 3. 将对率函数换成 softmax 变换可得多分类对率回归
  4. 梯度下降,随机梯度下降,动量法,加速梯度法
神经网络 slides 1. 激活函数:Sigmoid、ReLU、Swish、Maxout
2. 反向传播求解参数,梯度消失,残差网络
3. sklearn、tensorflow 实现
4. 卷积神经网络,循环神经网络,图神经网络
朴素贝叶斯 slides 1. 贝叶斯决策论,贝叶斯风险,贝叶斯最优模型
2. 后验概率最大化:判别式方法,生成式方法
3. 朴素贝叶斯:条件独立性假设,极大似然估计
4. 拉普拉斯平滑
贝叶斯概率 slides 1. 频率主义,极大似然 vs. 贝叶斯主义,最大后验
2. 共轭先验,二项式 - 贝塔,多项式 - 狄利克雷
3. 贝叶斯视角下的朴素贝叶斯、对率回归
4. 贝叶斯视角下的线性回归:岭回归、LASSO
k-近邻 slides 1. k-近邻法,度量空间,度量学习
2. 泛化错误率分析
3. 多数表决的变种:加权、带拒绝
4. 维度灾难
支持向量机 slides 1. 最大间隔准则:最小间隔最大化
2. 拉格朗日对偶,弱对偶,强对偶,KKT 条件
3. 核支持向量机,软间隔支持向量机
4. 正则化,损失函数

补充

矩阵求导拉格朗日对偶AdaBoost

资料

Machine Learning, Tom M. Mitchell

Foundations of Machine Learning 2ed, Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar

Pattern Recognition and Machine Learning, Christopher M. Bishop

Understanding Machine Learning: From Theory to Algorithms, Shai Shalev-Shwartz, Shai Ben-David

代码

测试环境

k-均值聚类密度估计模型评估过拟合偏差方差分解

文本特征提取独热编码缺失特征处理特征标准化特征选择稀疏范数主成分分析随机投影

决策树分类鸢尾花

感知机预测约会、感知机实现与或非、核感知机实现异或

对率回归预测约会、对率回归分类鸢尾花梯度下降动量法

多层感知机实现异或:sklearn 实现tensorflow 实现、卷积神经网络实现 MNIST 手写数字识别、resnet50 模型复用、循环神经网络实现 IMDB 影评情感分析