B站网课学习视频

南瓜书datawhale开源内容

南瓜书github开源内容

什么是机器学习

概念介绍

人工智能:让机器变得像人一样拥有智能的学科
机器学习:让计算机像人一样能从数据中学习出规律的一类算法
深度学习:神经网络类的机器学习算法
人工智能>机器学习>深度学习

具体应用领域

计算机视觉(computer vision, CV):让计算机拥有视觉能力
自然语言处理(Natural language processing, NLP):让计算机拥有语言能力
推荐系统(Recommender system, RS):让计算机精确分析出人的喜好

西瓜书学习笔记

第1章 绪论

基本术语

泛化能力(generalization):模型适用于新样本的能力

监督学习(supervised learning)

分类(classification):预测的是离散值
  • 二分类(binary classification):正类(positive class)和负类(negative class)
  • 多分类(multi-class classification)
回归:预测的是连续值

无监督学习(unsupervised learning)

  • 聚类(clustering):分组,每组称为簇(cluster)

归纳偏好

  • 任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。
  • 奥卡姆剃刀原则:若有多个假设与观察一致,则选最简单的那个。 算法的归纳偏好是否与问题本身匹配,大多时候直接决定了算法能够取得好的性能。
  • 脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑潜在的问题,则所有学习算法都一样好。

发展历程

  • 20世纪50-70年代初:推理期
    代表:逻辑理论家程序、通用问题求解程序
  • 20世纪70年代中期:知识期
    代表:专家系统
  • 20世纪80年代:机器学习成为一个独立的学科领域、各种机器学习技术百花初绽的时期
    该时期以来,被研究最多、应用最广的是“从样例中学习”(也就是广义的归纳学习),涵盖了监督学习、无监督学习等。
    其中的一大主流技术是符号主义学习,包括决策树(decision tree)和基于逻辑的学习。另一主流是基于神经网络的连接主义学习。
    与符号学习能产生明确的概念表示不同,连接主义学习产生的是“黑箱”模型,因此从知识获取的角度来看,连接主义学习技术有明显弱点。
    连接主义学习的最大局限是其“试错性”,其学习过程涉及大量参数,而参数的设置缺乏理论知道,主要靠手工“调参”。
  • 20世纪90年代中期:“统计学习”迅速占领主流舞台,代表技术是支持向量机(support vector machine,SVM)。
  • 21世纪初:深度学习掀起热潮
    深度学习虽然缺乏严格的理论基础,但它显著降低了机器学习应用这的门槛。

第2章 模型评估与选择

误差与过拟合

  • 训练误差(training error)/经验误差(empirical error):学习在训练集上的误差
  • 泛化误差(generalization error):在新样本上的误差
  • 测试误差(test error):测试集上的误差,作为泛化误差的近似
  • 欠拟合
  • 过拟合:过拟合是机器学习面临的关键障碍,且无法彻底避免

评估方法

  • 留出法(hold-out):直接将数据集分为两个互斥的集合,一个作为训练集S,一个作为测试集T。
    单次使用留出法往往不够稳定可靠,一般采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果。
  • 交叉验证法(cross validation):将数据集划分为 k k k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性。每次用 k − 1 k-1 k1个子集的并集作为训练集,余下的那个子集作为测试集,进行k次循环和测试,返回k次测试结果的均值。
    交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值。
    特例:留一法(leave-one-out)
  • 自助法(bootstrapping):以自助采样法(bootstrp sampling)为基础。有放回地从数据集 D D D中获取样本放入 D ′ D’ D。因此 D D D中一部分样本会多次出现,另一部分样本不出现。
    D ′ D’ D作为训练集 D − D ′ D-D’ DD作为测试集。
    该方法在数据集较小,难以有效划分训练集/测试集时很有用。但是它改变了初始数据集的分布

调参

通常针对每个参数选定一个范围和变化步长及逆行调参。
在参数评估与选择的过程中需要留出一部分数据进行评估测试,事实上我们只使用了一部分数据训练模型。因此在模型选择完成之后,学习算法和参数配置已选定,应该用数据集 D D D的全集重新训练模型。

性能度量(performance measure)

  • 均方误差

  • 错误率/精度

  • 查准率/查准率

    查准率和查全率是一对矛盾的度量。
    P-R曲线:以查准率为纵轴、查全率为横轴的曲线。如果一个学习器的P-R曲线被另一个学习器的完全包住,则可以断言后者的性能优于前者,或可以直接比较下面积的大小,但这并不好计算。

  • 平衡点(break-even point):查准率=查全率的取值

  • F1度量

  • ROC(受试者工作特征,receiver operating characteristics):根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,以“真正例率(true positive rate)”为纵轴,以“假正例率(false positive rate)”为纵轴。

  • AUC(area under ROC curve):ROC曲线下面积