机器学习吃瓜记-01

主要内容

西瓜书的第1章 绪论

第1章 绪论

绪论主要讲的是什么呢,主要是介绍到机器学习是什么,以及机器学习的主要任务,以及机器学习上经常使用的一些基本术语的介绍

1.1 引言

机器学习是什么?
是让机器学会学习的一门学问。那什么叫学习,是指能够利用经验数据来改善系统性能自身的性能

1.2 基本术语

这一节主要介绍了机器学习中经常使用的基本术语的介绍。

1.3 假设空间

归纳induction演绎deduction是科学推理的两大基本手段。

归纳induction是从特殊到一般的泛化generalization过程。

演绎deduction是从一般到特殊的特化specialization过程。

而“从样本中学习”显然是一个归纳的过程,所以也称为归纳学习inductive learning

而归纳学习是想要从样例中学得概念cencept,但是要学得泛化性能好且语义明确的概念比较困难。

学习的过程可以看做是从所有假设hypothesis组成的空间中搜索与训练集匹配fit的假设的过程,即能够将训练集中的瓜判断正确的假设。

现实问题中经常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,称之为版本空间version space

1.4 归纳偏好

一个有效的机器学习算法必有其归纳偏好,如果无法产生确定的学习结果的话就没有什么意义。

那么,有没有一般性的原则来引导算法确定正确的偏好呢?
奥卡姆剃刀原则,即“若存在多个假设与观察一致,则选择最简单的那一个”。

而什么才叫最简单并不是一个严谨的定义,所以需要其他机制才能解决。

这边需要提到的是没有免费的午餐定理No Free Lunch Theorem,其主要内容是在所有问题出现的机会相同、或所有的问题同等重要的时候,无论算法a多聪明,算法b多笨拙,它们的期望性能是一样的。

这就会回到那么学习还有什么用的问题上来,但是往往实际情况并不是这样。我们只关注自己需要解决的问题,在这个问题上希望找到一个解决方案,而这个方案在别的问题上如何表现是不是好的方案我们并不需要关系。

1.5 发展历程

这边介绍了机器学习发展途中的一些派系。

  • 符号主义 symbolism
    • 代表包括 决策树 decision tree 和 基于逻辑的学习。
  • 连接主义 connectionism
    • 前期的神经网络 但是缺点在于是 黑箱black box,而调参缺乏理论指导。
  • 统计学习 statistical learning
    • 代表有 支持向量机 support vector machine 以及更一般的 核方法 kernel methods

个人总结

这一章主要需要知道的是,机器学习是什么,机器学习可行性,NFL定理下学习还有没有意义。

机器学习是让机器学会从经验数据中获取经验,改善系统自身的性能的一门学问。

在NFL定理下学习的意义在于,实际问题中我们需要解决的问题往往是特殊的并不需要考虑到所有情况,而且在这个问题上的一个方案是否在别的问题上一样是好的方案我们不需要去考虑,所以才能避免NFL定理的窘况。

还需要知道的是机器学习发展过程中产生的一些派系,现在依旧存在并且各派系有着典型的算法需要了解。

从性能上来说连接主义学习也就是神经网络派系目前来说相对优秀但是因为是黑箱模型,得到的结果缺乏理论支撑所以在不太需要考虑因果关系的问题上应用比较广泛,比如图像识别,自然语言处理之类的只要能得出好的结果就可以如何得到的其实并不太重要。而相反需要一些理论支撑的应用,统计学习和符号主义学习都是非常经常用到的。
但是并不是绝对的,近年来看对于神经网络类黑箱模型解释性的研究也在逐步进行中。


机器学习吃瓜记-01
https://warmwinter.ml/2022/03/watermelon01/
作者
Neal
发布于
2022年3月15日
许可协议