机器学习吃瓜记-01
主要内容
西瓜书的第1章 绪论
。
第1章 绪论
绪论主要讲的是什么呢,主要是介绍到机器学习是什么
,以及机器学习的主要任务
,以及机器学习上经常使用的一些基本术语的介绍
。
1.1 引言
机器学习
是什么?
是让机器
学会学习
的一门学问。那什么叫学习
,是指能够利用经验
数据来改善系统性能自身的性能
。
1.2 基本术语
这一节主要介绍了机器学习中经常使用的基本术语的介绍。
- 数据集 data set
一系列记录的集合。例如一筐西瓜的数据,有记录着西瓜的色泽、根蒂、敲声等数据。 - 样本 sample / 示例 instance / 特征向量 feature vector
数据集中每条记录都可以称为一个样本sample。例如其中一颗西瓜的数据。 - 属性 attribute / 特征 feature
反映时间或对象在某方面的表现或性质的事项。例如色泽
。 - 属性值 attribute value
在这属性上的取值。例如乌黑
. - 样本空间 sample space / 属性空间 attribute space
属性张成的空间。例如色泽
、根蒂
、敲声
这三个维度构成的一个描述西瓜的三维空间。 - 训练 training
从数据中学得模型的过程称为训练training
。 - 训练集 training set
训练样本组成的集合。 - 训练数据 training data
训练过程中使用的数据。 - 训练样本 training sample
训练数据中每个样本。 - 假设 hypothesis
学得模型对应了关于数据的某种潜在的规律。 - 真相 ground-truth
潜在规律自身称之为真相。 - 预测 prediction
需要获得训练样本的结果信息。例如判断为好瓜或者坏瓜。 - 标记 label
关于样本结果的信息。 - 样例 example
拥有了标记信息的示例。 - 标记空间 label space
所有标记的集合。 - 分类 classfication
预测是离散值,例如判断好瓜、坏瓜。 - 回归 regression
预测是连续值,例如判断西瓜成熟度。 - 测试 testing
学得模型后,使用模型进行预测的过程。 - 测试样本 testing sample
被预测的样本。 - 聚类 clustering
将训练集中的西瓜分成若干组。 - 簇 cluster
每一组称为一个簇。 - 监督学习 supervised learning
训练数据有标记。代表有分类和回归。 - 无监督学习 UNsupervised learning
训练数据没有标记。代表有聚类。 泛化能力 generalization
学得模型适用于新样本的能力。
1.3 假设空间
归纳induction
与演绎deduction
是科学推理的两大基本手段。
归纳induction
是从特殊到一般的泛化generalization
过程。
演绎deduction
是从一般到特殊的特化specialization
过程。
而“从样本中学习”显然是一个归纳的过程,所以也称为归纳学习inductive learning
。
而归纳学习是想要从样例中学得概念cencept
,但是要学得泛化性能好且语义明确的概念
比较困难。
学习的过程可以看做是从所有假设hypothesis
组成的空间中搜索与训练集匹配fit
的假设的过程,即能够将训练集中的瓜判断正确的假设。
现实问题中经常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合
,称之为版本空间version space
。
1.4 归纳偏好
一个有效的机器学习算法必有其归纳偏好,如果无法产生确定的学习结果的话就没有什么意义。
那么,有没有一般性的原则来引导算法确定正确的
偏好呢?
奥卡姆剃刀原则,即“若存在多个假设与观察一致,则选择最简单
的那一个”。
而什么才叫最简单并不是一个严谨的定义,所以需要其他机制才能解决。
这边需要提到的是没有免费的午餐定理No Free Lunch Theorem
,其主要内容是在所有问题出现的机会相同、或所有的问题同等重要的时候,无论算法a多聪明,算法b多笨拙,它们的期望性能是一样的。
这就会回到那么学习还有什么用的问题上来,但是往往实际情况并不是这样。我们只关注自己需
要解决的问题
,在这个问题上希望找到一个解决方案,而这个方案在别的问题上如何表现是不是好的方案我们并不需要关系。
1.5 发展历程
这边介绍了机器学习发展途中的一些派系。
符号主义 symbolism
- 代表包括 决策树 decision tree 和 基于逻辑的学习。
连接主义 connectionism
- 前期的神经网络 但是缺点在于是 黑箱black box,而调参缺乏理论指导。
统计学习 statistical learning
- 代表有 支持向量机 support vector machine 以及更一般的 核方法 kernel methods
个人总结
这一章主要需要知道的是,机器学习是什么,机器学习可行性,NFL定理下学习还有没有意义。
机器学习是让机器学会从经验数据中获取经验,改善系统自身的性能的一门学问。
在NFL定理下学习的意义在于,实际问题中我们需要解决的问题往往是特殊的并不需要考虑到所有情况,而且在这个问题上的一个方案是否在别的问题上一样是好的方案我们不需要去考虑,所以才能避免NFL定理的窘况。
还需要知道的是机器学习发展过程中产生的一些派系,现在依旧存在并且各派系有着典型的算法需要了解。
从性能上来说连接主义学习也就是神经网络派系目前来说相对优秀但是因为是黑箱模型,得到的结果缺乏理论支撑所以在不太需要考虑因果关系的问题上应用比较广泛,比如图像识别,自然语言处理之类的只要能得出好的结果就可以如何得到的其实并不太重要。而相反需要一些理论支撑的应用,统计学习和符号主义学习都是非常经常用到的。
但是并不是绝对的,近年来看对于神经网络类黑箱模型解释性的研究也在逐步进行中。