机器学习

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点，到以“知识”为重点，再到以“学习”为重点的自然、清晰的脉络。显然，机器学习是实现人工智能的一个途径之一，即以机器学习为手段，解决人工智能中的部分问题。机器学习在近30多年已发展为一门多领域科际整合，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。

机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法（要防止錯誤累積）。很多推论问题属于非程序化決策，所以部分的机器学习研究是开发容易处理的近似算法。

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈（英语：Credit card fraud）、证券市场分析、DNA序列测序、语音和手写识别、游戏和机器人等领域。

定义

机器学习有下面几种定义：

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

電腦科學家Tom M. Mitchell（英语：Tom M. Mitchell）在其著作的Machine Learning一書中定义的機器學習為：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.^[1]

分类

机器学习可以分成下面几种类别：

监督学习从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。

监督学习和非监督学习的差别就是训练集目标是否有人为标注。他们都有训练集且都有输入和输出

无监督学习与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有生成對抗網絡（GAN）、聚类。
半监督学习介于监督学习与无监督学习之间。
增强学习机器为了达成目标，随着环境的变动，而逐步调整其行为，并评估每一个行动之后所到的回馈是正向的或负向的。^[2]

算法

具体的机器学习算法有：

构造间隔理论分布：聚类分析和模式识别
- 人工神经网络
- 决策树
- 感知器
- 支援向量機
- 集成学习 AdaBoost
- 降维与度量学习
- 聚类
- 贝叶斯分类器
构造条件概率：回归分析和统计分类
- 高斯过程回归
- 线性判别分析
- 最近邻居法
- 径向基函数核
通过再生模型构造概率密度函数：
- 最大期望算法
- 概率图模型：包括貝氏網路和Markov随机场
- Generative Topographic Mapping
近似推断技术：
最优化：大多数以上方法，直接或者间接使用最优化算法。
量子機器學習

软件

包含各種機器學習演算法的軟體套裝包括：

免费开源软件

Caffe
Deeplearning4j
DeepSpeed
ELKI
Google JAX
Infer.NET
Keras
Kubeflow
LightGBM
Mahout
Mallet
Microsoft Cognitive Toolkit
ML.NET
mlpack
MXNet
OpenNN
Orange
pandas (software)
ROOT (TMVA with ROOT)
scikit-learn
Shogun
Spark MLlib
SystemML
TensorFlow
Torch / PyTorch
Weka / MOA
XGBoost
Yooreeka

Python软件库及框架

参考文献

引用

[1]
Tom M. Mitchell. Machine Learning. McGraw-Hill. 1997年3月: 第2页. ISBN 0070428077 （英语）.
[2]
林东清. 资讯管理：e化企业的核心竞争能力七版. 台北市: 智胜文化. 2018年8月: 第118页. ISBN 9789864570478 （中文）.

来源

书籍

Bishop, C. M. (1995). 《模式识别神经网络》，牛津大学出版社. ISBN 0-19-853864-2.
Bishop, C. M. (2006). 《模式识别与机器学习》，Springer. ISBN 978-0-387-31073-2.
Richard O. Duda, Peter E. Hart, David G. Stork (2001). 《模式分类》（第2版）, New York: Wiley. ISBN 0-471-05669-3.
MacKay, D. J. C. (2003). 《信息理论、推理和学习算法》（页面存档备份，存于互联网档案馆），剑桥大学出版社. ISBN 0-521-64298-1
Mitchel.l, T. (1997). 《机器学习》, McGraw Hill. ISBN 0-07-042807-7
Sholom Weiss, Casimir Kulikowski (1991). Computer Systems That Learn, Morgan Kaufmann. ISBN 1-55860-065-5.

外部链接

UCI description （页面存档备份，存于互联网档案馆）
机器学习软件Weka （页面存档备份，存于互联网档案馆）
Pablo Castro主页（页面存档备份，存于互联网档案馆）
机器学习网邮件列表（页面存档备份，存于互联网档案馆）
机器学习和自然语言处理-弗莱堡大学（页面存档备份，存于互联网档案馆）
机器学习和数据挖掘，生物信息学小组，慕尼黑工业大学
机器学习和生物计算-Bristol大学（页面存档备份，存于互联网档案馆）
机器学习和应用统计学@微软研究
机器学习研究月刊（页面存档备份，存于互联网档案馆）
机器学习期刊（页面存档备份，存于互联网档案馆）
机器学习-Kmining，数据挖掘和KDD科学参考（页面存档备份，存于互联网档案馆）
Book "智能系统社区" by Walter Fritz
开放目录项目（页面存档备份，存于互联网档案馆）
机器学习论文-CiteSeer （页面存档备份，存于互联网档案馆）
Orange，使用Python脚本语言的机器学习组件和可视化编程接口（页面存档备份，存于互联网档案馆）

参见

人工智能
生成式人工智能
深度学习
迁移学习
微调 (深度学习)
强化学习
贝叶斯学习
随机森林
决策树
计算学习理论
提示工程
计算智能
数据挖掘
模式识别
机器学习方面重要出版物（计算机科学）
机器学习方面重要出版物（统计学）
自主控制机器人
归纳逻辑编程
神经网络
最近邻居法
機器學習控制
量子机器学习

[1] [1]
Tom M. Mitchell. Machine Learning. McGraw-Hill. 1997年3月: 第2页. ISBN 0070428077 （英语）.

[2] [2]
林东清. 资讯管理：e化企业的核心竞争能力七版. 台北市: 智胜文化. 2018年8月: 第118页. ISBN 9789864570478 （中文）.

[1]

[2]