在统计学和机器学习中,集成学习(英語:Ensemble learning)方法通过组合多种学习算法来获得比单独使用任何一种算法更好的预测性能。[1][2][3]与统计力学中通常是无限的系综不同,机器学习中的集成学习由有限的一组模型组成,但这些模型之间通常允许存在更灵活的结构。
监督学习算法通常被描述为在假设空间中搜索,以找到一个能够对特定问题做出良好预测的假设。即使假设空间包含非常适合特定问题的假设,找到一个好的假设也可能很困难。集成学习结合多个假设,形成一个(希望)更好的假设。术语集成通常保留用于使用相同基础学习器生成多个假设的方法。多分类器系统的更广泛术语还包括由非相同基础学习器得到的假设的结合。这种方法和现象也被另一个术语“群智”所描述,该术语来自多个DREAM生物医学数据科学挑战。
评估集成学习的预测通常需要比评估单个模型的预测花费更多的计算,因此集成可以被认为是通过执行大量额外计算来补偿偏差的学习算法的方式。诸如决策树之类的快速算法通常用于集合方法(如随机森林),尽管较慢的算法也可以从集成方法中受益。
通过类比,集成技术也已用于无监督学习场景中,如共识聚类或异常检测。
集成学习本身是一种监督学习算法,因为它可以被训练然后用于进行预测。因此,训练后的集成模型代表了一个假设,但这个假设不一定被包含在构建它的模型的假设空间内。因此,可以证明集成学习在它们可以表示的功能方面具有更大的灵活性。理论上,这种灵活性使他们能够比单一模型更多地过拟合训练数据,但在实践中,一些集成算法(如Bagging算法)倾向于减少对训练数据过拟合相关的问题。
根据经验,当模型之间存在显著差异时,集成往往会产生更好的结果。[4][5]因此,许多集成方法试图促进它们组合的模型之间的多样性。[6][7]尽管可能不是直观的,更随机的算法(如随机决策树)可用于产生比非常有意识的算法(如熵减少决策树)更强大的集成模型。[8]然而,使用各种强大的学习算法已被证明是比使用试图愚弄模型以促进多样性的技术更有效。[9]
虽然集成中的组成分类器的数量对预测的准确性具有很大影响,但是解决该问题的研究数量有限。先验地确定集成模型的大小以及大数据流的体积和速度使得这对于在线集成分类器来说更加重要,其中大多数统计测试被用于确定适当数量的组件。最近,理论框架表明对于集成模型存在理想数量的分类器,具有多于或少于该数量的分类器将使精度变差,这被称为“集成构建效果递减规律”。理论框架表明,使用与类标签数相同的独立分类器可以达到最高的准确度。[10] [11]
Bootstrap聚合(Bootstrap Aggregating,Bagging)使集成模型中的每个模型在投票时具有相同的权重。為了降低不穩定過程如樹的方差,Bagging對B個(比如說,B使用與類標籤數相同的數量)bootstrap datasets上的模型求平均,從而降低其方差並導致預測性能的改善。例如,随机森林算法将随机决策树与Bagging相结合,以实现更高的分类准确度。[13]
Boosting通过在训练新模型实例时更注重先前模型错误分类的实例来增量构建集成模型。在某些情况下,Boosting已被证明比Bagging可以得到更好的准确率,不过它也更倾向于对训练数据过拟合。目前比较常见的增强实现有AdaBoost等算法。
贝叶斯参数平均(Bayesian Parameter Averaging,BPA)是一种集成方法,它试图通过对假设空间中的假设进行抽样来近似贝叶斯最优分类器,并使用贝叶斯定律将它们组合起来。[14]与贝叶斯最优分类器不同,贝叶斯模型平均(Bayesian Model Averaging,BMA)可以实际实现。通常使用诸如MCMC的蒙特卡罗方法对假设进行采样。例如,可以使用吉布斯采样来绘制代表分布的假设。已经证明,在某些情况下,当以这种方式绘制假设并根据贝叶斯定律求平均时,该算法具有预期误差,该误差被限制为贝叶斯最优分类器的预期误差的两倍。[15]尽管这种技术理论正确,但早期工作中的实验结果表明,与简单的集成方法如Bagging相比,该方法促进了过拟合并且表现更差;[16] however, these conclusions appear to be based on a misunderstanding of the purpose of Bayesian model averaging vs. model combination.[17]然而,这些结论似乎是基于对目的的误解贝叶斯模型平均与模型组合。[18]此外,BMA的理论和实践取得了相当大的进展,最近的严格证明证明了BMA在高维设置中变量选择和估计的准确性,[19]并提供了实验证据,强调了BMA中的稀疏执行先验在缓解过拟合方面的作用。[20]
贝叶斯模型组合(BMC)是对贝叶斯模型平均(BMA)的算法校正。 它不是单独对整体中的每个模型进行采样,而是从可能的集合空间中进行采样(模型权重从具有均匀参数的Dirichlet分布中随机抽取) 这种修改克服了BMA趋向于将所有权重赋予单个模型的趋势 尽管BMC在计算上比BMA更昂贵,但它往往会产生显着更好的结果 BMC的结果显示平均值优于(具有统计显着性)BMA和Bagging。[21]
使用贝叶斯定律来计算模型权重需要计算给定每个模型的数据的概率,通常集成中的模型都不是生成训练数据的分布,因此对于该项,它们都正确地接收到接近于零的值。如果集成足够大以对整个模型空间进行采样,这将很有效,但这种情况很少发生。因此,训练数据中的每个模式将使集成权重朝向最接近训练数据分布的集合中的模型移动,这实质上减少了用于进行模型选择的不必要的复杂方法。
集成的可能权重可以看作是躺在单面上,在单形的每个顶点处,所有权重都被赋予集成中的单个模型。BMA会聚到最接近训练数据分布的顶点。相比之下,BMC汇聚到这种分布投射到单纯形态的点上。换句话说,它不是选择最接近生成分布的一个模型,而是寻找最接近生成分布的模型的组合。
BMA的结果通常可以通过使用交叉验证从一系列模型中选择最佳模型来近似。同样地,可以通过使用交叉验证来近似来自BMC的结果,以从可能的权重的随机采样中选择最佳的集成组合。
“桶模型”(英语:bucket of models)是一种使用模型选择算法为每个问题选择最佳模型的集成方法。当仅使用一个问题进行测试时,一组模型不会产生比集成中的最佳模型更好的结果,但是当针对许多问题进行评估时,它通常会产生比集成中的任何模型更好的结果。
最常见的方法用于模型的选择是交叉验证。它用以下伪代码描述:
For each model m in the bucket:
Do c times: (where 'c' is some constant)
Randomly divide the training dataset into two datasets: A, and B.
Train m with A
Test m with B
Select the model that obtains the highest average score
交叉验证选择可以概括为:“使用训练集尝试所有选择,并选择最有效的方法”。[22]
门控是交叉验证选择的一般化。它涉及训练另一种学习模型,以确定桶中哪些模型最适合解决问题。通常,感知器被应用于门控模型。它可用于选择“最佳”模型,或者可用于为桶中每个模型的预测提供线性权重。
当使用具有大量问题的桶模型时,可能希望避免需要花费很长时间训练的一些模型。地标学习是一种寻求解决这一问题的元学习方法,它涉及仅训练桶中的快速(但不精确)算法,然后使用这些算法的性能来帮助确定哪种慢(但准确)算法最有可能做得最好。[23]
堆叠(英语:Stacking)(有时称为堆叠泛化)涉及训练学习算法以组合其他几种学习算法的预测。首先,使用可用数据训练所有其他算法,然后训练组合器算法以使用其他算法的所有预测作为附加输入进行最终预测。如果使用任意组合器算法,那么堆叠理论上可以表示本文中描述的任何集合技术,但实际上,通常用邏輯斯諦迴歸模型作为组合器。
Stacking通常比任何一个经过训练的模型都能产生更好的性能,[24]它已成功用于监督学习任务(如回归、[25] 分类和距离学习 [26])和无监督学习(如密度估计)。[27] Stacking也被用于评估Bagging的错误率。[3][28] 据报道,它的表现超过了贝叶斯模型的平均值。[29]在Netflix竞赛中两个表现最好的人使用混合方法(英语:Blending),这可以被认为是一种Stacking形式。[30]
近年来,由于计算能力不断提高,允许在合理的时间范围内训练大型集成模型,其应用数量也越来越多。[36]集成分类器的一些应用包括:
土地覆盖测绘是地球观测卫星传感器的主要应用之一,利用遥感和地理空间数据识别位于目标区域表面的材料和物体。一般来说,目标材料的类别包括道路、建筑物、河流、湖泊和植被。[37]基于人工神经网络[38]、核主成分分析(KPCA)[39]、Boosting[40]决策树、随机森林[37]和自动设计多分类器系统[41]等不同的集成学习方法可以有效识别土地覆盖物。
变化检测是一种图像分析问题,识别土地覆盖随时间变化的地方。变化检测广泛应用于城市发展、森林和植被动态、土地利用和灾害监测等领域。[42]集成分类器在变化检测中的最早应用是通过多数投票、贝叶斯平均和最大后验概率设计的。[43]
分布式拒绝服务攻击是互联网服务提供商可能遭受的最具威胁性的网络攻击之一。[36]通过组合单个分类器的输出,集成分类器减少了检测和区分此类攻击与Slashdot效应的总误差。[44]
使用机器学习技术对计算机病毒、计算机蠕虫、特洛伊木马、勒索软件和间谍软件等恶意软件代码进行分类,其灵感来自文本分类问题。[45] 集成学习系统在这方面已经显示出适当的功效。[46][47]
入侵检测系统监控计算机网络或计算机系统,以识别入侵者代码,如异常检测过程。集成学习成功地帮助这种监控系统减少了它们的总误差。[48][49]
人脸识别最近已经成为最受欢迎的模式识别研究领域之一,它通过他/她的数字图像来处理人的识别或验证。[50]
基于Gabor Fisher分类器和独立分量分析预处理技术的分层集成是该领域中最早使用的一些集成方法。[51][52][53]
语音识别主要基于深度学习,因为谷歌、微软和IBM这一领域的大多数业内人士都表示,他们的语音识别的核心技术是基于这种方法。基于语音与集成学习的情感识别也可以有令人满意的表现。[54][55]
它也被成功用于面部情绪识别。[56][57][58]
欺诈检测涉及银行欺诈的识别,例如洗钱、信用卡欺诈和电信欺诈,它们具有广泛的机器学习研究和应用领域。由于集成学习提高了正常行为建模的稳健性,因此有人提出将其作为检测银行和信用卡系统中此类欺诈案件和活动的有效技术。[59][60]
预测业务失败的准确性是财务决策中非常关键的问题。因此,不同的集成分类器被提出用于预测金融危机和财务困境。[61]此外,在基于交易的操纵问题中,交易者试图通过买卖活动来操纵股票价格,集成分类器需要分析股票市场数据的变化并检测股票价格操纵的可疑症状。[61]
=== 医学生
集成分类器已成功应用于脑-机接口、蛋白质组学和医学诊断,例如基于MRI数据集的神经认知障碍(即阿尔茨海默氏症或肌强直性营养不良)检测。[62][63][64]
Opitz, D.; Maclin, R. Popular ensemble methods: An empirical study. Journal of Artificial Intelligence Research. 1999, 11: 169–198. doi:10.1613/jair.614.
Kuncheva,L.和Whitaker,C.,措施的多样性中的分类器的合奏, 学习机,51,pp.181-207,2003年
Sollich,P.和克罗,A., 学习合唱团:如何过拟合可能是有用的,先进的神经信息处理系统,第8卷,pp.190-196之,1996年。
Brown,G.和Wyatt,J.和Harris,R.和Yao,X.、多样化创作方法:调查和分类., 信息的融合,6个(1),第5-20,2005年。
嗬,T.,随机决定的森林, 诉讼程序的第三次国际会议文件的分析和认识,pp.278-282,1995年。
汤姆M.Mitchell, 机学习,1997年,第175
Breiman,L.,装袋预测, 学习机,24(2),pp.123-140,1996年。
大卫Haussler,迈克尔*柯恩斯和罗伯特*E Schapire的。 边界在这样复杂的贝学习使用信息理论和VC尺寸的。 学习机,14:83-113,1994年
Castillo, I.; Schmidt-Hieber, J.; van der Vaart, A. Bayesian linear regression with sparse priors. Annals of Statistics. 2015, 43 (5): 1986–2018. arXiv:1403.0735 . doi:10.1214/15-AOS1334.
Bensusan,Hilan和吉罗载Christophe G.,发现任务区通过里程碑式的学习表演,PKDD'00:诉讼程序的第4次欧洲会议关于原则的数据挖掘和知识发现,Springer-Verlag,2000年,第325页--330
沃伯特,D., 堆叠的概括。的, 神经网络,5(2),pp.241-259., 1992年
史密斯,P.和沃伯特,D.H 的直线相结合的密度估计通过叠,机器
学习的期刊,36,59-83,1999年
沃伯特,D.,和麦克瑞德,W.G., 一个有效的方法来估计装袋的概括错误、学习机杂志,35,41-55来,1999年
克拉克,B., Bayes模型平均和堆叠当的模式近似的错误不可忽视,Journal of机学习的研究,pp683-712,2003年
Amini, Shahram M.; Parmeter, Christopher F. Bayesian model averaging in R (PDF). Journal of Economic and Social Measurement. 2011, 36 (4): 253–287 [2019-01-01]. (原始内容存档 (PDF)于2017-12-03).
Woźniak, Michał; Graña, Manuel; Corchado, Emilio. A survey of multiple classifier systems as hybrid systems. Information Fusion. March 2014, 16: 3–17. doi:10.1016/j.inffus.2013.04.006.
Giacinto, Giorgio; Roli, Fabio. Design of effective neural network ensembles for image classification purposes. Image and Vision Computing. August 2001, 19 (9-10): 699–707. doi:10.1016/S0262-8856(01)00045-2.
Xia, Junshi; Yokoya, Naoto; Iwasaki, Yakira. A novel ensemble classifier of hyperspectral and LiDAR data using morphological features. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). March 2017: 6185–6189. doi:10.1109/ICASSP.2017.7953345.
Mochizuki, S.; Murakami, T. Accuracy comparison of land cover mapping using the object-oriented image classification with machine learning algorithms. 33rd Asian Conference on Remote Sensing 2012, ACRS 2012. November 2012, 1: 126–133.
Du, Peijun; Liu, Sicong; Xia, Junshi; Zhao, Yindi. Information fusion techniques for change detection from multi-temporal remote sensing images. Information Fusion. January 2013, 14 (1): 19–27. doi:10.1016/j.inffus.2012.05.003.
Bruzzone, Lorenzo; Cossu, Roberto; Vernazza, Gianni. Combining parametric and non-parametric algorithms for a partially unsupervised classification of multitemporal remote-sensing images. Information Fusion. December 2002, 3 (4): 289–297. doi:10.1016/S1566-2535(02)00091-X.
Raj Kumar, P. Arun; Selvakumar, S. Distributed denial of service attack detection using an ensemble of neural classifier. Computer Communications. July 2011, 34 (11): 1328–1341. doi:10.1016/j.comcom.2011.01.012.
Shabtai, Asaf; Moskovitch, Robert; Elovici, Yuval; Glezer, Chanan. Detection of malicious code by applying machine learning classifiers on static features: A state-of-the-art survey. Information Security Technical Report. February 2009, 14 (1): 16–29. doi:10.1016/j.istr.2009.03.003.
Zhang, Boyun; Yin, Jianping; Hao, Jingbo; Zhang, Dingxing; Wang, Shulin. Malicious Codes Detection Based on Ensemble Learning. Autonomic and Trusted Computing. 2007: 468–477. doi:10.1007/978-3-540-73547-2_48.
Menahem, Eitan; Shabtai, Asaf; Rokach, Lior; Elovici, Yuval. Improving malware detection by applying multi-inducer ensemble. Computational Statistics & Data Analysis. February 2009, 53 (4): 1483–1494. doi:10.1016/j.csda.2008.10.015.
Locasto, Michael E.; Wang, Ke; Keromytis, Angeles D.; Salvatore, J. Stolfo. FLIPS: Hybrid Adaptive Intrusion Prevention. Recent Advances in Intrusion Detection. 2005: 82–101. doi:10.1007/11663812_5.
Giacinto, Giorgio; Perdisci, Roberto; Del Rio, Mauro; Roli, Fabio. Intrusion detection in computer networks by a modular ensemble of one-class classifiers. Information Fusion. January 2008, 9 (1): 69–82. doi:10.1016/j.inffus.2006.10.002.
Mu, Xiaoyan; Lu, Jiangfeng; Watta, Paul; Hassoun, Mohamad H. Weighted voting-based ensemble classifiers with application to human face recognition and voice recognition. 2009 International Joint Conference on Neural Networks. July 2009. doi:10.1109/IJCNN.2009.5178708.
Yu, Su; Shan, Shiguang; Chen, Xilin; Gao, Wen. Hierarchical ensemble of Gabor Fisher classifier for face recognition. Automatic Face and Gesture Recognition, 2006. FGR 2006. 7th International Conference on Automatic Face and Gesture Recognition (FGR06). April 2006: 91–96. doi:10.1109/FGR.2006.64.
Su, Y.; Shan, S.; Chen, X.; Gao, W. Patch-based gabor fisher classifier for face recognition. Proceedings - International Conference on Pattern Recognition. September 2006, 2: 528–531. doi:10.1109/ICPR.2006.917.
Rieger, Steven A.; Muraleedharan, Rajani; Ramachandran, Ravi P. Speech based emotion recognition using spectral feature extraction and an ensemble of kNN classifiers. Proceedings of the 9th International Symposium on Chinese Spoken Language Processing, ISCSLP 2014. 2014: 589–593. doi:10.1109/ISCSLP.2014.6936711.
Krajewski, Jarek; Batliner, Anton; Kessel, Silke. Comparing Multiple Classifiers for Speech-Based Detection of Self-Confidence - A Pilot Study. 2010 20th International Conference on Pattern Recognition. October 2010: 3716–3719. doi:10.1109/ICPR.2010.905.
Rani, P. Ithaya; Muneeswaran, K. Recognize the facial emotion in video sequences using eye and mouth temporal Gabor features. Multimedia Tools and Applications. 25 May 2016, 76 (7): 10017–10040. doi:10.1007/s11042-016-3592-y.
Rani, P. Ithaya; Muneeswaran, K. Facial Emotion Recognition Based on Eye and Mouth Regions. International Journal of Pattern Recognition and Artificial Intelligence. August 2016, 30 (07): 1655020. doi:10.1142/S021800141655020X.
Louzada, Francisco; Ara, Anderson. Bagging k-dependence probabilistic networks: An alternative powerful fraud detection tool. Expert Systems with Applications. October 2012, 39 (14): 11583–11592. doi:10.1016/j.eswa.2012.04.024.
Sundarkumar, G. Ganesh; Ravi, Vadlamani. A novel hybrid undersampling method for mining unbalanced datasets in banking and insurance. Engineering Applications of Artificial Intelligence. January 2015, 37: 368–377. doi:10.1016/j.engappai.2014.09.019.
Kim, Yoonseong; Sohn, So Young. Stock fraud detection using peer group analysis. Expert Systems with Applications. August 2012, 39 (10): 8986–8992. doi:10.1016/j.eswa.2012.02.025.
Savio, A.; García-Sebastián, M.T.; Chyzyk, D.; Hernandez, C.; Graña, M.; Sistiaga, A.; López de Munain, A.; Villanúa, J. Neurocognitive disorder detection based on feature vectors extracted from VBM analysis of structural MRI. Computers in Biology and Medicine. August 2011, 41 (8): 600–610. doi:10.1016/j.compbiomed.2011.05.010.
Ayerdi, B.; Savio, A.; Graña, M. Meta-ensembles of classifiers for Alzheimer's disease detection using independent ROI features. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). June 2013, (Part 2): 122–130. doi:10.1007/978-3-642-38622-0_13.
Gu, Quan; Ding, Yong-Sheng; Zhang, Tong-Liang. An ensemble classifier based prediction of G-protein-coupled receptor classes in low homology. Neurocomputing. April 2015, 154: 110–118. doi:10.1016/j.neucom.2014.12.013.