论文部分内容阅读
支持向量机是Vapnik于1995年首先提出的,主要用于解决小样本、非线性和高维模式识别问题,并且能够推广应用到函数拟合等其他机器学习问题中。它是建立在统计学习理论的VC维理论和结构风险最小原理的基础上的,根据有限的数据样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。AdaBoost是最著名的Boosting算法之一。AdaBoost作为最常用的算法,已经被用于机器学习的各个领域。随着AdaBoost算法的广泛应用,越来越多的学者致力于研究以不同的方式去改善和提高算法性能。嵌入式多视角AdaBoost (EMV-AdaBoost)算法是将多视角学习彻底融合到AdaBoost算法中,而且最终假设是一种新的多学习器组合的方式。本文详细研究了支持向量机的相关理论和AdaBoost算法相关理论,然后分别利用支持向量机和嵌入式多视角AdaBoost完成了组块识别任务。首先详细介绍了支持向量机的相关理论,最优超平面、核函数、多值分类问题及支持向量机的解法等,对支持向量机的分类原理进行了研究。同时,详细介绍了AdaBoost算法相关理论,从Boosting算法,算法分析到AdaBoost算法再到嵌入式多视角AdaBoost算法。着重介绍了嵌入式多视角AdaBoost算法的算法步骤和算法分析。然后,阐述了汉语组块识别任务,组块的定义和标注方法,并把汉语组块识别转换为分类问题,将每个汉字用数字向量表示。最后,分别利用支持向量机和嵌入式多视角AdaBoost算法完成了组块识别任务,并利用北京大学计算研究所的语料库做了测试。实验结果为支持向量机和嵌入式多视角AdaBoost算法在组块识别中的综合评价F值分别为72.87%和84.06%。本文的研究结果不仅可以应用于语言翻译系统,还可应用到文本分类、信息检索等其它自然语言处理领域中。