基于并行机器学习的大规模专利分类

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:cyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会很多实际问题都可以归结为大规模的模式识别问题,比如对网页信息的数据挖掘、交通系统客流分析等等。然而对于大规模问题,即使像SVM等高效算法依然难以真正突破这个瓶颈。另一方面,现在计算资源越来越丰富,利用丰富的并行计算资源来解决大规模的实际问题是一个可行的方法。专利文本分类问题是一个大规模、不平衡问题,实现专利分类具有很高的现实意义,例如分析某领域技术发展趋势等。为了解决专利文本分类等实际问题,我们利用现在越来越丰富的计算资源,采用基于并行的算法结构,从而实现对原问题有效的模式分类。吕宝粮和他的合作者提出了一种并行的支持向量机,称为最小最大模块化网络(M3),它是基“分而治之”的思想解决大规模问题的有效的学习算法。M3将大规模问题进行分解,使其转变为大量小规模问题,从而实现了并行化。被分解成的小规模问题相对简单,容易解决,而且这些问题相互独立,最后将子问题的解规则进行合并,从而得到原问题的解。专利分类要求分类精度高、分类效果好,为了解决实际问题,我们在非对称选择算法、对称选择算法和决策树选择算法的基础上,提出了基于辅助分类器的集成策略。实验证明,基于辅助分类器的集成策略可以有效提高分类精度。同时,我们采用了多种将大规模问题转化为小规模问题的划分策略和多种子模块集成策略,进行组合实验并进行了详细比较,相对于传统支持向量机,采用基于专利数据集先验知识的划分方法和辅助分类器集成策略有很好的性能表现。基于辅助分类器集成策略有较强的一般性和适应性,可以自动拟合子分类器权重,本文的大量实验验证了上述观点。
其他文献
目前,随着计算机网络的发展,Web Services成为网络技术发展的一个热点。动态组合技术是其中最重的一个有关Web Services的问题之一。作为当前Web Services研究的热点,Web Ser
随着实时系统应用的不断扩大,对实时系统的研究越来越受到关注。实时系统与一般系统的差别在于,实时系统的运算正确性不仅依赖运算结果的正确,还依赖于运算结束时间。实时系
P2P网络(Peer-to-Peer Network)是当前开放、自由网络的典型代表,它改变了用户资源共享和信息交互的使用模式及其层次,并获得了商业界和学术界的广泛关注和重视。然而在自由
机器人足球是近年来人工智能领域发展较快的一个分支。主要分为FIRA和ROBOCUP两大赛事。本文的研究对象为FIRA机器人足球赛中的Androsot项目。本文对人形机器人比赛Androsot