基于并行机器学习的大规模专利分类

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:cyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会很多实际问题都可以归结为大规模的模式识别问题,比如对网页信息的数据挖掘、交通系统客流分析等等。然而对于大规模问题,即使像SVM等高效算法依然难以真正突破这个瓶颈。另一方面,现在计算资源越来越丰富,利用丰富的并行计算资源来解决大规模的实际问题是一个可行的方法。专利文本分类问题是一个大规模、不平衡问题,实现专利分类具有很高的现实意义,例如分析某领域技术发展趋势等。为了解决专利文本分类等实际问题,我们利用现在越来越丰富的计算资源,采用基于并行的算法结构,从而实现对原问题有效的模式分类。吕宝粮和他的合作者提出了一种并行的支持向量机,称为最小最大模块化网络(M3),它是基“分而治之”的思想解决大规模问题的有效的学习算法。M3将大规模问题进行分解,使其转变为大量小规模问题,从而实现了并行化。被分解成的小规模问题相对简单,容易解决,而且这些问题相互独立,最后将子问题的解规则进行合并,从而得到原问题的解。专利分类要求分类精度高、分类效果好,为了解决实际问题,我们在非对称选择算法、对称选择算法和决策树选择算法的基础上,提出了基于辅助分类器的集成策略。实验证明,基于辅助分类器的集成策略可以有效提高分类精度。同时,我们采用了多种将大规模问题转化为小规模问题的划分策略和多种子模块集成策略,进行组合实验并进行了详细比较,相对于传统支持向量机,采用基于专利数据集先验知识的划分方法和辅助分类器集成策略有很好的性能表现。基于辅助分类器集成策略有较强的一般性和适应性,可以自动拟合子分类器权重,本文的大量实验验证了上述观点。
其他文献
目前,随着计算机网络的发展,Web Services成为网络技术发展的一个热点。动态组合技术是其中最重的一个有关Web Services的问题之一。作为当前Web Services研究的热点,Web Ser
随着互联网用户和数据的急剧增加,高通量计算(HTC)的需求越来越大,同时数据中心的硬件和功耗成本也越来越高,以传统应用为基准而设计的体系结构面临着新的挑战。针对HTC应用的体
随着实时系统应用的不断扩大,对实时系统的研究越来越受到关注。实时系统与一般系统的差别在于,实时系统的运算正确性不仅依赖运算结果的正确,还依赖于运算结束时间。实时系
随着计算机网络、通信和控制技术的发展,以太网技术在工业控制中的应用成为当前控制领域的研究热点。在雷达系统中,以太网的实时应用也成为影响其工作性能的至关重要的一环。在
动态场景中真实感软影的实时绘制一直是计算机图形学中的研究热点。其中,反投影软影绘制技术是实时软影绘制的重要方法之一,它能精确的模拟物理过程,产生高度真实的绘制效果。但
P2P网络(Peer-to-Peer Network)是当前开放、自由网络的典型代表,它改变了用户资源共享和信息交互的使用模式及其层次,并获得了商业界和学术界的广泛关注和重视。然而在自由
机器人足球是近年来人工智能领域发展较快的一个分支。主要分为FIRA和ROBOCUP两大赛事。本文的研究对象为FIRA机器人足球赛中的Androsot项目。本文对人形机器人比赛Androsot
随着无线通信技术的不断发展,不可或缺的无线频谱资源已成为限制信息社会无线通信与服务应用发展的瓶颈。认知无线电这一解决无线频谱资源紧缺问题的方法成为国内外研究的热点
普通数码相机所拍摄的图像具有大视场图像分辨率低、分辨率高的图像视场小的特点。为了解决视场和分辨率的矛盾,人们提出了图像拼接技术,将反映同一场景的多幅有重叠区域的图像
自主导航能力是移动机器人在”智能”和”自主性”上的重要体现,拥有这种能力的机器人能够在不依赖人类控制的条件下,执行定位和认知活动,从而能够穿越未知的环境而到达目的地。