基于大规模人工神经网络的可扩展文本分类算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:ZDLANJIBA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,机器学习型文本分类算法在面向主题搜索引擎领域的应用已十分广泛,但由于其存在“一次性学习”问题,严重制约了其在综合搜索引擎领域的应用。所谓“一次性学习”,就是指对模式的学习需一次性完成,并且在学习新知识时会破坏已有知识。当分类类别一旦固定并训练完成后,若要进行类别的增加或删除,则需重新进行训练,无法继承原有的知识。综合搜索引擎的类别空间一般较大,特别是随着类别数量和训练文档数量的不断增加,机器学习型文本分类算法的“一次性学习”问题无法继承原有知识,将会导致训练时间不断增加,学习效率不断降低,有时甚至可能会出现学习失败的危险。为了解决此问题,本课题通过引入大规模人工神经网络理论中的分治思想和动态多叉树算法,实现了一种可扩展的文本分类算法。1.面向组构建不同子分类器。当类别和训练文档数量过大时,采用大规模神人工神经网络理论中的分治思想,将类别分成若干组,对每组分别使用传统文本分类算法训练出相应的分类器,这些分类器对组内的类别分类效果较好。2.有效组合子分类器。当子分类器通过简单的方法组合在一起使用时,分类效果大幅下降,为解决这个问题,本文采用动态多叉树算法对这些分类器进行组织以提高分类效果。3.类别扩充。当类别需要扩充时,只需针对扩充类别训练单独的分类器,并将训练好的分类器加入动态多叉树即可,而不必对以前的分类器进行重新训练,以实现知识的继承。针对这种可扩展的文本分类算法,进行了实验验证,结果表明,该算法克服了传统学习型文本分类算法的“一次性学习”问题,具有良好的训练并行性、类别可扩展性和知识可增殖性,并且具有与传统学习型文本分类算法接近的分类效果,完全适合应用于综合搜索引擎。
其他文献
随着语义网研究的深入以及信息抽取技术的进步,近年来RDF语义数据增长迅速,更多复杂的语义数据需要处理与应用。常见的RDF数据集都有上亿的三元组,如何高效地对海量RDF语义数
机器人团队协作检测与跟踪动态目标是多移动Agent系统的协同和目标跟踪技术相结合的产物。为了满足实时协作跟踪的需要,本文设计了一个复合式多移动Agent系统多目标协作跟踪
图像分割是将图像表示成为物理上有意义的连通区域的集合,即图像像素点在不同区域间的所属归类问题;粒度计算主要是研究不同粒子往返跳转于不同粒度空间,以寻求所属粒度区域的过
资源定位问题是P2P网络的核心问题之一,也是P2P网络研究的热点。P2P的资源定位模型,按照网络拓扑结构,可分为四种:中心拓扑的定位模型,分布式非结构化的定位模型,分布式结构
手语合成把自然语言文本翻译成聋哑人能够理解的手势语言,并以计算机动画的形式表现出来,研究的目的是服务聋哑人群。实时三维人体动画是计算机图形学最活跃的研究方向之一,广泛
即时通讯技术的发展以及信息技术的普及促进了手机短信、基于互联网和手机短信息的客户评论等短文本信息处理技术的发展,同时短文本处理技术的发展和实际应用又息息相关,它在
学位
随着对Web服务技术研究的不断深入,为了实现智能化的Web服务提供,出现了语义Web服务。语义Web服务是Web服务和语义Web结合的产物,它的目标是通过对Web服务进行语义描述,使其成为
Petri网是一种形式化、图形化的系统建模、描述和分析工具。对于具有异步并发、分布、不确定性和随机性的系统,都可以利用这种工具构建模型,然后对其进行分析,即可得到系统静
在计算机软件的开发过程中,变更是不可避免并频繁发生的。频繁复杂的变更极易导致项目开发的混乱,影响项目开发的进度和交付成果的质量。软件配置管理贯穿计算机软件的整个生
IPTV(交互式网络电视)是互联网与传统电视相融合的结果,对于用户来说,它最大的意义在于开辟了一种全新的娱乐方式,而对于电信运营商来说,它既促进了宽带接入业务的发展,又在增加了