基于多标签的海量文本的分类算法的研究与设计

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:tprgaefe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本处理的一个重要的处理技术,同时也是自然语言的一个重要的研究领域。随着信息时代的到来,移动互联网的兴起,文本信息呈爆发式增长,信息量规模的增长和信息量复杂度的增强给自动分类算法和计算能力都带来了极大的挑战。其次在网络用户多标签的情况下,此类的文本的分类技术的研究并不是特别深入。本文将结合聚类分析。分类算法来研究多标签与分类标准之间的关系,旨在提高多标签分类算法的分类效果,通过结合分布式技术来解决海量文本的计算问题,最终部署一个可实施的多标签分类的实验系统。本文的主要工作有如下几点:1.本文分析了多标签文本的数据特点,研究了与传统分类相关的分类算法和数据处理技术,将会详细阐述文本分词,文本特征,文本聚类等文本处理技术。分析研究与多标签分类相关的技术应用,明确多标签分类的技术难点。2.本文设计了基于多标签的海量文本的分类模型。此模型在传统分类技术基础上,通过聚类分析来降低多标签文本的数据自由度,同时结合关键词提取技术来明确分类标准,最终提高了多标签分类的准确性。同时本文还设计了基于Map/Reduce的数据处理框架,大大的提升了多标签分类的运行时间效率。3.本文实现了基于分布式平台的多标签分类系统,利用分布式框架进行标签聚类和文本分类,成功将系统应用到某单位的文本分类项目中,有着良好的运算结果。
其他文献
CDMA2000-1X作为无线通信产业中重要的一环一直占据着一定的市场份额。作为CDMA2000产业链中不可或缺的一部分,CDMA2000-1X终端信号质量的测量为CDMA2000-1X终端的设计与生产
随着移动互联网的高速发展,搭载Android操作系统的智能手机已经成为人们生活中不可或缺的一部分。由于Android系统的开放性,应用程序开发者可以随意在Android平台上开发和发
随着网络的发展与数据量的激增,复杂网络的规模越来越大,结构也越来越复杂,所蕴含的信息量也越来越多,如何从复杂网络中发现并挖掘有用信息也成为了网络研究的重点。社区结构
棕榈丝被作为垃圾处理,不仅污染环境,还造成资源浪费,影响人们对其高效利用的关键问题之一是木质素的阻碍作用。本文对棕榈丝降解菌的筛选,发酵条件的优化及木质素降解进行了
本文基于自主知识产权的CAE软件平台SiPESC,开发模型修正模块和频响综合模块,并进行算例测试。模型修正,是利用实验数据对有限元模型进行修正,以获得更精准的有限元模型。本
本研究将禽流感病毒H5HA基因与不同启动子融合得到重组基因,用农杆菌介导的方法将它们转入马铃薯栽培品种Desiree中,并对其在马铃薯体内的表达情况进行分析;此外,本研究构建
1949年春开展的渡江支前工作,尽管已过去50年了,但江都人民仍记忆犹新。那时,江都县刚和邗东县合并,全境才基本解放,人民生活非常困难,缺吃少穿现象比较严重;公路桥梁遭到敌
会议
白腐真菌对木质素以及各种异生物质的降解主要依靠其分泌的三种胞外酶:木质素过氧化物酶,锰过氧化物酶和漆酶。但这三种酶是在营养限制的条件下产生的,属于典型的次生代谢产
如今全球信息化建设飞速发展,以计算机、通信、网络为代表的互联网技术在经济建设、企业管理等领域发挥着非常重要的作用。互联网信息技术在供应链中的运用有助于企业之间共
近年来随着超市、物流业的迅猛发展,仓储理货工作也给相关企业带来了不少的困难。理货工作是一项工作时间长、劳动强度高、甚至也有一定危险性的日常工作。目前国内用于仓储