短文本聚类及聚类结果描述方法研究

被引量 : 0次 | 上传用户:guli880712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0技术和移动互联网技术的高速发展催生了大量新型的互联网应用,如交互式问答系统、微信、微博等。这些互联网应用产生了大量的短文本信息并且改变了当前互联网信息展现形式。短文本与传统的篇章型网页有很大的不同,短文本表达简洁,用词不规范,大量使用流行语、网络词并且增长迅速。短文本的这些特点使得针对长文本的传统文本聚类方法不再适用,因此,发展针对于短文本的聚类算法对获取短文本中蕴含的丰富信息具有重大意义。本论文对文本信息聚类的关键技术进行了深入的探讨,在分析了短文本的特点后,提出针对短文本的聚类方法和聚类结果描述方法,论文的主要研究内容如下:首先,本文提出了一种两阶段的短文本聚类方法。该方法为了有效的解决短文本动态增长以及数据量巨大的问题,采用了分而治之的策略。首先,本文设定一个合理的窗口大小,使其在动态增长的短文本上依次滑动,对窗口内的短文本采用传统的层次聚类方法进行聚类,得到小的类簇,称之为微簇。接着,本文采用基于信息熵的方法对不同窗口间得到的微簇进行归并,并且在归并的过程中进行两点处理:第一、在多次归并过程中没有改变的类簇,如果其中包含的短文本个数较少,则认为该类簇所包含的短文本构成孤立点和异常点,对其进行删除操作;第二、对剩余的类簇计算稳定度,如果稳定度到达一定值,本文认为该类簇进入一个稳定态,从类簇集合中拿出保存为最终结果。其次,本文提出了一种短文本聚类结果描述方法。该方法从两个角度对类簇进行描述:第一、本文采用基于PageRank的短文本排序算法对类簇中的短文本进行排序,选择最具代表性的前k个短文本作为类簇代表;第二、对得到的k个短文本进行词汇权重计算,选取若干词汇作为类簇标签。一方面,类簇短文本代表可以增强类簇的易读性;另一方面,类簇标签可以作为类簇的标识,起到类似于标题的作用。最后,本文构建微博原型系统,并把本文提出的短文本聚类算法和类簇描述方法应用于其中,以检验算法在实践中的效果。在微博系统中加入微博聚类模块和微博类簇描述模块,从而获取微博系统中的热点话题。通过对短文本聚类方法的研究,有助于开拓Web2.0和移动互联网背景下的信息组织形式,对主题发现与跟踪、互联网信息监管、舆论引导等产生积极的促进作用。
其他文献
用于电力系统的各类光纤传感器,是坚强智能电网的坚强支撑。介绍了光纤传感器的基本原理,对电力系统中应用的几种光纤传感器进行了讨论,并对其应用前景进行了展望。
本文综述了分布式光纤传感器的发展概况,详细论述了基于光散射技术的分布式光纤传感器的原理、特点、技术水平和应用前景。
采用层次分析法和调查问卷法对中国女子水球队竞争力CSF进行实证分析,研究其可持续发展的策略.研究表明:在中国女子水球队成长初期,政策的拉动起着重要的作用;中国"奥运战略"
在高校众多管理中,教务管理是重要组成部分,教务管理水平与高校的生存和发展密切相关。随着高等教育改革的不断深化和推进,现代科学技术的不断推广,高校教学管理工作必须具备
<正>文言文翻译对文言文水平一般的考生而言,是很难不经过太多思考和分析就能很顺手地翻译出来的。针对文言文翻译中存在的问题,要有相应的解决策略。可以从"语境"、"语法"以
降脂治疗是冠心病防治的基石,能显著降低心血管事件的发病风险。在他汀类基础上合理加用其他类降脂药物能进一步减少剩留的心血管风险,使高危患者获得最大的临床益处。本文系
沈从文的名作《边城》历来都受到学者和读者的喜爱,关于它的研究成果也是不少。本文试图从作者创作激情的角度谈谈《边城》创作中的爱恋激情。
公益广告是为公众利益服务的,公益广告是为了营造一种气氛和声势,即某种社会氛围。在创作公益广告的过程中不单要运用全新的创意思维、加强创意制作表现技巧及注重媒体传达,
本文立足于群众性文化活动的角度,阐述文化节活动的具体做法和特点,总结文化节成功的经验,分析文化节活动对开展和谐家园建设的重要启示,并着眼于文化节的效应延续,对进一步
<正>职工利益诉求表达机制,是工会表达和维护职工合法权益的各项制度、载体和渠道的总称。劳动关系作为基础的社会经济关系,其和谐与否深刻影响着企业的发展以及社会的稳定。