基于外在知识的短文本聚类分析研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wll_wyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网发展,互联网上积累了大量的非格式化文本,并蕴含着丰富的知识,这些知识对于人类的生产,生活各个方面都发挥着极大的作用,对这些文本的研究也越来越严峻。   互联网的价值体现在为用户提供了丰富的应用,譬如查询推荐,标签推荐,新闻推荐等,这些应用为用户提供服务的同时产生了大量的短文本,譬如查询,标签,新闻标题等。庞大短文本集蕴含丰富的知识,如果能够根据文本之间的关联度,把短文本集合分成若干合适大小的子集合,即对这些短文本进行聚类分析,从而发现潜在的自然分组,譬如为新闻阅览者推荐类似新闻,或者为新闻阅览者过滤重复新闻;为标签撰写者推荐可能的标签,为搜索引擎用户提供相似查询,从而为用户提供更好的应用服务。因此,短文本的聚类分析有着重要的意义。在一般的文本聚类研究中,聚类的对象是普通长度的文本,同一个簇中的文本在文字上都有一定的相交或者说覆盖,即两个文本中相交的内容越多,这两个文本在同一个簇中的可能性越大;但是对于短文本而言,它们的所包含的词很少,通常表达同一含义的文本却可以用不同的词来表达,这样虽然两个文本之间几乎没有的相交内容,但是二者可能有很大的相似,很可能属于同一个簇。针对这种情形,一般的文本聚类方法就会不能奏效。   本文主要针对文本聚类研究中的短文本聚类问题进行分析研究。短文本的特点是文本长度短,包含的信息少,相似文本间可能不存在字的相交,这样使用传统的方法对短文本进行聚类就无法把真正相似的文本聚在同一个簇中。本文提出在原始文本的基础上,利用维基百科(英文)中的目录结构和丰富的概念知识,以及WordNet本体库中的词汇关系,以及互联网上搜索引擎返回的搜索结果来丰富短文本的表示,对文本进行重构,并且在概念层次上解释文本之间的关联,通过机器学习的方法学习出文本之间的关联模型,最终通过此模型预测文本之间的关联,使用文本聚类中的层次聚类方法对短文本进行聚类分析。实验证明,本文提出的短文本聚类方法明显优于传统的文本聚类方法。
其他文献
随着城市化进程的不断推进,城市地理位置相关的各种信息成倍增长。这些信息的更新越来越频繁,使人们对准确及时的地图信息需求日益增强。与此同时,基于互联网的各种技术的快
随着网络技术的迅速发展,各种各样的数字多媒体信息包括文本、图像、音频、视频等通过网络广泛传播。同时,网上的信息可以被方便地复制和修改,因特网上的侵权问题变得越来越
无线传感器技术、无线通信技术和计算机技术是现代信息技术的三大支柱,它们的飞速发展,共同推动了无线传感器网络的发展。无线传感器网络是由大量形体较小、能源受限并且配置
社会网络分析是数据挖掘的热门领域。在社会网络分析中,将人或团队抽象为点,他们之间存在的某种关系抽象为边,如朋友关系、亲属关系、贸易关系等。两个人或团队间存在一种特
随着企业信息化建设的不断加强和计算机技术的深入发展,以及互联网技术的广泛应用,基于各种开发平台和开发工具所构建的软件系统在企业中大量应用。企业需要开发一个知识文档
认知无线网络可以伺机使用授权频谱,分配方式灵活,提高了频谱利用率,受到了广泛关注,是下一代无线网络技术的重要研究内容。用户对频谱资源的需求不断增长,传统的频谱方式无
流量监控在工业生产中扮演着很重要的角色,它的应用极其广泛。随着科学技术的不断发展,这种重要性将日渐凸显。人类很早就清楚地认识到了这点,所以在这个领域的研究历史悠久,
H.264/AVC标准是由ITU-T的VCEG专家组和ISO/IEC的MPEG专家组共同制定的视频编码标准。作为最新的视频编码标准,它吸收了以往多个音视频编码国际标准的先进技术,也采用了许多
煤作为一次能源,在燃烧过程产生大量的NOx,NOx的过量排放对环境造成重大污染。如何降低NOx排放,已经成为一个全球关注的焦点。本文以提高煤粉燃烧效率,降低碳排放为目的,着眼
随着数字技术和因特网的发展,数字媒体可以低成本、高速度地被复制和传播,这样既为创造者和使用者提供了很大的便利,又给数字媒体的版权保护工作带来了挑战。如何针对数字媒