论文部分内容阅读
随着互联网发展,互联网上积累了大量的非格式化文本,并蕴含着丰富的知识,这些知识对于人类的生产,生活各个方面都发挥着极大的作用,对这些文本的研究也越来越严峻。
互联网的价值体现在为用户提供了丰富的应用,譬如查询推荐,标签推荐,新闻推荐等,这些应用为用户提供服务的同时产生了大量的短文本,譬如查询,标签,新闻标题等。庞大短文本集蕴含丰富的知识,如果能够根据文本之间的关联度,把短文本集合分成若干合适大小的子集合,即对这些短文本进行聚类分析,从而发现潜在的自然分组,譬如为新闻阅览者推荐类似新闻,或者为新闻阅览者过滤重复新闻;为标签撰写者推荐可能的标签,为搜索引擎用户提供相似查询,从而为用户提供更好的应用服务。因此,短文本的聚类分析有着重要的意义。在一般的文本聚类研究中,聚类的对象是普通长度的文本,同一个簇中的文本在文字上都有一定的相交或者说覆盖,即两个文本中相交的内容越多,这两个文本在同一个簇中的可能性越大;但是对于短文本而言,它们的所包含的词很少,通常表达同一含义的文本却可以用不同的词来表达,这样虽然两个文本之间几乎没有的相交内容,但是二者可能有很大的相似,很可能属于同一个簇。针对这种情形,一般的文本聚类方法就会不能奏效。
本文主要针对文本聚类研究中的短文本聚类问题进行分析研究。短文本的特点是文本长度短,包含的信息少,相似文本间可能不存在字的相交,这样使用传统的方法对短文本进行聚类就无法把真正相似的文本聚在同一个簇中。本文提出在原始文本的基础上,利用维基百科(英文)中的目录结构和丰富的概念知识,以及WordNet本体库中的词汇关系,以及互联网上搜索引擎返回的搜索结果来丰富短文本的表示,对文本进行重构,并且在概念层次上解释文本之间的关联,通过机器学习的方法学习出文本之间的关联模型,最终通过此模型预测文本之间的关联,使用文本聚类中的层次聚类方法对短文本进行聚类分析。实验证明,本文提出的短文本聚类方法明显优于传统的文本聚类方法。