基于外在知识的短文本聚类分析研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：wll_wyx

【摘要】

：

随着互联网发展,互联网上积累了大量的非格式化文本,并蕴含着丰富的知识,这些知识对于人类的生产,生活各个方面都发挥着极大的作用,对这些文本的研究也越来越严峻。　　互

【作者】

：

杨俊丽

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2010年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网发展,互联网上积累了大量的非格式化文本,并蕴含着丰富的知识,这些知识对于人类的生产,生活各个方面都发挥着极大的作用,对这些文本的研究也越来越严峻。　　互联网的价值体现在为用户提供了丰富的应用,譬如查询推荐,标签推荐,新闻推荐等,这些应用为用户提供服务的同时产生了大量的短文本,譬如查询,标签,新闻标题等。庞大短文本集蕴含丰富的知识,如果能够根据文本之间的关联度,把短文本集合分成若干合适大小的子集合,即对这些短文本进行聚类分析,从而发现潜在的自然分组,譬如为新闻阅览者推荐类似新闻,或者为新闻阅览者过滤重复新闻;为标签撰写者推荐可能的标签,为搜索引擎用户提供相似查询,从而为用户提供更好的应用服务。因此,短文本的聚类分析有着重要的意义。在一般的文本聚类研究中,聚类的对象是普通长度的文本,同一个簇中的文本在文字上都有一定的相交或者说覆盖,即两个文本中相交的内容越多,这两个文本在同一个簇中的可能性越大；但是对于短文本而言,它们的所包含的词很少,通常表达同一含义的文本却可以用不同的词来表达,这样虽然两个文本之间几乎没有的相交内容,但是二者可能有很大的相似,很可能属于同一个簇。针对这种情形,一般的文本聚类方法就会不能奏效。　　本文主要针对文本聚类研究中的短文本聚类问题进行分析研究。短文本的特点是文本长度短,包含的信息少,相似文本间可能不存在字的相交,这样使用传统的方法对短文本进行聚类就无法把真正相似的文本聚在同一个簇中。本文提出在原始文本的基础上,利用维基百科(英文)中的目录结构和丰富的概念知识,以及WordNet本体库中的词汇关系,以及互联网上搜索引擎返回的搜索结果来丰富短文本的表示,对文本进行重构,并且在概念层次上解释文本之间的关联,通过机器学习的方法学习出文本之间的关联模型,最终通过此模型预测文本之间的关联,使用文本聚类中的层次聚类方法对短文本进行聚类分析。实验证明,本文提出的短文本聚类方法明显优于传统的文本聚类方法。

其他文献

城市地图服务系统中通用组件的设计与实现

随着城市化进程的不断推进,城市地理位置相关的各种信息成倍增长。这些信息的更新越来越频繁,使人们对准确及时的地图信息需求日益增强。与此同时,基于互联网的各种技术的快

学位

WebGIS地图服务MapABCAPI组件

基于主成分分析的图像数字水印算法的研究

随着网络技术的迅速发展,各种各样的数字多媒体信息包括文本、图像、音频、视频等通过网络广泛传播。同时,网上的信息可以被方便地复制和修改,因特网上的侵权问题变得越来越

学位

数字水印特征提取主成分分析不可感知性鲁棒性

基于树状拓扑的无线传感器网络中代码分发协议的设计与实现

无线传感器技术、无线通信技术和计算机技术是现代信息技术的三大支柱,它们的飞速发展,共同推动了无线传感器网络的发展。无线传感器网络是由大量形体较小、能源受限并且配置

学位

无线传感器网络无线远程代码更新分发协议树状拓扑

基于DBLP的作者协作关系挖掘

社会网络分析是数据挖掘的热门领域。在社会网络分析中,将人或团队抽象为点,他们之间存在的某种关系抽象为边,如朋友关系、亲属关系、贸易关系等。两个人或团队间存在一种特

学位

DBLP社会网络分析作者协作关系XML

基于SOA知识文档管理系统的设计与实现

随着企业信息化建设的不断加强和计算机技术的深入发展,以及互联网技术的广泛应用,基于各种开发平台和开发工具所构建的软件系统在企业中大量应用。企业需要开发一个知识文档

学位

SOA服务总线应用集成知识文档Web服务

基于功率控制的无线Mesh网络信道与频谱分配策略研究

认知无线网络可以伺机使用授权频谱,分配方式灵活,提高了频谱利用率,受到了广泛关注,是下一代无线网络技术的重要研究内容。用户对频谱资源的需求不断增长,传统的频谱方式无

学位

认知无线Mesh网络多接口信道分配频谱分配CoDEDE

基于无线hart的流量监控系统网关的设计与实现

流量监控在工业生产中扮演着很重要的角色,它的应用极其广泛。随着科学技术的不断发展,这种重要性将日渐凸显。人类很早就清楚地认识到了这点,所以在这个领域的研究历史悠久,

学位

蓝牙hart命令atmel9261qnx

H.264/AVC帧内模式快速选择算法的研究与优化

H.264/AVC标准是由ITU-T的VCEG专家组和ISO/IEC的MPEG专家组共同制定的视频编码标准。作为最新的视频编码标准,它吸收了以往多个音视频编码国际标准的先进技术,也采用了许多

学位

H.264/AVC帧内预测模式选择模糊度量准则平方梯度法

基于单片机+FPGA的空间煤粉燃烧炉控制系统设计与实现

煤作为一次能源,在燃烧过程产生大量的NOx,NOx的过量排放对环境造成重大污染。如何降低NOx排放,已经成为一个全球关注的焦点。本文以提高煤粉燃烧效率,降低碳排放为目的,着眼

学位

煤粉燃烧炉控制系统单片机FPGAPID控制

基于DCT域的图像数字水印技术研究

随着数字技术和因特网的发展,数字媒体可以低成本、高速度地被复制和传播,这样既为创造者和使用者提供了很大的便利,又给数字媒体的版权保护工作带来了挑战。如何针对数字媒

学位

数字水印Arnold置乱Logistic映射加密DCT变换鲁棒性

基于外在知识的短文本聚类分析研究

与本文相关的学术论文