基于Wikipedia的文本表示模型及其在文本挖掘中的应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:w_r_c_h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的发展,可用的信息数量在不断增长。为了能够快速准确地获取信息,研究者们开发了很多有效的算法。这些算法主要针对结构化的数据,而事实上可获取的大部分信息都存储在非结构化的文本数据中。通过文本表示,可以将非结构化的数据转换为结构化的数据。传统的文本表示方法是通过利用数学工具对文本数据集进行分析,抽取出重要的信息,但是缺乏语义信息。Wikipedia作为最大的电子百科全书,包含了大量的背景知识。本文的工作是利用Wikipedia丰富的结构特点,从中抽取出显式的语义信息加入到文本表示中,并在文本分类、聚类和主题描述等任务中验证新的表示方法的改进。本文取得的主要研究成果如下:  (1)利用从Wikipedia中抽取出的特征词间的语义相关性改进特征加权,提出了一种基于局部特征语义相关性的加权方法。该方法的设计思想是:一个特征与文档的语义相关性可以通过该特征与文档内其它特征的语义相关性度量。其中特征的显式语义相关性通过将特征词映射到Wikipedia概念,然后利用Wikipedia链接计算概念间的相关性得到。实验表明基于局部特征语义相关性的思想在分类和聚类任务中改进了传统的特征加权以及现有的利用特征相关性的方法,并且在时间复杂度上与现有的利用特征相关性的方法相比有明显优势。  (2)利用Wikipedia构建文本的概念表示空间,提出将文本表示成由特征词与概念组成的两层表示模型的思想,并设计了多层分类和聚类框架以应用两层表示模型。文本在概念层表示的构建是通过特征词到Wikipedia概念的映射实现,在这个过程中提出了利用上下文进行概念消歧和概念加权的方法,以及利用文档段落结构的加速策略。通过与各种单层向量空间的语义文本表示方法相比,提出的两层表示模型和多层分类聚类框架在分类聚类的效果、时间复杂度和空间复杂度上都显示了优势。  (3)提出基于显式特征相关性的特征簇文本表示方法。该方法的设计思想是:Wikipedia丰富的结构特点为度量Wikipedia概念间和Wikipedia类间的语义相关性提供了资源,如果用Wikipedia概念或Wikipedia类作为特征表示文本,利用从Wikipedia中获取的语义相关性对特征进行聚类,可以得到高质量的特征语义簇,从而实现特征的降维。其中,将文本表示在Wikipedia类特征空间是通过从特征词到Wikipedia概念再到Wikipedia类的映射实现的。在这个过程中针对从特征词到Wikipedia概念映射中的错误,提出了一种Wikipedia类过滤方法,使得在概念空间的错误不会被传入到Wikipedia类特征空间。为了计算Wikipedia类间的语义相关性,分析现有方法的不足,提出了一种新的基于Wikipedia类图计算Wikipedia类结点相关性的方法,在标准数据集上的测试结果显示,提出的方法优于三种现有的方法。在文本分类的实验结果显示,在小训练集下,基于特征语义簇的表示方法优于向量空间模型表示。同时也发现在Wikipedia概念空间和Wikipedia类空间,由于使用了外部语义相关性度量,改进幅度明显大于在特征词空间使用基于文档集合的内部特征相关性度量。此外,利用特征簇表示,通过抽取出特征簇的核心特征,在三个空间得到了不同程度的主题描述。  (4)通过将Wikipedia类信息和特征词与wikipedia类对应关系信息加入到LDA主题建模过程中,提出了多视图LDA主题建模方法。其设计思想是在特征词和Wikipedia类两个特征空间同时建模,并且特征词在主题上的分布直接受到与其相关的Wikipedia类在主题上的分布的影响,反之亦然。它通过改进LDA的Gibbs抽样过程实现。实验结果显示多视图LDA在分类和聚类效果方面超过了LDA。此外,多视图LDA除了可以得到特征词主题描述,还可以得到同一主题在Wikipedia类空间的描述。
其他文献
当今,常见的预测基因功能的方法是把未知功能的基因序列与已知功能的序列数据库进行序列比对,找到相似程度较高的序列,通过已知序列的功能来推测未知序列的功能。但这种方法
人类认识世界的过程,是一个持续不断从简单到复杂、从具体到抽象、从已知到未知的推理判断过程。在日常生活中,外界事物对人脑的刺激其实就是人脑对各种不精确的、不完全的、
无线传感器网络是一门新兴技术。它是传感器技术、计算机网络技术、微机电技术系统发展的产物。由于节点能量十分有限,因此,如何高效使用能量来最大化网络生命周期是需要解决
现实中存在的大量复杂系统都可以用各种各样的网络进行刻画。复杂网络是复杂系统的抽象表示,由节点和边组成。网络中的节点代表现实中的不同个体,边则代表这些个体之间的关系
伴随着多媒体技术的发展和网络的普及,数字产品的应用越来越广泛。人们发布、获得以及改变这些信息的方式也越来越简单多样化。数字水印技术作为数字作品版权保护的一种重要
基于高性能系统对系统复杂度、处理速度、功耗、功能多样化的要求,高性能的SoC 芯片成为IC 设计业发展的大势所趋。SoC 设计缩短了电路设计周期,降低了设计风险,但同时也带来了
生物医学成像技术的发展,为医学诊断带来了极大的便利,其中比较成熟的技术有超声波和核磁共振等等。随着新技术的出现,势必又会使医学的发展达到新的高峰。光学相干层析成像
智能交通(Intelligent Traffic,IT)作为快速发展的城市交通现代化管理的重要手段,受到极大关注,同时它也与互联网一道成为未来现代化城市交通的发展方向。作为智能交通系统的
软件过程管理的目的是最大限度地提高软件产品的质量和软件开发的生产率。由于软件开发过程是一个非常复杂并且难以量化、估算的过程,因此非常强调对过程的建模,力求通过对软
电视节目的高清化进一步加剧了视频点播的网络带宽和服务器性能压力,导致IPTV和IP-QAM等在线视频点播的并发服务用户数成倍降低。特别是因为IP网缺乏有效Qos能力使其承载的IPT