论文部分内容阅读
随着计算机和网络技术的发展,可用的信息数量在不断增长。为了能够快速准确地获取信息,研究者们开发了很多有效的算法。这些算法主要针对结构化的数据,而事实上可获取的大部分信息都存储在非结构化的文本数据中。通过文本表示,可以将非结构化的数据转换为结构化的数据。传统的文本表示方法是通过利用数学工具对文本数据集进行分析,抽取出重要的信息,但是缺乏语义信息。Wikipedia作为最大的电子百科全书,包含了大量的背景知识。本文的工作是利用Wikipedia丰富的结构特点,从中抽取出显式的语义信息加入到文本表示中,并在文本分类、聚类和主题描述等任务中验证新的表示方法的改进。本文取得的主要研究成果如下: (1)利用从Wikipedia中抽取出的特征词间的语义相关性改进特征加权,提出了一种基于局部特征语义相关性的加权方法。该方法的设计思想是:一个特征与文档的语义相关性可以通过该特征与文档内其它特征的语义相关性度量。其中特征的显式语义相关性通过将特征词映射到Wikipedia概念,然后利用Wikipedia链接计算概念间的相关性得到。实验表明基于局部特征语义相关性的思想在分类和聚类任务中改进了传统的特征加权以及现有的利用特征相关性的方法,并且在时间复杂度上与现有的利用特征相关性的方法相比有明显优势。 (2)利用Wikipedia构建文本的概念表示空间,提出将文本表示成由特征词与概念组成的两层表示模型的思想,并设计了多层分类和聚类框架以应用两层表示模型。文本在概念层表示的构建是通过特征词到Wikipedia概念的映射实现,在这个过程中提出了利用上下文进行概念消歧和概念加权的方法,以及利用文档段落结构的加速策略。通过与各种单层向量空间的语义文本表示方法相比,提出的两层表示模型和多层分类聚类框架在分类聚类的效果、时间复杂度和空间复杂度上都显示了优势。 (3)提出基于显式特征相关性的特征簇文本表示方法。该方法的设计思想是:Wikipedia丰富的结构特点为度量Wikipedia概念间和Wikipedia类间的语义相关性提供了资源,如果用Wikipedia概念或Wikipedia类作为特征表示文本,利用从Wikipedia中获取的语义相关性对特征进行聚类,可以得到高质量的特征语义簇,从而实现特征的降维。其中,将文本表示在Wikipedia类特征空间是通过从特征词到Wikipedia概念再到Wikipedia类的映射实现的。在这个过程中针对从特征词到Wikipedia概念映射中的错误,提出了一种Wikipedia类过滤方法,使得在概念空间的错误不会被传入到Wikipedia类特征空间。为了计算Wikipedia类间的语义相关性,分析现有方法的不足,提出了一种新的基于Wikipedia类图计算Wikipedia类结点相关性的方法,在标准数据集上的测试结果显示,提出的方法优于三种现有的方法。在文本分类的实验结果显示,在小训练集下,基于特征语义簇的表示方法优于向量空间模型表示。同时也发现在Wikipedia概念空间和Wikipedia类空间,由于使用了外部语义相关性度量,改进幅度明显大于在特征词空间使用基于文档集合的内部特征相关性度量。此外,利用特征簇表示,通过抽取出特征簇的核心特征,在三个空间得到了不同程度的主题描述。 (4)通过将Wikipedia类信息和特征词与wikipedia类对应关系信息加入到LDA主题建模过程中,提出了多视图LDA主题建模方法。其设计思想是在特征词和Wikipedia类两个特征空间同时建模,并且特征词在主题上的分布直接受到与其相关的Wikipedia类在主题上的分布的影响,反之亦然。它通过改进LDA的Gibbs抽样过程实现。实验结果显示多视图LDA在分类和聚类效果方面超过了LDA。此外,多视图LDA除了可以得到特征词主题描述,还可以得到同一主题在Wikipedia类空间的描述。