论文部分内容阅读
随着互联网的深入发展,人类生产的数据飞速增长,这使得互联网成为大数据的主要来源。其中一类重要的数据就是实体,不同于一般意义上的数据,实体往往是多种属性数据构成的一个整体,每种属性数据都刻画了实体的某一个方面,例如某一个商品,它包含着商品的各种参数、描述性信息,同时还有用户对于该商品的评价信息。对于这些数量巨大的实体进行整理和组织具有重要的意义。然而,传统的聚类和标签抽取往往集中在单一视图的数据上,对于实体这种特殊的数据,普遍的做法是将实体包含的这些不同类型的数据简单的合并成一个统一的表示,之后再使用传统的方法进行处理。这种做法存在一些问题:一是忽略了不同类型数据之间的本质区别以及重要性的差别,从而不能充分利用它们包含的信息;二是没有考虑到不同视图之间的交互作用,单独的考虑一种视图并不能完整的描述整个实体。针对以上分析,本文进行了利用多视图的方法对实体进行聚类以及标签抽取的研究,主要工作包括:第一,本文结合co-training的思想将传统的K-均值聚类算法扩展到了多视图情形,并对实体进行聚类。首先分析了几个经典用于处理多视图数据的聚类算法,指出了这些方法存在的问题。在此基础上本文提出一个新的聚类目标函数,并且得到了一个新的多视图K-均值聚类算法。在若干个标准数据集以及一个实体数据集上的结果表明,本文提出的聚类算法在各类评价指标上均得到了显著的提升。第二,本文将多视图的概念引入到实体的标签抽取研究中。我们分析了若干单一文本标签抽取方法,并指出了它们存在的问题,区别于单一文本的抽取方式,我们从实体的具有不同属性的文本中分别抽取候选标签,然后结合各个视图的重要程度进行排序。我们的结果表明,加入多视图的信息的基于TFIDF以及主题模型的标签抽取方法同未考虑多视图信息的方法相比,抽取效果得到了较大的提升。第三,本文针对手机App实体建立了一个基于聚类和标签的检索系统。利用我们提出的多视图聚类算法对手机App进行聚类,系统能够对检索结果进行高效、合理的组织和整理,系统同时可以生成手机App聚簇标签,结合这些技术,我们能够给出一个用户友好的手机App检索系统。