多视图实体聚类及标签抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Monalisacode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的深入发展,人类生产的数据飞速增长,这使得互联网成为大数据的主要来源。其中一类重要的数据就是实体,不同于一般意义上的数据,实体往往是多种属性数据构成的一个整体,每种属性数据都刻画了实体的某一个方面,例如某一个商品,它包含着商品的各种参数、描述性信息,同时还有用户对于该商品的评价信息。对于这些数量巨大的实体进行整理和组织具有重要的意义。然而,传统的聚类和标签抽取往往集中在单一视图的数据上,对于实体这种特殊的数据,普遍的做法是将实体包含的这些不同类型的数据简单的合并成一个统一的表示,之后再使用传统的方法进行处理。这种做法存在一些问题:一是忽略了不同类型数据之间的本质区别以及重要性的差别,从而不能充分利用它们包含的信息;二是没有考虑到不同视图之间的交互作用,单独的考虑一种视图并不能完整的描述整个实体。针对以上分析,本文进行了利用多视图的方法对实体进行聚类以及标签抽取的研究,主要工作包括:第一,本文结合co-training的思想将传统的K-均值聚类算法扩展到了多视图情形,并对实体进行聚类。首先分析了几个经典用于处理多视图数据的聚类算法,指出了这些方法存在的问题。在此基础上本文提出一个新的聚类目标函数,并且得到了一个新的多视图K-均值聚类算法。在若干个标准数据集以及一个实体数据集上的结果表明,本文提出的聚类算法在各类评价指标上均得到了显著的提升。第二,本文将多视图的概念引入到实体的标签抽取研究中。我们分析了若干单一文本标签抽取方法,并指出了它们存在的问题,区别于单一文本的抽取方式,我们从实体的具有不同属性的文本中分别抽取候选标签,然后结合各个视图的重要程度进行排序。我们的结果表明,加入多视图的信息的基于TFIDF以及主题模型的标签抽取方法同未考虑多视图信息的方法相比,抽取效果得到了较大的提升。第三,本文针对手机App实体建立了一个基于聚类和标签的检索系统。利用我们提出的多视图聚类算法对手机App进行聚类,系统能够对检索结果进行高效、合理的组织和整理,系统同时可以生成手机App聚簇标签,结合这些技术,我们能够给出一个用户友好的手机App检索系统。
其他文献
自1997年底,“史海泛舟”这一全国首个个人教学网站发布以来,教师个人网站迅速红火起来。个人教学网站以其鲜明的教育特色、健康的内容引来了各方的瞩目。 本文针对目前网络
EPA(EthernetforPlantAutomation)已经作为第十四类型列入现场总线国际标准IEC61158,这极大的促进了基于EPA的各种变送器、执行机构、信号采集模块的设备开发。高效、稳定和高
图像处理是当今计算机科学中最具有前景的领域之一,图像技术有非常广泛的应用。而数学形态学是图像处理中的重要方法之一。数学形态学是建立在集合代数的基础上的,用集合论方法
随着人们对网络多媒体业务需求的不断增加,对等(P2P)传输模式越来越受到人们的关注。采用可伸缩方式对图像编码所得的码流可以适应网络带宽的动态变化,更便于网络传输。但是,可
软件测试作为软件生命周期的一个重要阶段,是保障软件质量的有效手段。软件测试问题的研究越来越引起人们的重视。近年来,工作流软件的开发领域受到了人们的广泛关注,同时也给软
数据挖掘是当前KDD中的一个重要领域,而关联规则挖掘是数据挖掘的一个重要组成部分。Internet的发展促进了数据库技术的深入应用。由于安全及通信成本、效率等多方面的原因,大
本文是在上海水产大学校长基金的支持下,研究基于Web环境下利用Fuzzy推理进行鱼病诊断的专家系统。我们知道鱼病诊断过程中,关于鱼病症状的描述,不同的人具有不同的理解,这就决定
电子邮件以其方便、快捷等特点,正成为传输信息的主要工具而被广泛使用。企业中的电子邮件包含了企业核心机密、技术专利、销售数据、财务数据、市场信息等重要信息。因此,如何
新型的KMS应该从结构和功能实现上进行重新的审视、规划和设计.该文对Web语义化过程中部分关键问题和基于语义化Web的KMS进行了研究,主要的创新性工作包括:1.定义了逻辑公式
视频结构分析是指对非结构化的二维图像流进行处理,形成关于视频内容的结构化数据,它是基于内容的视频检索与浏览的基础及关键,主要有两方面问题:视频时域分割及关键帧提取。