面向市场情报分析的Web实体事件融合问题研究

被引量 : 0次 | 上传用户:cooltom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web已经成为一个开放的、分布广泛的全球信息服务中心。企业希望通过大数据的分析,获取有价值的市场情报,在激烈的市场竞争中取得先机。在Web上,企业更加关心描述与其存在利益关系的实体(包括企业、产品、人物等)的一些事件信息、,这些事件描述了实体从事的一些活动或者其最新的状态,为企业挖掘市场情报提供了第一手的资料。大量的事件信息以新闻、评论、消息等形式充斥在Web上,具有冗余度高、准确度差、数据离散等特点,给企业进行市场情报分析带来极大的不便。因此,如何消除冗余、事件关系发现,从而有效地整合事件信息,成为准确获取市场情报的前提。作为企业进行市场情报分析的重要步骤,Web实体事件融合可以为市场情报分析提供高质量的数据,为市场情报分析提供全面、真实、可靠的数据支持,因此,吸引了越来越多的研究者的关注。但是,由于Web上事件信息多以新闻等非结构化形式出现,存在表达自由、形式多样、发布随意等特点,因此Web实体事件融合还存在以下问题亟待解决:(1)Web上不同网站对同一事件的描述存在较大的差异,事件融合首先需要识别描述同一事件的不同表象;(2)由于事件不断发展、不同网站对事件描述详细程度的不同、网站的偏好以及编辑出错等原因,使得Web上事件信息存在不完整、过时、错误、虚假等冲突情况的发生,因此,为了保证市场情报分析数据的准确性,Web实体事件融合需要进行事件冲突解决;(3)从单个事件的描述信息很难发现事件的全貌,无法知道其来龙去脉,因此,为了给市场情报分析提供实体事件全面描述信息,Web实体事件融合需要建立起不同实体事件之间的关联关系,为挖掘事件间的隐式关联奠定基础。Web实体事件融合是数据质量的保证,以及市场情报分析的前提,本文针对事件融合面临的若干关键问题而展开研究,本文的主要工作与贡献可以概括为如下几个方面:(1)针对如何识别Web上存在的众多不同事件表象问题,本文提出了一种基于异质信息网络的Web实体共指事件识别方法,有效地提高了识别事件不同表象的准确性。该方法使用一种层次聚类的整体式共指事件识别算法,并利用了匹配决策之间的相互影响,进而迭代实现共指事件的识别。在事件相似度度量方面,本文提出的方法综合利用了实体、事件、文档、数据源之间的关系,通过运用多种特征进行事件相似度度量,得到准确度较高的事件表象综合相似度。通过在企业事件数据集、人物事件数据集、产品事件数据上的实验说明,所提出的算法可以有效地完成Web实体共指事件识别任务,具有较好的查全率和查准率。(2)针对不同事件表象所提供的事件信息存在不完整、过时、矛盾、错误等问题,文本提出了一种基于D-S证据理论的事件冲突解决方法,可以有效地解决事件表象间存在的冲突问题。该方法根据事件冲突的类型,采用有针对性的冲突解决策略,利用D-S证据理论的组合规则,有效地提高了事件冲突解决的准确率。在事件属性可信度的计算方面,利用事件属性事实出现的频率、在文档中的位置、数据源的质量等因素,采用半监督学习的方法,分别计算事件属性事实的可信度。针对传统D-S证据理论存在的合成法则悖论问题,对D-S证据理论进行了扩展,提高了事件冲突解决的准确度,并且允许新的策略和特征的加入,因此该方法具有较强的适应性。(3)针对无法从单个事件描述洞悉事件的起因、发展以及走向等问题,本文提出了基于事件关系和实体关系构建实体事件关联图的方法,可以有效地建立起实体事件间的关联。该方法利用事件间最基本的五种关系模式还原事件发生与发展的脉络,并借助于实体关系的发现,将实体事件间的复杂关联以图的形式描述出来,为挖掘事件间存在的隐式关系奠定基础。在事件关系方面,根据已有的事件关系模式,提出了一种事件关联图的构建方法;通过实验验证,本文所提方法能够有效建立实体事件间关联,具有较高的准确率。通过对Web实体事件融合的研究,解决了市场情报分析面临的数据质量问题,并为大规模情报分析奠定了基础,因此,本文的研究具有积极的意义。另外,事件关系检测、事件模式发现以及新的事件关系的表示机制是下一步的研究方向。
其他文献
<正>金秋时节,众多行业活动盛事"你方唱罢我登场",一片热闹景象。在此期间,以科技为主题的活动虽然略显低调,但却吸引了更多由衷的关注。继2011中国纺织学术年会、2011年度香
作为一份创刊并发行于“八·一三”淞沪抗战时期的综合性刊物,《上海生活》从1937年至1941年经历了五年的历史沉浮和社会巨变,以广告、摄影、文字、漫画等多种艺术形式,拉近
旅蒙商泛指明清时期在蒙古地区做生意的外地商人,主要指山西人,亦称旅蒙晋商。从17世纪初至20世纪中叶,历经300余年,在鼎盛时期一度几乎垄断了整个蒙古地区的贸易与金融,对蒙
人生活在社会之中,无时无刻不与他人发生友谊关系。用友谊质量来评价友谊情况是较为客观的一种评判标准。友谊质量与孤独感、压力、学业有关。本文欲通过对大学生成人依恋、
跆拳道是健身、防身、修身高度结合的一?项新兴的体育项H。它集运动、娱乐、艺术于一体,是现代文明社会里的-种时尚运动。我国自20世纪90年代中期开展跆拳道以来,短短的二十年
论文在深入现场调查研究的基础上,以山西吕梁中阳付家焉煤业10#煤层试验工作面瓦斯治理为依托,运用地质力学、流体力学等学科理论和方法,针对我国煤炭工业急需解决的自燃煤层综
本论文以文学艺术与社会机制的动态交互作用为研究切入点,以元明清“先秦两汉题材”通俗小说为研究对象,将相关素材放入编创、传播与接受的文学活动现场进行考察分析,探讨通
随着海量数据存储、并行计算和数据挖掘技术的不断发展,全新的大数据时代已然到来。大数据正从原来的存储难题,转变为一种战略性资产,成为有待进一步挖掘的金矿。
近年来,恐惧管理理论(Terror Management Theory, TMT)的三重防御机制得到认可,其中亲密关系作为一种新提出的防御机制逐渐得到重视。多数研究关注外显亲密关系在恐惧管理中的作
在知识经济时代的大背景下,以移动互联网技术为代表的信息技术不断发展,并不断渗透到社会大众的日常工作、生活及学习等各个方面,为教育事业创造了有利的发展空间。随着移动