基于海量文本数据的实体关系抽取及挖掘

被引量 : 0次 | 上传用户:zqs656690
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息研究领域,信息抽取技术是一项必不可少的关键技术。面对如此海量的信息空间,如何更快更准确的抽取出用户感兴趣的内容是一个迫切需要解决的问题,也是信息挖掘技术的一个重要研究方向。信息抽取不同于信息检索等信息处理技术,它需要对文本进行命名实体的识别,并抽取出实体之间的关系,再加上中文文本中词语的灵活多变、构词复杂且没有明显的标志,因此对中文命名实体的识别及关系的抽取就显得更加困难。目前,信息抽取的主要方法有两种,一种是基于知识库算法,这种方法需要建立一些规则,虽然这种方法的准确率较高,但是这种规则的确定是比较困难的,对编写者有较高的要求,且移植性不高;另一种是基于统计的机器学习算法,这种算法采用不同的模型,并利用人工标注的训练集进行学习,对于新的数据集则采用模型算出其相关的概率,并以此来得到最终的结果。这种方法代价较小,性能较高,便于移植,所以是当前研究的热点。随着网络信息量的增大,对海量文本数据的信息抽取也变得复杂起来。如何利用海量文本数据来对实体关系进行更为准确的抽取是本文所要研究的一个重要问题。而这种大数据量的计算对算法的性能要求较高,采用何种策略来应对这种繁重的计算任务也是一个重要的问题。针对这些关键问题,本文提出了相应的解决方案,主要贡献有:·提出一种基于语义和SVM的实体关系抽取算法,在对实体关系的抽取中加入语义特征,以此来构造特征向量,提高关系抽取的准确性和算法的泛化能力。·提出了利用海量文本数据来对实体隐含关系进行挖掘的算法。通过对海量文本数据进行分析,基于前面已经识别出来的实体及关系构造实体关系网络,并采用优化算法来确定最终结果;基于这个最终结果来对实体隐含的关系进行挖掘,得到更为广泛的实体关系,有利于从宏观方面把握整个海量数据的信息。·研究和分析了Hadoop大规模数据处理平台,在此平台上设计并实现了海量文本数据的实体关系抽取及挖掘系统,并将本文中提到的算法在平台上进行验证。本文提出的基于语义与svM的实体关系抽取算法对于实体关系抽取的准确率和算法的推广能力都有一定的提高,基于实体关系网络的实体关系抽取优化算法和实体隐含关系挖掘算法能够进一步提高实体关系的抽取效果,但是在关系抽取算法中还存在关键词歧义对抽取结果的影响,在实体隐含关系挖掘算法中关系的模板也有待于完善,这是未来工作中需要解决的问题之一。
其他文献
大自然是不可以创造的,但是是可以改造的,人们通过主观思维去改变城市自然环境,建设人文环境。陕西是人文历史最丰富的地域之一,在环境空间中,设计和建立历史文化名人雕塑,是
随着我国经济社会的发展和环境资源压力越来越大,节能减排形势严峻。在大力推进建筑领域节能工作中,国家机关办公建筑和大型公共建筑高耗能的问题日益突出。据统计,我国国家
本研究以秦川牛IRS-1、TNFSF11、TNFRSF11β基因为候选基因,选取733头同等饲养条件下的18~24月龄健康秦川母牛为研究对象,采用混合DNA池、PCR-SSCP、PCR-RFLP并结合DNA测序技术,
克拉拉·舒曼(Clara Schumann,1819年9月13日-1896年5月20日),德国女钢琴家、作曲家、钢琴教师,出生于莱比锡。五岁随父亲学钢琴,八岁举办独奏音乐会,十九岁登上了维也纳的乐坛。她是
目的建立激光捕获显微切割(laser capture microdissection, LCM)技术分离脑微血管和微血管蛋白质组双向凝胶电泳(two-dimensional gelelectrophoresis,2-DE)的技术平台,运用
随着城市社会经济的不断进步,人们的生存活动也日益增多,每种生活方式都是向城市索取空间资源的。城市绿地和城市建筑用地的矛盾日益显著,城市建筑密度大,城市用地价格高且呈
近年来我国网络购物市场蓬勃发展,电商行业吸引了大批资金和人才,网络商店的出现如雨后春笋,行业内竞争空前激烈,每个参与者都在思考如何才能从行业竞争中突围而出?商店印象
思想政治教育作为经济工作和其它一切工作的生命线,蕴涵深厚的人文关怀,是一种培养人、塑造人、发展人、转化人的教育实践活动。其目的在于人格培育和人性提升,终极使命是促
网络控制系统使用共享网络代替传统控制系统点对点之间的专线,安装和维护方便、成本低、资源共享等优势显现出来,广泛应用于远程医疗、远程教学、航空航天等领域。然而,由于网络
随着科技的发展,产品的可靠性越来越受到人们的重视。尤其是在某些特殊领域内,如航空航天、军工产品以及某些高可靠长寿命的产品,可靠性有着至关重要的地位。可靠性试验作为贯穿