基于中文维基百科的命名实体消歧方法研究

被引量 : 0次 | 上传用户:xpbear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧是自然语言处理中的基础性研究课题,而命名实体消歧是词义消歧的一个重要分支。命名实体的歧义是指一个命名实体的指称项可以对应多个实体概念。命名实体消歧指利用文本上下文信息或者其它外部知识库,确定这个指称项具体指向的实体概念的过程。现有的命名实体消歧研究主要是面向英文命名实体的,在中文领域中,针对命名实体消歧的研究起步较晚,研究成果也很少。目前命名实体消歧的主要方法有基于上下文的文本向量聚类方法,基于社会网络的方法和基于分类的方法。传统的利用待消歧实体上下文的向量空间聚类方法只考虑了命名实体上下文之间的词语共现情况,而忽略了文本间词与词之间的关联度以及相互的语义关系。基于社会网络的方法与基于分类的方法都依赖于外部知识库,因中文的知识库相对英文来说比较匮乏,且相对覆盖面太小,对于消歧的领域也相对狭窄。针对汉语命名实体消歧研究的不足与传统方法的缺点,本文提出了基于中文维基百科的命名实体消歧方法。维基百科(Wikipedia)是目前世界上最大的也是使用最广泛的人类百科全书,它拥有多个国家语言的版本,更大的覆盖率,丰富的语义知识和随时更新的内容。在详细地介绍了中文维基百科的体系结构后,本文分别利用中文维基百科中的页面信息与语义关系两种特征来进行汉语命名实体的消歧。在基于中文维基百科页面信息的消歧方法中,以待消歧实体在维基百科消歧页中包含的词义选项作为候选的命名实体概念,利用维基百科解释页面中的链接与摘要信息作为候选概念的维基特征,利用命名实体上下文信息作为文本特征,并通过余弦相似度计算得到与待消歧实体文本特征最相似的候选概念。在基于中文维基百科语义的消歧方法中,在通过维基百科消歧页提取出候选的命名实体概念后,利用中文维基百科中的类别结构与页面之间的链接关系之间包含的广泛的语义关系,分别提出了计算待消歧实体与候选概念文本中的类别相似度与词语之间的相关度两种不同的消歧方法,来确定待消歧实体最终的实体概念。在介绍了方法后,分别使用CLP-2012会议提供的测试语料和维基官网下载的数据库文件对本文提出的算法进行了实验,并对测试结果进行了分析。实验结果表明,本文方法对汉语命名实体消歧是可行和有效的。
其他文献
随着工业技术的发展,在工程实践中,经常会遇到各种需要测量转速的场合。例如在发动机、电动机、机床主轴等旋转设备的控制中,常需要对电机的转速及其转动方向进行精确的测量、并
射频识别作为新兴技术,相对其它无线识别技术而言具有众多优点,发展迅速并被广泛应用于商业领域。虽然高集成度的单芯片解决方案是目前射频识别读写器技术发展的主流趋势,但由于
近年来,我国的医学教育事业有了很大的发展,医学教育的规模、质量、效益有了明显提高。各地方医学院校纷纷以医学等传统优势学科为生长点,积极发展近医或非医专业,逐步向多学
首先介绍了气力输送的实验设备.评述了水平栓流气力输送的压力降计算方法,用3种不同的方法计算了压力降并与实验数据进行比较.此外评述了用特征线方法进行水平管的数值模拟,
改革开放三十多年以来,随着国家经济的不断发展,在经济发达地区有大量的农村剩余劳动力不断地涌入。在全国这一大潮的席卷之下,济南市作为省会城市,也和其他省会城市一样面临外来
新课改是指上世纪末本世纪初开展的全国基础教育课程改革。这项改革将彻底改变我国基础教育现状,改变旧的教育理念,改变教材繁难偏旧的特点,改变学生的学习方法,改变传统的评价方
山西省是我国的重要能源重化工基地,煤炭资源的主要输出地,但煤炭资源开发所造成的环境污染和生态破坏,严重制约着煤炭业及区域经济的可持续发展。因此,建立健全矿产资源开发生态
计算机网络的应用越来越广泛,越来越多的行业和人群开始借助计算机网络来实现他们的目的和任务。但是,越来越多的应用也导致了计算机网络的安全问题日渐严重,出现了很多恶意
<正>2010年7月30日,中国纺织工业协会在北京人民大会堂隆重召开2010中国纺织服装企业社会责任报告联合发布会暨2005-2010中国纺织服装行业社会责任建设五周年回顾、"落实责任
目的观察苦参碱对肝癌SMMC-7721细胞JAK-STAT通路的影响。方法苦参碱和/或JAK-STAT途径特异性抑制剂AG490培养肝癌细胞SMMC-7721,MTT法检测苦参碱对肝癌SMMC-7721细胞株增殖