面向语义关系发现的文本挖掘研究

被引量 : 0次 | 上传用户:hz9466894
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘(Text Mining)也称作文本数据挖掘或从文本数据库中的知识发现,是指从非结构化文本信息中获取用户感兴趣或者有用的模式。其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。面向语义关系发现的文本挖掘是目前的研究热点,其主要思想是通过对自然语言文本进行扫描和自动化处理,发现概念术语及概念术语间存在的语义关系。概念之间的各种语义关系是知识的重要表现形式,这些语义关系主要有上位关系/下位关系(hypernymy/hyponymy),部分整体关系(part-whole),因果关系(causality),同义关系(synonymy)、反义关系(antonymy)和推论关系(inference)等。从理论层面来看,面向语义关系发现的文本挖掘研究将使自然语言处理从词法分析、句法分析层面深入到语义分析层面;从应用层面来看,面向语义关系发现的文本挖掘研究可以为知识本体的自动或半自动构建提供理论和方法依据。本文以军用飞机领域的语料为基础,以军用飞机领域概念体系间语义关系发现为研究对象,运用文本挖掘的处理思想和基本流程,结合自然语言处理、信息抽取、本体自动构建相关研究的理论和方法,对基于文本挖掘的语义关系发现进行了研究和探索,并开展了实验研究。主要工作和研究内容包括以下四个方面:(1)面向语义关系发现的文本挖掘相关理论和研究综述。本文对国内外有关自然语言处理、文本挖掘、本体自动构建等方面的研究进展进行了介绍和综述,提出本文的研究方向和研究目标。在此基础上,对本文的研究内容和研究方法进行具体阐述。(2)军用飞机领域文本处理语料的建设。以维基百科和CNKI数据库中与军用飞机相关的文章,作为本语料库的文本语料。本军用飞机语料库包括1951个术语,304篇文章,在其中抽取出3324个短句。该语料库的建设为本研究的实验提供了基础,也为后续的本体自动构建或其他相关工作提供了素材和研究支持。(3)基于模板匹配的语义关系发现研究和实验。根据军用飞机领域的知识结构特点,提出军用飞机领域概念体系中包含的典型语义关系。为自动发现和识别这些语义关系,提出了结合编辑距离的模板匹配方法。该方法先在人工参与下训练一批语料,由此获得与语义关系类型相对应的关系模板。利用编辑距离对已获得的关系模板进行归纳匹配,再将其用于测试语料,以验证该方法的效果。(4)基于复杂网络的语义关系研究和实验。梳理复杂网络理论知识,利用自然语言所具有的网络特征,运用复杂网络发现其中的语义关系。提出一种运用复杂网络和相关分析工具来辅助发现领域概念术语及其语义关系的方法。将术语和与之相关联的词语作为网络的节点,构造复杂网络,由此形成的各个社区就代表一个关系。将术语作为节点,发现的关系作为边,构造军用飞机领域概念体系的复杂网络,并对其进行分析。
其他文献
近年来围绕着《小企业会计制度》的相关研究成果颇丰,文章对近年来我国小企业会计制度有关研究进行梳理和总结,这对于进一步完善小企业会计制度,促进小企业的健康发展具有深
民营银行的建立与发展面临着许多障碍,引起这些阻力的原因在于民营银行除了与一般商业银行一样具有先天的"脆弱性",在经营活动中面临许多风险如信用风险、道德风险、汇率风险
随着工业技术的飞速发展,对气压传动与控制系统的性能和控制精度提出了更高的要求。而运用计算机仿真技术对气动系统进行分析具有重要的意义。计算机仿真技术不仅可以预测系
文章通过对IASB、FASB以及我国2006年颁布的会计准则中金融工具的分类与计量问题的回顾,论述了金融资产及负债分类、重分类,以及当前有关金融工具分类和计量的国际动态,最后
传统的统计过程理论基于质量特性值服从正态分布的假设,要求实际生产实践中用以计算过程能力指数的数据必须服从正态分布。然而,在实践过程中,获取的质量特性值往往不服从正
利用时变图像序列进行运动分析来确定三维空间中运动物体的结构或物体与观察者之间的相对运动参数是计算机视觉领域中的热门研究课题。三维运动投影至二维图像平面也将形成运
在经济利益的驱动之下,会计舞弊行为层出不穷,不仅给企业发展带来一系列消极影响,也加大了审计工作的难度。面对虚构业务内容、制造虚假余额、虚报损失等多种多样的会计舞弊
从现存企业管理现状的角度讨论存在于企业成本控制的问题,并提出相应的改进方法与实施策略。指出制造业企业要想在危机中重生,严格做好成本控制才是生存和发展的关键,所以,有
农用喷雾器是科学使用农药和喷施农用液体的重要工具,在我国农业生产中占据着非常重要的地位。然而农用喷雾器的发展却相当缓慢,一是科技开发滞后,产品更新换代缓慢;二是市场
互联网金融的优势表现在顺应了国人当前的消费习惯,适应了普通投资者的资金量,遵循了消费心理学的消费观,满足了投资者现金持有要求。互联网金融所形成的挑战则主要变现在三