文本主题段落内部概念关系抽取技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:laoxuslx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及和互联网的迅猛发展,网络上文本信息的数量快速增长,然而人们却很难迅速地找到所需的信息。为了改变这种尴尬的局面,迫切需要一些自动化的工具帮助人们在海量信息中迅速而准确地找到用户真正需要的信息,信息抽取技术就是在这一背景下产生出来的。互联网上信息又大多以文本形式存在,而文本从线性和层次角度上可以分为若干个段落主题。由于标引段落主题的概念之间存在某种关系,作者抽取出段落主题概念及其之间的关系,就为基于段落主题的信息检索以及文本自动摘要工作提供了一个新的途径。 本文的研究工作是基于主题段落的概念和概念关系抽取技术研究。主题段落概念及其关系抽取简单来说,就是从文本段落内部挖掘出能反映文本内容的若干个主题概念,并构建出这些概念之间的关系。首先为了抽取出标引文本主题的概念,我们通过词聚类的方式获取概念,在构建向量空间模型时,原本的以词形为基础的向量空间模型就变成了概念空间模型。然后利用知网中概念词之间的相似度,加权计算出向量空间模型中各个分量的权值。随后,不同于以往的词频加权算法,提出了基于词语量化关系的主题概念抽取算法,通过定量的分析概念之间的相关信息,抽取出更能准确标引文本主题的概念。首先利用一部中文词典《现代汉语规范词典》——一种非结构化的数据源作为背景知识,来挖掘词语之间的量化关系。然后利用这种量化关系为概念向量模型中概念分量构建相关向量,再通过对概念相关向量和权值的计算,得出每个概念对于文本的主题重要度,最终依据重要度抽取出能够标引文本主题的概念。对于抽取出来的主题概念,使用基于特征向量的机器学习方法抽取出主题概念关系。选取主题概念上下文的词语和词性作为特征向量,抽取出比较常见的若干种概念关系
其他文献
随着RFID技术的飞速发展,RFID标签成本不断降低,读取率和读取范围也不断得到提高,更多的企业开始策划并着手准备RFID项目的使用。在数据采集方面迅速发展的同时,如何共享各个
无线传感器网络是一种特殊的Ad Hoc网络,它具有自组织、快速展开、抗毁坏性强等特点,在军事、环境监测、医疗健康、工业控制等方面有着十分广阔的应用前景。无线传感器网络是
本文研究了基于MAS的机器人动态博弈系统中的协作问题。首先,研究了多智能体系统相关理论,提出一种基于MAS的多机器人体系结构;其次,研究了多智能体协作策略和多机器人系统的
随着网络以及社交网站的快速发展,例如Facebook和Twitter,社交网络已经成为人们获取信息和扩散信息的主要平台之一。在社交网络中,利用社交网络的信息扩散的特性(如快捷,范围
分布式环境下的数据发布模式与传统的,数据拥有者承担用户查询处理的集中式模式相比具有网络等待时间短,服务器维护便宜,抗DDoS攻击等一系列的优势,具有广阔的应用前景。然而
随着计算机技术的迅猛发展,IPv4的地址空间已近枯竭,致使价格低廉、体积小巧的嵌入式设备无法大量接入网络。IPv6协议作为下一代网络的核心协议,较好地解决了当前IPv4协议所
PushMail即“移动电邮”,学名主动式邮件推送业务,是一项利用PUSH技术将Email直接推送到终端(手机)上的服务。它与用户的电子邮箱挂钩,在得到授权和开通服务的情况下,电子邮
蚁群算法是最近几年才提出来的一种新的仿生优化算法,它是由意大利学者M.Dorigo, V.Mahiezzo, A.Colorni等人受自然界中真实蚂蚁群体寻找食物过程的启发而率先提出来的。他们
归纳学习是机器学习最核心的一个分支,其主要目的是从大量的数据中归纳抽象出一般的规则和模式。由于冗余属性会影响规则提取的时空性能和发现知识的质量,因此,在保持相同分
在计算机视觉的领域内,对视频进行处理是最基本的操作。在视频中对运动目标进行检测和跟踪,具有很强的应用和研究价值。在当今的生活中,视频处理技术已经被应用在各个领域,其