基于特征向量的中文指代消解研究与系统实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:tiaozhanwudeshou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的发展。指代消解是自然语言处理的重点和难点之一,在文本摘要、机器翻译、多语言信息处理和信息提取等诸多应用中都有应用。而指代消解也综合了多种自然语言处理技术,如词性标注、句法分析、命名实体识别、名词短语识别等。本文主要研究汉语指代消解的相关技术及系统实现,对组合分类器、汉语基本名词短语识别、待消解项识别及句法特征等进行了深入系统的分析和研究,取得的成果如下:1.根据基于先验知识的投票表决策略,实现了一个由支持向量机(SVM)、最大熵(ME)和条件随机场(CRFs)组合而成的分类器。实验结果表明,组合分类器能够提高分类的准确性。2.提出了一种混合的汉语基本名词短语识别算法。该方法通过对基本名词短语上下文环境中词汇信息的统计和分析,提取包含上下文环境信息的特征,训练生成组合分类器,同时利用统计分析而来的四类规则模版对分类的结果进行修正。由于采用的模版较为合理和准确,使得识别的正确率达到90%以上。3.根据句法分析的结果,提取出包括名词短语所关联的句法信息特征在内的13个特征进行指代消解,并通过实验,分析了每个特征对指代消解的贡献度及每个处理环节对指代消解的影响。4.提出了一种基于规则和特征的待消解项识别方法。通过对训练语料中已标出的待消解项以及上下文信息进行分析,统计出一些规则。同时,提取出一些特征信息,训练生成待消解项分类器。
其他文献
视频传感器网络(Video Sensor Networks)是一种由具有计算、存储和通信能力的视频传感器节点组成的分布式感知网络。节点定位是视频传感器网络进行目标识别、监控、跟踪等众
车牌自动识别系统是实现交通管理智能化的重要环节之一,研究车牌自动识别技术具有重要的实用价值。车牌自动识别系统一般包括车牌定位、字符分割和字符识别三部分。本文主要
信息检索是从信息集合中找出与用户需求相关的信息。本体作为一种表示知识的形式,具有良好的概念层次结构,支持推理功能,因此基于本体的信息检索能给检索服务性能带来极大的
随着微博用户数量的快速增长,微博的炒作现象也越来越严重。“网络水军”和“网络推手”等利用微博散布谣言及虚假信息,严重干扰了网络秩序。目前,在对微博炒作的研究方面,主
随着遥感卫星技术的发展应用,遥感图像在日常生活和军事上具有重要作用。多光谱图像具有较高的光谱分辨率,光谱信息丰富,但由于物理器件的限制,空间分辨率较低,而全色图像具
号码携带系统主要是为了提供这样一种服务,用户可以随意更换手机服务的运营商,但是原拥有的手机号码不用改变。对于运营商内部的从2G到3G的携号转网可以通过自身的升级实现,
自然景物模拟在计算机图形学占有非常重要的地位,而且自然景观的三维模拟在电脑游戏、电影特效、虚拟现实等领域中使用得越来越频繁。虚拟模拟常用的方法有分形几何方法、纹
本文介绍了作者在跨函数分析研究方面所做的工作,包括跨函数分析技术的设计与实现以及对现有DTSJava(Defect Testing System for Java)系统的改进,将跨函数分析模块与区间运
P2P网络和SIP协议都是目前互联网技术的研究热点。SIP协议凭借其简单、易于扩展等诸多长处得到了越来越多的应用,但是现有的SIP系统大多都存在“单点失效”和“性能瓶颈”等
本文首先对Web日志挖掘的发展现状及存在的问题进行了系统性阐述,按Web日志挖掘的流程及相关技术进行了介绍和探讨。重点分析和研究了Web日志数据预处理、聚类分析技术以及算