中文时间事件关系识别的方法研究

被引量 : 0次 | 上传用户:liaodoctor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,非结构化的网络数据呈指数级增长。如何有效利用这些庞大的非结构化信息推动了信息抽取的诞生。信息抽取就是从文本中获得结构化的核心信息,以实现大规模数据集的数据融合、监控及跟踪等。时间事件的关系识别是信息抽取中的一个重要研究内容,其任务是识别同一句子中事件和时间存在的特定关系。该技术在问答系统、文本分类、多文档文摘等自然语言处理领域有着重要的作用。较好的时间表达式的识别和事件的识别是时间事件关系识别的基础。但现有研究中,对时间表达式和事件的识别通常只考虑了词法信息而忽视了句子的结构信息和语义信息。针对上述问题,本文充分考虑了句法特征和语义特征,并将其用在中文时间表达式和事件的识别中,故对时间表达式的识别,事件的识别和时间事件关系识别进行了深入的研究,提出了新的相应的识别方案,具体内容如下:1提出了中文时间表达式的识别方案。本文将时间表达式的识别分为时间表达式的标注和分类两步。在时间表达式的标注及分类中,抽取的特征通常为词法特征。由于时间表达式是语义层面的,其标注和分类不能仅依赖词语层面的特征。因此本文考虑将句法特征和语义特征加入到时间表达式的标注和分类中,并提出了相应的特征抽取算法。在抽取了有效的特征后,本文提出了中文时间表达式识别方案。实验验证本文所提出的方案能够获得较好的识别率。2提出了中文事件的识别方案。事件的识别即把句子中表示某个事发生的词或短语抽取出来。在以往的研究中,大多只考虑了单独的词作为事件的可能性,通常只抽取了词法类基本特征。本文充分考虑了词或者短语表示事件的可能性,将句法特征加入到中文事件的识别中,提高了短语表示事件的识别率。同时,考虑到事件的识别涉及语义层面,因此,将语义特征加入到事件的识别中。提出了基于词法特征、句法特征及语义特征的事件识别方案。实验验证本文所提出的方案能够获得较好的识别率。3提出了中文时间事件的关系识别方案。本文在前面两个工作的基础上,针对中文时间事件关系的特点抽取了相应的特征并提出了中文时间事件的关系识别方案,对抽取出的时间表达式及事件进行其关系的识别。实验证明本文提出的方案有较好的结果。
其他文献
目的1.调查置胃管患者的精神状况及不适程度,分析影响其咽反射敏感度的因素,包括年龄、性别、城乡差距、文化程度、焦虑程度、吸烟史、既往置管史等,分析其原因,为选择性干预治疗
福布斯2015年中国名人榜上,黄晓明以超过7900万人民币的收入和高曝光率排名第五。细细数来,黄晓明已连续十年登上福布斯中国名人榜。除了是演员,黄晓明还是一名歌手,目前他已
汽车已经和人们的日常生活密不可分,然而随着石油的日益枯竭和环境的不断恶化,混合动力汽车的研发成为了节能环保的重要手段。因此本文在重庆产学研合作创新项目“重庆恒通新能
随着计算机网络及通信技术的发展,人们对近场通信(NFC:Near Field Communication)的需求迅速增加。介绍了NFC技术的基本特点,给出了NFC的技术架构,然后在其基础上研究了NFC移
对于债务人因发生财务困难而无法按原定条件清偿债务时 ,债权人为了避免更大的债权损失 ,可以采用债务重组的办法。为了规范债务重组会计事项 ,美国等市场经济发达国家早已颁
我国地大物博,矿产资源丰富,但人均占有量小,有色金属矿产是国家工业发展的重要原材料,是国家发展高端制造业的基础保证。传统的地下金属矿产开采粗放,不但资源有效利用率低,
近年来,我国不断加快全面建设小康社会进程,社会公共服务体系不断完善。在这一大环境下,行政事业单位的固定资产数量和金额大幅增加,如何进一步提升固定资产的管理水平,发挥
高考是对学生三年高中学习的总结,同时也是对学生学习成绩的重要评价。考场发挥怎样、考试成绩如何,将对每个学子的一生有着非常重要的影响。数学是高考中一门主课,如何应对
浅谈北朝经生体楷笔的演化杨森魏晋南北朝时期是我国书法历史发展中最为关键和最为重要的一个阶段。他是汉字字体中诸如楷、行、今草等演变发展的重要时期,从古至今均是书法研
期刊
目的:探讨“肺肠合治法”治疗干燥综合征的中医理论基础;探讨肺肠合治中药麦冬地芍汤治疗干燥综合征调节Th1/Th2、Th17/Treg免疫失衡及AQP5表达异常是否与其上调神经肽VIP的表