论文部分内容阅读
随着信息技术的迅猛发展,非结构化的网络数据呈指数级增长。如何有效利用这些庞大的非结构化信息推动了信息抽取的诞生。信息抽取就是从文本中获得结构化的核心信息,以实现大规模数据集的数据融合、监控及跟踪等。时间事件的关系识别是信息抽取中的一个重要研究内容,其任务是识别同一句子中事件和时间存在的特定关系。该技术在问答系统、文本分类、多文档文摘等自然语言处理领域有着重要的作用。较好的时间表达式的识别和事件的识别是时间事件关系识别的基础。但现有研究中,对时间表达式和事件的识别通常只考虑了词法信息而忽视了句子的结构信息和语义信息。针对上述问题,本文充分考虑了句法特征和语义特征,并将其用在中文时间表达式和事件的识别中,故对时间表达式的识别,事件的识别和时间事件关系识别进行了深入的研究,提出了新的相应的识别方案,具体内容如下:1提出了中文时间表达式的识别方案。本文将时间表达式的识别分为时间表达式的标注和分类两步。在时间表达式的标注及分类中,抽取的特征通常为词法特征。由于时间表达式是语义层面的,其标注和分类不能仅依赖词语层面的特征。因此本文考虑将句法特征和语义特征加入到时间表达式的标注和分类中,并提出了相应的特征抽取算法。在抽取了有效的特征后,本文提出了中文时间表达式识别方案。实验验证本文所提出的方案能够获得较好的识别率。2提出了中文事件的识别方案。事件的识别即把句子中表示某个事发生的词或短语抽取出来。在以往的研究中,大多只考虑了单独的词作为事件的可能性,通常只抽取了词法类基本特征。本文充分考虑了词或者短语表示事件的可能性,将句法特征加入到中文事件的识别中,提高了短语表示事件的识别率。同时,考虑到事件的识别涉及语义层面,因此,将语义特征加入到事件的识别中。提出了基于词法特征、句法特征及语义特征的事件识别方案。实验验证本文所提出的方案能够获得较好的识别率。3提出了中文时间事件的关系识别方案。本文在前面两个工作的基础上,针对中文时间事件关系的特点抽取了相应的特征并提出了中文时间事件的关系识别方案,对抽取出的时间表达式及事件进行其关系的识别。实验证明本文提出的方案有较好的结果。