论文部分内容阅读
目前,越来越多的用户使用twitter、facebook以及新浪等社交开放平台发布微博状态信息,这些状态信息中不仅包含了人们日常生活琐碎事件的叙述而且还包含了人们对热点事件的关注。我们可以通过从微博中提取热点事件信息,来结构化表达微博中大家所关注的焦点事件。自动或半自动地从微博中提取的事件信息,可以帮助人们更快、更好把握一些热点事件,尤其是突发性的新事件。例如,可以为新闻工作者提供线索、为网络舆情预测等提供辅助信息。微博信息中存在一些对现实世界所发生的、引起特定人关注的事件的描述,然而微博信息的分散性和冗余性,导致我们不能从微博状态信息中获得完整、准确的事件信息。微博事件通常是由命名实体和事件词构成,事件词描述了命名实体的状态和行为。这促使我们可以通过捕捉命名实体和事件词来获得微博中的事件信息,所以微博事件的抽取任务主要集中于对这两者的识别。传统的事件抽取通常是针对特定领域、基于既定规则。当转向其他新领域时需要人工地制定新的规则或者手动标记新的训练集。由于微博平台具有开放性,这使得传统的事件抽取方法运用到微博事件抽取效果很差。在这样的背景下,事件抽取已经逐步从传统的事件抽取发展到开放领域事件抽取,开放领域事件抽取系统相对于传统事件抽取系统的优势在于:仅需要单一的驱动数据,当转移到新的领域不需要重新生成规则或者重新人工标定训练集。目前,存在的英文开放领域事件抽取系统有华盛顿大学的TWICAL。由于中文词与词之间没有分隔符以及词语歧义等造成了中文分词效果不佳,此外中文命名实体以及事件词不仅构造复杂而且种类繁多。总之,中文独有的特点使得微博中文命名实体和事件词的抽取具有挑战性。目前,还没有成熟的中文微博开放领域事件提取系统。本文设计与实现了一个中文微博开放领域事件抽取系统:EventCalender,该系统以微博事件日历的形式显示了每天发生的重要事件。微博事件的抽取过程可以被看成是一个序列标注过程,本文将序列标注模型条件随机场(CRF)成功地应用于中文微博事件的提取中。在本系统中,首先使用NLPIR中文分词工具对微博的原始内容进行分词以及词性标注(POS),然后使用序列标注模型CRF抽取微博中的命名实体和事件词,使用正则表达式提取时间短语,并将时间短语与事件相关联。最后,以事件与时间词共同出现的频率来衡量事件的重要性,最终系统把重要事件显示到日历上。