论文部分内容阅读
随着互联网的快速发展,微博、微信等以短文本为主的网络平台已成为实时信息的重要来源。以微博为例,它是一种基于用户关系获取和传播信息的平台,用户可以随时随地发布信息,实现即时分享。近年来,微博平台发展迅猛,在热点事件的报道和传播方面占据主导地位。针对微博文本的事件抽取研究也受到越来越多的关注。早期的事件抽取研究主要侧重于在新闻文本中提取热点事件。新闻文本用词较为规范,具有清晰的语法结构,针对这类文本的事件抽取具有较高的准确率。与新闻等正式文体相比,微博的语言趋于口语化,文本内容多而杂,可能涉及生活的各个领域。这些原因导致传统的事件抽取方法对微博难以奏效。本文对微博中的开放域(即内容涉及各个领域)事件抽取问题进行了深入研究,设计并实现了一个事件抽取和分类系统。在该系统中,通过序列标记方法提取微博文本中的命名实体和事件短语来表征相应事件,然后采用非监督聚类方法对事件进行归类,最后将每个日期下的事件根据重要性排序,并以日历的形式展现出来。在抽取微博文本中的命名实体和事件短语时,本文采用了条件随机场模型,它能够充分利用上下文信息,对整个序列的联合概率统一建模,适用于序列标记任务。在对事件进行归类时,本文采用了非监督聚类方法中的LDA模型,来解决开放域微博文本的类别多样性问题。本文构建了一个微博文本数据库。在该数据库上的实验结果表明,本文方法取得了较好的事件抽取效果,所实现的微博日历系统具有一定应用价值。