微博中的开放域事件抽取

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:wildboar2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,微博、微信等以短文本为主的网络平台已成为实时信息的重要来源。以微博为例,它是一种基于用户关系获取和传播信息的平台,用户可以随时随地发布信息,实现即时分享。近年来,微博平台发展迅猛,在热点事件的报道和传播方面占据主导地位。针对微博文本的事件抽取研究也受到越来越多的关注。早期的事件抽取研究主要侧重于在新闻文本中提取热点事件。新闻文本用词较为规范,具有清晰的语法结构,针对这类文本的事件抽取具有较高的准确率。与新闻等正式文体相比,微博的语言趋于口语化,文本内容多而杂,可能涉及生活的各个领域。这些原因导致传统的事件抽取方法对微博难以奏效。本文对微博中的开放域(即内容涉及各个领域)事件抽取问题进行了深入研究,设计并实现了一个事件抽取和分类系统。在该系统中,通过序列标记方法提取微博文本中的命名实体和事件短语来表征相应事件,然后采用非监督聚类方法对事件进行归类,最后将每个日期下的事件根据重要性排序,并以日历的形式展现出来。在抽取微博文本中的命名实体和事件短语时,本文采用了条件随机场模型,它能够充分利用上下文信息,对整个序列的联合概率统一建模,适用于序列标记任务。在对事件进行归类时,本文采用了非监督聚类方法中的LDA模型,来解决开放域微博文本的类别多样性问题。本文构建了一个微博文本数据库。在该数据库上的实验结果表明,本文方法取得了较好的事件抽取效果,所实现的微博日历系统具有一定应用价值。
其他文献
软件安全漏洞的存在及其带来巨大的危害使得软件漏洞检测技术的研究日益重要。其基本思想是通过对待测试软件程序采取不同的技术手段,分析程序的源代码、二进制代码或在对应
近十来年,互联网技术得到了快速发展,互联网用户不断增加,网络应用得到迅速普及,网络数据的增长速度超乎想象。XML语言(可扩展标记语言)作为互联网上数据交换和共享事实上的