【摘 要】
:
社会媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台。微博(Micro-blogs)是通过某个社会媒体——如推特(Twitter)或新浪微博——分享的不超过140个字符的文
论文部分内容阅读
社会媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台。微博(Micro-blogs)是通过某个社会媒体——如推特(Twitter)或新浪微博——分享的不超过140个字符的文本消息。在本文中,微博特指通过推特分享的短文本消息。经过最近五年的迅猛发展,微博目前已经成为人们不可或缺的重要信息源。 微博有如下特点:一是非结构化,二是片面、零散和随意,三是实时性强,四是噪音多。如此一来,人们很难从海量的微博中获取感兴趣的信息。本文系统研究了面向微博的信息抽取这一新任务。该任务的目标是从充满噪音的、零碎的、非结构化的微博中提取有价值的结构化的信息点,从而帮助用户有效地利用微博。这一任务可进一步分解为命名实体识别、语义角色标注、事件抽取、情感分析等子任务。 本文重点研究前三个子任务。研究面临的主要挑战是单条微博提供的信息非常有限——这源自微博内容片面、零散、随意和充满噪音的特性。本文针对微博的特点,提出了如下三类联合推断算法(Collective inference)以克服单条微博信息的不足。 1.基于K近邻分类器的联合推断。K近邻分类器利用标记历史中与当前输入相似的输入的输出,决定当前输入的输出。 2.基于聚类的联合推断。第一遍进行常规的单条微博信息处理,第二遍把相似的微博聚类,并利用聚类一级的信息对第一遍的结果作细化处理。 3.基于概率图模型的联合推断。用图模型在多条相关微博的抽取任务间建立联系,使得针对各条微博的任务间可共享信息,并同时决定多条微博的输出。 本文把这三类算法应用到命名实体识别、语义角色标注和事件抽取这三个子任务上,均取得了比基准系统更好的成绩。本文最后介绍微博语义搜索这一具体应用。该应用基于本文讨论的各种信息抽取技术,提供了信息点分类导航和结构化搜索两类新的用户体验。
其他文献
计算机技术和网络技术的飞速发展,极大的改变了人们的生活方式。在这种大环境背景下,航天航空、工业自动化等产业也迅猛发展,这些领域中,时间同步是一个最基本但又是最重要的环节
时序数据由不同时间点的数据值组成,通过反映数据随时间变化的特征,它已被广泛应用于统计分析学、信号处理、金融数学、气象预测等各行各业。对时序数据分析最直观的方法就是
随着医学成像技术的发展,越来越多的医学图像被应用到医务人员的诊断和治疗过程中。为了更加有效地管理和利用这些图像,研究人员开始关注医学图像聚类。本文首先介绍了医学图像
伴随着3G网络在全世界范围内的广泛部署和不断增长的用户数目,越来越多的业务种类以及越来越大的数据流量使3G网络不堪重负。在无线接入技术中,3G技术与Wi-Fi(Wireless Fidelity
随着互联网技术的不断发展,电子商务的不断兴起,BBS、博客、微博的不断涌现,商家与购买者的网上交互日趋频繁。越来越多的购买者在使用产品后,将产品的评论发表在网上,评论的数量
本文基于BIRIS(双边资源整合)的服务模式,构建一个车辆服务平台,平台收集社会上各式各样的闲置车辆,对车辆资源进行整合,满足客户的多种个性化需求,能充分利用车辆,并提供监控、调度
人机交互(Human-Computer Interaction,简写HCI)是指人与计算机之间进行信息交换过程。但是,由于受到距离以及设备的非便携性等因素,这些设备会增加用户的操作负荷,因此建立
随着信息处理技术和计算机网络的普及,Internet上的Web页面数量呈指数增长,为了快速、方便地处理这些信息,Web文本自动分类技术应运而生,并且已经成为信息检索和文本数据挖掘领域
随着网络信息技术的不断发展,面向在线事务处理(On-Line TransactionProcessing,OLTP)应用的服务系统广泛应用于商业银行、电信公司、证券交易所、航空公司等大型商业金融机构和
蚁群优化算法是一种新的模拟进化算法,具有正反馈、元启发式与分布式计算相结合的特点,其中正反馈有助于算法更快地发现较好解,元启发式特征有助于算法更容易地发现较好解,分布式