中文微博评价对象提取方法研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:lz274458795
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为社交网络中最火热的平台,每天产生的微博文本不计其数,并且涵盖了新闻、娱乐、美食、商品、军事等多个领域。因微博文本数据内容丰富,最能反应当下人们讨论的热点问题,所以对微博文本数据的研究是当前的一大热点。为了在大量的微博文本数据中,找到人们谈论的对象,微博评价对象的提取这一课题因运而生。分词是微博评价对象提取的预处理步骤,分词的效果直接影响评价对象提取的准确率。本文围绕评价对象提取准确率的提高,做了如下研究工作:(1)提出一种领域自适应的中文分词方法。针对中文分词领域自适应性差,对未登录词的识别和歧义词的处理显得力不从心的问题,本文提出一种基于条件随机场的领域自适应中文分词方法,提出了基本特征模板和字特征模板的条件随机场分词方法,并提出一种基于Trie树的逆向最大匹配算法来校正条件随机场分词,针对条件随机场分词的缺陷,提出了固定词串消解、动词消解和词频消解三种方法消除歧义。(2)提出一种多特征融合的条件随机场评价对象提取方法。为了更好的提取微博评价对象,找到条件随机场的最优特征模板,本文对大量的语料进行了实验统计,分析了语义角色特征、词频特征和形容词位置特征与评价对象之间的关系,制定了基于条件随机场的基本词性特征模板、语义角色特征模板、词频特征模板和形容词位置特征模板提取评价对象。这种多特征融合的方法,有效提高了评价对象提取的准确率。
其他文献
如今,用户交互式问答社区已成为网上信息获取和知识分享的重要媒介。诸如Yahoo! Answers、百度知道等问答社区网站每天发布有数以万计的问题。然而,随着问答社区数据量的增长
网络安全态势感知系统是在当前网络安全问题日益突出的环境下产生的,并逐步成为网络信息安全领域内研究的热点。网络安全态势感知系统要求从多个角度对大规模网络的安全状况
大数据已成为继云计算之后信息技术领域中研究热点之一。如何有效的分析和处理这些呈爆炸式增长的数据并提取其中有价值的信息,是当前亟待解决的问题。然而,现有的数据挖掘算
智能交通系统主要应用计算机视觉和视频图像处理等技术来监控道路交通运输状况、采集交通信息并且做出相应的交通管理决策,从而解决目前交通运输快速发展所引发的各种问题。运
在GIS应用领域日趋广泛化的背景下,如何提高GIS软件开发的效率,保证软件质量,是迫切需要解决的问题,软件复用是一种有效的手段。框架是设计复用和代码复用的结合。从软件复用
近年来建筑行业中效果图及三维动画已得到普遍应用。然而,效果图只能提供静态局部的视觉体验。三维动画虽有较强的动态三维表现力,但不具备实时的交互性。观察者只能按事先规定
学位
随着近年来农村信息化的发展,农村社区居民可以随时享受到互联网所提供的农业、新闻、生活等各类资讯。然而,网络中各类资源总量正在以爆炸式的速度增长,“信息过载”等问题
二乘二取二计算机联锁系统近十年在铁路系统实时控制中得到了广泛应用。该系统从硬件结构、故障—安全及网络通信等方面都注入了全新的设计思想和方法,使区域计算机联锁和调
ZigBee技术是一种新兴的,具有统一技术标准的短距离、低功耗无线通信技术,主要应用于低速传输场合,可以作为无线传感器网络的通信协议。面向特定应用领域、功能强大、灵活可
随着网络的普及和电子商务的广泛应用,越来越多的信息充斥在互联网之中,用户在享受网上购物带来的便捷的同时也面临着信息过载问题的困扰。为了在大量的商品信息中找到符合用