面向特定领域的互联网舆情分析技术研究

被引量 : 0次 | 上传用户:feng861013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络上的信息呈指数级增长,同时web2.0的交互性技术使人们能够在互联网上进行交流和发表各种意见评论信息,因此互联网上存在各种各样的舆情信息,在信息海洋中,信息处于淹没状态,给人们查找所需信息带来极大困难,如何获取网络上关于特定领域主题事件的舆情信息?聚焦爬虫技术与情感分析技术相结合使我们对特定领域的舆情分析成为可能。通过分析特定领域的网络舆情可以为相关决策部门提供辅助决策支持,有助于企业改进方案计划,为用户提供有用的帮助与导向信息。本文针对其中的一些关键技术和理论方法作了如下三个方面的工作:(1)提出了基于综合价值具有增量特性的主题爬虫。在主题相关信息采集方面,以往的爬虫在满足爬全率(recall)的同时牲牺了爬准率(harvest)以及爬行效率,而为了提高爬准率往往又降低了爬全率。通过采用前后端分类器,前端基于链接语境图训练链接预测分类器,使爬虫具有一定的穿越隧道的能力,后端使用主题内容分类器识别主题相关网页,同时使用网页内容可视化分块技术,并基于链接的综合价值进行网页预测,提高了爬全率、爬准率及爬行效率。(2)提出了基于无监督聚类的PU文本分类方法。传统的机器学习文本分类模型需要大量的标注语料做为训练集,PU文本分类算法是解决某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题,而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传统的分类方法来解决面向PU的分类问题,U集中可信反例的提取是分类器能够取得良好效果的关键,本文提出了有效的可信反例提取算法(基于聚类的可信反例提取算法)-CBRN,并对已有的PU文本分类算法进行了改进并提出了SPY-SVM算法,提高了可信反例提取的数量和准确率,也提高了PU文本分类的准确率。(3)评价挖掘是针对特定领域主题的主观性文本自动提取有用的情感信息和知识,可为政府部门、企业及用户提供有价值的意见信息。本文针对中文文本进行褒、贬情感倾向性分析,提出了三种情感倾向性分析算法,1)基于规则及情感词提取评价四元组的评价挖掘算法和基于unigram+评价短语特征的机器学习评价挖掘算法,2)基于字符串核函数的评价挖掘算法,3)基于规则及聚合模型的句子级到篇章级的中文评价挖掘算法。
其他文献
对民国时期广东出版的农业期刊现存情况及保藏状况进行调查分析,建议出台保护性政策,开展区域性民国文献保藏与再生性利用工作。
无人值守送料装置是工业自动化生产线的关键组成部分,它克服了传统人工送料效率低、速度慢和安全隐患大的问题。为此,本文结合某企业的技术改造要求,设计了一套无人值守自动
从气的性质、生理效应和病理反映,论述了营气不属于气。根据临床上无“营气虚”的病理反映,本文还认为:营气是化生短暂物质基础,不是直接作用于脏腑组织的营养物质。
介绍CBBE模型,从用户认知、评估需求和评估方法分析该模型引入图书馆阅读推广的适宜性,构建评估方法,并以CASHL为例探讨其在阅读推广评估中的应用。
通过长期不同施肥对红壤旱地肥力影响的定位研究,发现施肥耕作18年后,施用有机肥料不但增加了土壤可培养细菌、真菌和放线菌的数量,而且也增加了功能性微生物的数量;秸秆还田
金融业的发展离不开良好的生态环境,只有把金融业内部资源和外部环境结合起来才能实现金融生态的良性循环。进行城市金融生态环境的评价能够为金融监管部门制定改善对策提供
针对汽车减震器活塞杆的加工需求,设计了一种电机驱动的活塞杆自动上料装置。介绍了该装置的机械结构及工作原理,并详细分析了该上料装置在传送机构和行程控制方面的特点。设
在经济迅猛发展的新形势下,城镇化发展不断深化,建筑等行业对于各种类型的砖块的需求量日益增大。在传统的砖块生产中,不但巨大地消耗了有限的资源粘土,而且对环境也产生了严
目的观察珍一散的抗抑郁作用。方法用珍一散治疗各种抑郁障碍 3 2例 ,同时以抗抑郁剂阿米替林 2 8例为对照。用汉密顿抑郁量表评定临床疗效。结果治疗 8周后 ,珍一散临床总有