面向特定领域的互联网舆情分析技术研究

被引量 : 0次 | 上传用户：feng861013

【摘要】

：

随着互联网技术的飞速发展,网络上的信息呈指数级增长,同时web2.0的交互性技术使人们能够在互联网上进行交流和发表各种意见评论信息,因此互联网上存在各种各样的舆情信息,在

【作者】

：

张长利

【发表日期】

：

2011年期

【关键词】

：

主题爬行 PU文本分类评价挖掘情感分类字符串核函数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的飞速发展,网络上的信息呈指数级增长,同时web2.0的交互性技术使人们能够在互联网上进行交流和发表各种意见评论信息,因此互联网上存在各种各样的舆情信息,在信息海洋中,信息处于淹没状态,给人们查找所需信息带来极大困难,如何获取网络上关于特定领域主题事件的舆情信息?聚焦爬虫技术与情感分析技术相结合使我们对特定领域的舆情分析成为可能。通过分析特定领域的网络舆情可以为相关决策部门提供辅助决策支持,有助于企业改进方案计划,为用户提供有用的帮助与导向信息。本文针对其中的一些关键技术和理论方法作了如下三个方面的工作：(1)提出了基于综合价值具有增量特性的主题爬虫。在主题相关信息采集方面,以往的爬虫在满足爬全率(recall)的同时牲牺了爬准率(harvest)以及爬行效率,而为了提高爬准率往往又降低了爬全率。通过采用前后端分类器,前端基于链接语境图训练链接预测分类器,使爬虫具有一定的穿越隧道的能力,后端使用主题内容分类器识别主题相关网页,同时使用网页内容可视化分块技术,并基于链接的综合价值进行网页预测,提高了爬全率、爬准率及爬行效率。(2)提出了基于无监督聚类的PU文本分类方法。传统的机器学习文本分类模型需要大量的标注语料做为训练集,PU文本分类算法是解决某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题,而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传统的分类方法来解决面向PU的分类问题,U集中可信反例的提取是分类器能够取得良好效果的关键,本文提出了有效的可信反例提取算法(基于聚类的可信反例提取算法)-CBRN,并对已有的PU文本分类算法进行了改进并提出了SPY-SVM算法,提高了可信反例提取的数量和准确率,也提高了PU文本分类的准确率。(3)评价挖掘是针对特定领域主题的主观性文本自动提取有用的情感信息和知识,可为政府部门、企业及用户提供有价值的意见信息。本文针对中文文本进行褒、贬情感倾向性分析,提出了三种情感倾向性分析算法,1)基于规则及情感词提取评价四元组的评价挖掘算法和基于unigram+评价短语特征的机器学习评价挖掘算法,2)基于字符串核函数的评价挖掘算法,3)基于规则及聚合模型的句子级到篇章级的中文评价挖掘算法。

其他文献

民国时期广东出版农业期刊存藏状况调查

对民国时期广东出版的农业期刊现存情况及保藏状况进行调查分析,建议出台保护性政策,开展区域性民国文献保藏与再生性利用工作。

期刊

民国时期农业期刊数字化广东

一种无人值守自动送料机的设计

无人值守送料装置是工业自动化生产线的关键组成部分,它克服了传统人工送料效率低、速度慢和安全隐患大的问题。为此,本文结合某企业的技术改造要求,设计了一套无人值守自动

期刊

无人值守无堵塞自动送料PLC

营气非气论

从气的性质、生理效应和病理反映，论述了营气不属于气。根据临床上无“营气虚”的病理反映，本文还认为：营气是化生短暂物质基础，不是直接作用于脏腑组织的营养物质。

期刊