论文部分内容阅读
随着互联网技术的飞速发展,网络上的信息呈指数级增长,同时web2.0的交互性技术使人们能够在互联网上进行交流和发表各种意见评论信息,因此互联网上存在各种各样的舆情信息,在信息海洋中,信息处于淹没状态,给人们查找所需信息带来极大困难,如何获取网络上关于特定领域主题事件的舆情信息?聚焦爬虫技术与情感分析技术相结合使我们对特定领域的舆情分析成为可能。通过分析特定领域的网络舆情可以为相关决策部门提供辅助决策支持,有助于企业改进方案计划,为用户提供有用的帮助与导向信息。本文针对其中的一些关键技术和理论方法作了如下三个方面的工作:(1)提出了基于综合价值具有增量特性的主题爬虫。在主题相关信息采集方面,以往的爬虫在满足爬全率(recall)的同时牲牺了爬准率(harvest)以及爬行效率,而为了提高爬准率往往又降低了爬全率。通过采用前后端分类器,前端基于链接语境图训练链接预测分类器,使爬虫具有一定的穿越隧道的能力,后端使用主题内容分类器识别主题相关网页,同时使用网页内容可视化分块技术,并基于链接的综合价值进行网页预测,提高了爬全率、爬准率及爬行效率。(2)提出了基于无监督聚类的PU文本分类方法。传统的机器学习文本分类模型需要大量的标注语料做为训练集,PU文本分类算法是解决某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题,而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传统的分类方法来解决面向PU的分类问题,U集中可信反例的提取是分类器能够取得良好效果的关键,本文提出了有效的可信反例提取算法(基于聚类的可信反例提取算法)-CBRN,并对已有的PU文本分类算法进行了改进并提出了SPY-SVM算法,提高了可信反例提取的数量和准确率,也提高了PU文本分类的准确率。(3)评价挖掘是针对特定领域主题的主观性文本自动提取有用的情感信息和知识,可为政府部门、企业及用户提供有价值的意见信息。本文针对中文文本进行褒、贬情感倾向性分析,提出了三种情感倾向性分析算法,1)基于规则及情感词提取评价四元组的评价挖掘算法和基于unigram+评价短语特征的机器学习评价挖掘算法,2)基于字符串核函数的评价挖掘算法,3)基于规则及聚合模型的句子级到篇章级的中文评价挖掘算法。