面向舆情监测的主题爬虫设计与分析

来源 :天津科技大学 | 被引量 : 2次 | 上传用户:mingxing10192009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步,互联网逐渐成为人们表达舆论的一个重要平台。与传统的媒体相比,网络具有传播迅速、用户匿名等特点,这对社会舆论起到了很好的监督作用,但也容易包含反动、迷信和黄色的内容,给社会安定甚至国家安全带来困扰。因此,如何在丰富的网络信息中及时获取当前网民关心的舆情信息,帮助政府及时了解当前社会重要事件及舆论方向就显得十分重要。运用搜索引擎等信息技术进行网络舆情的搜集与监控是切实有效的方法。本文提出了一种改进的基于在线增量学习的主题爬虫SVM分类器算法。通过对传统主题爬虫SVM分类器的改进,将历史训练集中对正反例影响较大的样本剔除并与增量集重新训练来获得完备的训练集,以提高获取率。最后以该算法为基础构建了一个主题爬虫框架,开发完成了一个面向网络舆情抓取的主题爬虫系统,实验结果表明,在网络舆情的采集过程中有效的提高了网络舆情信息的获取率。本文的具体研究工作主要有:一是信息采集和预处理技术。研究如何从松散的非结构化信息中采集资料。利用主题爬虫技术和网页净化技术、中文分词技术,实现网络信息的自动采集与结构化存储。二是SVM分类器分类算法研究。通过人为设定的某一主题,经过训练这一主题的训练集得到主题向量的向量模型表示,然后将实际抓取的页面跟训练得到的主题向量模型进行相关度计算,将高相关度的网页提取出来。实验数据表明,在查准率和查全率以及主题爬虫的获取率等方面,改进的增量学习的SVM分类方法的结果比传统SVM分类方法明显要好。三是开发完成了一个网络舆情抓取原型系统。在以上研究的基础上,本文开发完成了一个面向网络舆情的主题爬虫系统,用该系统对部分网络的舆情信息进行爬取,结果表明:本系统在主题舆情获取上取得了良好的效果。
其他文献
鉴于逐点色域映射在图像细节保持方面及空间色域映射在光晕抑制方面的缺陷,本文利用自引导滤波在图像细节提取和光晕抑制方面的特性,提出了一种既能有效保护图像细节又能消除滤波光晕的空间色域映射算法框架.详细分析了引导滤波参数对映射图像细节再现的影响,进而确定了算法框架中的最佳滤波参数设置,还针对分层映射的特点修正了框架中的CUSP和HpMinDE逐点色域裁剪算子.评价实验证明:新算法无论在图像偏好性还是复
在现代企业管理中,绩效管理对人力资源管理水平起到决定作用,在人力资源管理中占据重要地位。本文通过量化职能部门目标的"4321量化法",提出"量化考核指标"的解决思路,并确定
本文研究了高速宽带自适应调制解调器系统中的载波同步、信噪比估计、帧同步检测、自适应门限等关键算法.提出了宽带自适应调制解调器的总体结构和硬件实现方案,改进了载波频
为进一步提高配准算法的鲁棒性、速度及自适应程度,提出了一种基于对比度Harris的快速鲁棒图像配准算法.依据中心像素与其邻域像素灰度值差异计算分块图像对比度,自适应地确定其角点检测的阈值,并通过灰度相似性剔除伪角点;在构建的尺度空间中检测角点,解决了Harris算法需凭经验手动设定阈值,所提取的角点分布不均匀,对尺度敏感且含有伪角点的问题;采用斜率和距离约束剔除粗匹配后的部分误配准点对,再通过随机
本文首先对财务共享的主要概念进行了深入的分析,然后探究了财务共享中心对共享财务管理造成的多种影响,接着提出了多种行之有效的优化共享财务管理质量的有效对策,希望能对
S省是我国优质烟叶重要产区,在行业组建初期,烟叶产区为了发展烟叶,较早引进了大批高学历人才,其中包括不少专业技术人员,烟叶产区的人才队伍基础较好。为规范指导全省专业技
本研究以中龄PR107和热研7-33-97橡胶树为研究对象,设割胶前1、2、3、4、5 d涂施乙烯利的5个刺激时间处理,比较不同处理的胶乳产量;以d4(4天1刀)割制为对照,中龄PR107和热研7
文章基于我国东中西三大区域25家农村商业银行2011—2015年面板数据,以异质性随机前沿模型为基础,定量测度了我国农村商业银行的经营效率。在此基础上,又进一步利用面板Tobit
《中华人民共和国义务教育法》(以下简称《义务教育法》)规定了义务教育阶段学生免试入学、就近入学等学区划分原则,但是它并没有具体规定怎样来贯彻实施这些原则。在我国中
新的历史起点下,在单位管理方面,重点是要抓好财务管理,充分评估并解决财务管理风险,提升单位运营效率,确保资金合理高效利用。本文就单位财务管理的重要性予以阐述,指出当前