论文部分内容阅读
近几年,因食品接触材料含有有害物质而引发的安全事件,屡屡敲击着公众敏感的神经,采用主题爬虫技术收集网络中的有关信息以对食品接触材料安全网络舆情进行监测有着十分重要的意义。本文依据《食品接触材料及制品用添加剂分类管理系统》实际课题,重点研究设计了面向特定主题的爬虫系统。通过阅读大量文献资料,对目前主题爬虫中相关技术的研究进行分析总结,发现传统主题爬虫的研究中存在两个主要的问题:1)有关初始种子选取的研究尚缺;2)主题爬行策略的准确率和召回率依然有待提升。针对上述存在的问题,本文提出新的解决方案,并在此基础上对系统的各个关键模块进行设计实现。最后,通过相关实验以及系统的运行结果验证了本文所提技术的有效性。论文主要的贡献如下:(1)提出了基于HITS算法的初始种子选取算法。本文利用HITS算法计算网页权威度和中心度,然后综合两者定义了候选种子的质量度量公式,选取高质量的链接作为种子。但是原HITS算法易出现“主题漂移”问题,本文改进了该算法中的基础网页集扩展过程,剔除无效链接并对链接进行主题价值评价,使得扩展中得到的链接都是较好的,在此基础上得到的计算结果会比较可信。本文最终的系统采集结果证明了该算法选取的种子比较有效。(2)针对传统的基于概念背景图的主题爬虫的不足,提出了基于综合价值的概念背景图的主题爬行策略。首先,依据形式概念分析相关理论,从主题背景中抽取概念构建格模型,再根据概念间的语义相似度将此概念格转换成概念背景图,用于存储用户查询意向。同时,本文改进了虚拟形式概念匹配算法,更快更准确的计算页面主题相似度,并综合父网页,锚文本,链接上下文以及URL,定义链接主题价值预测公式,用于决定链接的访问优先级。最后实验结果表明该策略比传统的基于概念背景图的主题爬虫具有优势,爬行效率和准确率都有显著提升。(3)使用Java语言基于WebMagic框架设计实现了爬虫系统。本文对爬虫系统的各个关键模块进行设计,主要包括初始种子选取模块,概念背景图构建模块,主题爬行模块等,并给出数据库设计方案。本文设计的爬虫系统结构具有通用性,创新性的将初始种子选取,主题基准构建与主题爬行相集成,大大减少人工操作。最后,对系统的运行结果进行评价,显示本文提出的策略有效提高了主题爬虫的效率和准确度,并且成功应用于实际项目中。