面向食品接触材料安全的爬虫系统设计与实现

来源 :东华大学 | 被引量 : 3次 | 上传用户:huwei00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,因食品接触材料含有有害物质而引发的安全事件,屡屡敲击着公众敏感的神经,采用主题爬虫技术收集网络中的有关信息以对食品接触材料安全网络舆情进行监测有着十分重要的意义。本文依据《食品接触材料及制品用添加剂分类管理系统》实际课题,重点研究设计了面向特定主题的爬虫系统。通过阅读大量文献资料,对目前主题爬虫中相关技术的研究进行分析总结,发现传统主题爬虫的研究中存在两个主要的问题:1)有关初始种子选取的研究尚缺;2)主题爬行策略的准确率和召回率依然有待提升。针对上述存在的问题,本文提出新的解决方案,并在此基础上对系统的各个关键模块进行设计实现。最后,通过相关实验以及系统的运行结果验证了本文所提技术的有效性。论文主要的贡献如下:(1)提出了基于HITS算法的初始种子选取算法。本文利用HITS算法计算网页权威度和中心度,然后综合两者定义了候选种子的质量度量公式,选取高质量的链接作为种子。但是原HITS算法易出现“主题漂移”问题,本文改进了该算法中的基础网页集扩展过程,剔除无效链接并对链接进行主题价值评价,使得扩展中得到的链接都是较好的,在此基础上得到的计算结果会比较可信。本文最终的系统采集结果证明了该算法选取的种子比较有效。(2)针对传统的基于概念背景图的主题爬虫的不足,提出了基于综合价值的概念背景图的主题爬行策略。首先,依据形式概念分析相关理论,从主题背景中抽取概念构建格模型,再根据概念间的语义相似度将此概念格转换成概念背景图,用于存储用户查询意向。同时,本文改进了虚拟形式概念匹配算法,更快更准确的计算页面主题相似度,并综合父网页,锚文本,链接上下文以及URL,定义链接主题价值预测公式,用于决定链接的访问优先级。最后实验结果表明该策略比传统的基于概念背景图的主题爬虫具有优势,爬行效率和准确率都有显著提升。(3)使用Java语言基于WebMagic框架设计实现了爬虫系统。本文对爬虫系统的各个关键模块进行设计,主要包括初始种子选取模块,概念背景图构建模块,主题爬行模块等,并给出数据库设计方案。本文设计的爬虫系统结构具有通用性,创新性的将初始种子选取,主题基准构建与主题爬行相集成,大大减少人工操作。最后,对系统的运行结果进行评价,显示本文提出的策略有效提高了主题爬虫的效率和准确度,并且成功应用于实际项目中。
其他文献
地方文献是一种特殊的文献信息资源,是地域文化的重要组成部分。在探讨地域文化及地方文献范围及特征的基础上,结合图书馆地方文献工作的具体实践,阐述了地域文化与地方文献
介绍了两种稀土元素掺杂的氧化锆(ZrO2)材料:氧化铈(CeO2)掺杂ZrO2和氧化钪(Sc2O3)掺杂ZrO2.CeO2掺杂ZrO2材料的研究重点是温度和氧分压对其氧空位形成的影响,以及由此带来的
重访一3维阶段构造模型,它的两种群持久和一种群或者两种群灭绝的必要充分条件先前已经得到.通过使用中心流型定理,证明这个系统的非负平衡点在临界状态a=b+ce时也是局部渐近
采用树脂吸附法处理对硝基酚纳生产过程中的工业废水。选择 H-103树脂进行了工艺条件试验,取得了良好的效果,吸附率>99.9%,工作吸附量达160~250mg/ml 湿树脂。CODcr值去除率在
目的:本研究旨在探讨情感型、认知型和综合型三种不同类型述情障碍的团体辅导对中学生述情障碍者心理健康的干预效果。方法:根据多伦多述情障碍量表的得分进行聚类分析,在中
利用 A p 权性质及分析中的不等式,得到 Bochner‐Riesz算子 T n-12 R及由BMO(Rn )函数 b(x)和 TδR (δ≥ n-12)生成的交换子在加权共合空间(Lqω,Lp )α(Rn )上的有界性,其中1< q≤α< p≤∞
用T1-59可编程序计算器计算多产品单金属的理论回收率是可行的,速度快,易于生产上推广应用。
为探讨煤矸石骨料钢筋混凝土应用于建筑结构的可行性,对煤矸石骨料钢筋混凝土柱的抗震性能进行了基础实验研究,试验结果表明:①在反复荷载作用下,柱结构轴压比较小时的破坏形态为