Web数据的深度定向采集

来源 :山东大学学报(理学版) | 被引量 : 0次 | 上传用户:kensenwey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过模拟人类访问网页的浏览行为,提取定向爬行子页面集限定爬虫的爬行方向;引入页面继承关系,并通过爬行条目的属性继承实现跨页面复合对象的数据关联关系;设计实现了支持深度定向采集的通用爬行流程。面向天涯热帖的舆情采集实验结果表明:该方法可以在整体处理流程不变的前提下,实现复杂对象的数据采集,并具有较高的采集效率。 By simulating the browsing behavior of the human visited webpage, the crawling direction of the limited crawler is extracted from the crawling sub-page set. The page inheritance relationship is introduced, and the data association of the cross-page composite object is inherited through the properties of the crawling item. Universal crawling process. The result of public opinion collecting experiment for the End of the World hot posts shows that this method can realize the data acquisition of complex objects and has high collection efficiency under the premise of the same processing flow.
其他文献
烟草次韵恒仁①异俗谁传遍四垂,纷纷如苦胜含饴.为贪云雾生衣细②,不籍壶觞留客迟.银管几燃浑致醉,乌丝一缕欲忘饥.韩公爱酒难兼得,笑煞沉吟去取时③.[注释]①恒仁,乾隆时代
2000年2月,北京市朝阳区望京新城南湖中园小学创建。短短十年间,学校以鲜明的办学特色赢得了学生、家长的信任和良好的社会声誉。学校现任校长沈颖在前两任校长倡导的“微笑
讨论背景:集团公司开展的“春节友(邮脉心享事成”品牌推广活动总结评估报告近日出炉了,此次活动收到了很好的效果。达到了预期目的。据了解。为充分利用春节这一重要时间节
用科学的历史观点,写成的「武训历史调查记」,是一面清楚明晰的镜子,我读了再读,照了再照,就越感到自己的愚钝和落伍。我是学农业的,当过中学教师、大学副教授,曾创办过私立
当人们来到鄂西历史名城当阳县时,立即会产生怀古之情。三国时代的英雄好汉曾经在这里留下许多故事。赵子龙长板坡单骑救主,张冀德当阳桥头一声吼,喝退曹操百万兵,这些脍炙
As a result of the wide industrial development as well as extensive construction of the public highways and the consequent demand of motor-car gasoline,the petr
2013年12月29日,由天则经济研究所、北京工业大学耿丹学院、浙江大学科斯思想研究中心和华南农业大学经管学院主办;《学术界》杂志、《制度经济学研究》杂志、FT中文网协办的
The probability of a radiologist interpreting a disease correctly is not only influenced by their training and experience but also on the knowledge of a particu
《经济大辞典·会计卷》首次编辑工作会议,4月19日至28日在陕西省咸阳市陕西彩色显象管厂举行。主编杨纪琬、娄尔行教授主持了会议,参加会议的有付主编赵玉珉、葛家澍、余绪
中國科學院單是各研究所的同志到革大政治研究院學習的已有三十三人,進華北華大二部的,尚有十六人,分編在第八班七個小組。(只馮家昇同志編在第五班)八班編制,每組學員十七