支持向量机在化学主题爬虫中的应用

来源 :计算机与应用化学 | 被引量 : 0次 | 上传用户:xxuhhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
爬虫是搜索引擎的重要组成部分,它沿着网页中的超链接自动爬行,搜集各种资源。为了提高对特定主题资源的采集效率,文本分类技术被用来指导爬虫的爬行。本文把基于支持向量机的文本自动分类技术应用到化学主题爬虫中,通过SVM 分类器对爬行的网页进行打分,用于指导它爬行化学相关网页。通过与基于广度优先算法的非主题爬虫和基于关键词匹配算法的主题爬虫的比较,表明基于SVM分类器的主题爬虫能有效地提高针对化学Web资源的采集效率。 Crawlers, an important part of search engines, crawl automatically along hyperlinks on web pages to gather resources. In order to improve the efficiency of collection of resources on a specific topic, text classification technology is used to guide the reptiles crawling. This paper applies SVM-based text automatic classification technology to chemical subject crawler, and scans the crawling webpage by SVM classifier to guide it to crawl the chemistry related webpage. The comparison with the theme crawler based on the breadth-first algorithm based on the breadth-first algorithm and the keyword matching algorithm shows that the theme crawler based on the SVM classifier can effectively improve the collection efficiency for the chemical Web resources.
其他文献
颌骨中央性血管瘤是一种较少见的颌骨内血管异常增生的良性血管瘤,主要见于青少年,好发部位在下颌骨,早期并无明显的症状体征,隐蔽性强,常因外伤或者是拔牙造成大出血而危及
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
通过对冬、春青稞,冬、青小麦代表品种的分蘖成穗,幼穗分化,籽粒灌浆规律和产量因于构成特点连续四年的系统观察、比较,分析明确了冬青课的增产机理.证实:(1)苗期持续时间长,
利用半经验量子化学PM3方法计算了106个HEPT类化合物的优势构象以及物理化学和电子结构等参数,讨论了该类化合物的这些参数对HIV-1逆转录酶抑制剂活性的影响,利用穷举回归、
2011年4月12日,《福建日报》第14版有《王国瑞:正阳门外琉璃厂衣锦坊前南后街》一文,文中写道:“杨时,将乐县人,与崇安游酢(zuo)同为‘洛学’著名的理学家……杨时又与游酢向
目的:探讨动脉粥样硬化性脑梗死(简称脑梗死,cerebralinfarction,CI)患者中血清脂联素(adiponectin)的变化规律,及其与脑梗死的相关性,以期寻找adiponectin在脑梗死发病中的作用
余晋琳对于摄影的爱好来自家承,其父是我省知名摄影家余勤。也许是与摄影宿命般的因缘,余晋琳毕业之后选择的职业也是摄影。工作近17年,他的生活与相机连为一体,他的摄影技术
目的:基质金属蛋白酶的含量和活性在脑缺血和缺血再灌注、脑动脉瘤形成、颈动脉斑块、脑动静脉畸形等病理状态下明显增高,提示该蛋白酶与脑血管疾病的发生关系密切。而在这其中
脊柱血管瘤是一种错构瘤,是良性肿瘤。大多数患者无症状,是进行脊柱影像学检查时偶然发现的。其发病部位一般以胸椎多见,其次为腰椎、颈椎、骶椎。本病常见于40岁左右的中年
课题一:基于书写动作的定量化上肢运动功能评价研究  第一部分、基于书写动作的定量化上肢运动功能评价法在正常人群中的应用研究  背景:上肢运动功能评价可为神经系统疾