基于URL及上下文的主题网络爬虫研究

被引量 : 0次 | 上传用户:cooltom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的发展,互联网己经成为世界上最大的信息资源库,通用搜索引擎如百度浏览器、谷歌浏览器等可以通过关键词查询返回大量与关键词相关的结果,能够满足大部分用户的查询需求。但是对于少数用户,他们仅仅对某一个行业或领域的信息感兴趣,所以他们希望搜索引擎仅仅返回自己感兴趣的信息。为了获得与某一个行业或者领域有关的信息,利用主题爬虫算法对通用搜索引擎进行改进。论文中应用实体分析、网络结构分析并加以算法上的改进,提出了基于URL及上下文的主题爬虫算法,本算法对主题进行了实体分析,根据中文同义词词库将主题描述词进行扩展,作为主题相关度分析算法的输入。同时本算法将网页分成若干个信息块,在网络结构与文本内容两个方面分析每个信息块中的链接及本文内容,根据信息块中主题描述词的词频和权重信息得出该链接在文本内容方面的评分。如果评分大于设定的阈值,则将该链接认为是与主题相关的,否则与主题不相关。实验结果充分说明本论文提出的基于URL及上下文的主题爬虫可以实现很好的搜索效果。本文主要包括以下几个研究内容:1.在查询时,为了提高查询速度使用高性能的全文检索工具Lucene.Net,将网页内容中的链接、锚文本、上下文信息等内容创建索引,实现索引搜索。创建索引虽然会消耗一定的时间,但是创建索引通常在后台进行,而且索引创建之后可以重复利用,具有一劳永逸的作用。2.本文在实现中文分词时,通过比较Lucene.Net提供的各种分词方法和盘古中文分词,最终选择使用盘古分词。为了实现良好的分词效果,文中仔细研宄了最新版本的盘古分词工具包与其它版本的差异性。3.在计算主题相关度时,使用向量空间模型,计算余弦相似度结果作为相关度评分,如果评分大于设定的阈值则认为是相关的,否则认为是不相关的。
其他文献
期刊
姓名:张茜导师:卢宝祥专业:教育经济与管理方向:教育管理年级:2011级中小学教育是我国学校教育的基础,发展中小学教育对于提升我国整体的教育水平,保持国家繁荣稳定发展具有重要的
目的探讨不同情况下应用胸大肌肌皮瓣(PMF)修复下咽颈食管区域重要和复合缺损的方法和可行性。方法采用PMF单独或联合其他修复方法,结合对修复方法的改良,采用不同方式修复晚
现阶段,学校教育愈加重要,各项要求逐渐提高,不同学校发展更具自身特色,国家统一开设的课程,已经不能完全满足当下发展。在新课程改革持续不断地推进下,校本课程作为国家课程的重要
目的:将竞争风险模型应用于阿尔茨海默病(Alzheimer’s disease, AD)转归研究中,深入分析影响非AD向AD转归中的因素,为老年人AD预防和早期干预提供理论依据;并通过竞争风险模型与Ka
宝库河是世界第三大高原水库黑泉水库的主要水源供应河,而黑泉水库是青海省省会西宁市的主要水源地,负责60%的城市供水。因此,该地区的生态安全对西宁市社会经济的健康发展具
藏族是以勤劳、智慧、朴质、强悍著称的古老民族,是中华民族大家庭中优秀的成员。其文化艺术源远流长、博大精深、成就卓越、举世瞩目。这个伟大的雪域民族,在千百余年传承中,形
研究背景:近年来糖尿病的发病率和患病率逐渐上升,已经成为全球严重的公共卫生问题,糖尿病的发病机制主要包括胰岛β细胞死亡和外周胰岛素抵抗。胰岛素信号传导异常是胰岛素抵抗
本文是在《英语教学成功之道》第一章和第十二章翻译实践基础上完成的翻译项目报告。该书第一章阐述了英语教学的基本原理和必须注意的关键问题;第十二章回顾了英语教学的发展
支遁是东晋时期玄学的领袖人物,身兼名僧与名士双重身份。其般若学思想列于当时般若学术前沿,其玄学思想高冠群雄,其诗文堪称玄言诗的典型。本论文以三章论其生平、思想及诗文,旨