基于Web的网络搜索技术研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:nfx0123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的急剧膨胀,面对用户无法正确找寻所需网络资源的困境,搜索引擎为用户提供了便利的网络信息检索条件,成为现代信息获取的重要手段之一。面向不同用户的智能网络搜索技术结合了搜索引擎的各种特性,并能够根据用户需求、总结其不同的浏览行为,为用户提供良好的个性化网络搜索服务,具有良好的应用前景。 本文首先介绍了搜索引擎的历史和现状,以及所需的技术指标和发展趋势。随后按照一般网络搜索技术的流程,即网页搜索技术、网页分析技术和网页检索技术,组织全文。并分别对这三个阶段的一般性技术和面向用户的个性化技术进行了详细研究和全面的描述。 网页信息收集阶段首先描述了搜索引擎中网页收集的几种方式,并讨论了全文搜索引擎使用爬虫进行网页收集的技术特点。在该章中,本文着重描述了面向主题的网页信息收集技术,包括一个主题爬虫的系统模型、网页爬取超链接预测、网页下载分析、主题hub网页的发现和对收集到的网页在主题上的质量控制。 网页分析阶段综合了一整套网页内容识别和语义信息提取技术,是数据挖掘在网络资源上的典型应用。这章包括了使用正则匹配识别网页源代码中的内容、网页预处理、网页特征项提取和量化,倒排文件的建立,和对具有相似内容的网页进行消重。 网页检索阶段首先介绍了信息检索的定义和经典的网页排序算法PageRank和HITS,随后描述了智能在线Rss阅读器的内部核心对象和模型建立流程。最后简单描述了系统检索和排序功能。
其他文献
基于.NET框架和COBOL 2002语言标准,设计并实现了COBOL 2002集成开发环境(IDE)。研究了.NET的内存管理,编译模型,VSIP等相关的基本理论知识,提出了基于.NET框架的COBOL 2002集成
近年来,Web服务技术以其标准化协议和低耦合的优点得到快速发展,但是随着越来越多的企业和组织在各自的系统上部署和应用Web服务,不同组织的Web服务之间如何有效地进行信息共享
嵌入式RFID图书管理系统加速了流通处理的速度。RFID阅读器通过非接触方式采集信息,可同时读取多个RFID标签。这就意味着在进行借入或者借出处理过程中几本书籍可以同时处理,读
为了支持区域软件企业的相互交流、协作与信息共享,作者受委托开发了软件公共技术支撑平台系统。该平台基于Internet运行,具有信息收集、发布、检索、资源共享、技术交流与协
随着网络的发展,数字化信息迅速增加,人们对中文信息的处理也越来越关注,同时,现代汉语信息的处理和研究也显得尤为重要,计算机自动分词是现代汉语信息处理的重要组成部分,也是基础
生物特征识别 (Biometrics)技术是依靠人类自身所固有的生理或行为特征进行身份验证,它是一种崭新的身份识别技术,在金融、国防、信息安全等领域有着广泛的应用前景。如虹膜识
GIS的主要特点是空间的分布性、开放性、灵活性。从GIS本身的构成来看,数据的组织和计算模型支持下的软件的架构是其两个重要的方面,并决定了GIS的发展趋势。数据的分布性和软
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点
远程教学直播系统是现代远程教育的基础平台,它能够实时采集教师授课时的屏幕图像、视频和音频数据,通过压缩后实时向远程直播,从而实现远程实时课堂。实现流媒体数据的高效
无线传感器网络是新兴的下一代传感器网络,其应用范围十分广泛,它可以应用在民事及军事各方面,尤其可以应用在环境比较恶劣的场所,所以这方面的研究十分有意义。目前的研究对技术