搜索引擎中排序算法的研究

来源 :中国农业大学 | 被引量 : 0次 | 上传用户:FLASH920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对目前面向农业信息的搜索引擎少,农业信息特定的搜索引擎服务还不健全,已有的农业信息搜索引擎建立的资源索引库针对性不强,Web页面排序方法单一等问题,根据农业信息多、广、散的特点,结合面向农业信息搜索引擎的不足之处,对搜索引擎的排序算法和相关技术进行了研究。 本文根据对深度优先和广度优先两种搜索算法优缺点的比较和研究,提出了在面向农业领域的搜索引擎中使用广度优先和深度优先相结合的搜索算法。首先,使用广度优先搜索算法获取了相关度高的主节点,排除了大量相关度低的节点,高度过滤和优化了信息来源。接着,对每个主节点使用深度优先算法进行深度搜索。 本文着重研究了Web页面相关度排序算法和Web页面整体排序算法。综合考虑了用户需求和农业信息的特点,提出了将Web页面的相关度和PageRank值采用加权求和的方法相结合。经过对比研究和反复取点测试得出,相关度的权值范围在0.7-0.8,PangeRank权值范围在0.3-0.2时,可以得到满意的排序结果。 本文还研究了与Web页面排序算法紧密相关的Web页面索引技术和检索技术,并就如何对海量信息进行有效的组织和压缩,以减少存储空间,提高检索效率进行了深入探讨。 基于以上的研究本文实现了一个农业信息搜索引擎的原型系统,在原型系统之上进行了农业信息搜索测试,并对排序结果进行了分析比较,得到了较好的预期结果。进一步验证了本文研究的排序算法,应用在农业信息搜索引擎中是合理和优化的。
其他文献
如何让计算机理解并处理人类语言是人工智能领域的长盛不衰的研究课题。使用自然语言与具有人工智能的计算机交互常被称为自然语言处理(NLP)。自然语言处理在我们日常生活中
EAI的目标是集成不同的应用系统,使决策者、员工和商业伙伴能够方便的访问本企业及其客户的信息,而不管它们存储于哪个系统中。传统企业应用集成技术以及RMI、CORBA、DCOM等分
随着互联网的迅猛发展,网络安全威胁日益增长,网络攻击的破坏性愈发严重,单纯的防火墙无法防范复杂多变的攻击,入侵检测技术应运而生。网络的入侵检测系统NIDS是入侵检测系统IDS
随着互连网技术和电子商务的迅猛发展,Internet正在前所未有地改变着我们的生活。越来越多的商品交易和服务通过Web来进行,如何更好地适应市场的变化、更好地为顾客服务成为各
随着计算技术的发展,特别是量子计算机的出现,攻击能力大幅度增强,现有基于数学困难问题的密钥体系受到了严重的威胁。物理层安全是基于信息论安全的,可以保证会话的密钥的更
Sun Microsystems公司顺应Internet和网络技术的不断发展的需求,提出了J2EE并成为标准。Java语言走进企业级应用领域的同时,人们也对安全技术提出了新的要求。一些国际大型软
集成了传感器、嵌入式计算、网络和无线通信四大技术而形成的无线传感器网络是一种全新的信息获取和处理技术,它是一种新型的无基础设施的无线网络,能够协作地实时监测、感知
本文以北京市教委科技发展计划项目“基于定量分析的软件工程监理方法学研究”和“信息工程监理协同工作平台”为背景1,以实现信息工程监理协同工作平台的研发为目的,在借鉴建
移动自组网是一种不依赖于固定基础设施的自组织无线网络,它组网方便、快捷,不受时间和空间的约束,可以在缺少传统网络设施的地区迅速展开,适用于战地部署、抢险救灾等场合。
自适应站点的理论能够解决网络信息泛滥和服务缺乏个性化的问题,是网络服务更高层次的发展目标,因此如何能够建立智能自动的适应用户各种需求的Web站点成为当前的研究热点。