网络蜘蛛垂直搜索算法的改进与实现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:liongliong487
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络蜘蛛在垂直搜索引擎中占据着重要的地位,它的搜索算法是垂直搜索引擎的核心技术,基于何种策略的搜索算法才能得到更高的搜索回报率是近几年网络蜘蛛研究的热点问题。本文对网络蜘蛛垂直搜索算法进行了改进与实现。本文研究了网络蜘蛛的通用搜索算法和几种垂直搜索策略,分析了现有启发式搜索算法的优缺点,改进了垂直搜索算法,设计并实现了一个基于改进后的算法的网络蜘蛛,对手机行业网站作了垂直搜索实践。对算法的改进主要体现在以下三个方面。第一,通过对大量网页源文件的分析给出了一个新的链接价值估计的方法,并给出了一个经验公式。第二,把阈值的估计和ε——贪婪策略结合起来,使链接的选择序列优化,从而得到更高的搜索回报率。第三,巧用MD5算法把url映射成两个数,使判断任意两个url是否相同的比较次数小于等于2。对基于改进后的搜索算法的网络蜘蛛进行用例设计和类设计,然后阐述了网络蜘蛛的实现细节。实现部分的说明包括三个部分,分别是程序的初始化,抓取网页和程序结束。通过对手机行业网站的垂直搜索实践,证明了新的链接价值的估计方法可以提高链接价值预测的正确性,把阈值的估计和ε——贪婪策略结合起来选择链接可以提高搜索的回报率,把链接用MD5算法映射成两个数可以提高搜索的效率。
其他文献
<正>本文作者列举了美国大幅面印刷营销方式,希望对读者有所启示。在印刷这个领域我们常常谈及工序、谈及印刷工艺、谈及整饰、甚至会谈及印前技术,但我们总是对宽幅印刷及特
西山煤电集团屯兰矿在施工12505轨道顺槽过断层带时,采用棚式支护与施工锚索圆钢托架对施工巷道顶板及采空区侧煤壁进行加强支护,有效控制了施工巷道过断层带时顶板破碎、离
<正>品牌是消费者对企业产品、营销行为、销售服务、文化价值的认知与评价,是消费者对企业产生信任,并能够为企业带来溢价、产生增值的一种无形资产。对于运营商而言,品牌资
例1.患者男,54岁,公务员,因颈部肤色丘疹渐增多5年余2013年10月5日就诊。患者5年前发现颈部出现肤色丘疹,无瘙痒、疼痛、麻木等不适,未治疗,日晒后皮疹逐渐增多,面积渐扩大,
分析了反竞争情报方法的原理,主要通过控制信息的意外泄露以及信息的授权发布从而达到反竞争情报的目的,从管理手段、技术手段和法律手段3个方面对常规反竞争情报方法进行了
《牡丹亭》的主旨是在叙述人的生命需要 ,即自然的需要和社会的需要
高校研究手机媒体对95后大学生思政教育的影响,有利于高校思政教育工作者正确认识手机新媒体,科学使用手机媒体,使其积极影响充分发挥,并降低手机媒体带来的消极影响。针对95
利用无网格有限点法求解带源参数的二维热传导反问题,推导了相应的离散方程.与其它基于网格的方法相比,有限点法采用移动最小二乘法构造形函数,只需要节点信息,不需要划分网
通过肠内菌代谢地奥心血康,寻找和发现新的有活性的代谢产物。对地奥心血康胶囊内容物进行厌氧代谢,并用薄层色谱法检测代谢产物,确定代谢产生的新物质。以乙酸乙酯∶石油醚(
随着卫星导航系统广播星历和钟差参数的精度提升,下行导航信号伪距测量误差对于用户定位授时精度的提升益发显著。由于独特的卫星星座和系统体制,北斗二号卫星伪距测量与仰角