搜索引擎Google的体系结构及其核心技术研究

来源 :哈尔滨商业大学学报(自然科学版) | 被引量 : 0次 | 上传用户:sysu_allan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率. Google has built a complex architecture using techniques such as parallelism, index buckets, data compression, and PageRank algorithms, including a crawler crawler, repository Repository, indexing system (including indexer, bucket barrels, file indexing, etc.) Sequencer Sorter and Searcher Searcher five parts.Google’s rank system integrates the word frequency, type, proximity, page importance, etc. One of the most noteworthy is the PageRank algorithm that calculates the importance of web pages, The reference theory applied to the Web, that is, a web page has a lot of pages pointing to it, or some important pages point to it, then this page is very important .PageRank algorithm greatly improves the search efficiency.
其他文献
文中基于超稳定性理论,对中远程导弹舵伺服系统提出了一种自适应设计方法;给出了全数字仿真结果,并对其进行了简要的分析,提出了进行一定改进的方法.
冠状动脉慢性全梗阻(CTO)是指梗阻3个月以上,冠状动脉造影时TIMI分级为0或1级的病变.胶原酶的主要作用是降解基质中的胶原纤维.CTO瘢块的主要组成成分之一是胶原纤维,是导引
介绍了华能福州电厂二期2×350 MW汽轮发电机组分散控制系统(DCS)的构成及特点:阐述了机组调试期间及投产后TXP控制系统存在的主要问题及采取的措施,使机组运行的稳定性显著
对WQ-350型桅杆起重机进行了整体有限元分析.分析发现在吊重工况下最危险截面出现在顶节下方;吊重偏心带来的附加弯矩是桅杆结构承受的最大载荷;附加弯矩导致桅杆的后背主弦
目的 调查我院外科手术患者抗生素的使用情况,分析探讨抗生素的合理应用.方法 随机抽取我院外科120例手术患者的出院病历,调查抗生素的使用情况,并将数据进行统计分析.结果
详细分析了国内外岩土振动掘削技术的发展概况及其研究应用现状,归纳和总结了岩土振动掘削技术在掘削阻力、功率消耗及施工效率等方面的研究应用成果,并对岩土振动掘削技术的
目的 探讨使用盆底功能康复+中成药补中益气丸治疗女性张力性尿失禁的治疗效果.方法 将112例中重度张力性尿失禁患者随机分为两组,每组56例,实验组使用盆底功能康复+中药2个
目的 探讨门诊小儿泪道探通术的疗效及护理效果.方法 我院自2011年7月至2012年7月收治新生儿泪囊炎患儿29例(31眼),对其行小儿泪道探通术,同时给予临床护理措施,观察治疗及护
目的观察肺部感染的临床诊疗的方法与效果。方法自我院肺部感染患者中挑出80例进行临床研究,按照年龄差距分为对照组与观察组各40例,治疗周期为两个月,采用同样的药物进行治
目的研究保留乳头乳晕复合体乳腺癌改良根治术后背阔肌肌皮瓣乳房再造安全性与美观性。方法 2005年1月-2011年4月30例早期乳腺癌,在保留乳头、乳晕改良根治术的同时进行背阔