论文部分内容阅读
GoogIe是我最喜欢的搜索引擎,我被Google的精神而折服,被Google的文化而感染,是Google的超级粉丝之一。今天看了一些东西。与Google的爱好者,以及想了解Google的人分享一下。Google,真不愧为世界最强的搜索引擎。下文是Google搜索引擎在网民搜索时的服务过程。
搜索框
一切以任何人在网络上展开搜索为起点。任何关键词,比如:计算机应用文摘。
域名服务器
Google域名服务器上的软件,运行于公司在全世界租用的或自有的数据中心上,其中包括在曼哈顿老港务局的一台电脑。它们惟一的目的,是计算出哪些集群此刻最不繁忙,然后尽可能高效地“指引”这些搜索请求进入这些Google集群。
集群
这些搜索请求会一刻不停地流入Google分布在全球的各地数据中心的至少200个集群中。Google的技术优势之一就体现在它的网络软件上,它的集群控制器能帮助一个集群中的成千上万台廉价的电脑像一台巨型电脑一样工作。Google可以在不停止整个集群运转的情况下替换某台廉价的电脑:如果一台电脑死机了,至少有两台其他的电脑做好了替代它的准备。
网络服务器
这个程序把—个查询分摊给成千上万台机器,以便它们能在同一时刻为此次搜索服务这种差异好比以前是你自己一个人去杂货店买东西,现在有100个人同时帮你找东西,然后把它扔到你的手推车里。
索引服务器
Google所收录的一切都存储于一个巨大的数据库中。Google有上百台电脑同时扫描它的“卡片目录”以找到每一个相关的条目,而不是仅用一台电脑筛选这些十几亿的字节。热门的搜索词语会被缓存在内存中几个小时,而不是重新再搜索一遍。
档案服务器
在索引服务器把所有的结果汇编整理后,档案服务器开始提取所有相关的文件——巨大的数据库里的链接和文章摘录。Google其实不是在互联网上即时帮用户搜索页面,它派遣的无数搜索机器人已经将许多网页的数据采集回家,保存在Google已经建立了索引的档案服务器中。这些资料都已经分门别类,做好了被使用的准备。
容量:基于一些Google发布的极有限的数据,专家猜测,Google服务器至少存储了20个Perabytes的数据(1Pb等于100万Gb)。不那么保守的《连线》杂志则说,Google可能有200个Pb的容量。如果你的iPod有lPerabytes的存储空间,你就能存储大约2亿首歌。如果你要在高速互联网上下载1Perabyte大小的东西,你的曾曾曾曾孙可能在2514年时仍守在电脑旁边。
拼写服务器
Google并不阅读词汇,但它会分析词汇。如果它根据你的搜索请求得到1000个结果,但—个的类似搜索请求却能够得到—百万个结果,它会将两者联系起来,并礼貌地询问你是否原本想要查询这些词语——如果你的肥手指可能把“对冲基金”错打成“对葱基金”。
广告服务器
每一个查询都会同时进入一个广告数据库,与此查询词相匹配的广告数据会被送至页面服务器,以便它们能出现在搜索结果显示页。广告团队在跟搜索团队赛跑——如果广告匹配的结果所花费的时间比搜索结果用时更长,它就不会呈现在搜索结果页面上,Google也就无法在此项搜索上赚到钱。
页面生成器
Google的页面服务器的任务,就是将某一项查询的成千上万次搜索结果收集起来,组织所有的数据,然后把这些精简的搜索结果根据Googk的排序算法呈现在你浏览器的窗口中,整个过程比你读这句话所花的时间还要短。
显示搜索结果
热门词的搜索一般在0.25秒内完成,甚至更短。
搜索框
一切以任何人在网络上展开搜索为起点。任何关键词,比如:计算机应用文摘。
域名服务器
Google域名服务器上的软件,运行于公司在全世界租用的或自有的数据中心上,其中包括在曼哈顿老港务局的一台电脑。它们惟一的目的,是计算出哪些集群此刻最不繁忙,然后尽可能高效地“指引”这些搜索请求进入这些Google集群。
集群
这些搜索请求会一刻不停地流入Google分布在全球的各地数据中心的至少200个集群中。Google的技术优势之一就体现在它的网络软件上,它的集群控制器能帮助一个集群中的成千上万台廉价的电脑像一台巨型电脑一样工作。Google可以在不停止整个集群运转的情况下替换某台廉价的电脑:如果一台电脑死机了,至少有两台其他的电脑做好了替代它的准备。
网络服务器
这个程序把—个查询分摊给成千上万台机器,以便它们能在同一时刻为此次搜索服务这种差异好比以前是你自己一个人去杂货店买东西,现在有100个人同时帮你找东西,然后把它扔到你的手推车里。
索引服务器
Google所收录的一切都存储于一个巨大的数据库中。Google有上百台电脑同时扫描它的“卡片目录”以找到每一个相关的条目,而不是仅用一台电脑筛选这些十几亿的字节。热门的搜索词语会被缓存在内存中几个小时,而不是重新再搜索一遍。
档案服务器
在索引服务器把所有的结果汇编整理后,档案服务器开始提取所有相关的文件——巨大的数据库里的链接和文章摘录。Google其实不是在互联网上即时帮用户搜索页面,它派遣的无数搜索机器人已经将许多网页的数据采集回家,保存在Google已经建立了索引的档案服务器中。这些资料都已经分门别类,做好了被使用的准备。
容量:基于一些Google发布的极有限的数据,专家猜测,Google服务器至少存储了20个Perabytes的数据(1Pb等于100万Gb)。不那么保守的《连线》杂志则说,Google可能有200个Pb的容量。如果你的iPod有lPerabytes的存储空间,你就能存储大约2亿首歌。如果你要在高速互联网上下载1Perabyte大小的东西,你的曾曾曾曾孙可能在2514年时仍守在电脑旁边。
拼写服务器
Google并不阅读词汇,但它会分析词汇。如果它根据你的搜索请求得到1000个结果,但—个的类似搜索请求却能够得到—百万个结果,它会将两者联系起来,并礼貌地询问你是否原本想要查询这些词语——如果你的肥手指可能把“对冲基金”错打成“对葱基金”。
广告服务器
每一个查询都会同时进入一个广告数据库,与此查询词相匹配的广告数据会被送至页面服务器,以便它们能出现在搜索结果显示页。广告团队在跟搜索团队赛跑——如果广告匹配的结果所花费的时间比搜索结果用时更长,它就不会呈现在搜索结果页面上,Google也就无法在此项搜索上赚到钱。
页面生成器
Google的页面服务器的任务,就是将某一项查询的成千上万次搜索结果收集起来,组织所有的数据,然后把这些精简的搜索结果根据Googk的排序算法呈现在你浏览器的窗口中,整个过程比你读这句话所花的时间还要短。
显示搜索结果
热门词的搜索一般在0.25秒内完成,甚至更短。