孙云丰:一“框”打尽搜索需求

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:ztgu8p
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一“框”打尽搜索需求
  
  “搜索引擎正从一个象牙塔里的高级系统,变成人们生活中必不可缺的日常工具。5年以来,中文用户的搜索行为,并没有变得更‘高级’,更熟练,而是相反,变得更‘傻瓜’了。甚至是当年的‘高级用户’,搜索行为也慢慢地‘堕落’了。”百度首席产品设计师孙云丰甚至觉得,现在的搜索引擎所面临的状况,完全不能让人乐观。
  
  回首搜索引擎的创新之路,从表面上看,搜索引擎可以说是最简单、最简洁的,但它又是最复杂、最有深度的。10年间,搜索框还是原来那个搜索框,但其背后蕴含的技术已经发生了翻天覆地的变化。
  
  百度要“框”谁?
  
  2004年孙云丰加入百度时,百度只有4岁,那时候他甚至不知道李彦宏发明的超链分析技术,这早已成为一个百度内部广为流传的玩笑。一直从事搜索引擎相关的用户需求分析和产品设计工作的孙云丰,算得上是对用户需求了解程度最深的几个百度人之一。
  
  孙云丰对记者说:“在过去一年中,中国网民在搜索框中输入的关键字越来越长,大于16个字节的搜索比例已经达到了29%。甚至有的网民直接在搜索框中输入一个问句,比如‘身体瘦弱,性格内向,一男孩应该报考什么高职专业?’这些用户把搜索引擎当成一个活生生的人来提问。”他认为搜索引擎的作用并不是要教会人们如何使用复杂的关键字匹配技术,来达到“一击必中”的效果,而是要更聪明地去理解网民想要干什么,从而把更准确的结果提供给他。
  
  这一个看似简单的搜索请求,首先需要被拆成不同粒度的20个语义单位进行分析,要在后台经过3亿次计算来识别这个需求,并在100亿个网页资源中检索并进行需求分配,而整个过程需要在不到十分之一秒内完成。
  
  随着网民对信息获取的要求越来越高,搜索引擎正在面临新的挑战,只有追求创新、保持专注才能突破瓶颈。对此,百度在今年提出了“框计算”(Box Computing)技术理念和下一代搜索引擎阿拉丁平台。未来,框计算将被应用到各种互联网应用上,为用户提供一站式服务,而阿拉丁即是框计算的重要组成部分。
  
  “框”的野心是,不仅要解答用户需要的知识,还要响应用户的情感需求;不仅希望用户通过搜索框能找到知识的答案,还希望能给用户以人性化的结果。类似于“电脑不显示桌面上的图标鼠标也不能右击怎么办”、“听起来让人觉得开心的MP3”、“北京哪里能找到女朋友结婚”,这样似乎不符合传统搜索规范的问题将都能在百度得到解决。
  
  稀奇古怪的挑战
  
  记者了解到,网络信息的爆炸式增长和网民的个性化需求不断增加,使搜索引擎靠传统方式抓取信息很难满足现状,而百度在优化传统抓取方式的同时,采用了“推”的思路获取资源。孙云丰说,未来搜索框的应用将无限扩展,成为一个便捷的纽带,将用户与信息、应用连接起来。
  
  或许,未来的电脑将只有一个“框”。我们曾经在命令行中输入“Dir”来获取目录列表,如今在搜索框中却可以输入千奇百怪的句式。网民搜索请求正在变得多元化、个性化,甚至到了稀奇古怪的地步。
  
  随着搜索引擎的普及,它已经成为人类获取信息最重要的途径之一。而在中国,百度的网民覆盖率已经超过92.2%,预计将成为第一个覆盖率达到100%的中文互联网服务。根据百度对搜索关键词的监测发现,来自网民的Unique Query(唯一检索请求)累计已经超过1亿,而在2003年的时候,这个数字只有几百万。
  
  这也就是说,以往网民的需求往往“同质化”,倾向于了解“是什么”、“什么样”这样的问题,而现在,网民越来越倾向于通过搜索引擎帮助他做决策。比如,之前网民搜索“周杰伦”,主要是了解这位明星的资讯、专辑、歌曲等,现在网民或许希望知道“周杰伦有哪些绯闻女友”或者“周杰伦的妈妈是谁”等问题。
  
  孙云丰说,用户正在变得越来越“懒惰”,他们希望得到直接的答案,而非一堆链接。这实际上可以大大降低用户获取信息的时间和判断成本。归结搜索引擎面临的挑战,实际上其本质便是用户需求的提高。
  
  照亮无限暗网
  
  所谓暗网就是那些数以万亿计的没有被搜索到的信息。实际上,用户能够搜索到的信息只是互联网中的冰山一角。
  
  很显然,搜索引擎必须直面用户需求的变化,否则将被用户淘汰。百度在2008年4月就推出的开放搜索平台阿拉丁作为框计算技术理念的一部分,除了应对互联网上的暗网信息,更重要的是带来了搜索体验的革命,让查询的需求得到直接满足。
  
  “暗网的存在是因为很多网络技术人员不懂得合理的建站技术,不恰当地建设网站和管理信息所导致的,对于这些人来说,暗网搜索或许是救星。”孙云丰表示,他将暗网分成四大类,包括:1.网上存在,但未公开。比如企业法人资质查询。2.网上公开,但难获取。比如很多数据库类的网站——北大图书馆。3.现实中存在,但未上网。Google正在做的数字图书馆计划,就是期望解决这类问题。4.人脑中存在,但未记录。这类浩如烟海的信息,完全没法统计。
  
  阿拉丁平台的推出,正是为解决现有搜索引擎无法抓取和检索“暗网”信息的问题。“如果我们把百度搜索引擎比做一个探照灯,在无边无际的信息宇宙中扫射并且记录下来扫射到的信息,那么,那些探照灯从来扫射不到的区域,都是‘暗网’。如何将这些已知和未知信息分门别类地融合,有序地纳入到我们的知识范畴,并且为广大互联网用户提供零成本、无障碍、无时差的精准送达,是百度有史以来在技术上面临的最大挑战。”孙云丰深感阿拉丁计划的压力。
  
  
其他文献
Novell近半年股价走势  当Novell推迟发布其2007年第四季度财报的时候,外界大都认为Novell可能会有一些坏消息。因为早有预测说,由于尚处于向Linux转型的过程中,Novell可能仍然是亏损的状况。而Novell也只是在其公告中轻描淡写地说财报推迟的原因是正在接受美国证监会的审查。最终的结果喜忧参半:因为高额的重组费用(7000万美元)以及其他开支,Novell公司亏损1.79亿美
面对FCoE,同时拥有FC与IP两方面技术背景的黄蓝玓的看法更为理性。在他眼里,FC和IP就像跑车和货轮,在整个数据传输过程中取长补短才是它们合作的最终意义。    FCoE诞生之初正是FC与iSCSI激斗正酣之时。FCoE(Fibre Channel over Ethernet)就是把光纤通道协议映射到以太网,从而在以太网上传输SAN数据。在IP存储厂商看来,这正是FC SAN存储厂商向IP存储
为了改变我国印刷行业的落后面貌,解决汉字的计算机信息处理问题,1974年8月,在周恩来总理的关怀下,原四机部(电子工业部)、原一机部(机械工业部)、中国科学院、新华社等机构联合发起,设立了国家重点科技攻关项目“汉字信息处理系统工程”,简称748工程。  748工程分为精密中文编辑排版系统、中文情报检索系统和中文通信系统三个子项目。其中,精密中文编辑排版系统(即后来的电子出版系统)引发了我国报业和印
1987至1989年期间,他在英国政府任职,担任贸易及工业大臣的私人秘书。 1989至1990年,他为香港电讯制订有关开放香港电讯业的规管策略。 1990至1994年,他负责大东电报局在英国的其他业务。 1995至1998年,他重返香港电讯,最初担任策略规划总监一职,后转任市场推广总监。 1998至2007年,葛辉成为香港PA管理顾问公司的合伙人。 自2007年11月起至2008年4月受聘为香港特
如果你通过网络下载并传播那些未经授权的音乐,你将触犯版权保护的相关法规,而法规的具体规定在各个国家又有所不同。比如在加拿大,通过P2P下载版权音乐是合法的,但是未经授权上传它们就违法了;而美国则严厉得多,复制版权音乐就属违法。根据美国聯邦法律,受到侵权的唱片公司将获得每首歌750美元到3万美元不等的赔款。如果侵权方是“蓄意侵权”,那么每首歌的罚款将高达15万美元。    非法下载屡遭重罚    今
时代华纳曾试图借助AOL的力量搭上互联网板块班车,但这一愿景正在变得异常艰难         AOL北京办事处的关闭,又增添了一个全球互联网巨头在中国市场难以维系的实例。2001年至今,AOL在中国经历了八年漫长的轮回,如今又回到了当初的空白起点。    时代华纳剥离AOL的传闻在业界早已炒得沸沸扬扬,而近来的最新消息则更将人们对二者的关注度推到一个前所未有的高度。    2000年底,时代华纳与
5月22日,刚从太原第一次坐火车出差回京的中国惠普副总裁、信息产品集团移动信息产品部总经理陈国维准时赶到惠普商务笔记本电脑的发布会。会上,陈国维看不出丝毫的疲倦,反而很有激情地喊出了“惠普成为亚太PC市场老大已经指日可待了!”    陈国维如此自信源自于市场调研公司IDC发布的2009年第一季度调研数据。IDC的数据显示,惠普今年第一季度在亚太区的出货量为260万台,市场份额为16.1%,高于去年
2008年5月,日立數据系统(HDS)公司启动了免费存储虚拟化计划,将存储虚拟化的应用推向一个高潮。作为该计划的一部分,HDS将提供免费的存储虚拟化软件,帮助客户在现有条件下整合所有外部连接的第三方存储设备,并通过数据迁移、动态配置、智能分层及灾难恢复等高级功能对用户的存储系统进行优化。    HDS已经在全球销售出1.1万个虚拟化控制器。独特的基于存储控制器的虚拟化技术使得HDS在虚拟化市场占有
安全管理依靠SaaS,可以减少中小型企业及远程办公室在反恶意软件方面消耗的硬件、人力资源及软件投资的成本和管理费用。    今年央视“3·15晚会”关于个人信息安全问题的报道让人瞠目结舌,最使人惊讶的是,很多个人电脑被种了木马程序成为“肉鸡”。在这种情况下,电脑中任何个人账号、密码等信息都不再是私有的。    SaaS防范恶意软件    恶意软件已经成为互联网时代最大的威胁,散布病毒已经不是少年黑
企業如何在生产、服务的整个流程中贯彻绿色IT的思想,达到节能增效的目的?本期,将围绕“节能增效”这个关键词对IDC运营商的绿色IT进行相关报道。    中国万网,既是绿色IT的实践者,又是绿色IT的提供者,其贯彻的绿色理念既可见于IDC日常运营中,又可通过虚拟化服务方式推广至用户之中。  对于绿色IDC建设,他们有何妙方?作为主机服务提供商,他们又为用户CIO提出了哪些绿色建议?就此问题,记  者