智能搜索引擎技术为电子商务导航

来源 :互联网世界 | 被引量 : 0次 | 上传用户:kkk3231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  电子商务成功的要素有很多,其中一点就是顾客能够快速、准确地检索到他认为适当的商品。因此有必要针对目前的互联网上的搜索技术局限,研究性能更好的搜索引擎。
  国外的第一代搜索引擎如雅虎、AltaVista等得到了成功,目前一些新的搜索引擎如askjeevs、Google、Gurunet、greatsearches等也投入了实用。它们的特征是使用了一系列新技术,特别是自然语言处理技术来使搜索更加智能,查找信息更快更容易,给用户的信息服务更综合。
  在中国, 随着中文文化环境下的网络用户数目的爆炸性增长,网络中文信息也越来越丰富。因此,中文信息处理将具有更加广阔的市场,必将促使中文信息处理方面的智能中文搜索引擎、网上实时机器翻译等技术的重大突破。
  但是,由于中文信息处理的特殊限制,智能技术在中文搜索引擎中的应用有待加强。
  由首都信息发展有限公司北京网络多媒体实验室、北京邮电大学、解放军总装备部共同研究的“中文智能搜索引擎”课题在这方面进行了有益的探索。该课题受到国家863计划智能计算机主题的资助,目的在于探索提高中文搜索引擎智能水平的途径,目前已取得了重要的理论和实际成果,并可用于电子商务。从目前的情况来看,网络中文搜索引擎要想有一个大的突破和创新,必须建立在下面的两个具体工作上:
  (1)必须对目前中文搜索引擎技术的局限性有非常清晰的认识。在此基础上,提出搜索引擎新的设计思路和体系结构。
  (2)采用先进的信息检索手段和人工智能、中文自然语言处理等技术来实现设计思路。这个过程需要大量扎实的基础工作积累。
  
  一、传统信息检索的局限
  目前网络上的搜索引擎一般使用两种技术来实现信息检索:一是使用网站分类技术,即把网站进行树状的归类,登录的网站属于至少一个类别,对每个站点都有简略的描述。雅虎即是如此。为了分类科学准确,需要有一支由各科人才组成的维护队伍。二是使用全文检索技术。全文检索技术处理的对象是文本,它能够对大量文档(这里是大量网页数据)建立由字(词)到文档的倒排索引,在此基础上,用户使用关键词来对文档(网页)进行查询时,系统将给用户返回含该关键词的网页。
  一般来说,由于使用了人(专家)来对网站进行归纳和分类,网站分类技术为网络信息导航带来了极大的方便,受到人们的欢迎。但是它的缺陷除了成本较高之外,对网站的描述也十分简略,其描述能力不能深入网站的内部细节,因此用户不能查询网站内部的重要信息,造成了信息丢失。举例说明,“武器库”(www.business-ls.com/weapon/)是一个军事爱好者的个人主页,某搜索引擎对它的分类是“政府与政治 > 军事 > 武器与军备”,对它的描述是“各种武器、火炮、坦克、导弹及军用飞机介绍”,用户用关键词“武器”、“ 火炮”、“坦克”、“军用飞机”都能够检索到该站点。然而,该站点介绍了多种反坦克导弹,如果用“反坦克导弹”作为关键词来查询,在网站分类中就找不到这个站点了,因为对它的简略描述中没有“反坦克导弹”这个词串。同理,该站点介绍了若干种“防化器材”,可是使用“防化器材”作为关键词来查询时,无论如何都查不到该站点了。
  全文检索是一个很成熟的技术,它能够解决对网页细节的检索问题。从理论上说,只要网页上出现了某个关键词,就能够使用全文检索用关键词匹配把该网页查出来,但是这又导致了它的缺陷——返回的信息太多。例如,在某搜索引擎中查询“建设”这个词,“相关网页”返回147950个网页,假定一个人3秒钟查看一个查中的网页,一刻不停地看下去也需要12个小时。这就是所谓的“文海捞针”。更严重的是,除了综合性的搜索引擎站点有这个现象之外,现在较大的站点对自身站内信息的检索也会返回大量的网页。传统的文本信息检索一般使用查全率(recall)与查准率(precision)来对检索效果进行量化评价,但是在海量的互联网信息检索上用查全率与查准率来衡量检索效果是否合适?在一些场合,高的查全率带来的成千上万命中网页对用户实在是一个沉重的负担,在网页爆炸性增长的今天,没有一个用户有时间和精力来一一浏览搜索引擎查到的每一个网页。“返回网页太多”只是全文检索给人直观感觉到的问题,除此之外,它还有两个不很直观的深层次的问题,也给信息检索带来了不少困难。这两个问题都与词汇紧密相关:一个是“忠实表达”问题。很多情况下,用户很难简单地用关键词或关键词串来忠实地表达他所真正需要检索的内容,表达困难导致检索困难。另一个是“表达差异”问题。人类的自然语言中,随着时间、地域或领域的改变,同一概念可以用不同的语言表现形式来表达。因此,对同一概念的检索,不同的用户可能使用不同的关键词来查询,例如:“计算机”和“电脑”, “航天飞机”与“太空梭”。在中文雅虎上使用“航天飞机”是查不到含“太空梭”的网页的,虽然它们指的是同一种东西。
  目前,由于各类电子商务站点的商品信息都是采用传统关系数据库形式进行组织和存储的,因此所使用的搜索引擎也都是基于关系数据库的检索引擎。这种检索的基本原理是将用户所给出的检索关键字符作为检索入口,在关系数据库中进行机械式或者模糊式的匹配,然后将匹配的结果信息返回给用户。
  这种传统关系数据库系统非常擅长于结构化数据的处理,而且经过长期的发展,其功能已经相当完善。但其对于非结构化数据的处理能力则是很弱的——它无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。
  造成上述种种信息检索困难的原因是什么?透过现象看本质,我们认为,困难的实质在于搜索引擎缺乏知识处理能力和理解能力,对要检索的信息仅仅采用机械的关键词匹配来实现。如果搜索引擎“懂得”所谓“太空梭”就是“航天飞机”,用户买了“相机”那么他很可能还要买“胶卷”,情况就会大不一样。把信息检索从目前基于关键词层面提高到基于知识(或概念)层面,是解决问题的根本和关键。为此,我们提出了一种新的搜索引擎设计思路。
  
  二、“以网对网”——智能检索的解决之道
  为解决上面的问题,我们提出“以网络对网络”来提高搜索引擎智能水平的思路。这里的第一个网络,是人的认知网络,它实际上就是一个巨大的知识库或概念图,存放的是人的知识,包括概念以及概念之间的种种关系。在计算机上实现时,这个网络的知识表示方法为语义网络。我们又称之为Innernet,它与Internet相对应, 是一个“内”网:一是因为它反映的是人的知识和概念,是一种内在的东西;二是用计算机实现时,在物理上它存在于搜索引擎的服务器一端,是我们能够建立、维护的内部网络,与外部的Internet相对应。第二个网络是Internet,它的信息是搜索引擎要检索和查询的对象。
  本质上,两个网络表现的都是人类知识:Internet是一个巨大的、非结构化而且处于不停变化的知识空间;而Innernet是对Internet信息有序化、结构化的一种努力。
  1.Innernet的知识组成
  Innernet是一个巨大的知识库,里面的知识可粗略分为三个层面:
  语言层面:反映语言表面现象的知识,如一个词的多语种(中、英)形式,它的同义词、反义词、一些习惯用语,词的层次关系等。
  本体论层面:对概念的本体论的定义与解释、概念之间复杂的语义关系。
  常识层面:如西服与领带、相机与胶卷等存在着常识上的关联。
  其实,上面三个层面的知识很难截然分开,我们这样分也是为了处理方便。在计算机处理时,我们使用了语义网络来表示这些知识。
  整个系统处理的核心是语言,因为语言是知识的载体,人的认识和常识都必须通过语言来表达。在信息检索中,用户的查询、系统的查询结果都表现为语言。所以,我们特别强调自然语言处理技术在搜索引擎中的应用。
  2.基于Innernet的Internet信息检索
  使用Innernet来实现对Internet信息的检索,能够使搜索引擎从基于关键词的搜索提高到基于知识的检索,与传统基于关键词的检索手段相比,它有着显著的优势。两者的示意图分别如下:
  
  图1 基于关键词的信息检索示意图


  在上面的示意图中,基于关键词的传统信息检索以词串匹配的方式来检索纷繁复杂的互联网信息,必然导致信息检索困难。
  
  图2 基于Innernet的信息检索示意图


  基于Innernet的信息检索,首先把用户的检索映射到Innernet,从Innernet获取相关知识和联想后,再向互联网进行信息检索。这是一个基于知识的信息检索过程,它能够使用户对要检索的东西定位得更快、知道得更深入,了解得更多。实际上,所谓“以网络对网络”的实质就是以有序的知识库(Innernet)对无序的知识库(Internet)。
  可以看出,基于Innernet的信息检索与传统的搜索引擎相比,有下面的特点:
  * 信息服务的综合性:由于采用了知识库导航,搜索引擎将面貌一新,给用户提供更全面更综合的信息服务,在这里,信息检索只是信息服务的一部分。
  * 信息服务的智能性:所谓“智能来自知识”,有综合知识库作为背景,信息检索和导航服务将更智能。Innernet中的语言层面知识有助于解决前面提到“表达差异”问题,例如,只要定义“计算机”、“电子计算机”、“电脑”是同义关系就可以消除用户由于使用不同的词表达同一概念而带来的检索困难。另一方面,根据Innernet的常识性的和本体论层次知识对用户的查询进行相关性联想,提供引导用户进行下一步查询的线索。这样一步一步地在与用户的交互过程中诱导用户“表达”出他真正想找的东西,从而实现对查询的智能导航。这种逐步求精的策略解决了信息检索中“忠实表达”的难题。至于多语种信息检索问题,也可在语言层面来解决。
  * 信息服务的个性化:Innernet的知识库可以存放与具体用户相关的知识(用户的专业兴趣、购买力等),搜索引擎将利用这些知识来为用户提供个性化的信息服务。
  * 具有支持Agent的能力:由于Web服务器端有综合性知识库,为智能Agent的活动提供了基础。例如,活动在客户端的Agent可对用户正在浏览的网页进行主动观察,分析内容,根据服务器端的知识库来推荐内容相近的其他网页供用户参考。
  * 具有与电子商务灵活结合的能力,能为电子商务导航。
  3.基于Innernet信息检索的可行性
  从Internet到Innernet的映射(mapping)包括概念映射和概念关系映射,是一个知识获取的过程。然而,建立理论上完备的Innernet是不现实的。这是因为人的知识、特别是常识性知识具有“数量”上的浩瀚无际,在“质量”上又有高度的不确定性和模糊性,要建立这样一个知识网络是困难的。
  然而,这不会影响基于Innernet的信息检索模型的可行性和可操作性。这是因为,理论上完备的Innernet虽然难以实现,但是我们可以通过降低求解目标的方法,针对具体的搜索引擎需求,建立相应的知识库(或称概念图),这里的知识库是对Innernet的一种近似,一种局部实现。针对某一领域、甚至某一站点所有网页所反映的知识来构造一个局部的小知识库是相对容易实现的。它的知识在数量和质量上虽然不能与理想的Innernet相比,对具体搜索任务却是实用的。更重要的是,知识库里的知识可以在使用中不断改进,数量上不断增加,质量上不断提高。这是一个对知识进行训练的过程,可以通过人来完成,也可以使用机器学习等手段来实现。我们课题组针对电子政务和电子商务而建立的知识库在实践中取得了良好的效果,证明了基于Innernet的信息检索方法的可行性。
  4.Innernet知识获取
  知识获取是人工智能中一个经典课题。从Internet到Innernet的数据获取将运用一系列新技术,如基于Web的数据仓库,Web数据挖掘(Data mining on Web),Web数据源集成技术等。为此,必须为Web建立适当的数据模型,利用数据模型有效地从Web中获取信息。为了处理Web的中文数据,还必须使用一系列中文自然语言处理技术。比较基础的技术有自动分词、人名机构名的自动识别、自动标引等,其他象信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等技术都必不可少。实现它们需要扎实的积累和自然语言处理功底。
  
  三、首信搜索引擎
  为实践我们的思路,我们在北京网络多媒体实验室设计了“首信搜索引擎”,针对不同的搜索对象,它有两个具体的实验系统。
  其中一个是面向电子政务的,它处理北京市政府的网站“首都之窗”,通过语料库语言学处理来发现该站点所涉及的概念以及概念之间的关系,并以此建立了知识库。目前,知识库里面有超过340个独立概念,把首都之窗的知识形成了一个网络,使查询十分方便。
  另一个是面向电子商务的。我们以电子产品与计算机产品为研究对象,由领域专家建立起这个领域的知识库,用它来进行智能导航。目前,知识库里有将近600个独立概念,概念之间有十余种语义关系,涉及到常识、产品、厂商、计算机专业知识等。在进一步完善后,该系统将与电子商务相结合,为电子商务的电子产品与计算机通信方面产品提供智能导航。
其他文献
防火墙是在内外网络之间执行控制策略的系统(包括硬件和软件),目的是不被外部非法用户侵入内部网。本质上,它遵循的是一种允许或禁止业务来往的网络通信安全机制,也就是提供可控的过滤网络通讯,只允许授权的通讯。  NetScreen防火墙在网络层中对数据包实施有选择的通过,依据系统事先设定好的过滤逻辑,检查数据流中的每个数据包,根据数据包的源地址、目标地址、以及包所使用端口确定是否允许该类数据包通过,并使
期刊
2000年9月6日,对联想人来说,是一个难以忘怀的日子。在庄严肃穆的人民大会堂,来自全国各地的联想集团的合作伙伴、联想神州数码的全体员工济济一堂,共同庆祝联想集团全面进军电子商务暨联想神州数码的诞生。联想集团总裁柳传志在这个庄严的时刻,郑重地宣布联想神州数码有限公司正式成立。其针对IT产品经销商和厂商的B to B电子商务平台(e-bridge)正式启动,从而吹响了联想集团全面进军互联网的号角。 
期刊
拥有中国自主的操作系统,一直以来都是中国IT业的一个解不开的心结。从DOS和WINDOWS3.1时代开始,不论是UCDOS、中文之星,还是COSIX,还有去年维纳斯与女娲较量中的Hopen,都反映出国人对自主操作系统始终的梦想与期待。互联网络的高速发展与应用,信息时代的迫近,使得这场操作系统之争,更上升到关乎国家安全和对中国信息产业持续发展具有重大意义的高度。  自由软件Linux的出现,使国人看
期刊
政府上网工程如火如荼地展开了,这现象的确令人振奋。为此,由域名温度计(www.hotname.com.cn)与政府上网工程服务中心(www.gov.cn)共建了政府域名排行的专栏,已经于7月份开始提供相关的统计数据。从7月份的统计数据看(见图1),海南省可谓出尽了风头,鹤立鸡群,遥遥领先,注册的政府域名有90多个。排名第二、第三的分别是:广东省、山东省。不过风云变化莫测,让我们来看看8月份状况如何
期刊
信息技术的迅速发展和广泛应用彻底地改变了所有商业的运作方式,从发展迅猛的中小型公司到拥有广泛资源的全球跨国企业,信息在企业的决策、经营和管理中发挥着越来越重要的作用。特别是基于Internet和Intranet的电子商务、企业资源计划(ERP)、数据仓库、联机事务处理(OLTP)等数据密集型应用的兴起,数据量的爆炸性增长,对数据的存储、共享和安全都提出了更高的要求。建立一个具有大规模可伸缩性、24
期刊
8月25日,正值清华紫光股票网上发行一周年的日子,清华紫光股份有限公司在北京举行了“紫光网络,凭e近人”网络新产品发布会。作为清华紫光向网络领域进军的重大举措,此次清华紫光发布的网络产品和解决方案几乎覆盖了所有网络应用领域,并具有良好的兼容性且易于安装和配置,这些产品充分体现了紫光在“网络应用整体解决技术”方面的巨大进步。  “为用户提供全面的网络应用解决方案!”是清华紫光1998年成功上市后所提
期刊
人们在购买服务器时,往往希望CPU的速度越快越好,因为人们认为CPU越快,服务器的性能就越好,然而,事实并非如此简单。通过性能测试并对结果进行分析,我们发现速度仅是影响服务器性能的CPU诸因素中的一方面,还存在很多甚至更重要的CPU的其他因素影响服务器性能的发挥。以下将重点分析CPU诸因素中对服务器性能有较大影响的一些因素,以方便人们在选购IA服务器时参考。  在具体分析之前,我们先来看一张表,此
期刊
随着LinuxWorld China 2000的召开,自由软件Linux再次成为人们关注的焦点。日前在北京召开的这次Linux盛会,使人们欣喜地发现,尽管只有短短的2年时间,Linux在国内却取得了长足的发展。不仅是在传统的桌面和服务器领域,在潜力巨大的嵌入式操作系统应用领域,Linux的表现同样引人瞩目。  为了了解Linux在嵌入式系统领域的应用前景和发展现状,记者采访了国内著名的Linux厂
期刊
8月31日至9月1日,“3Com新兴大会”在北京隆重举行,本次大会可以看作是3Com继不久前为适应Internet时代大势所趋成功地进行战略转移之后,针对其锁定的新的高增长市场迈出的第一步,全面展示和详细介绍了其针对新的目标市场所推出的新的技术、产品和解决方案。  为期两天的盛会以“3Com网络新技术及其发展方向”和“Internet时代的宽带解决方案”为主题,举办两场规模盛大的主题演讲;围绕两大
期刊
随着信息技术的发展,特别是互联网的普及应用,网络安全在全球范围内倍受瞩目。然而我国的网络安全状况不容乐观,整体技术还较初级,安全应用只是刚刚起步。尤其是许多计算机网络使用者的安全意识淡薄、管理体系也存在着很多漏洞。很多人把网络安全问题只集中在了如何防范黑客攻击上,而忽略了许多来自内部与自身的问题隐患。在近日举办的一次互联网安全研讨会上,有善良的黑客讲述了他们的经历:当他们发现了某个网站的安全漏洞后
期刊