论文部分内容阅读
摘要:现代社会使用者对于信息检索的要求越来越高,不仅推动了搜索引擎向前发展,也逐渐暴露了现有搜索引擎的一些问题。本文从现有搜索引擎的不足入手,分析了未来搜索引擎的发展趋势,并对新一代的搜索引擎设计及盈利模式做了一些探讨。
关键词:搜索引擎;发展趋势
中图分类号:TP391.3 文献标识码:A 文章编号:1007-9599 (2013) 03-0000-02
搜索引擎在处理互联网数据时带来了积极作用,但随着海量信息涌入万维网,检索数据依然会成为一个很大的问题,使用者常常为“相关但不精确”的结果所干扰,Respect调研资料表明2006年62%的使用者只点击搜索结果页第一页的结果,而高达90%的使用者只点击搜索结果页的前三页里的结果。而在2002年,这两个数字分别为48%及81%。这些变化说明了使用者对搜索引擎的要求越来越高,他们愿意花在寻找结果的时间越来越少。因此排序查找到的结果比搜索本身更为重要,尤其是当检索结果过于庞大时。因此,本文在这种基础之上,分析了未来搜索引擎应对这种不足可能做出的改变。
1 未来搜索引擎发展趋势分析
1.1 XML的应用
XML是指可扩展标记语言,是用于标记电子文件,使之具有结构性的一种标记语言,可以用做标记数据、定义数据类型等,是一种允许使用者将自己的标记语言进行定义的源语言。XML提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。XML与Access,Oracle和SQL Server等数据库不同,数据库提供了更强有力的数据存储和分析能力,XML仅仅是存储数据。它的简单使其易于在任何应用程序中读写数据,这使其快成为数据交换的唯一公共语言,那就意味着程序可以更容易的与Windows,Mac OS以及其他平台下产生的信息结合,然后可以很容易加载XML数据到程序中并分析它,并以XML格式输出结果。
1.2 多媒体分类检索
目前搜索引擎的查询还是基于文字的,即使是图片和视频搜索也是基于文本方式。那么未来的多媒体搜索技术则会弥补查询这一缺失,在基于内容的图像(视频)检索中,颜色,纹理,形状和运动等视觉特征被提取出来表征图像(视频)内容所蕴涵的语义,从而实现图像(视频)数据的查询与管理。多媒体分类检索比纯文本搜索要复杂许多,一般多媒体搜索包含4个主要步骤:多媒体特征提取、多媒体数据流分割、多媒体数据分类和多媒体数据搜索引擎识别。
1.3 一站式搜索服务
一站式搜索服务将图片、新闻、股票等等各种有关联的信息整合在同一界面,让网民一次查询就可以得以全部满足。它使得网民在搜索时只需输入一次查询目标,即可在同一界面得到各种有关联的查询结果。这项服务的关键在于有一架构在XML基础上的整合资讯平台。以世博会的相关搜索为例,一站式搜索服务不仅需要包含世博近百个主要展馆介绍、票务基本信息及购买指南介绍,帮助使用者出门前先行了解基本信息,还可以使用户可以在搜索结果中清楚了解到世博场馆周边交通、世博美食、世博旅游等更详细信息,涵盖了用户的日常需求。
2 综合情景式搜索引擎设计探讨
2.1 设计思路
如果仅仅只改进排序算法,只能暂时提高排序的质量,并不能从根本解决巨量信息带来的冲击,随着信息的急速膨胀,如果开发者不能从使用者语义、地域和使用者模组的基础上处理排序信息,那么即使再好的算法,依然不能解决信息过量的问题。而综合情景搜索是一项集成了个性化、地区定位以及社区关联性的的综合搜索技术。举例来说明,当顾客使用Iphone客户端在Apple专营店附近搜索“苹果”时,应该是与Apple公司相关的电子产品在搜索结果中排名靠前,而非传统意义上的水果。
综合情景搜索首先是根据使用者的社区粘度进行相关筛选。传统搜索技术强调搜索结果和使用者需求的相关性,社会化搜索除了相关性外,还额外增加了一个维度,即搜索结果的可信赖性。传统的搜索结果可能成千上万,但如果它处于使用者社交网络内(如人人,微博等)其他使用者发布的信息、点评或验证过的信息则更容易信赖,这是与使用者的心里密切相关的。社区相关搜索为使用者提供更准确、更值得信任的搜索结果。
其次是是地区定位系统,目前很多手机已经有GPS的应用了,这是基于地理位置感知的搜索,而且可以通过陀螺仪等设备感知使用者的朝向,基于这种信息,可以为使用者提供准确的地理位置服务以及相关搜索服务。
最关键的一点,是根据顾客的使用习惯建立顾客的模组信息。这种技术通过捕捉和学习使用者信息来学习使用者的兴趣行为,从而实现主动推荐的目的。搜索引擎学习并捕捉使用者的行为和习惯,并设计出一种合适的呈现方式,基于模组的使用者习惯描述文件可以成纤维为加权矢量模型、类层次结构模型、加权语义刚模型、书签和目录结构等。使用者描述文件可以通过文件组织管理,也可以通过数据库管理,随着XML语言的统一规范日渐显现,利用XML文件表达使用者特征逐渐成为个性化服务系统比较受欢迎的接受方式。
2.2 功能组成
综合情景搜索的个性化可以体现在两个方面:第一,检索,根据使用者的行为和习惯模式,建立模组兴趣特征库,并根据这些特征排序搜索结果。第二,个性化推荐,通过在相同模组数据内的使用者的资料,提供给正在查询的使用者。
使用者的查询记录和浏览记录,都会通过数据挖掘的方法,描述为使用者的特征向量。通过这些内容,来为使用者的定制个性化服务。对应模组的使用者第一次检索时,特征还处于初始化阶段,搜索引擎的特征库没有建立相对应的特征数据,随着使用者查询和浏览的进行,使用者的数据库开始增加特征。搜索引擎视每一次的查询条件,和搜索结果的浏览记录为使用者的感兴趣信息,并通过智能化自学习,推导出使用者的感兴趣信息。当下一次查询提出,搜索引擎也能搜索到众多结果,因为使用者特征库的存在,搜索引擎能根据使用者特征,对结果进行再次整合,把那些使用者感兴趣的内容提取到最适合使用者查看的位置。同时,搜索引擎会根据具有相同特征使用者的浏览记录,并将其作为其他使用者对搜索引擎的推荐。显示到推荐页面上,这样使用者就能更加清楚的看到其它具有相同兴趣爱好的使用者的活动,从而大大改进搜索的质量。
2.3 盈利模式
传统搜索引擎的授予主要来自于技术授权或者广告营收。其中广告营收最主要的手段是通过竞价排名的方式。在这些盈利模式基础之上,综合式情景搜索还可以针对使用者的习惯与行为定义的专业搜索引擎,如有关股票、债券、天气、社区等,其呈现的结果不再是传统的公共信息,而是通过搜索引擎公司整理,或者从其他专业机构内购买的来。当然使用者在使用这些专业的搜索引擎时也是需要付费的,这就成为了综合式情景搜索的一个新的赢利点。
参考文献:
[1]Lawrence S, Giles C. Accessibility of information on the web[J].Nature,1999,400(6740):107-109.
[2]Henzinger M R,Motwani R, Silverstein C. Challenges in web search engines:ACM SIGIR Forum,2002[C].ACM.
[3]姚树宇.搜索引擎技术及其发展趋势[J].现代计算机:下半月版,2005(011):88-90.
[4]张立彬,杨军花,杨琴茹.第三代搜索引擎的研究现状及其发展趋向探析[J].情报理论与实践,2008,31(5):785-789.
[作者简介]
付强(1963.9-),汉族,大专文化,际华三五一五皮革皮鞋有限公司企管部,研究方向:企业系统管理。
关键词:搜索引擎;发展趋势
中图分类号:TP391.3 文献标识码:A 文章编号:1007-9599 (2013) 03-0000-02
搜索引擎在处理互联网数据时带来了积极作用,但随着海量信息涌入万维网,检索数据依然会成为一个很大的问题,使用者常常为“相关但不精确”的结果所干扰,Respect调研资料表明2006年62%的使用者只点击搜索结果页第一页的结果,而高达90%的使用者只点击搜索结果页的前三页里的结果。而在2002年,这两个数字分别为48%及81%。这些变化说明了使用者对搜索引擎的要求越来越高,他们愿意花在寻找结果的时间越来越少。因此排序查找到的结果比搜索本身更为重要,尤其是当检索结果过于庞大时。因此,本文在这种基础之上,分析了未来搜索引擎应对这种不足可能做出的改变。
1 未来搜索引擎发展趋势分析
1.1 XML的应用
XML是指可扩展标记语言,是用于标记电子文件,使之具有结构性的一种标记语言,可以用做标记数据、定义数据类型等,是一种允许使用者将自己的标记语言进行定义的源语言。XML提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。XML与Access,Oracle和SQL Server等数据库不同,数据库提供了更强有力的数据存储和分析能力,XML仅仅是存储数据。它的简单使其易于在任何应用程序中读写数据,这使其快成为数据交换的唯一公共语言,那就意味着程序可以更容易的与Windows,Mac OS以及其他平台下产生的信息结合,然后可以很容易加载XML数据到程序中并分析它,并以XML格式输出结果。
1.2 多媒体分类检索
目前搜索引擎的查询还是基于文字的,即使是图片和视频搜索也是基于文本方式。那么未来的多媒体搜索技术则会弥补查询这一缺失,在基于内容的图像(视频)检索中,颜色,纹理,形状和运动等视觉特征被提取出来表征图像(视频)内容所蕴涵的语义,从而实现图像(视频)数据的查询与管理。多媒体分类检索比纯文本搜索要复杂许多,一般多媒体搜索包含4个主要步骤:多媒体特征提取、多媒体数据流分割、多媒体数据分类和多媒体数据搜索引擎识别。
1.3 一站式搜索服务
一站式搜索服务将图片、新闻、股票等等各种有关联的信息整合在同一界面,让网民一次查询就可以得以全部满足。它使得网民在搜索时只需输入一次查询目标,即可在同一界面得到各种有关联的查询结果。这项服务的关键在于有一架构在XML基础上的整合资讯平台。以世博会的相关搜索为例,一站式搜索服务不仅需要包含世博近百个主要展馆介绍、票务基本信息及购买指南介绍,帮助使用者出门前先行了解基本信息,还可以使用户可以在搜索结果中清楚了解到世博场馆周边交通、世博美食、世博旅游等更详细信息,涵盖了用户的日常需求。
2 综合情景式搜索引擎设计探讨
2.1 设计思路
如果仅仅只改进排序算法,只能暂时提高排序的质量,并不能从根本解决巨量信息带来的冲击,随着信息的急速膨胀,如果开发者不能从使用者语义、地域和使用者模组的基础上处理排序信息,那么即使再好的算法,依然不能解决信息过量的问题。而综合情景搜索是一项集成了个性化、地区定位以及社区关联性的的综合搜索技术。举例来说明,当顾客使用Iphone客户端在Apple专营店附近搜索“苹果”时,应该是与Apple公司相关的电子产品在搜索结果中排名靠前,而非传统意义上的水果。
综合情景搜索首先是根据使用者的社区粘度进行相关筛选。传统搜索技术强调搜索结果和使用者需求的相关性,社会化搜索除了相关性外,还额外增加了一个维度,即搜索结果的可信赖性。传统的搜索结果可能成千上万,但如果它处于使用者社交网络内(如人人,微博等)其他使用者发布的信息、点评或验证过的信息则更容易信赖,这是与使用者的心里密切相关的。社区相关搜索为使用者提供更准确、更值得信任的搜索结果。
其次是是地区定位系统,目前很多手机已经有GPS的应用了,这是基于地理位置感知的搜索,而且可以通过陀螺仪等设备感知使用者的朝向,基于这种信息,可以为使用者提供准确的地理位置服务以及相关搜索服务。
最关键的一点,是根据顾客的使用习惯建立顾客的模组信息。这种技术通过捕捉和学习使用者信息来学习使用者的兴趣行为,从而实现主动推荐的目的。搜索引擎学习并捕捉使用者的行为和习惯,并设计出一种合适的呈现方式,基于模组的使用者习惯描述文件可以成纤维为加权矢量模型、类层次结构模型、加权语义刚模型、书签和目录结构等。使用者描述文件可以通过文件组织管理,也可以通过数据库管理,随着XML语言的统一规范日渐显现,利用XML文件表达使用者特征逐渐成为个性化服务系统比较受欢迎的接受方式。
2.2 功能组成
综合情景搜索的个性化可以体现在两个方面:第一,检索,根据使用者的行为和习惯模式,建立模组兴趣特征库,并根据这些特征排序搜索结果。第二,个性化推荐,通过在相同模组数据内的使用者的资料,提供给正在查询的使用者。
使用者的查询记录和浏览记录,都会通过数据挖掘的方法,描述为使用者的特征向量。通过这些内容,来为使用者的定制个性化服务。对应模组的使用者第一次检索时,特征还处于初始化阶段,搜索引擎的特征库没有建立相对应的特征数据,随着使用者查询和浏览的进行,使用者的数据库开始增加特征。搜索引擎视每一次的查询条件,和搜索结果的浏览记录为使用者的感兴趣信息,并通过智能化自学习,推导出使用者的感兴趣信息。当下一次查询提出,搜索引擎也能搜索到众多结果,因为使用者特征库的存在,搜索引擎能根据使用者特征,对结果进行再次整合,把那些使用者感兴趣的内容提取到最适合使用者查看的位置。同时,搜索引擎会根据具有相同特征使用者的浏览记录,并将其作为其他使用者对搜索引擎的推荐。显示到推荐页面上,这样使用者就能更加清楚的看到其它具有相同兴趣爱好的使用者的活动,从而大大改进搜索的质量。
2.3 盈利模式
传统搜索引擎的授予主要来自于技术授权或者广告营收。其中广告营收最主要的手段是通过竞价排名的方式。在这些盈利模式基础之上,综合式情景搜索还可以针对使用者的习惯与行为定义的专业搜索引擎,如有关股票、债券、天气、社区等,其呈现的结果不再是传统的公共信息,而是通过搜索引擎公司整理,或者从其他专业机构内购买的来。当然使用者在使用这些专业的搜索引擎时也是需要付费的,这就成为了综合式情景搜索的一个新的赢利点。
参考文献:
[1]Lawrence S, Giles C. Accessibility of information on the web[J].Nature,1999,400(6740):107-109.
[2]Henzinger M R,Motwani R, Silverstein C. Challenges in web search engines:ACM SIGIR Forum,2002[C].ACM.
[3]姚树宇.搜索引擎技术及其发展趋势[J].现代计算机:下半月版,2005(011):88-90.
[4]张立彬,杨军花,杨琴茹.第三代搜索引擎的研究现状及其发展趋向探析[J].情报理论与实践,2008,31(5):785-789.
[作者简介]
付强(1963.9-),汉族,大专文化,际华三五一五皮革皮鞋有限公司企管部,研究方向:企业系统管理。