搜索引擎技术在网站图书检索中的应用

来源 :出版参考 | 被引量 : 0次 | 上传用户:tq19822002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  出版社网站建设的核心价值在于及时、全面、准确地发布本社的图书产品信息,并将其传递给目标客户,从而发挥网络营销作用。随着出版社网站建设的深入,产品信息愈加丰富,网站建设水平将更多的体现在对信息的组织和其所提供的使用功能上,最终目标是提高信息传递的效率。
  对于一个大型的科技出版社,其产品涉及的学科门类纷繁,品种数量众多,内容层次不一;同时,读者群体遍布科学技术的各个领域,且专业分工明细,但阅读能力却分布于不同层次。因此,读者在寻找适合自己的图书产品时,就产生了“多对多”的矛盾,信息传递在此出现了“瓶颈”。如何突破这个“多对多”的瓶颈,实现“一对一”,即一位读者一次性找到符合检索定义的一类图书产品的所有信息,成为本研究的目标。
  几年来,我们围绕网站信息组织和功能技术两个方面开展工作,以期实现上述“一对一”的目标。在信息组织方面,完成了产品分类与导航体系的建设。在功能技术方面,开展了搜索引擎应用技术研究,并对网站内容进行了结构化处理(碎片化)。这些实践探索,已经取得了初步成果。
  传统的图书检索方式,是基于已知书名的,不外乎书名查询和组合查询两类。其中组合查询需要明确的查询条件,一般只适用于条件限制严格和已知信息较丰富的情况,其准确性与查询条件的多少成正相关,在并不确知书名或其他条件信息的情况下就不适用;且如果查询条件之一输入有误,就得不到预期的结果,因此有较大局限性。而书名查询又因为有以下两类问题,而存在较大的不确定性。
  书名中不一定包含内容主题,或是书名与内容无直接关联。例如《谁动了我的奶酪》并不是一本关于食品的书,而《国家健康报告》也与体检或医疗无关。此外,还有许多专业性的词汇也不会出现在书名中,因为在确定书名时需要考虑有较广泛的读者覆盖。
  书名中的一些连接字(或符号)输入的不准确,会导致检索没有结果,尽管这些并非关键字,如“和、与、及、的”等以及“破折号(——)、顿号(、)、冒号(:) ”等。
  出版社的生存与发展主要依靠新的出版物,因此出版社网站的宣传营销工作应该主要围绕新书展开,所以新书推介功能就显得尤为重要。但这与已知书名的传统查询方式产生了矛盾。如何响应读者基于内容主题(而不是书名)的检索需求,并能够快速地提供相关度很高的查询结果,是我们潜心钻研的课题。为此,我们开发了自己的图书搜索引擎。
  图书搜索引擎是一个网络应用软件系统,它能够接受用户通过浏览器提交的搜索文本(词组或短语),在可接受的时间内返回一个与该用户搜索匹配的网页信息列表,这个列表中的每一个条目至少包含书名及其网址链接,同时依其相关程度自动排序。
  搜索引擎技术在大型电子商务网站应用的比较普遍,但在出版社网站上却几乎没有看到,读者比较在这两类网站上的购书体验时,明显感到出版社网站的功能落后。其实,到访出版社网站的人,大多是受到出版社品牌感召的忠实读者,奔着获得更具专业特色的经典图书而来。为他们提供优质高效的检索工具和服务,不仅是出版社品牌的直接体现,更起到了留住这部分忠实读者,同时减少潜在客户流失的“吸附”作用。努力提高网站的“粘度”是我们的重要理念之一,开发适用于出版社网站的图书搜索引擎,是该理念指导下的一个重要技术措施。这项工作有三个关键要素:
  匹配——相关性评价。即如何定义和评价我们认为内容与搜索条件匹配的那些图书与该搜索条件之间的相关性程度。这种评价必须是量化的,否则将无法进行精确的比较判断。将书的内容(及其他属性)纳入搜索范围比仅从书名中搜索,准确程度有了质的飞跃,这是决定搜索质量的关键要素。量化算法随之成为搜索引擎的技术核心。
  可接受的时间——响应时间。对于在Web上向广大用户提供服务的软件来说,响应时间不能太长,通常可以接受的量级是“秒”级。
  取词——自动分词(切词)处理。用户的搜索条件一般是词的组合或自然语言短语,搜索引擎必须理解这些对搜索条件的描述。但是汉语不同于英语,英语的词与词之间以空格分开,汉语的词之间没有分隔符,这对计算机处理造成了困难,所以必须使用中文信息处理系统——自动分词系统,才能将一串字符分解为若干规范化的主题词,同时也过滤掉当中的无价值字符。同理,对图书内容的加工处理也是如此。
  由此可知,应用搜索引擎技术,必须首先对网站的图书内容等信息,进行结构化的加工处理,就是大家常说的“碎片化”,这是不可或缺的基础性工作。
  下面谈谈搜索引擎到底是如何工作的,大家就知道它为什么能够大幅提高搜索的质量和效率了。其工作流程依次分为三个步骤:
  信息采集。相对于流通领域的电商网站而言,出版社网站具有得天独厚的内容资源优势,可用于支持自己产品的精确定义。这其中不仅包括内容简介、章节目录、样章(甚至全文)等可以用于词频的定量计算,还有CIP数据中的主题词、分类号,以及作者名、自定义分类名等定性资源,这些资源可以为相关性评价提供完整的数据支持。因此,广泛地采集这些信息,充分利用本社产品的数据资源,构建全方位的评价体系,是保证和提高搜索引擎质量的基础与前提。同时,通过保持较高的采集频率,及时将新书信息抓取入库,还可以达到宣传推广新书的目的。
  预处理。这是生成中间数据的准备过程,也是运算量最大的阶段,包括建立内容索引库和倒排索引表。其工作过程是将一本书的可取内容和属性信息,转化为一组权重不同的索引词的集合,然后将书到索引词的映射转化为索引词到书的映射,生成倒排文件(包括倒排表和索引词表),用于下一步的检索服务。其中由内容到索引词集合的转化,就是我们说的“碎片化”。这一过程既需要中文自动分词技术的支持,也需要对分词对象选择和权重设置等具有一定的经验。
  检索服务。这是直接与用户交互的过程,也是限制搜索引擎性能的瓶颈。该过程包括四个环节:接受用户输入的搜索主题词或短语,运行检索并获得相应的匹配结果,计算评价匹配者的相关性程度,最后依次显示给用户。即,首先对用户输入的搜索语句进行切分取词,然后分别从索引词表和倒排索引表中检索出包含这些主题词的图书记录,再依据各主题词的权重进行量化计算和汇总比较,从而确定所有可匹配图书的相关性程度排序,最后生成有序的结果列表页面显示给用户。其中起决定性作用的是相关性评价算法,它的优劣直接关系到搜索引擎的质量和效率。   评价算法与出版物的特性及内容有密切关系,需要结合本社特点反复调试,通过不断优化,一定可以摸索出最具本社产品特色的算法模型。下面介绍一下我社建立相关性评价算法模型的思路与经验:
  该模型采用计分方式,依得分多少分段排序。得分的计算是依据所匹配词的词频和权重,分级的依据是匹配度,是根据经验修正后建立起来的统计模型。
  首先,根据出版社网站的产品数据结构和功能架构,采集尽可能多的可用于描述图书内容的信息,如章节目录、内容简介、样章、CIP数据中的主题词和分类号、作译者名、自定义分类名等,并将它们分为定量词和定性词两类,分别赋予不同的权重,而具体的权重值需根据经验不断修正,一个基本原则是定性词的权重分略高于定量词最高词频的平均值。
  然后,计算出所匹配词的权重与词频的乘积之和,同时记录下匹配度——匹配词数与输入分词总数之比,再依据这两项数据进行综合评价,得到相关性分级结果列表,即匹配度为100%的按得分由高到低在前面依次排列,匹配度低于100%的也依得分多少,但排在后面。
  这一模型从我社自身内容特点出发,经反复修正和优化,已经达到如下三点设计目标:
  保证相关度高的图书全部出现在列表的第1-2页;
  在线使用时,每次检索耗时0.5-2秒,平均耗时1秒;
  相关度排序基本与客观实际一致。
  搜索引擎技术的应用开发,至能够成功上线运行的程度,还只是完成了基本任务。其后续的优化和运行维护工作还有许多,这项长期性工作主要包括两个方面:
  新书入库和新词识别。不断地推出新书,是出版社网站的任务使命。除了在相关频道进行宣传推荐以外,能够及时出现在搜索引擎的结果列表中,也是很有推荐意义的。这就需要我们的预处理工作必须与新书上线同步进行,如果网站每天都有新书发布,那么,预处理工作就需要每天进行。由于预处理的运算量非常之大,所以一般应安排在夜间自动运行。以我社在库品种为例,预处理得到的索引记录已达350多万条。同时,新书中涌现的新词也十分重要,只有及时地将这些新词识别出来,才能保证以后此类新书的内容可以被正确切分。
  算法和权重值的不断优化。随着社会和科技进步以及出版社的发展,出版领域将不断扩展。而每当出版物涉及一个新的范畴以后,必然带来内容结构和特点的变化。因此之前确定的算法、参数、权重值等都需要同步进行适应性调整。另外,随着信息技术和人工智能的发展,算法和建模理论正在迅速完善和提高过程中,这将给我们提供许多指导和借鉴,优化工作就有了方向。所以,运维工作的另一方面内容就是应当根据产品结构的变化及技术的发展,适时地对搜索引擎的效果和效率做出评价,以选择时机进行优化升级,使其不断完善和提高。
  出版社网站的图书搜索引擎技术开发,是我社在数字出版理念指导下,进行的一次改善读者产品搜索体验的实践,从中积累了经验,达到了预期目的。但同时也感到,还有许多可以继续努力提高的空间,随着信息技术的进步以及各方面条件的完善,我们有信心取得新的飞跃。
  (作者单位系科学出版社)
其他文献
编者按:近两年,国家政府大力倡导国民阅读,通过政策引导、政府和相关机构组织举办阅读活动,在全社会营造全民阅读的良好氛围。适逢世界阅读日,国内外的阅读活动开展的如火如荼,本栏目特约请国内外学者,探讨国外一些国家和地区的阅读现状,陆续刊登,以供赏鉴。  前几日去图书馆还书,离开门还有几分钟,门口已经排满了人。有母亲带着小孩子的,有中年男子背着重重的双肩包、似乎准备在图书馆坐上一整天的,有中学生,还有老
期刊
2014年4月20日谷雨时节,一部聚焦“国家名片”上的福建文化的彩色图文书——《邮票上的福建》由福建人民出版社盛装出版,并在福建会堂举办隆重的首发仪式,福建省政协副主席陈向先和福建省邮政公司总经理潘杰亲自为首版新书揭幕,来自全国各地的邮友相聚一堂。  《邮票上的福建》是由福建省政协文史和学习委员会与福建省邮政公司、福建省集邮协会联袂编写的图文书——篇幅23.5万字,以方寸记载八闽历史,用邮票展现福
期刊
本刊讯 南药是我国医药重要的组成部分,很多南药药材在中医临床应用中不可或缺甚至是不可替代的。南药的范围从单纯进口的药材,到从热带地区进口的药材,再到分布于我国热带、亚热带地区的药材这一统称的变化过程,体现了南药本土化的发展方向。  我国是南药最大的进口国和消费国,新中国成立后,为了保障国内用药安全和南药资源的可持续发展,开展了大规模南药引种研究和野生变家栽的研究。经过半个世纪的发展,成功引种南药1
期刊
本刊讯 中国童书皇后杨红樱创作的原创品牌童书“淘气包马小跳”系列畅销十余载,记录了父母和老师必读的儿童内心世界,展露了孩子完整的童心。近日,浙江少年儿童出版社推出了由杨红樱淬炼童心、全新创作的“淘气包马小跳”新品《忠诚的流浪狗》,该作品也是杨红樱自2008年停止该系列新品写作之后,历经五年时光积淀,再创新篇。  据悉,《忠诚的流浪狗》是一部直面儿童生存现实的心血之作,也是一份照亮世间道德良知的温暖
期刊
著名文化学者余秋雨最近把自己20多年前出的《文化苦旅》作了增补和改写,推出了新的版本。而和之前所有的书都不同的是,余秋雨的新作不仅将在实体书店和网络书店上销售,还将放在微信上销售。余秋雨也因此成为“微信售书”模式的第一个吃螃蟹者。  《西安晚报》报道:余秋雨此举也让人恍然大悟,原来微信不仅可以聊天,也是可以卖书的。从目前的情况来看,虽然受到物流方面的影响,微信还只能卖一本书,而不能像当当、京东那样
期刊
3月5日,第十二届全国人民代表大会第二次会议在人民大会堂开幕。根据会议议程,国务院总理李克强代表国务院向大会作政府工作报告。在部署2014年的重点工作时,李克强要求发展文化艺术、新闻出版、广播电影电视、档案等事业,繁荣发展哲学社会科学,倡导全民阅读。值得关注的是,倡导全民阅读首次写入政府工作报告。  ——中国新闻网  2014年中央财政预算安排:  文化体育与传媒支出512.29亿元  受国务院委
期刊
一、民营书业持续发展,混合所有制成为常态  (一)民营书业在新闻出版产业中继续占据较大份额,保持增长势头  从20世纪70年代末算起,我国非公有制文化企业的发展已经走过三十五年的历程。发行改革引发了民营书业,而民营书业的快步发展又刺激了发行改革,扩大了购书网络,同时提供了大量的就业岗位,创造了前所未有的经济效益与社会效益。根据新闻出版产业发展司《2012年新闻出版产业分析报告》,2012年,国有全
期刊
本刊讯 4月3日“2013‘中国好书’颁奖典礼”在央视演播大厅隆重举行,经中国图书评论学会专家严格评选,全国共25种各类出版物获此殊荣,其中少儿读物仅3种,堪称皇冠上的明珠,《不一样的卡梅拉·我爱平底锅》就是其中之一。  著名作家王蒙、贾平凹、曹文轩、钱文忠,著名经济学家厉以宁、高尚全,国家新闻出版广电总局副局长邬书林、出版管理司司长吴尚之等领导和专家出席了颁奖典礼。  《不一样的卡梅拉》系列丛书
期刊
古籍影印是国家图书馆出版社(以下简称国图社)的两大拳头专业之一,国图社成立三十多年来,影印古籍品种繁多,规模宏大,且多为精品。2009年8月,荣获“全国百佳图书出版单位”称号,无疑是对国图社在古籍影印方面所取得成绩的极大肯定。  国图社在全国古籍社中,之所以能一直处于领跑地位,不仅在于承担了多项国家级重大文化出版工程,如“中华再造善本”,积极与全国各大图书馆合作,开发馆藏,形成“著名图书馆藏稀见方
期刊
本刊讯 近期,由中国版协国际合作出版工作委员会、中国新闻出版研究院、出版参考杂志社联合主办的第十三届输出版引进版优秀图书推介活动正式开始。时代出版传媒公司接到通知后,迅速着手准备,按照通知要求,专门召开会议,部署申报工作,力求申报图书质量高,申报人员专业化,借助评选活动展现公司走出去项目和人才实力。  领导高度重视。走出去工作是时代出版传媒公司的重要发展战略。公司领导始终高度重视输出版、引进版优秀
期刊