基于分类技术的个性化检索系统的研究与设计

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:leaffan1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和网络信息技术的迅猛发展,网络资源呈指数急剧增长,传统的通用搜索引擎的查询结果只依赖于查询关键词,而实际上,即便相同的查询词,不同的用户查询目的可能不同,所希望的返回结果也会因人而异。针对这种情况,人们迫切需要一种针对个人特点提供更加精确查询结果的搜索工具,本文提出了以用户为中心的基于分类的个性化搜索引擎。本文在对个性化信息检索相关技术进行了较为全面深入的分析基础上,分别研究个性化搜索引擎的常用技术,和搜索引擎中理解用户搜索目的的主要技术。并根据用户的浏览及查询日志建立了检索系统的模型。对文本的自动分类进行了介绍,给出几种常见的文本表示模型,以及利用WEKA和LibSVM对文本进行自动分类。基于文本分类,提出一种排序算法,在检索结果中,显示尽量多的类别,让尽量多的不同类别的用户都能找到相应主题类别的信息。同时,根据用户行为特征,即用户对各个主题类别的点击率和各个主题类别网页的平均访问时间,通过修改lucene的评分域,从而改变lucene自有对文档的排序评分。通过实验证明,经过考虑用户的行为特征,在具有不同兴趣的用户查询相同词语时,可以检索出不同的结果页面。由于用户搜索的关键词有很大一部分是重复的,按照2/8定律,20%的搜索词占到了总搜索次数的80%。当用户提交由一组关键词组成的查询的时候,系统就判断这个查询对应的记录是否在Cache中存在,如果不存在,把查询语句递交给检索器,检索器返回结果的综合的文档号序列存到一个文件中,在Cache中保存所存储的序列在文件中的偏移值。如果已经存在,就从Cache中获得这个存储记录的偏移。然后是系统原型的设计与实现,首先给出了系统的完整架构,然后分检索模块、结果排名模块、查询cache模块等几个主要模块做详细说明,分析了系统中几个主要的数据结构。最后对系统进行了测试分析,验证了可行性。最后,总结了本文的工作,并展望下一步的工作计划。同时指出本系统的一些缺陷,提出系统在整体架构上的改进方法。
其他文献
科学的发展为人类的生活提供了诸多便利,智能化被广泛应用在各个领域,人们的生活越来越丰富,旅游业也随机成为热门行业,景区游客人数大增,为了给游客提供更多便利,越来越多的自然景
校园信息化是校园发展历史上最为深刻的变革之一,推进优质资源的共建、共享、运作和应用是实现校园信息化的重要内容,是建设一流校园的必要条件之一。近年来,随着REST技术和开放
曲面造型作为CAD/CAM的核心技术,是航空、汽车、船舶、影视等领域中设计人员重要的设计工具。其中,灵活精确、自然高效的曲面变形技术一直是曲面造型中的研究热点。已有的曲面
XML在各行各业的广泛应用产生了海量的XML数据,目前工业界和学术界基本上都采用XML数据库的方式来对其进行管理。而为了保障XML数据库的查询性能,对XML查询的优化就显得格外重
植物器官的颜色表达是植物内部生理机制与外界环境因素相互作用的结果,因此对植物叶色变化过程进行真实模拟是一个具有挑战性的课题,同时也是数字植物的重要研究内容。本文以黄
计算机技术发展至今,互联网的普及率也越来越高,已经成为人们生活中必不可少的工具,特别是随着近年来移动互联网的发展,数据需求呈现分布式、终端化、规模化,面对海量数据请求服务
铁路客运是我国最主要交通方式之一,它与人们的日常生活息息相关。由于铁路客运具有旅客数量多、流动性大、人员情况复杂等特点导致铁路客运中存在各种安全隐患,建立铁路客车
近年来,随着各种类别资产的日益增多,各企业逐渐将软硬件资产的生命周期的管理纳入到企业经济效益及长远的规划和发展中来。越来越多的企业意识到随着信息化建设脚步的加快,建立
随着信息技术的快速发展,电子文档成为人们获取和保存信息的核心途径。在诸多格式的电子文档中,PDF格式文档凭借其自身优点得到最为广泛的应用。而如何快速从海量PDF文档中检测
车辆在线监管是指通过视频识别摄像头、GPS车辆定位装置、RFID车牌[5]等先进的前端车辆动态信息感知技术,集中汇集整个城市范围的车辆实时监测数据。城市级别的道路车辆与停车