元搜索排序合成研究与应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:fuqiang1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的不断发展和网络资源的日益膨胀,人们对于资源获取的方式,包括准确性、多样性、便利性等要求也越来越高。在这种背景下,传统搜索引擎,如Google、Yahoo、百度等,虽然得到了突飞猛进的发展,但同时也存在着网页覆盖率不足、处理能力有限、搜索接口不统一等许多问题。   元搜索技术是解决这些问题的有效方法之一,它通过联合多个搜索引擎,对返回结果进行处理,并提供统一的查询与结果返回接口,从而提高搜索查准率与查全率。基于元搜索技术的这些优点,本文紧紧围绕理论和应用两个层面,对元搜索技术展开探索和研究。   理论上,当前有关元搜索技术的研究主要集中在排序合成算法(Data Fusion)。排序合成算法可依据它们需要的信息进行分类,包括是否需要相关度分值或排序位置信息,以及是否需要训练数据。然而,根据数据合成性质,越优秀的成员搜索引擎返回的文档准确性也越高,成员引擎的权重值也应当是排序合成的一个重要考虑因素。据此,本文以加权分值类算法为基础,利用Dark Horse效应以及文档和成员搜索引擎之间互为推荐的对偶关系,根据各文档的“共识度”构建成员搜索引擎的自生成权值。并且,利用Skimming效应,在算法中引入“浏览者模型”,只由排序位置信息即可计算文档相关度分值。   与其他加权类算法不同的是,这些改进不依赖于包括相似度函数在内的成员搜索引擎技术细节的先验知识,同时也不需要训练数据。并且,这些改进也不是针对某一特定算法,而是可以应用到任何加权分值类算法中的一种改进。基于这两项主要改进并结合CombMNZ算法,提出改进Comb的自生成加权排序合成算法。最后,通过TREC数据集进行实验,证实了这些改进的有效性。   在应用方面,本文以个人学术信息协同软件平台“SCHOL@”为依托,将元搜索技术应用到垂直学术搜索引擎中来,探索并设计实现了基于个人学术信息的个性化web学术搜索引擎。该引擎主要提供中国期刊网、IEEE、Google Scholar等数据源的中英文学术论文和著作信息检索,为学者提供有效的学术信息提取,以及学术信息检索服务。通过实验和分析可以看出,基于元搜索技术的学术搜索引擎的有效性确实得到了提高。
其他文献
关联规则挖掘是数据挖掘领域中一个重要研究方向,频繁模式挖掘是关联规则、时序模式挖掘等应用中的关键技术和步骤,而数据流频繁模式挖掘又是当前频繁模式挖掘的一个热点问题
伴随着互联网的迅猛发展,各类信息琳琅满目,从而导致用户在信息面前出现迷失现象。因此,研究如何为不同的用户提供不同的服务,已经成为亟待解决的问题。Web个性化推荐系统通
基于视频序列的图像超分辨率重建技术是指在低分辨率图像序列彼此之间存在子像素位移的前提下,利用低分辨率图像序列之间的冗余信息,构造出比其中任何一幅低分辨率图像分辨率
随着计算机技术、网络技术的快速发展,无线视频监控在工业生产的远程监控中应用越来越广泛。研制灵活可靠、性价比高的远程无线视频工业监控系统具有非常重要的实际意义。针
近年来,计算机技术、多媒体技术的迅猛发展给人们的生活带来了日新月异的变化,人们每天都在接收大量的信息,在大量的多媒体信息当中,视频数据占有很大比重,随着视频数据的日
随着社交网络广泛应用,人们每天在社交网络上发布信息和交友。社交网络上的用户信息包括个人隐私类信息(护照号码和银行账号等)和非隐私类信息(购买记录,网页浏览记录等)。用
随着现代通信和计算机技术的不断发展,金融业在基于各类电子渠道的创新银行业务也应运而生,网上银行在人们生活中起到越来越重要的作用,因此人们对网上银行提出了更高的要求
能耗效率是无线传感器网络设计中的一个热点问题。由于无线传感器的节点通常用电池供电,一个高效的传感器网络要求优化路由协议,能够平衡功率消耗,从而延长整个网络的生命周期
微粒群算法是一种模拟鸟群飞行的群智能优化算法。由于其收敛速度较快,在优化一些多峰高维问题时易陷入局部极值点。作为微粒群算法的一个研究内容,拓扑结构具有提高种群多样
社交网络及生物网络等许多领域的数据都可建模成边带有存在概率的不确定图。不确定图上的查询与挖掘问题具有广泛应用。目前,不确定图数据查询与挖掘问题面临很多挑战,其中最