搜索引擎的相关性排序研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xdt1973
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机系统性能的提高和网络技术的不断进步,万维网成为全球最大的信息资源库,如何为如此庞大的信息资源提供高效的导航服务,帮助用户在海量的数据中快速找到需要的信息是搜索引擎亟待解决的问题。用户通常只关心搜索引擎返回的排在前面的结果,因此对搜索引擎索引的文档按照与用户查询的相关程度进行排序,将相关度高的文档排在前面,即本文研究的搜索引擎的相关性排序,成为当前研究的重点和热点。   本文的主要研究工作可归纳为以下几点:   (1)研究了文本搜索引擎的相关性排序模型,包括布尔模型,向量空间模型,概率模型,超链接模型,自学习排序模型。其中自学习排序模型将机器学习方法运用于搜索引擎的相关性排序问题,解决了以往模型的许多不足之处。   (2)为自学习排序模型提出一种构造训练集的方法。自学习排序是一种有监督的机器学习方法,模型的性能很大程度上依赖训练集。本文提出一种同时考虑查询的难度、密度、多样性的贪心算法,从海量的查询中选择有信息量的查询进行标注。实验表明本文提出的方法能构造一个规模较小且有效的训练集。   (3)研究了图像重排序算法。现今的图像搜索引擎主要利用图像周围的文本信息进行排序,没有考虑图像视觉信息。图像重排序是在文本搜索结果的基础上,通过挖掘图像视觉特征的内在关系,对原始搜索结果进行重新排序,使新的序列更能满足用户需求。基于分类、基于聚类和基于图理论是图像重排序的三类主要方法。   (4)提出一种与查询相关的图像相似性的度量方法。在图像重排序中如何度量图像相似性至关重要。现有的相似性度量没有考虑针对不同的查询,图像的相似性应该不同。本文提出一种与查询相关的相似性度量方法,把基于全局特征的相似性,基于局部特征的相似性,以及视觉单词同时出现率融合到一个迭代算法中,挖掘出与查询相关的图像信息,计算相似性。实验结果表明本文提出的相似性度量方法在图像重排序中优于基于全局特征,局部特征,或它们线性组合的相似性。  
其他文献
本文针对滑翔式高超声速飞行器再入过程中飞行环境恶劣、过程约束苛刻、末端制导精度要求高等特点,开展再入制导技术的研究。飞行器再入飞行过程的空域和速域范围大,根据不同
随着计算机和信息技术的飞速发展,DSP技术成为高速实时数据处理的一项关键技术,广泛应用在图像处理、语音识别、智能检测、工业控制等各个领域。USB 2.0作为一种成熟的计算机
移动机器人自主导航是机器人理论与应用研究中的非常重要的问题,属于智能机器人技术的核心。而地图构建和定位、运动控制又是移动机器人导航控制研究中的关键技术。首先,本文
本课题的研究对象是实际项目中的电模拟惯量汽车制动器台架试验机的控制系统。因此,本课题的主要工作是围绕该设备的精确检测与精准控制为中心来展开的。   汽车制动器台
学位
非线性和不确定性在实际模型中普遍存在。线性二次型性能指标能够综合地反映系统对性能的要求。基于线性二次型调节(Linear Quadratic Regulator, LQR)的线性系统最优控制理
随着我国加入WTO后外资银行的进入,使得国内银行业面临的竞争压力越来越大,零售客户对商业银行来说显得愈发重要,有效发掘客户、管理客户资源已成为银行的制胜关键。而客户细分
电力机车的自动过分相装置是保证机车可靠运行的重要部件,如果其发生故障,会对整个列车及铁路安全运输构成直接威胁。为了提高自动过分相的可靠性和安全性,本文以自动过分相
风能和太阳能是最有发展前途的可再生能源,是未来的世界能源利用主要来源。国内外研究表明,风/光互补发电是比单独风力发电或者单独光伏发电更好的发电方式,已经开始受到逐步的
医疗机器人系统的研究已经成为机器人领域研究与开发的一个热点。在众多的医疗手术当中,微创手术具有创伤小,疼痛轻、恢复快等特点,但同时对手术操作的精准性、稳定性和医生
学位
为了更好的处理现场采集来的信息,应用上位机进行实时监控成为工业生产发展的趋势。本论文主要是以实际化工生产线为设计对象,根据工艺组态画面,进行实时监控;构建开放性信息系