基于时态语义的Web信息检索关键技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yadnlf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间是信息空间中很重要的一个维度。大部分的网页中均包含时态信息,许多Web查询也包含时态查询信息。这些时态信息在Web信息检索和网页聚类中具有很重要的作用。将时态信息融入信息检索技术中是搜索引擎发展的潮流和趋势。然而目前主流的搜索引擎并没有充分考虑到网页中包含的时态信息,特别是在结果网页排序和网页聚类中忽略了时态信息的作用。因此,研究基于时态语义的Web信息检索技术对于提高搜索引擎的搜索效果、推进Web信息检索技术的发展具有重要的研究意义。利用网页中时态信息进行网页排序和网页聚类是近年来研究的热点。在网页排序方面,传统的信息检索主要利用网页文本与查询相似度进行排序。然而,基于文本的检索将用户时态查询部分视为普通文本进行处理,而忽略了网页中的内容时间与关键词之间的联系。而在网页聚类方面,传统的算法主要根据文本中同时出现的短语进行聚类,而没有考虑到同时将网页中的时态信息呈现给用户,满足用户多样的需求。如果在网页排序和聚类研究中充分利用时态信息,则可以有效提高搜索引擎的性能和用户体验。本文围绕时态信息检索中的若干关键技术开展研究,重点研究了基于时态语义的网页排序技术和基于主题的时态网页聚类技术。本文的主要贡献为:(1)通过分析网页中关键词和内容时间之间的联系,设计了一个<关键词,内容时间>映射算法。该算法将网页中每个关键词找到与其对应的内容时间。对于网页中的隐式时间,通过回溯算法找到其相对参照时间,从而将该隐式时间转化为内容时间范围。该算法为后面的排序算法奠定了基础。(2)提出了两种时态排序算法CT-Rank(Content-Time-based Ranking)和NTLM(a New Temporal Language Model)。CT-Rank算法是基于经验的网页时态排序算法。在脱机阶段,根据映射算法得到的<关键词,内容>对,对网页中的每个关键词计算有时间约束的关键词TF-IDF值。联机处理用户查询时,算法结合了网页中的三种因素:Pagerank值,标题排序分数以及时间约束的关键词分数得到最终的网页排序分数。NTLM算法是基于时态语言模型的网页排序算法。该算法将时态信息融入语言模型中,根据网页中的关键词和时态信息推导出用户文本查询和时态查询的概率,对网页进行排序。实验表明,这两种算法性能在时态排序方面均优于传统排序算法和对比算法,并有良好的用户评价。(3)提出了一种新闻网页搜索结果的时态主题聚类算法。该算法克服了传统聚类算法仅给出文本聚类信息的问题,在使用基于主题的聚类算法得出聚类结果后,在每一个类别中再进行时态聚类,将每一类中包含的网页分布在时间轴中。实验表明通过这种聚类形式,用户可以很容易的发现新闻的时间发展过程,并迅速找到关注的新闻主题。
其他文献
图像匹配是图像处理与机器视觉的基本问题之一,在医学图像分析、遥感图像处理以及电子稳像等应用领域引起广泛的关注。本文在向量场一致性(Vector Field Consensus,VFC)算法
随着预测蛋白质相互作用技术的提高,产生了大量的数据,这些数据一般被表示为复杂网络的形式,因此迫切需要引入高效的计算的方式来对这些数据进行分析。研究表明,蛋白质不是以单体
随着微电子技术、信息技术、网络通信技术的成熟与发展,推进了变电站自动化系统的飞速发展。变电站通信网络与系统的国际标准IEC 61850的颁布与实施更是加速了这一进程。GOOSE(面向通用对象的变电站事件)是IEC 61850标准中用于满足变电站自动化系统快速报文需求的机制。GOOSE报文主要传输继电保护领域中的跳闸、合闸、启动、闭锁、允许等实时信号,这些信号能正确、快速地反映电力系统故障和异常工作
随着信息技术的不断发展和迅速普及,人们对移动通信的需求与日俱增,无线通信问题已经成为信息化深入发展的一个重要问题。无线网络由于采用无线传输媒介作为信息传输的载体,减少
人脸识别技术在身份验证、监控系统等领域引起了人们的广泛关注,成为近年来比较热门的研究课题。然而,由于人脸本身的复杂性(如表情变化、眼镜或头发遮挡、姿态等)以及成像实时
直接体绘制是体数据可视化中应用最广泛的方法之一,它能够从体数据集中抽取内在的本质信息,并借助交互式的图形图像技术展现出来,提供了一种洞察体数据内部结构的最佳途径。
网络隐蔽信道(Covert Channels)的发展来源来生活,是指允许违反系统安全策略的方式传送信息的通信信道。对安全策略产生了重大的威胁,在操作系统、安全数据库以及安全网络中
粒子群优化算法(Particle Swarm Optimization, PSO)是由Kennedy博士和Eberhart博士在1995年提出的算法,该算法是一种新颖的仿生优化算法,由于粒子群优化算法的基本原理简单
随着光电、计算机等技术的飞速发展,以及图形学等理论研究的不断深入,三维人体动画技术在关键帧技术、运动学、动力学等传统方法的基础上,演进产生了效果更加逼真的运动捕获
互联网的出现给人们带来了极大的便利,随着网络的高速发展,互联网已经逐渐开始取代传统的电视和电话业务,成为了主要的交流沟通工具和信息获取渠道。近年来,伴随着网络技术的