基于Timeline对检索结果进行聚类和展示的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:lm198505050056
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于网页更新的速度迅猛和数量日益膨胀,如何将海量的网页按照更友好、以用户更满意的方式聚类和展示成为很重要的一个问题。时间属性作为网页信息的一个重要特征,使得准确地判断一个网页内容的时间成为了一个亟待解决的问题,对于海量的网页特别是对历史网页,有基于Timeline对检索结果进行聚类和展示的特殊需求,以及必要性和重要性。本文在解决如上问题有如下贡献:   1.对中文网页中的各种时间信息表达特征进行统计、整理和分析,提出一种适用广泛的、效率较高的对网页内容中的时间信息进行识别和提取的方法。并最终都将其通过计算、映射等处理转化成标准化的同一时间格式,保存起来。   2.根据从网页内容中获得的各种时间信息,结合网页标题、url、导航网页和发布时间等,提出准确判断网页内容时间的算法。区别于现有的计算文章发布时间的各种方法,本文提出了两种算法:时间信息权重一致的判断网页内容时间的算法和引入影响因子的判断网页内容时间的改进算法。本文提出的算法具有更好的广适性和准确度,得到的时间最大程度的接近网页正文描述内容的时间,而不是文章的发布时间。   3.基于获得的网页内容时间信息文档,设计基于Timeline的对检索结果实时的聚类算法,即对用户输入查询词之后系统返回的文档进行基于Timeline聚类,而不是事先在后台聚类。此外,对于每一个用户触发的聚类标签,设计了一种计算文档排序的方法,使得基于时间和用户的查询词相关度高的文档排序靠前。   4.将本文研究的判断网页内容时间的算法和基于Timeline对检索结果聚类和展示的算法运用到实际的Mini-Infomall中。
其他文献
目前用户数量和网络流量出现了爆发性的增长,同时Web应用和内容从静态向动态进行转变,互联网应用面临大规模用户和动态数据内容的挑战,Web系统扩展成为关键性问题,而数据的管
平台即服务(Platform as a Service,PaaS)是一种重要的云计算服务,它提供一个可伸缩的Web应用运行环境,不仅屏蔽了底层云设施的复杂性和异构性,更为上层应用提供弹性资源供给
近十年来,伴随全民参与的Web2.0技术的蓬勃发展,虚拟的Web社会网络已经成为人们日常生活的一部分。Web技术的发展和大规模社会网络数据集的可获取性,为社会学和计算机科学的研究
本文研究目标是通过在Maze系统中实现分布式邻居构建,从而更好的获取邻居站点,同时减轻中央服务器负担以及避免单点瓶颈。论文中详细分析了现有Maze系统中央服务器的性能瓶颈
调试对于提高软件的可靠性是必不可少的,不幸运的是多线程程序的调试非常困难。由于线程交互时的不确定因素,某些错误只在特定的执行序下出现,普通的循环调试方法几乎不可行。Re
虚拟化数据中心是云计算的基础性平台,是推动云计算发展的关键因素之一。虚拟化数据中心大多由普通服务器构成,发生故障的可能性非常高。AFCOM的一份调查报告显示,有81%的公司都
服装行业作为我国国民经济的重要支柱产业,对于满足国内消费需求、扩大就业以及平衡外汇收支都起着举足轻重的作用。而高库存和高缺货并存的问题一直困扰着我国服装企业的发
近几年来,P2P技术得到了很大的发展,大大满足了人们对信息获取的需求,给人们的生活带来了极大的便利。P2P是一种分布式网络,网络的参与者共享它们所拥有的一部分硬件资源(处
随着互联网、物联网的发展,更多的内容被数据化,数据的海量增长使得文本信息的分析与处理的需求日益突显。目前,文本处理技术主要包括:文档自动分类,文档检索,文档自动摘要等。而在
最近,随着互联网上信息的逐渐增多,信息的高效获取、智能获取越来越重要。于是有关语义搜索研究的讨论也越来越多。语义网的概念被提及的频率也越来越高,互联网上的两大搜索