个性化检索中主题标引与偏好挖掘算法的并行化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhifeiji1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着传统搜索引擎技术发展的成熟,个性化智能检索逐渐成为搜索引擎的主要发展方向。通过对用户的主题偏好建模,实现基于主题的个性化检索,将有助于发现用户的潜在需求,提高检索服务的质量。主题相关信息的计算,包括文档的主题标引、用户主题偏好的挖掘等,在面对海量数据时,计算性能是一个瓶颈,而全文检索对于响应时间又有着较高的要求。因此,个性化检索中计算性能的改进是一个重要研究方向。  如今MapReduce计算框架被广泛用于大数据的处理。但它的一些缺陷,包括启动任务耗时长、中间数据过多地进行磁盘IO等,使得它不适用于对时间性能要求较高的应用。为此,采用YARN作为底层分布式资源管理平台,根据个性化检索相关计算的特性,选择更加合适的计算框架,用以改善计算性能。针对个性化检索中文档主题标引算法计算步骤多、阶段性强的特点,选择DAG计算模型进行算法实现,避免不必要的作业拆分,从而减少中间结果的磁盘IO。针对主题偏好挖掘过程中日志分析的实时性要求,选择流式计算模型设计相关算法,对日志进行持续性实时分析,解决偏好挖掘过于滞后的问题。通过实验对比发现,以YARN为底层管理平台,在此基础上选择有针对性的计算框架,可以有效改善计算性能。  虽然通过在YARN上采用更加适合的计算框架已大幅度提高了计算性能,但仍然存在优化的空间。一方面,框架间存在数据交互,这部分数据有着大规模随机读的特性,通过合理设置缓存机制可以加速数据的获取;另一方面,离线计算中的排序策略耗时较多,而个性化搜索中部分计算对计算结果是否有序不做要求。故改用基于Hash的数据归约策略有助于提高计算性能,但新的策略会带来随机读的问题。针对这两方面的要求,利用固态硬盘高速随机读的特性,设计基于固态硬盘的个性化搜索性能优化策略,进一步提升了计算性能。
其他文献
由于数字图书馆具有丰富的信息资源和便捷的操作性,在近几年内其得以快速的普及和发展。当前比较成功的数字图书馆系统有ACM数字图书馆,中国知网(CNKI)等,但是它们面临着用户无法
MPLS(多协议标签交换技术)是目前组建VPN的一种关键技术,它为基于IP的QOS或COS提供了体系结构的支撑。但是,由于MPLS本身没有固有的COS或QOS特性,尤其是MPLS对路由的依赖性远
平面问题是一个典型的组合优化问题。平面问题在印制电路板的设计和大规模集成电路(VLSI)的布线方面有着重要的应用,对于很多可视化问题,例如基因调控网络的可视化也有着重大
自上个世纪50年代以来,随着自然语言处理技术的日趋完善,自动文摘取得了丰硕的成果。到20世纪90年代,随着Internet的开通并在全世界范围内的普及,自动文摘的价值充分显露出来
教务管理是高校管理工作中的一项重要内容。随着计算机网络技术的飞速发展和高等教育体制改革的不断深入,人们对高校教务管理的信息化程度提出了更高的要求。然而,由于各高校管
随着基因基因芯片技术的快速发展,生物学在研究方式上发生了巨大的变化,慢慢地由原来的基于实验的定性研究向基于数据的定量研究靠拢,生物信息学应运而生,为传统生物学注入了
作为中国第一大河、世界第三大河的长江,拥有丰富的水资源,在促进我国工农业生产、提供生活用水、发展旅游业、航海业等方面发挥着举足轻重的作用。长江流域的发展对于中国的发
近些年来,全球各地的灾害事件频频发生,造成的损失和影响非常巨大。如何对付突发事件引人深思,另外在应对紧急事件、重要赛事以及大型活动等方面也经常需要应急通信服务,包括语音
变电站作为电力系统的主要组成部分,其是否能够正常稳定的运行对整个系统来说是至关重要的。变电站设备及缺陷管理系统就是为加强变电站的管理质量、保障其安全稳定的运行而
随着科学技术,特别是信息技术的发展,图象处理技术已经成为科学研究不可缺少的强有力工具。在医学图象处理领域,借助计算机来进行图象处理和分析,是图象处理技术结合医学影像