基于Spark内存算法的图书馆大数据文献服务方案研究

来源 :微型电脑应用 | 被引量 : 0次 | 上传用户:xx63394965
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代背景下,如何提供高效并精确的文献检索服务是目前图书馆文献检索领域的难题.针对这一问题,首先分析了现阶段图书馆信息检索领域的研究方向和应用需求,然后提出基于Spark内存计算框架的文献检索服务方案,通过添加惩罚系数对Spark推荐算法进行了优化,最后以某高校图书馆近5年的检索数据进行反演.研究发现:首先,基于Spark内存计算的文献检索系统从文献服务平台、文献数据分析和文献数据聚合3个层次进行了重新定义,有效解决了传统检索方式中大数据反复在硬盘和内存中的交换导致效率低下问题;其次,加入惩罚系数后可以有效剔除检索过程中无效列表,在文献推荐方面准确度进一步提高;最后,对比试验发现,当文献数量在50 000份以内时,Spark内存计算方式运算速度较传统方式能够提升1倍,检索准确性两者相当;当文献数量280 000份时,内存计算方法在准确率上提升约14.3%,召回率上提升10.5%,同时速度较之前缩短约30%.希望本文的研究成果为图书馆文献检索服务提供一定参考和借鉴.
其他文献
设计了一种基于Zigbee通信的无线测温与电压监测一体、内窥式超声波与暂态地电压局部放电传感器,集成开发一套无线测温与局部放电在线监测一体的智能环网柜,并通过试验及现场
基于互联网+构建学科资源信息平台。平台包括学科动态信息、学科特色文献、学科精品课程、学科热点追踪、学科研究机构/实验室导览、学科知名专家和学术互动交流等7个模块,对重点学科领域中科研与学习所需的资源有效整合,满足高校师生对个性化信息与知识的需求,以期促进学科建设水平提升。
目前,用户的网络安全问题引起了社会广泛关注,普遍认为数据安全是云计算环境下虚拟机动态迁移的最大阻碍,因此将针对云环境下虚拟机动态迁移安全的相关因素以及技术进行分析,为保证虚拟机进行动态迁移时客户隐私数据的安全,提出采用虚拟机动态迁移安全仿真测试的方法,并结合四种虚拟机迁移策略进行分析,得出DMS-VM策略是四种策略中虚拟机迁移能量消耗最少的策略。该分析为数据安全问题提供了保障,并为云计算应用作出了贡献。
一  1990年章含之随国务院农村发展研究中心并入国务院发展研究中心(以下简称中心),先后任办公厅副主任,分管外事处(对外称外事办公室,1994年更名为国际合作部,章先后任副主任、负责人)。1992年我调任办公厅主任,与童含之开始有了较多的接触和联系。  章含之对工作尽职尽责,非常认真,甚至到了近乎苛刻的地步。记得.1993年国务院发展研究中心与云南省政府联合组织一次大型国际会议,我和章含之带一个
针对新能源汽车防抱死问题,采用PID控制算法和模糊控制对以滑移率为基础的防抱死制动控制器设计方案进行构建,通过所构建的路面识别系统,实现了行驶于不同路面上的汽车对最佳
运动能力评估是体育运动爱好者选择适合的运动项目、制定合理运动计划的前提和基础,通过科技手段进行评估能够获得更为科学的结果和建议。但是,目前在用的大多数人体运动能力在线评估系统都存在准确性低、差异化反映不明显的缺陷,为了解决这些问题,设计了一种基于复杂网络的人体运动能力在线评估系统,以系统功能为基础完成了硬件配置及其子系统划分,基于界限分析和信息库的创建完成了软件部分的设计。通过实验证明,设计的人体运动能力评估系统相较于其他同类系统评估准确性高、个性化差异反映明显,具有更高的实用性。
研究P2P流量的识别对于P2P网络的管理具有十分重要的意义,针对当前P2P流量的识别方法存在的误差大,识别结果不稳定等缺陷,为了改善P2P流量的识别效果,提出神经网络的P2P流量
采用CAN总线完成了一种模块化制动系统设计方案的构建,该系统的主控制处理器选用了 ARM芯片,负责接收总线控制信号的从处理器选用了 AT89C51.主从节点间通过CAN总线实现数据
在核电人机界面操作环境中,主要依赖专家操作.将专家在人机界面上的操作过程看作马尔可夫决策过程,针对操作过程经验难以准确描述以及奖励函数难以确定的特点,提出了利用模仿
为了检验基于小波包-反向传播神经网络的局部放电信号模式识别方法的有效性,设计了 4种典型的绝缘缺陷模型,并采用局部放电传感器测量了局部放电信号.采用小波包分解提取了局