基于Hadoop的科技项目相似度计算研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:sjty2j
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
《国家中长期科学和技术发展规划纲要(2006-2020年)》实施以来,我国财政科技投入快速增长,科技项目和资金管理不断改进,为科技事业发展提供了有力支撑。同时也给科技项目管理工作带来了新的挑战:第一,随着科技项目申报数量的增加存在项目重复申报、重复立项等突出问题。第二,随着各学科不断细化以及学科交叉、融合日益加剧,科技项目研究的广泛交流与合作是科技发展的重要推动力,根据项目的相似度进行合理的整合是未来发展的趋势。加强项目相似度分析是解决这些问题的关键,项目的相似度分析一般是通过申请书的相似度计算找到相似项目,从而为项目立项提供一定依据,论文主要研究内容包括以下几个方面。首先,分析科技项目相似度计算的关键技术,针对科技项目申请书中存在的大量专业术语,提出一种改进的基于词序列频率有向网的未登录词识别方法。该方法依据词性对项目申请书的分词进行过滤,并结合停用词表对提取出的未登录词进行过滤。将提取出的未登录词作为特征词的一部分,结合剩余特征词构建基于向量空间和图模型的申请书表示模型,然后基于该模型计算申请书的相似度。其次,提出最大团方法求解图模型的相似度。图模型的相似度可以通过最大公共子图求解,同时图的最大公共子图问题又可以转化成求解最大团问题。最后,随着科技项目数量的增加,科技项目相似度计算涉及到的申请书预处理、特征词提取以及相似度计算等技术计算量大、计算时间长,为解决这一问题本文结合Hadoop分布式计算平台,利用MapReduce并行计算框架将申请书相似度计算每一个过程分解为Map和Reduce任务。
其他文献
传统的数据库安全研究主要集中在如何进行防御上,其缺陷是不能有效抵御所有入侵,对于内部攻击更是无能为力。入侵容忍技术的出现解决了这一问题。目前数据库中广泛使用的是多级
近年来,随着网络技术的蓬勃发展和社会信息化水平的日益提高,数据及多媒体业务的重要性越来越突出,实现网络与业务融合的需求也越来越迫切。在这种环境下,软交换技术应运而生。在
近年来,随着微电子技术、计算机技术的发展,尤其是大规模高性能的可编程器件的出现,以及软硬件设计方式和设计工具上的改进,动态可重配置技术逐渐成为国际上计算系统研究中的一个
联机分析处理(OLAP,On-Line Analytical Processing)技术用于支持复杂分析操作、侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂
随着企业建模、工作流概念的出现以及相关技术的发展,Petri网因其既有严格的形式定义,又有直观的图形表示,既有丰富的系统描述手段和系统行为分析技术,又为计算机科学提供坚实的
在当代计算机系统中,处理器速度远远高于存储器的速度。Cache技术是提高数据访问性能的经典技术,做为它们二者之间的重要的桥梁,已经在计算技术的多个方面得到了成功的应用,在计
随着科学技术的不断发展革新与推广应用,企业整个生产系统的集成化程度越来越高,对数字化信息处理技术的要求越来越多。目前国内核仪表(主要指化工、水泥、电力行业用仪表)电路
随着计算机网络教育技术的发展,网络化考试将逐步取代传统的基于纸笔的考试。利用网络实现在线组卷、考试、评分等环节,在一定程度上减少了影响考试的人为主观因素,客观、准确地
随着嵌入式技术的发展,网络语音传输技术在部分领域内开始显现出重要作用,并成为衡量电子设备智能化的一个重要标志。嵌入式网络语音传输系统的开发有助于拓宽嵌入式技术的应用
随着国民经济的迅猛发展,社会对电力的需求与日剧增以及市场机制的引入,现代电力企业也日益面临日趋激烈的市场竞争。研究和开发相应的资产管理系统,对于优化电力企业资源配