【摘 要】
:
寻找学术论文的开源代码对于验证研究成果的优劣十分关键,直接影响了学术科研的效率和质量,因此,面向学术论文的代码质量评价方法的研究具有重要的意义。基于深度学习的代码
论文部分内容阅读
寻找学术论文的开源代码对于验证研究成果的优劣十分关键,直接影响了学术科研的效率和质量,因此,面向学术论文的代码质量评价方法的研究具有重要的意义。基于深度学习的代码质量评价方法以查询需求和代码的特征信息作为输入,依托深度学习模型对代码的质量进行评价,近年来得到了广泛关注。目前的研究在对代码片段的质量评价上取得了较好的成果,但在存储库的质量评价方面仍有较大的优化空间,特别是相关性、可用性和权威性等方面依然存在不足。为此,本文针对这些问题开展了研究,进行的主要工作有:首先,本文建立了三个代码质量评价方法。基于注意力机制的代码相关性评估方法,可以依据文章信息与自述信息来衡量文章与代码的相关性;针对搜索结果中的代码缺乏项目实施描述的问题,本文依据源代码信息与源代码描述信息,建立了基于注意力机制的代码可用性评估方法;本文还基于代码的关注者建立了代码影响力评估方法,用于衡量开源代码的影响力。其次,本文在代码相关性、可用性和影响力三个质量评估体系的基础上,建立了学术论文代码搜索模型,并在一个包含10K+的GitHub存储库的大规模数据集上对模型进行了评估,实验表明,本文提出的代码搜索模型在??@?,??@?指标上均取得了较好的表现,比GitHub现行的代码搜索算法具有更优的性能,??@1和??@10分别提高了0.13和0.98,保证了搜索结果的质量。最后,针对学术论文的开源代码,目前仍没有公开的数据集,为继续促进本领域的研究,本文构建了计算机学科学术论文与开源代码的关联数据集,共9225个关联对,本文通过数据采集和文档解析技术对学术论文和开源代码的数据进行了构建,并将数据集在GitHub开源供后续研究。总之,本文从代码相关性、可用性和权威性的角度实现了代码的质量评价方法,可以为学术论文的代码搜索提供有效的搜索方案和研究思路。
其他文献
国际格局中美“两极论”者的局限,在于其研究方法是将国际格局作为“因变量”,认为国际格局变化往往是重大国际事件所触发的结果,而非用来解释国家间关系的“自变量”。然而,
当今时代,数字化浪潮席卷全球。传播渠道日益拓展,传播速度日渐加快,传播媒材愈发多元,传播的业态也由定向化趋向于全网式。近年来,城市宣传片不断涌现,在展现城市形象的同时
在新媒体的环境中,信息的传播与传统的传播方式不同,扩散得更快,影响力更持久,辐射的范围可以传递到全球的任何角落,一旦企业发生舆情危机后,如果没有及时的进行干预和引导,舆情危机将会愈演愈烈,直接给企业带来致命的影响。在互联网的时代推动下,媒体以社会化媒体存在各个业态当中,如公交媒体、数字电视、手机等都成为了信息的载体,传播速度惊人,传播内容会出现一定的扭曲和丑化,互动性强,民众从众行为引发的传播、共
鉴于微信是当前全球最受欢迎的社交网络平台之一,故以技术接受模型为基础设计问卷,通过线上调查,了解微信用户对微信作为移动旅游服务平台的接受意愿,利用回归分析法检验影响
速滑体育运动对运动员能力有着专业要求,平衡能力作为速滑运动专业能力之一,要求运动员具备较高的平衡能力。速滑运动是在冰面上进行的体育运动,速滑是对冰上滑行速度的考查,
农业绿色发展是建设生态文明的重要内容,也是我国由农业大国向农业强国转变的必经之路。在农药增效减量的背景下,不同种植规模的农户对农药的使用情况有所不同,本文就探索不同的种植规模,农户的施药行为有何不同?农户的最优种植规模是多少?等问题上展开研究。当前农业流行色发展的理念不断深入人心,而长久以来农药的使用量却一直居高不下,尽管单位农作物上喷洒农药的量在不断增加,但粮食产量的增产效果却不明显,农户种粮对
近年来,伴随着经济、信息化的快速发展,新兴消费者崛起,多元化购物中心(Shopping Mall)已逐渐成为主流零售消费业态,呈现了更丰富、多元化的租户类型和创新模式,为人们提供全方位一站式服务。与此同时,随着互联网技术普遍化,大众的消费习惯和交易方式已有颠覆性的变化,传统的实体零售业面临前所未有的巨大挑战和威胁,需及时转型,并依靠先进的网络技术,开拓新销售领域、打通线上线下多渠道服务,为消费者提
目的:探讨可溶性B7-H3(sB7-H3)在继发性噬血细胞性淋巴组织细胞增多症(sHLH)患者中的诊断及预后意义。方法:收集2012年12月至2018年4月收治的85例初诊sHLH患者初次就诊时的血