面向软件开发领域的知识问答系统设计与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:sophiechenq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,随着信息科技的不断进步,软件开发领域已经得到迅速发展,相关的软件开发知识种类和数据量也在不断增加,如何从这些种类繁杂、数量巨大的数据中为开发者推荐合适、有效的软件开发知识成为当前软件开发领域的主要内容。传统的以搜索引擎为主的知识获取方法,通过匹配关键词可以获取一系列相关的信息来推荐给用户。近几年,特别是在2012年谷歌提出知识图谱的概念之后,利用知识图谱的相关技术进行知识问答等方面的研究已经有了很大的发展。但是,对于软件开发领域的知识问答来说,还有许多不足:(1)现在对于软件开发领域的知识来说,分布相对比较零散,许多信息都是散落在各个不同的网站上,人们往往需要搜索引擎多次查找才能得到需要的答案,缺少软件开发知识的自动收集机制;(2)现有的软件开发知识相对分散,缺少业界统一的一致的规范和标准,没有针对软件开发这一特定的领域来专门设计一个专业领域知识库;(3)通过观察研究StackOverflow、CSDN等网站上的一些软件开发领域的“问题-答案对”发现,大多数问题都是会涉及到多个实体、关系的问题,相对应的答案也往往是多个且形式多样,对于这种复杂、开放的软件开发领域问题,传统的知识问答方法存在不足。传统的知识问答方法大部分都是对一些简单事实问题进行研究的,不能很好的支撑软件开发领域的复杂、开放的问题。因此,如何对软件开发领域这种复杂、开放的问题进行回答,成为现阶段需要研究和解决的问题。本文针对以上所陈列的各种问题,进行了深入的研究,主要工作有:1.实现了异构多源软件开发知识的自动化收集。为实现对软件开发领域知识的自动化收集,构建并行化的爬虫程序,对各类关于软件开发的网站上的数据集进行爬取,如维基百科、StackOverflow、GitHub等。2.构建了统一的软件开发知识图谱。构建适用于软件开发知识问答的软件开发知识图谱,设计软件开发知识库。首先,对收集到的问答数据进行分析、总结,得到软件开发领域问题及相对应答案的特征;然后对这些数据进行预处理,提取数据中的实体、关系以及属性等信息;最后利用收集的软件开发知识数据集以及从维基百科等网站上爬取的关于软件开发这方面的知识和软件开发领域问题答案特征,对通用知识图谱的构建方法进行了改进,使用Neo4j等图数据库进行数据存储,构建了适用于软件开发知识问答的软件开发知识库。3.提出了一种面向软件开发领域复杂问题的知识问答方法。该方法是通过在知识图谱中找到与用户问句描述最相符的相似问题实体,并将其答案作为最终用户问句的答案。该方法主要包括两个方面,一是用户问句的嵌入表示,它是在融合了知识图谱中知识层面的信息和结构信息后,对问句进行联合的嵌入表示;二是构建了用户问句的知识体系,并将其与注意力机制相结合来表征用户的真实意图。最后,构建了一个得分函数来计算相关性得分,获取与用户问句最相符和的候选问句,并将其答案作为用户问句的答案。4.设计并实现了面向软件开发领域的知识问答系统。分析传统知识问答方法的缺陷和用户日益增长的需求,以提出的知识问答方法为基础,设计了面向软件开发领域的知识问答系统,以实现对软件开发领域复杂、开放的问题进行有效地回答。本文通过自动化收集异构多源的软件开发知识,构建软件开发知识图谱,提出面向软件开发领域的知识问答方法,设计并实现了面向软件开发领域的知识问答系统。对知识问答系统进行了功能和性能上的检验,结果表明系统具有较好的稳定性,所提出的知识问答方法也取得了良好的效果。
其他文献
错配修复(Mismatch Repair,MMR)系统是DNA修复的重要途径之一,负责识别和校正单碱基错配和未配对核苷酸,在生物体中高度保守,对于维护DNA复制的高保真度、高准确度和基因组稳
中药栀子来源于茜草科栀子属植物栀子的干燥成熟果实,是卫生部颁布的首批药食两用资源。现代化学和药理学研究表明栀子主含藏红花色素、环烯醚萜、三萜、黄酮等成分,具有神经
目的本研究通过观察补阳还五汤预处理Srague Dawley(SD)大鼠,诱导脑死亡(brain death,BD)后对肾脏损伤及细胞凋亡的影响,探讨补阳还五汤预处理对肾脏的保护作用及其可能机制
提高已有光伏材料的性能和探索新型光伏材料是太阳能电池研究和发展的两条基本途径。CuO带隙合适(~1.4 eV),对光的吸收系数大(106 cm-1),是一种很有发展前景的光伏材料。但由
十字花科蔬菜是我国重要经济作物。随着全球气候变化和集约化生产,病毒病已成为危害我国蔬菜生产的主要病害,其中芜菁花叶病毒(TuMV)是侵染十字花科蔬菜的主要病毒之一,严重
本文研究了一个具有常纯量曲率的紧致黎曼流形(Mn,g)可共形形变到一个Einstein流形的条件,证明了如下结论:1、纯量曲率为非正的Einstein流形不能共形形变到另一个Einstein流形,也就是说有刚性.2、纯量曲率为正的黎曼流形可非等距的共形形变到一个Einstein流形的必要条件是max||Ric-R/ng||2>cnc(λ1-c),其中cn=(n-2)2/n,c=R/n-1,λ
背景:我国作为慢性肝炎及肝硬化大国,原发性肝癌发病率居世界首位,每年发病率及病死率均占全球一半以上。目前原发性肝癌是我国第4位常见恶性肿瘤及第2位肿瘤致死病因。手术是肝癌最主要、最有效的治疗方法,其次有肝动脉化疗栓塞术(Transarterial chemoembolization,TACE)、局部射频消融、放疗、系统治疗(化疗及靶向治疗)、中医药治疗、免疫治疗等。但由于原发性肝癌具有隐匿性及高侵
涉水桥梁建设改变了水流形态,常常造成桥梁基础局部冲刷,威胁桥梁安全,相对于清水冲刷,挟沙水流所造成的桥墩局部冲刷应该具有自身特点,目前鲜见研究成果,开展挟沙水流下桥墩
近些年,ABS在中国发展迅速,其在促进中国经济金融发展中的作用越来越受到相关机构的重视。“十三五”规划表明,我国将继续加强交通建设力度,完善城市群之间的交通运输网络,推进公路、铁道、机场和港口等枢纽的建设,我国基础设施建设还存在很大的发展空间。由于基础设施拥有资本需求量大、工期长等特点,ABS逐渐成为基础设施建设的重要融资方式。然而,我国ABS市场还不够成熟,相关机制尚未健全,我国ABS市场接连出
目的:肺癌是来源于气管支气管粘膜或腺体的恶性肿瘤,发病率和死亡率居我国恶性肿瘤的首位。非小细胞肺癌(non-small cell lung cancer,NSCLC)约占肺癌总发病率的85%,其中腺癌约占40%,鳞癌约占30%,大细胞癌约占5-15%。NSCLC分子学极其复杂,大多数患者确诊时已处于中晚期,导致治疗相当棘手。POLE2是DNAPε的第二大亚基,研究发现POLE2与直肠癌、宫颈癌、膀