面向Stack Overflow的过时答案文本信息挖掘技术的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wqfzqgkvbavba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
程序员技术问答网站已经成为当今社会重要的知识共享平台,Stack Overflow(简称SO)作为当下热门的程序员问答网站,拥有千万级用户,数以亿计的帖子,积累了大量有价值软件工程知识。技术知识最大的特点就是更新频繁,随着时间的推移,网站内分享的技术知识可能会过时,这些过时的信息如果没有被明确标注或记录,可能会误导求助的用户,造成开发事故。网站中过时内容的积累会严重影响网站内容质量,但是目前Stack Overflow还没有有效的机制来处理该问题。本研究借助深度学习算法解决这一难题。随着越来越多的决策移交给深度学习算法,模型的可解释性成为决定用户是否信任模型判断结果的关键因素。深度学习模型端到端的黑盒设计,使得用户无法理解的模型决策依据、验证决策的可靠性。注意力机制的出现增加了模型的可解释性,即计算模型对样本集中注意力的范围并给予高权重,而对于无关的部分则分配较低的权重。但是注意力机制的显著性特征提取方法在对模型进行可解释性研究中性能显著的同时只能应用在部分模型,例如分类模型fast Text、Text CNN,在模型的结构中文本位置信息丢失,无法或只能有限的应用注意力机制。本文针对fast Text与Text CNN模型提出一种新的显著性特征可视化方法,同时应用注意力机制的LSTM模型,分别进行可视化方法研究。可视化是为了下一步的可解释性做了一个研究基础。本文基于自然语言处理领域中的文本分类任务,以Stack Overflow作为过时知识挖掘的场景,进行过时答案文本信息挖掘技术的研究。(1)数据集获取:本文从Stack Exchange Data Dump网站下载Stack Overflow的数据集。通过大量观察与分析,结合过时特征与数据特性,选定答案贴为过时知识的抽取对象。(2)数据筛选规则:本研究采取启发式方法,设定过时与非过时数据的规则,从千万级别的数据集中抽取过时数据。(3)数据清洗:针对Stack Overflow数据特性,进行数据的预处理。提取过时数据样本(共计542511条,过时数据的准确度达98%),对数据进行定量定性分析,探究标签与时效性之间的潜在联系,并对过时原因和过时知识进行分类。(4)模型改进与运用:鉴于过时数据准确度低的缺点,实验运用可解释性的模型,来评估模型训练的结果的有效性。因此本文基于fast Text与Text CNN非序列的模型提出了一种新的显著性特征可视化方法。另外,运用注意力机制的biLSTM模型,对注意力权重参数提取,进行了基于注意力机制的可视化方法研究。(5)实验结果分析:实验最终训练出一组具有可解释性功能、判别过时答案的模型。该方法通过标注对模型判别起到决定性作用的过时关键词,将模型判别的结果与可视化标注的特征比较,以确定模型判定的准确性,并能解释模型做出错误判断的原因。最后,将三种模型的性能进行评估。研究结果表明,基于规则的数据提取方法能够准确地获取过时数据的同时,分析了基于注意力机制的提取方法的缺陷以及模型做出错误判断的原因。三种模型可以有效地标注过时特征,判定的结果与标注的特征信息效果一致。对Stack Overflow的过时答案文本信息挖掘技术的研究,将有助于提高Stack Overflow社区内容质量,帮助用户辨别过时信息。最后本文建议Stack Overflow发展该方法来鼓励整个网络社区维护答案。
其他文献
背景和目的:系统性轻链型淀粉样变(systemic light chain amyloidosis,AL)是一种多系统受累的单克隆浆细胞病,该病临床表现缺乏典型性,发病率较低,在临床工作中容易漏诊及误诊,延误治疗。早期的诊断及治疗对AL的预后至关重要。本研究通过总结我院初治AL的临床特征、治疗情况及预后特点,从而加深对该病的认识,为该病的诊治提供更多的经验。方法:回顾性分析吉林大学第一医院血液科2
研究目的:酒精性肝炎(alcoholic hepatitis,AH)是一种以近期黄疸和肝脏炎症为特征的一种临床综合征,其中重症酒精性肝炎(severe alcoholic hepatitis,SAH)是其中尤为危重的一种,可出现肝衰竭倾向,短期病死率高。临床上激素使用受限且治疗效果有限,肝移植往往是唯一有效治疗手段。随着中国经济开放和饮食习惯的改变,中国酒精相关性疾病负担日益加重,SAH患者的治疗
目的:本研究旨在比较冷冻消融与射频消融治疗阵发性房颤的临床效果,并对阵发性房颤消融术后复发的危险因素进行分析。方法:本研究回顾性入选2019年1月至2019年12月在吉林大学第一医院接受射频消融或冷冻消融治疗的阵发性房颤患者169例,对所有患者进行筛选及排除,最终共纳入107例患者入组,其中射频消融组54例,冷冻消融组53例,所有入组患者均经I类和(或)Ⅲ类抗心律失常药物治疗无效并且首次接受房颤消
蛋白质与RNA的相互作用在很多生命活动中都不可缺少。这种相互作用与生命体中的很多生命活动都息息相关,如基因的翻译与表达和疾病调控等。随着测序技术的高速发展,已经发现的RNA与蛋白质间的相互作用源源不断的增加,这使得利用机器学习方法对RNA蛋白相互作用进行大规模预测成为可能。在过去的十年中,深度学习模型被广泛应用于基于生物序列的预测任务中,包括RBP与RNA相互作用的预测。预测模型的性能一般受限于两
随着饮食习惯的改变和医学诊断的发展,乳腺癌患者的数量逐年增加。乳腺癌已经成为社会上一个主要的公共卫生问题,是女性中最常见的癌症,也是女性死亡的第二大原因。早发现早诊断早治疗是提高治愈率和降低死亡率的关键。乳腺肿块是临床上乳腺癌最常见的病理特征之一,其大小和形状各异,边缘复杂,特征多样,而乳房X光照片则是识别乳腺肿块的重要根据。临床上大多是放射科医师根据X光照片提供可靠的意见辅助诊断,但是人工筛查费
目的:糖尿病肾病是糖尿病的晚期并发症之一。通过检测糖尿病患者血清中的视黄醇结合蛋白、胱抑素C、血尿酸水平,探讨3项指标的联合检测在早期糖尿病肾病中的应用价值。方法:选取329名于2017年7月至2020年7月就诊于吉林大学第一医院住院治疗的2型糖尿病患者,统计患者的基本资料及生化检测指标,根据尿微量白蛋白排泄量分为3组,分析3组患者各项指标的差异及其与尿微量白蛋白的相关性,并探讨UA、RBP、Cy
混合动力技术是重型商用车(以下简称重卡)面对日益严苛的排放法规限制、环境保护需求和运输行业高效节能的运输需求的有效解决方案。当前我国混合动力重卡的发展处于起步阶段,重卡混合动力系统的设计问题显得尤为重要。通过优化设计从成本和节油效果上对不同典型方案进行深入比较,找出混合动力系统各关键设计参数的取值趋势和范围对我国混合动力重卡的发展具有指导意义。本文围绕某一重型半挂牵引车进行不同构型方案的优化设计与
青光眼和糖尿病视网膜病变已经成为导致视力受损和失明的主要疾病。定期筛查对于眼底疾病患者来说尤为重要,可以提早发现病情,延缓病情的发展,避免视力受损和失明的发生。近年来,计算机技术领域飞速发展,计算机辅助诊断系统的应用发展蓬勃。计算机辅助系统可以提高疾病诊断准确率,节省人力物力。因此,眼底影像分析对临床医学有重要的意义。目前,在眼底图像分割任务中,绝大多数方法使用基于U-Net的框架。然而,这些研究
目的:1.研究PBC患者的血脂分布特点2.探讨血脂水平与PBC常见并发症的关系3.探讨PBC患者发生心脑血管疾病的危险因素方法:回顾性分析2012年至2019年于吉林大学第一医院确诊为原发性胆汁性胆管炎的患者。根据纳入及排除标准筛选出270例作为研究对象。收集初诊时一般临床资料(性别、年龄、吸烟、饮酒以及高血压、糖尿病)、并发症情况(包括腹水、消化道出血)、实验室数据(包括血脂、肝功、血常规、凝血
目的了解新冠肺炎疫情期间郑州市驰援武汉医疗队员返郑后心理健康状况,为抗疫一线医务人员心理干预和心理防护提供理论依据。方法应用自编问卷、症状自评量表(SCL-90)、抑郁自评量表(SDS)、焦虑自评量表(SAS)对105例新冠肺炎一线医务人员进行心理测试,并对其中各因子进行相关分析。结果 SCL-90阳性24例(22.86%),SDS标准分≥53分有29例(27.62%),SAS标准分≥50分有9例