在线中文问答社区答案质量预测研究

来源 :齐鲁工业大学 | 被引量 : 1次 | 上传用户：shihaiquanhanhan

【摘要】

：

随着互联网技术的快速发展,人们可以通过多种互联网渠道获取信息。在线问答社区系统为用户提供了便利的平台,这使得社区问答网站拥有庞大的用户生成内容(User Generated Cont

【作者】

：

贺勋

【出处】

：

齐鲁工业大学

【发表日期】

：

2020年01期

【关键词】

：

答案质量排序主题模型文本相似度 CQA

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的快速发展,人们可以通过多种互联网渠道获取信息。在线问答社区系统为用户提供了便利的平台,这使得社区问答网站拥有庞大的用户生成内容(User Generated Content,UGC)。大量的用户生成内容必定存在低质量的信息,严重影响用户的检索效率,因此,对社区问答系统中的候选答案质量进行评估一直是一项重要的研究工作。众多研究者不断尝试利用机器学习对NLP任务进行处理,在候选答案的质量评估工作中,研究者开展了大量的研究工作。现有的方法主要围绕选取合适的机器学习算法与挖掘文本更深层的特征,主要特征之一是“问答对”的语义相似度,但是众多研究者都利用隐含狄利克雷LDA(Latent Dirichlet Allocation)主题模型来计算问答对的语义相似度,忽略了“问答对”是短文本,而LDA处理短文本的效果并不好。此外,社区问答系统中答案的评论存在一定的价值,因为答案评论是对答案质量的直接反馈,因此,如何提取答案评论特征并将其融入合适的排序算法中具有较好的实际意义。针对上述存在的问题,本文提出了一种中文问答社区候选答案质量排序模型。在提取众多有效特征的基础之上,本文采用了适合处理短文本语义相似度的计算方法,此外,加入了答案评论的情感极性特征,最后融合众多特征与排序算法构建了候选答案质量评估模型。本文研究的主要内容有如下几方面。为了提取“问答对”的相似度特征,本文首先介绍文本相似度计算方法,主要包括:余弦相似度、KL(Kullback-Leibler Divergence)距离和JS(Jensen-Shannon)距离,然后通过实验对比,确定使用JS距离计算“问答对”的相似度。为了计算“问答对”的语义相似度,首先提取“问答对”的主题。因此,采用了两种主题模型进行实验分析,并比较这两种主题模型的效果,最终确定主题模型BTM更适合应用于社区问答网站,因为社区中“问答对”的文本偏向于短文本,BTM对语料库进行分析与推导,短文本进行扩展,因而可以克服LDA处理社区短文本的不足。主题模型LDA处理短文本具有一定的缺陷,因为短文本的信息量少,向量特征稀疏等特点。利用BERT模型对答案评论情感进行分类,将答案评论情感极性转化为候选答案质量评价特征,接着将此特征融入排序算法对“百度知道”候选答案进行质量排序任务。最后本文利用基于Pairwise排序模型融合多特征进行排序工作。首先介绍基于排序算法模型的原理及其优势,通过对比Pointwise与Pairwise两类不同的算法模型的优缺点,介绍排序模型的原理,对比了三种不同的排序模型的性能,本文最终选取了Rank SVM排序算法融合多特征构造了答案质量排序模型。将本文的答案质量排序模型的评价效果与其他研究者对比分析,实验结果验证了本文方法的有效性。

其他文献

基于深度学习的车脸识别技术研究与应用

目前国内基于车牌识别技术的智能停车场收费系统存在对无牌车无法识别、套牌车逃费等问题,对无牌车无法识别的问题会降低停车场智能化管理水平,套牌车逃费的问题则直接侵害合

学位

深度学习三元组损失函数车脸检测车辆身份识别车脸属性分析

胰岛素调控糖尿病创面血管周细胞功能及机制研究

目的:研究胰岛素对糖尿病大鼠皮肤创面血管周细胞功能的调控,并探索介导胰岛素作用的信号转导机制。方法:采用高脂饮食喂养加小剂量链脲佐菌素(Streptozotocin,STZ)注射的方

学位

糖尿病周细胞胰岛素PI3K-Akt

基于异原子掺杂碳材料的电化学传感器研究

人们的生活水平逐年提高,对生态环境、食品安全的要求也越来越高,环境污染带来的一系列生态危害问题引起了人们的重视,对环境污染物的快速识别与检测逐渐成为研究热点。碳材

学位

异原子掺杂碳电化学传感器铅离子氯霉素

糖代谢异常人群长期转归及心脑血管并发症分析

[背景]糖尿病患病率迅猛增长,造成的全球性公共卫生问题日益严重。2003年,全球约有1亿9400万糖尿病患者;2015年糖尿病患者人数已达4亿1500万。心脑血管疾病(CVD)长期以来是人

学位

糖尿病糖尿病前期高血压心脑血管疾病转归危险因素

非晶喷带系统供电质量改善及厚度自动控制的研究

非晶薄带具有优异的软磁性能、高机电耦合系数、低损耗等磁学性能以及良好的机械性能,在电力电子设备制造行业有巨大的发展前景。尤其是非晶薄带制造的非晶变压器,电能利用效

学位

非晶薄带谐波治理辊嘴间距PLC模糊控制

关于开展二氧化碳减排监测的探讨

　　我国在哥本哈根大会上做出了二氧化碳减排承诺，但我国尚未正式开展二氧化碳环境监测。本文就二氧化碳减排的必要性、减排措施进行了探讨，提出了开展二氧化碳生态监测、工业

会议

环境监测空气质量二氧化碳监测体系节能减排

领导与员工权力距离一致性对员工创新行为的影响研究

创新成为国家和民族的发展源动力,如何最大可能地激发员工创新成为企业管理者思考的重要问题。权力距离作为一种价值观对生活、工作起着重要的影响。员工在职场中,与领导价值观是否匹配对自身的行为产生一定影响。因此探讨价值观匹配对员工创新的影响可以为组织和员工提高创新行为提供理论支撑,对促进企业创新发展具有一定的实践意义。本研究以人-环境匹配理论和领导成员交换理论为基础,探讨了领导与员工权力距离一致性对员工创

学位

权力距离领导与员工权力距离一致性领导成员交换关系员工创新行为

光诱导掺镁铌酸锂晶体畴极化反转研究

准相位匹配技术是实现高效率激光非线性频率转换的有效方式之一。实现准相位匹配技术的关键是制作出具有周期性畴极化反转结构的非线性晶体。由于目前广泛使用的外加电场极化

学位

激光诱导铌酸锂晶体铁电畴反转光致电场

低压配电网剩余电流保护优化算法研究

剩余电流动作保护装置,作为一种有效防范与避免电网漏电事故与保护生命财产安全的重要技术手段,近年来已在低压电网中广泛使用和推广。但是,由于目前现有的剩余电流在线监测

学位

低压配电网生物体触电波形数据库时频特征触电故障时刻检测触电故障类型诊断触电电流提取剩余电流保护

基于Modbus-TCP协议的工控数据安全技术研究

随着计算机网络技术的发展,以及“互联网+”和“工业互联网”等国家层面的战略方针出台,我国工业控制系统与互联网的连接越来越紧密,其原有的封闭性已经被打破,安全问题日益

学位

工业控制系统Modbus-TCP协议数据安全网络隐蔽信道双向简单循环单元

在线中文问答社区答案质量预测研究

与本文相关的学术论文