基于LSTM模型的问答社区专家发现方法

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:vvpmlc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0时代的不断发展,各种社区问答平台应运而生,由于社区问答平台的开放性和知识共享性,越来越多的人喜欢把自己的问题和答案通过问答平台分享给大家。如今,社区问答平台已成为广大用户获取信息和知识共享的重要媒介。诸如百度知道、知乎、Yahoo!Answers等问答社区平台每天都会发布大量不同主题的问题,这就要求问答社区平台必须拥有充足的数据资源和强大的问题解决机制,以便帮助用户快速高效的解决问题。然而,随着问答社区平台用户量的不断增多,平台数据量迅速扩张,导致海量的平台信息会迅速覆盖提问者提出的问题,从而造成提问者不得不长时间等待其他用户的回答。与此同时,再加上大量垃圾信息和低质量答案信息的干扰,导致用户很难快速准确的获取高质量的问题答案,为用户获取答案信息增加了巨大的压力。针对以上存在的问题,本文系统的研究了问答社区中的专家发现方法,针对新提出的问题,找出相关领域能力较强的专家用户,并将专家用户推荐给提问者。主要工作包括以下几个方面:(1)基于用户历史问答信息,本文采用了主题专业水平模型TPLM(topic professional level model),该模型综合利用帖子的标签信息、投票信息和时间信息对用户进行建模。首先在用户文档中加入标签信息,利用LDA(Latent Dirichlet Allocation)模型获取用户的主题概率分布,然后在此基础上进一步利用帖子的投票信息对专业能力进行建模,评估用户在各个主题下的专业能力强弱,从而更好的挖掘相关主题下专业能力较强的专家用户。(2)基于主题专业水平模型的计算结果,本文采用TPLMRank方法(TPML与PageRank的融合方法)对用户权威度进行评估。该方法在TPLM模型的基础上融入了用户问答关系网络的链接结构信息,将TPLM模型与PageRank算法进行融合,首先通过用户历史问答关系形成用户之间的问答关系网,然后将TPLM的计算结果作为PageRank算法中用户节点之间跳转的依赖因子,最后基于融合后的TPLMRank方法对用户进行综合评分。(3)针对平台中提出的问题,在计算用户与问题相关度时,本文对传统相关度计算方法进行改进,综合考虑文本的宏观主题和深层语义信息,采用SLA-LDA模型(LDA模型和基于Attention机制的Siamese LSTM模型的融合模型)取代传统的LDA模型。该模型首先利用LDA模型计算用户与问题主题相关度,然后利用基于Attention机制的Siamese LSTM模型计算用户与问题之间的深层语义相似度,在此基础上将两者进行融合,获取用户与新提出问题的最终语义相似度。最后基于TPLMRank方法获取的用户权威度和SLALDA模型获取的问题与用户相似度,本文综合考虑两者的计算结果,采用SL-TPLMRank方法对用户进行综合评分,排序,并将排名靠前的用户推荐给问题提问者。本文的实验均在抽取自知乎问答平台的真实语料集上进行,并采用NDCG和MRR两种指标对实验结果进行评估。评估结果表明,基于TPLM模型的语义分析技术能有效地挖掘专家的兴趣分布和专业能力高低,基于TPLM模型的TPLMRank方法可以更真实的衡量用户的权威度,同时融合了宏观主题信息和深层语义信息的SLA-LDA模型也可以更好的挖掘文本的语义特征信息。总的来说,本文提出的相关模型和方法均能在一定程度上提升了专家发现的质量。
其他文献
针对目前我国城乡一体化建设中公共服务供给遇到的问题,借鉴日本生活圈规划的实践经验,基于政府、市场、社会合作的公共服务供给模式,指出生活圈的构建有利于充分发挥城乡管
随着新教育技术与传统课堂教育的相互融合,微信平台正在走进小学语文教学过程中。在小学语文教学中应用微信平台,能够将视频资料等分享给小学生,弥补传统课堂在时间空间上的限制,实现小学生语文学习泛在化,从而有效拓展小学生语文学习视野,激发小学生语文学习热情,培养小学生正确的价值观。在传统小学语文教学中,教师多采用课堂灌输式教学,主要精力放置于语文基本知识讲解,诸如字词练习及课文段落学习等,这种方式在影响了
功能梯度材料具有良好的高温热稳定性和抗腐蚀性能,特别是它能有效地缓解热应力和残余应力,从而被广泛的应用于各种高温环境。由于材料设计,生产工艺及工作环境等方面的原因,
近年来,计算机和移动互联网技术的快速发展极大的改变了人们获取知识的方式,在线问答社区(Q&A)作为知识信息共享平台得到快速的发展。随着大量用户和数据的涌入,导致社区面临信息过载的问题,使得用户不能及时快速的对知识信息高效的筛选,降低了用户的个性化体验。对社区管理者而言,及时了解在线问答社区中新技术发展趋势和了解用户的个人喜好和关注兴趣变化尤为重要。它能够帮助社区及时掌握当前新技术的发展动向
目的 研究血管内皮生长因子(Vascular endothelial growth factor,VEGF)在恶性肿瘤患者血清中的水平与临床病理特征、肿瘤复发和转移的关系,并探讨VEGF和常用肿瘤标记物在恶性肿
目的观察绞股蓝总皂苷(Gyp)单药及联合顺铂(CDDP)对人肾上腺皮质癌SW-13细胞增殖抑制的影响,初步探讨其抗肿瘤的可能机制。方法1、体外培养人肾上腺皮质癌SW-13细胞,采用Gyp
济宁城在明代以前大多是一个传统的县级治所,但其获得经济上的重要性却是在明清时期。与基于本区域内自下而上商品化生产增长和市场扩张、上升的江南不同,包括济宁在内的北方
在“三网融合”的大背景下,如何实现高效的双向数据业务传输,成为了业内关注的焦点。MoCA作为有线电视接入技术的一种,能提供双向高速数据传输,在未来的接入网技术中具有明显
针对汽车尾气废热回收问题,提出一种汽车尾气温差发电方案。分析了汽车温差发电原理和热电材料的选择;研究温差发电与三元催化器集成的装置和控制系统;设计了降压、蓄电池充
脆性材料在冲击载荷下的碎裂问题是一个重要的研究课题。受实验技术的限制,脆性/准脆性材料的动态拉伸实验方法和测试手段仍待进一步提高和发展。膨胀环技术最初用于研究韧性