【摘 要】
:
随着互联网的普及,网络用户不断增多,问答社区逐渐成为人们交流意见、分享知识的重要平台。但随着数据的不断积累,问答社区也面临着一些挑战。问答社区中存在大量已经被解决的问题,但仍有许多语义相似的问题被重复提出,这样就会造成内容冗余。同时问答社区中的一个问题下存在大量答案文本,仅依靠点赞数评论数等特征进行排序会导致一些高质量答案排序靠后,得不到足够关注。为了解决上述问题,本文主要进行问句检索与答案排序两
论文部分内容阅读
随着互联网的普及,网络用户不断增多,问答社区逐渐成为人们交流意见、分享知识的重要平台。但随着数据的不断积累,问答社区也面临着一些挑战。问答社区中存在大量已经被解决的问题,但仍有许多语义相似的问题被重复提出,这样就会造成内容冗余。同时问答社区中的一个问题下存在大量答案文本,仅依靠点赞数评论数等特征进行排序会导致一些高质量答案排序靠后,得不到足够关注。为了解决上述问题,本文主要进行问句检索与答案排序两方面的研究。针对问答社区中网络新词较多、语言表达较为随意的问题,提出融合主题模型与HNC理论对翻译模型进行改进的问句检索模型。首先利用问答社区中问题的话题标签与答案构建用于模型训练的高质量平行语料。然后针对社区中存在大量未登录词的问题,提出一种利用Synonyms近义词包自动补全词项HNC映射符号的方法。最后针对翻译模型中翻译概率容易出现偏差的不足,利用主题模型获取词项间的主题相似度,从外部语料层面降低翻译噪声,利用HNC理论对词项进行符号映射计算语义相似度,从内部语义层面提升翻译概率准确性。实验表明新提出的问句检索模型可以获得更好的检索效果。针对当前问答社区主要利用答案的非文本特征进行排序,忽略其所包含的语义信息的问题,提出融合语义与多特征的答案排序模型。首先利用HNC理论对传统TextRank算法进行改进,在算法的初始权值与边权重计算中充分考虑词项所包含的语义信息。然后将改进的算法用于提取答案文本关键词,在此基础上计算答案文本与关键词集合的语义相似度以衡量答案文本的语义重要性。最后融合语义重要性与多种可以反映答案质量的社区特征对答案文本进行综合排序。实验表明新提出的答案排序模型可以获得更好的排序效果。本文针对目前问答社区中存在的问答内容冗余和答案得不到有效排序的问题,分别提出了问句检索与答案排序的新方法,可以更好地对问答社区中的资源进行有效利用,提升用户的社区体验。
其他文献
随着人类社会的不断发展,能源短缺和环境恶化的问题日益严重,因此开发新能源成为了研究的热点。太阳能因其清洁高效的特点受到了广泛关注,而太阳能发电并网技术将成为光伏变
由于影响城市竞争力的因素众多,其在地理空间上的分布具有不均衡性,有明显的空间位置特征,使得传统统计学在面对此问题时显得捉襟见肘。空间统计学中变量观测值一般都具有特
在编制一个测验时,最主要的就是要保证测验的公平有效性。但是在这个过程中,会遇到含有项目功能差异的项目的阻扰,影响测验的公平有效性。项目功能差异即:某个特定的试题,对于来自
地表微波发射率定义为地表向外发射的微波热辐射与同温度的黑体地表向外发射的热辐射的比率,是对地物微波辐射模型理解的关键,也是应用微波数据进行地球物理参数反演的基础。
本文研究的是某些熄灭常微分方程组的性质及其熄灭时间最优控制问题.全文共分为三部分.第一部分是引言,介绍了问题产生的背景.接下来我们在第二部分中研究了两类熄灭常微分方
精气神不足是人体亚健康态的重要表现。而不健康的生活方式和心理状态是导致人体精气神不足的根本诱因。本文从现代心理学角度,分析人格结构中儿童、父母、成人自我的不健康
近些年因索债而引起的非法拘禁在现实中比较多发,由于我国相关法律规定并不完善和实践中疑难案例的增多,导致我国理论界和实务界对索债型非法拘禁罪展开了激烈的讨论。首先要明确非法拘禁他人多长时间才可以构成非法拘禁罪,普通人非法拘禁他人的时间应当不低于24小时,但是如果在非法拘禁的同时还有其他伤害,可以适当缩短拘禁的时间。对于该罪中侵犯人身自由的犯罪行为手段不必达到完全剥夺,其程度也可以包括限制。另外对于该
考虑具有选择条件的动态面板数据模型在实际应用中有很重要的意义。它将获取数据的非随机缺失因素加入到模型中,可以使模型的适用范围更广,增加了估计的精度和准确度。本文介
本论文通过分子克隆技术手段,从株自筛选高产果糖基转移酶的米曲霉菌株中获得了果糖基转移酶基因片段,通过对基因序列的对比分析,发现其与数据库中米曲霉果糖基转移酶基因存在定
本文主要研究一类三阶准线性微分方程:(p(t)|u"|α-1u")’+q(t)|u|β-1u=0.其中a和β是正的常数,p,q∈C[α,∞),α>0,且当t≥a时有p(t)>0,g(t)>0。本文将给出此类方程在条件0