论文部分内容阅读
问答社区(Community Question and Answer)已经成为互联网用户获取和发布知识的重要途径。较长的问题响应时间会降低用户体验,这是现有的问答社区普遍存在的问题之一。问答社区问题响应时间预测开始吸引学术界和工业界的共同关注。然而,现有的问题响应时间预测方法因较少考虑专家用户对响应时间预测带来的影响、忽略了未解决问题对响应时间预测带来的影响以及在响应时间预测建模时提取的特征不充分等原因,其准确精度不高。因此,本文提出了一种基于问答模型的问题响应时间预测方法。对于新提出的问题,首先,通过基于标签簇主题和加权PageRank的专家发现方法找到与问题对应的专家;然后,构建基于多因素特征的问题模型和回答者模型,利用基于多因素模型匹配的问题推荐方法找到候选回答者,并将问题推送给候选回答者;最后,通过基于问答模型匹配的回答者响应时间预测方法为提问者预测该问题收到答案需要等待的时间,以期在精确预测问题响应时间的同时提高答案的及时性和准确性。本文的主要研究内容和创新点具体如下:1.针对问答社区中短文本和“滥答”用户影响专家发现结果,从而导致响应时间预测不准确的问题,提出了基于标签簇主题和加权PageRank的专家发现方法,包括两个部分:基于标签簇-LDA的专家分类和基于主题敏感加权PagerRank的专家排序。首先,通过对问答社区中标签数据进行聚类得到标签簇,利用获得的标签簇对传统的LDA模型进行改进,得到标签簇-LDA模型(Label Cluster Latent Dirichlet Allocation,LC-LDA),进而利用LC-LDA模型对社区中的问题和专家进行分类,一定程度上减小了利用传统主题模型进行短文本分类时出现的过拟合现象对问题分类造成的影响;然后,综合考虑投票和提问者满意度以衡量答案质量,并结合标签簇-LDA的结果对传统的PageRank算法的权威值分配过程进行加权改进,设计主题敏感加权PageRank算法(Topic Sensitive Weighted PageRank,TSWPR),利用TSWPR算法计算回答者在不同领域内的专业水平,并根据专业水平将回答者排序,得到不同领域中的专家用户,从而在一定程度上缓解了传统的专家排序方法将“滥答”用户识别为专家用户的问题;最后,使用LC-LDA模型在Stack Overflow数据集中进行专家分类实验,取得了比传统的LDA模型更好的分类效果。2.针对现有的问题推荐方法在构建模型时提取特征不充分,导致问题推荐结果准确率低的问题,本文提出了基于多因素模型匹配的问题推荐方法(MultiFactor Model Matching based Question Recommendation,MFMMQR)。首先,构建基于多因素特征的问答模型(Multi-Factor based Question Answerer Model,MQAM),该模型包括回答者模型和问题模型,其中回答者模型通过回答者兴趣、专业水平、活跃度等多种特征来描述回答者,问题模型通过问题类别、难度、提问时间等多种特征来描述问题;然后,分别利用基于模型相似度的模型匹配策略和基于因子分解机的模型匹配策略对问答模型进行匹配,计算每个回答者对问题的匹配度作为其回答该问题的意愿值,并将问题推荐给意愿值较高的回答者;最后,通过在Stack Overflow数据集上进行的问题推荐实验,证明了相对于只提取少数问答行为特征的预测方法,本文提出的MFMMQR方法具有更高的推荐准确率。3.针对现有的响应时间预测方法对问答行为特征提取不充分,导致问题响应时间预测准确率偏低的问题,本文提出了基于问答模型匹配的回答者响应时间预测方法(Question and Answerer Model Matching based Answerer’s Response Time Prediction,QAMM-ARTP)。首先,综合考虑回答者兴趣、专业水平、活跃度等回答者相关特征和问题类别、难度、提问时间等问题相关特征,利用基于多因素特征的问答模型分别构建回答者模型和问题模型;然后,利用基于SoftMax分类器的模型匹配策略对问答模型进行匹配,计算每个用户对问题的响应时间;最后,通过在Stack Overflow数据集上进行问题响应时间预测的实验,证明了本文所提出的QAMM-ARTP方法的准确度高于传统的基于问题相关特征的响应时间预测方法。