问答社区中问题响应时间预测方法的研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:huweiboweb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答社区(Community Question and Answer)已经成为互联网用户获取和发布知识的重要途径。较长的问题响应时间会降低用户体验,这是现有的问答社区普遍存在的问题之一。问答社区问题响应时间预测开始吸引学术界和工业界的共同关注。然而,现有的问题响应时间预测方法因较少考虑专家用户对响应时间预测带来的影响、忽略了未解决问题对响应时间预测带来的影响以及在响应时间预测建模时提取的特征不充分等原因,其准确精度不高。因此,本文提出了一种基于问答模型的问题响应时间预测方法。对于新提出的问题,首先,通过基于标签簇主题和加权PageRank的专家发现方法找到与问题对应的专家;然后,构建基于多因素特征的问题模型和回答者模型,利用基于多因素模型匹配的问题推荐方法找到候选回答者,并将问题推送给候选回答者;最后,通过基于问答模型匹配的回答者响应时间预测方法为提问者预测该问题收到答案需要等待的时间,以期在精确预测问题响应时间的同时提高答案的及时性和准确性。本文的主要研究内容和创新点具体如下:1.针对问答社区中短文本和“滥答”用户影响专家发现结果,从而导致响应时间预测不准确的问题,提出了基于标签簇主题和加权PageRank的专家发现方法,包括两个部分:基于标签簇-LDA的专家分类和基于主题敏感加权PagerRank的专家排序。首先,通过对问答社区中标签数据进行聚类得到标签簇,利用获得的标签簇对传统的LDA模型进行改进,得到标签簇-LDA模型(Label Cluster Latent Dirichlet Allocation,LC-LDA),进而利用LC-LDA模型对社区中的问题和专家进行分类,一定程度上减小了利用传统主题模型进行短文本分类时出现的过拟合现象对问题分类造成的影响;然后,综合考虑投票和提问者满意度以衡量答案质量,并结合标签簇-LDA的结果对传统的PageRank算法的权威值分配过程进行加权改进,设计主题敏感加权PageRank算法(Topic Sensitive Weighted PageRank,TSWPR),利用TSWPR算法计算回答者在不同领域内的专业水平,并根据专业水平将回答者排序,得到不同领域中的专家用户,从而在一定程度上缓解了传统的专家排序方法将“滥答”用户识别为专家用户的问题;最后,使用LC-LDA模型在Stack Overflow数据集中进行专家分类实验,取得了比传统的LDA模型更好的分类效果。2.针对现有的问题推荐方法在构建模型时提取特征不充分,导致问题推荐结果准确率低的问题,本文提出了基于多因素模型匹配的问题推荐方法(MultiFactor Model Matching based Question Recommendation,MFMMQR)。首先,构建基于多因素特征的问答模型(Multi-Factor based Question Answerer Model,MQAM),该模型包括回答者模型和问题模型,其中回答者模型通过回答者兴趣、专业水平、活跃度等多种特征来描述回答者,问题模型通过问题类别、难度、提问时间等多种特征来描述问题;然后,分别利用基于模型相似度的模型匹配策略和基于因子分解机的模型匹配策略对问答模型进行匹配,计算每个回答者对问题的匹配度作为其回答该问题的意愿值,并将问题推荐给意愿值较高的回答者;最后,通过在Stack Overflow数据集上进行的问题推荐实验,证明了相对于只提取少数问答行为特征的预测方法,本文提出的MFMMQR方法具有更高的推荐准确率。3.针对现有的响应时间预测方法对问答行为特征提取不充分,导致问题响应时间预测准确率偏低的问题,本文提出了基于问答模型匹配的回答者响应时间预测方法(Question and Answerer Model Matching based Answerer’s Response Time Prediction,QAMM-ARTP)。首先,综合考虑回答者兴趣、专业水平、活跃度等回答者相关特征和问题类别、难度、提问时间等问题相关特征,利用基于多因素特征的问答模型分别构建回答者模型和问题模型;然后,利用基于SoftMax分类器的模型匹配策略对问答模型进行匹配,计算每个用户对问题的响应时间;最后,通过在Stack Overflow数据集上进行问题响应时间预测的实验,证明了本文所提出的QAMM-ARTP方法的准确度高于传统的基于问题相关特征的响应时间预测方法。
其他文献
利用Gleeble-1500D热模拟机,对粉末冶金法制备的纯钼板坯在变形温度分别为1060、1140、1220和1300℃,应变速率为0. 01 s-1,真应变分别为0. 2和0. 3的条件下进行双道次热压缩
<正>浮力是教材的重点,中考必考内容之一,同时与生活实际联系密切,是激发学生学习的兴趣点;但又因为内容抽象,题型复杂,因此又是很多学生学习的难点,这样常常会发生在本内容
泛素-特异性蛋白酶33(ubiquitin-specific proteases 33,USP33)是去泛素化酶(deubiquitinating enzymes,DUB)家族的重要成员,主要通过对底物蛋白的去泛素化阻止蛋白酶体降解,
企业作为一种从事团队生产的经济组织,其治理结构体现出明显的委托代理关系。在公司治理结构基本合理的企业中,委托者为维护自身利益,需要对代理人进行监督,尤其是内部监督,
随着经济的增长和人口的增加,我国环境问题日益突出。面对逐步加重的环境危机,我们必须重新审视现行的环境治理政策,除了依靠行政命令手段进行环境治理和环境保护之外,还必须
目的臀上动脉(Superior gluteal artery, SGA)来源于髂内动脉,经坐骨大切迹出盆腔,支配臀部后外侧区域的血供。在一些髋部手术操作中,如髋臼后部骨折开放复位内固定术、髋关
核聚变是目前为止最有希望永久解决能源危机的方案之一。在众多的聚变装置之中,托卡马克是运行参数最高、最有希望实现可控核聚变的装置。而在托卡马克等离子体中,边界局域模(ELM)以及撕裂模(TM)等宏观磁流体不稳定性将会降低等离子体约束性能。如果不加以有效控制,甚至会导致等离子体大破裂。外加共振磁扰动场(RMP)被广泛用于控制边界局域模以及撕裂模等宏观磁流体不稳定性。聚变堆中的RMP线圈需要安装在包层材
期刊
中华艺术宫由原中国国家馆改建而成。由于建筑物使用功能的变化,智能化系统进行了巨大的修改。就智能化系统的各个子系统特别是变化较大的子系统的内容作了阐述。 China Pal
立于古代哲学中"以虚代全、以中为用"的方法论,揭示"三"为后天起用之层次的内涵;从气本体论的层次讲述三阴三阳的产生,进而提出阳明、厥阴的由来本于《黄帝内经》所述的"幽明