基于文本挖掘的软件众包平台的项目个性化搜索

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:hyslst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,软件众包因为其将项目发布到互联网上,开放式利用大众的群体智慧进行软件开发的特点,在工业界和学术界受到了广泛关注。如何帮助用户挑选合适自己的项目,是众包的关键问题之一。但目前众包平台的项目搜索服务存在以下几个问题:(1)现有的大部分搜索方法是基于词汇匹配的方法,没有对搜索请求和项目文本内容进行深入挖掘;(2)用户搜索输入的词汇无法表达用户的完整意图,导致搜索的结果和用户的期望有一定的差异性;(3)搜索的相关特征忽略了用户的个性化需求,即所有用户得到的搜索结果是相同的。这些问题导致用户无法快速找到最合适的项目。在此背景下,本文面向软件众包平台,研究提出一种基于文本挖掘的项目个性化搜索方法,利用文本挖掘技术建立软件众包平台的项目模型和用户模型,并对搜索请求进行语义拓展,最后使用一种学习排序算法对于筛选后的项目候选集进行排序。本文主要的创新点包括:(1)提出了基于文本挖掘的项目建模方法,利用项目的标题和需求从词汇层面、主题层面和神经网络语义层面进行分析与挖掘,将软件众包平台的标签数据作为监督信息用于项目主题建模的采样训练中,并基于时间衰减函数计算项目热度。(2)提出了基于时间窗口的用户长短兴趣建模方法,通过划分时间窗口,在每个时间窗口内建立短期兴趣模型,并引入持续上升/下降因子和波动因子的概念去拟合短期兴趣的变化趋势,进一步建立用户的长期兴趣模型。(3)提出基于语义主题PRF和StackOverflow的搜索语义拓展方法,针对通用词汇,进行基于语义主题PRF的语义拓展方法,找到搜索请求相关的主题对应的若干个词汇作为拓展候选词;针对领域词汇,进行基于StackOverflow的搜索语义拓展方法。(4)提出了项目筛选和排序方法。采用基于规则模板的预过滤策略,通过对搜索请求做命名实体识别,结合自定义的模板生成SQL语句,挖掘搜索请求中隐藏的限制因素,筛选出符合用户要求的候选项目集合。再使用列表排序算法LambdaMART为候选的项目排序。本文利用多个软件众包平台的数据,进行了一系列实验。实验结果表明,本文提出的用户个性化建模方法和搜索拓展方法相对于其它方法,在搜索结果的NDCG指标上分别平均提高了19.8%和27.2%。
其他文献
天发船收高频雷达是一种天波-地波混合体制的新型雷达,该雷达兼具天波雷达、地波雷达和舰载雷达的优点,具有超视距探测、隐身目标探测、超低空探测的优势,因此研究天发船收高频雷达具有重要的战略意义。目标状态估计是天发船收高频雷达数据处理的重要组成部分,在数据处理的过程中起着重要的作用,状态估计算法的性能决定着滤波精度和航迹跟踪效果。本课题针对天发船收高频雷达的工作特点研究该雷达体制下的目标状态估计方法。通
不平衡数据集主要是可以分为类间的不平衡和类内不平衡。类间不平衡指的是不同类别之间的样本数目差别较大;类内不平衡是指在某一个类别的内部,不同部分的数据分布成不同的簇(Cluster),不同的簇之间样本数目差距较大的情况。因为大多数的传统的机器学习方法默认使用的数据样本相互之间是平等的,并且假设其数据量是相对平衡的,所以数据集不平衡问题的最根本难点是样本的不平衡性往往会显著地影响大多数机器学习方法的性
近几年随着人工智能技术的高速发展,人脸表情识别在智能安防、测谎、智慧医疗、互联网教育等领域出现了广泛的应用场景。由于人们通过面部表达情感的方式不同,很难通过人工设计和选择特征的方法高效的获取人脸面部表情的特征分布,因此目前基于深度卷积神经网络自动提取面部表情特征的方法在人脸表情识别中发挥出越来越大的优势。人脸表情识别任务在计算机视觉领域一直是一个充满挑战的问题,由于人们个体情绪表达的差异性和不受控
边界元法作为一种数值方法,因其计算量小、精度高而得到了发展。边界元法能够自动满足无穷远处边界条件,不用进行人工截断,无需施加人工边界,处理无限域问题具备先天优势。有
物体位姿估计在计算机视觉、增强现实及机器人等领域具有非常重要的地位。现有位姿估计算法依赖于物体先验信息,如形状、大小,以及物体的运动轨迹。当没有先验信息时,采用相
推荐系统能够挖掘出用户可能感兴趣的内容,一定程度上缓解信息过载问题。在推荐系统中利用社交网络信息不仅符合真实场景中用户对于物品的选择过程,同时能够缓解推荐系统中普
随着社会的发展与科技的进步,人们在生活中遇到的许多科学、经济和工程问题呈现多极化、非线性、强约束、高维度、难以建模等特点,传统的优化算法已经很难求得问题的最优解,因此,寻求一种有效并且高效的优化方法用于解决更加复杂的优化问题至关重要,目前也成为了众多学者的研究热点。群智能优化算法作为元启发式算法的一个重要分支,因为其较强的自适应性以及在解决复杂优化问题上所表现出来的优势,受到了众多学者的青睐。教与
随着计算机网络规模不断扩大,传统的IP网暴露出越来越多的问题,如:IP地址资源耗尽、路由表急速膨胀、服务质量得不到保证等,这些导致网络可靠性和安全性急速下降。增加成本可以提高网络的可靠性和安全性,但这会导致网络资源效率低,用户费用高,从而使网络性价比很低。与此同时,网络中新兴业务的发展和新型应用的出现对网络提供带宽的能力提出越来越高的要求。20世纪90年代,国际电信联盟提出下一代网络的概念来解决这
在数字经济蓬勃发展的背景下,一些大型商业网站、金融服务系统等常常面对高并发、高访问量的服务场景。负载均衡技术的出现使得系统在处于这种恶劣的环境下依然可以平稳运行。市场上的负载均衡服务厂商很多,既有硬件厂商也有云服务提供商。诸如F5这种专业的负载均衡硬件产品,虽然性能强悍、运行稳定但是造价同样不菲。性能上稍逊色一些的软件负载均衡不但可以帮助用户应付恶劣服务场景更加有助于消减成本。软件负载均衡中较为有
非线性环形镜锁模光纤激光器是一种基于光纤结构等效可饱和吸收体的被动锁模光纤激光器。非线性环形镜锁模光纤激光器易于实现全光纤全保偏化,具有低成本、结构紧凑和抗干扰