论文部分内容阅读
恰当的引用文献对于撰写学术文献有着至关重要的作用,可以表示作者在自己的研究领域知识面覆盖程度,同时也能帮助作者去论证自己的观点。据DBLP(Digital Bibliography&Library Project)统计,在计算机相关领域每年约有三十万篇学术文献发表,可见学术文献数量增长速度如此之快,因此如何帮助科研人员从大量的学术文献中挖掘出适合自己的科研文献是一件极有意义的事情。搜索和推荐是解决上述问题的两个有效的技术手段。本文在Lucene搜索排序算法上,以深度学习为背景,挖掘用户的个性化兴趣模型,探索引文推荐相关算法存在的不足,最终完成基于深度学习的个性化引文搜索推荐的相关算法研究。论文的研究工作如下:(1)提出基于深度学习的个性化搜索算法。在构建个性化搜索算法过程中首先要构建用户的个性化兴趣模型,论文基于LSTM和Attention机制重构了深度学习Seq2Seq模型,进而应用其将用户的研究兴趣点挖掘并且进行向量化表示。其次在Lucene搜索引擎排序算法的基础上融合兴趣模型进而重构排序算法。最终将搜索结果根据重构的算法进行重排序得到个性化搜索结果。实验表明,基于Seq2Seq模型的用户兴趣挖掘方法的个性化搜索算法较传统兴趣表达方法的个性化搜索在MAP指标上提高了11%,在P@10测评指标提高了28%。由实验结果可知本文提出的算法可行并且效果有一定优势。(2)提出多因子融合的引文推荐算法。针对传统引文推荐算法只考虑单一特征导致推荐结果过于专门化和推荐质量较低等问题,提出一种多因子融合的引文推荐算法。该算法将整体影响力因子、局部活跃度因子、查询相关度因子及作者相关度因子通过多特征因子融合模型进行有效融合。其中,查询相关度因子是通过融入ID2vec改进重启随机游走算法的状态转移矩阵初始权重实现。在AAN数据集上进行的实验结果表明,多因子融合的引文推荐算法相比GloPageRank、TopicSim、BM25模型在召回率上都有相应的提升。其中改进的重启随机游走算法相比原有算法在召回率上提升了8.13%,在NDCG上提升了29.7%。由实验结果分析可得,多因子融合的引文推荐算法可以有效提升引文推荐质量。(3)个性化搜索推荐原型系统的实现。结合本文研发的相关算法,基于目前流行的WEB相应框架和常用的搜索引擎框架,实现了个性化引文搜索推荐系统。