论文部分内容阅读
针对传统文献推荐过程中易于发生文献查找困难、文献浏览迷失等问题,基于大数据特征,利用内存计算中Spark系统框架高的容错机制和实时运算优势,提出了一种“混合关联”的图书馆推荐算法。利用Spark RDD来支撑“字符串匹配”,利用Spark MLlib支撑“相似度匹配”,通过TF-IDF()算法获得分词的TF/IDF值作为权重值,建立起文献、混合权重的Spark的三元组形式,并利用混合权重值排名建立不同长度推荐列表,以准确率对推荐算法的性能进行了评价,结果表明该算法在庞大图书系统中依然具备了非常高的文献推荐