论文部分内容阅读
针对RSS阅读器中冗余信息带来的不便。在采用中文分词和TF·IDF算法计算相似度进行预处理后,选取Levenshtein、余弦夹角法,Jaccard这三种相似度算法进行冗余信息鉴别。详细讨论这些方法的特征,并从实际应用的角度对这些方法的长处和不足做分析与比较,并选择Jaccard算法实现一个数据过滤机制。