论文部分内容阅读
近似重复在微博等网络短文本中十分常见,查找和消除近似重复对于网络信息的有效处理具有非常重要的意义。论文针对相似短文本聚类的特点,在改进shingling、最小哈希和局部敏感哈希算法相结合的文件相似检测方法的基础上,设计了一个高效的短文本聚类方法。该方法通过将文本表示成连续短字符串集合,并应用最小哈希将集合简化成一组由数字组成的文本签名,通过局部敏感哈希算法得到符合相似度条件的文本聚类。为了适应网络信息规模大的特点,论文进一步利用Apache Spark集群计算框架对聚类算法进行了并行化,提高了数据处