论文部分内容阅读
互联网热点发现和舆论监控对政府公信力的提升有着重大的意义,而文本聚类技术在这些领域又有着非常广泛的应用。在当前互联网环境下,数据量之大令人匪夷所思,面对如此海量的数据,设计高效且具有良好可伸缩性的分布式处理系统就显得尤为重要。提出了把Map-Reduce这一分布式计算方法应用到文本聚类系统去,并通过相关实验证明了该方法的有效性,为构建具有高性能和高可扩展性的文本聚类系统提供了一种思路。