论文部分内容阅读
高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息不仅丰富而且更新速度很快,但是各BBS站点的结构划分比较复杂而且混乱,如何有效地组织并利用这些资源信息涉及到短文本处理的相关技术研究。BBS帖子作为短文本的一种主要表现形式,其聚类研究具有很大的意义。借助于BBS短文本聚类分析,可以从一堆无标签的信息中发现未知话题,作为话题识别与跟踪的预处理阶段,也可以根据话题的走向对BBS的舆论导向进行正确的导引,而且研究真实环境语料下的BBS短文本聚类,对于短文本聚类技术的研究具有非常大的理论意义。短文本具有独特的语言特征,导致其处理技术不同于传统文本的自然语言处理。单条短文本一般长度都非常短,样本特征非常稀疏,很难准确地抽取有效的语言特征;短文本实时性特别强,数量异常庞大,对短文本处理技术提出了比常规文本处理技术更高的效率要求;短文本语言表达简洁,错误拼写、不规范用语和噪音比较多,给短文本处理技术带来了更大挑战。因此,短文本聚类技术的发展相对缓慢。本文提出了短文本重构的思想,主要是通过主题相关信息抽取、噪声处理和水帖过滤将BBS下的一条线索内的帖子重构为一篇文档,从而达到扩充文本内容和特征的目的,以解决短文本的稀疏性。本文采用的K-means算法是聚类分析中一种被广泛应用的启发式划分方法,具有简单、快速的优点。然而这种算法对初值敏感,不同的初值常导致不同的聚类结果,没有良好的稳定性,且容易陷入局部最优而非全局最优的不良结果。本文采用近邻传播Affinity Propagation算法对其初始聚类中心进行选择,从而克服了算法对初始聚类的敏感问题。实验表明,通过短文本重构技术构造数据集并且对K-means算法的初始聚类中心选择进行改进后,短文本聚类取得了良好的效果。