论文部分内容阅读
随着网络信息资源的日益膨胀,使得仅仅靠传统的经验判断已无法帮助用户了解海量网络信息中的热点信息主题和某个热点主题的相关热点事件。如何从数量庞大、类别繁多、背景复杂、“舆论多元”的网络信息资源中分析出网络信息的分布结构,自动发现我们所需的热点信息主题,是一项综合性的技术,更是我们所要解决的紧迫问题。本文首先研究了热点信息主题自动发现文本预处理流程中的相关核心技术,并对文本特征权值计算方法、文本特征提取方法进行相关改进,提出了基于Web结构特征的TF IDF文本特征权值计算方法、文本概念特征提取方法,并采用基于新闻事件特性的文本表示方法,以提高文本表示效果和降低特征空间的维数,从而降低计算复杂度和提高聚类质量。本文的研究内容倾向于新话题的检测(Topic Detection Task),即网络热点信息主题的自动发现过程。因此,针对传统的话题检测技术中聚类策略(如凝聚层次聚类、增量K-Means)存在的不足,立足于基于密度的文本聚类算法,对其进行深入分析,提出了基于子簇关系的多分辨率密度聚类算法来实现热点信息主题的自动发现。随后,对此算法进行性能评估和聚类结果分析,实验结果显示该算法的性能和聚类效果都在一定程度上得到改善,提高了热点信息主题自动发现的效率和效果。为了更好的让用户理解热点信息主题的内容,本文在前人研究的基础上,采用基于FP-growth算法的DCF类簇标签生成算法对热点信息主题进行描述。该算法生成的类簇标签可读性强,可实现用户对主题内容的快捷浏览。在实现网络热点信息主题的特征分析和评估时,我们采用了2012年6月-7月全网新闻数据集进行热点信息主题的自动发现、展示、对比分析和实验结果的检验评估。虽然热点信息主题的自动发现与分析技术在国内外已经有一些比较成熟的技术,但如何对ZB级的海量信息进行有效的文本聚类,并实现应用性更强的热点信息主题在线自动发现,需要进一步研究。