论文部分内容阅读
文本是人们进行信息表述与交流的主要方式之一,利用可视化技术展现文本中的关键词信息是直观并概要地表示文本主题与主要内容的一种有效途径。对现有可视化技术进行分析与改进、研究有效的新可视化技术、将可视化技术与其它交互技术等进行融合,以及对可视化技术工具进行评测等均是当前可视化技术领域研究的重要课题。本文工作重点是研究标签云可视化技术应用于文本的度量模型,以期改进可视化技术的应用效果。根据标签云可视化技术应用于文本的原理和特点,本文主要工作内容包括如下几个方面:(1)根据标签云可视化技术应用于英文文本的原理及特点,提出了针对标签云可视化结果的五个指标,并根据提取的指标建立三级层次度量模型。用于度量的二级指标主要包括数据规模、认知复杂度、视觉效果及表现,其中数据规模包含三级指标彩信词密度;认知复杂度包含三级指标彩信词方度、方向认知度;视觉效果及表现包含三级指标色彩比重、空间利用度。根据层级度量模型的特点运用模糊层次分析方法确立各级指标的权重大小,进行层次总排序。(2)基于根据标签云可视化结果建立的指标,设计实现针对英文文本的词频计算、基于词频的单词过滤、基于停止词和单词长度的单词过滤、可视化的标签碰撞检测,以及基于词频阈值过滤的单文本和多文本处理等算法。(3)设计实现英文文本的标签云可视化指标计算,以及指标无量纲化后处理,并运用模糊层次分析法获得对文本可视化的总评分。通过对涉及相关领域内容的文本对象的标签云可视化结果进行多维度的度量分析,验证了度量模型在衡量可视化应用效果方面的有效性。实验分析表明,提出的指标值在文本信息及其标签云可视化结果之间呈现出一定的相关性,如随着彩信词密度的增加,可视化效果总评分会随之降低。当色彩比重与方向认知度在一定范围内增加时,相应的总评分会得到提高,而超过一定范围时会趋于平稳。相关的工作结果说明所完成的工作在度量文本的标签云可视化效果方面具有一定的实用参考价值。