论文部分内容阅读
政府或官方组织通常通过新闻或其他传统媒体来表达他们的观点和态度,针对同一事件,非官方渠道的信息如社交媒体和新闻评论,往往会传递出不同于官方渠道的主题。政府或官方想要了解发布在新闻中的信息是否被有效传递,普通民众想要了解自己的观点是否与官方相同,不同的观点是否被官方及时回应。文本的观点提取通常有词频统计的方法和主题提取的方法,本文使用基于主题提取方法提取文本观点。现有的主题演变分析工作很少针对多源文本进行研究,本文针对不同文本源制定了不同的主题分析策略和可视化算法。为了分析随着时间的推移主题在不同的文本源中的传递和转换模式,本文提出了一个基于主题分析的信息传递模型。将主题的内容相关性和时间相关性结合,构建主题间的传递关系。由于多数主题提取工作提取出的主题只是单词或短语的集合,主题所表现出的隐含意义有限,本文建立了主题层级关系模型,挖掘出主题内的子主题;同时,计算了主题内的关键词词距关系,进一步挖掘关键词的语义内容。本文设计了一个可视化系统,系统将主题传递模型和主题层级模型以及词间距关系可视化表示。传统的主题演变可视化方法主要使用themeriver,本文创新的提出了一种将桑基图和时间线技术相结合的方法展示主题传递模型。此外,使用基于树形图的方法和词云结合来展示主题层级关系。系统支持用户交互操作,并提供原始数据视图,用户选定任一主题后对应的原始数据会同步展现,可以快速的理解主题的演变过程。本文提供了“韩国部署萨德系统”这一事件的案例分析,来进一步证实系统的有效性和可用性。