论文部分内容阅读
微博作为一种新的在线社交媒体平台,近年来发展十分迅速,参与人数越来越多,已成为广大民众获取信息、发表观点的重要平台,并日益成为社会舆论中最重要的信息来源,快速及时的获取微博热点信息成为了人们的迫切需要。因此需要在微博中引入话题跟踪技术,让用户能够快速准确的掌握微博中的热点话题信息。传统的话题跟踪主要采用特征词的模型,数据维度很大且噪音很多,因此本文通过抽取话题最相关的本体信息来对话题进行跟踪,同时针对独立的特征词对话题语义表示上的缺陷,本文提出了特征词条本体的概念,并应用于话题跟踪之中。本文首先介绍了话题跟踪的相关基础理论,详述了话题跟踪过程及涉及的关键技术,分析了现有话题跟踪方法的不足,同时介绍本体的知识,并分析了本体的特点和本体进化的概念;接下来针对现有话题跟踪方法的不足,分析了微博报道的语义特征,提出了基于本体的话题表示方法,并自动构建出初始话题本体;初始本体中单一的特征项仍不能充分表达话题的语义信息,因此本体提出了特征词条本体的概念,通过自动抽取出的话题相关特征词条来描述话题中的事件信息,并且通过本体的不断进化来进行微博话题的跟踪;最后,本文设计了相应的实验系统,对本文提出的方法进行实验验证。本文的主要贡献在于:①针对微博的语义特征,提出了微博话题的特征词条本体表示方法,能够自动构建特征词条本体并实现本体的进化。②提出了基于本体进化的微博话题跟踪算法,根据微博话题的特征设计了相应的权重和相似度计算方法。