中文微博主题层次识别方法研究

被引量 : 2次 | 上传用户:phoebus
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0的不断发展,微博逐渐成为人们交流情感、了解最新时事的一种重要的社交网络平台。人们不再面临信息匮乏的问题,相反,由于微博平台信息发布门槛低、传播速度快等特点,微博数据呈爆炸式增长,人们很难从这些良莠不齐的微博数据中快速知道最近或某一时间段内社会和人们一直在讨论或关注的主题,尤其是具体到某个主题的某个方面。因此,该文通过分析中文微博数据特点和传播方式,对中文微博主题的层次识别方法进行了探讨研究。首先,分析了微博数据传播方式及传统微博数据获取方法,在此基础上,提出了一种新的基于优质账号的微博数据获取方法。该方法通过综合考虑微博用户的粉丝数量、关注数量、发博数量和等级,选定初始用户种子,再根据用户种子扩展优质粉丝账号系列来获取主题相对集中的微博数据。其次,对中文微博数据预处理及表示方法进行了探讨。然后,针对目前中文微博主题识别仅在粗粒度上进行识别这一现状,通过分析研究两种较典型的主题识别方法:基于狄利克雷分布的LDA(Latent Dirichlet Allocation)主题识别方法和基于增量聚类算法的主题识别方法SinglePass的特点和应用局限性,提出了一种新的中文微博主题层次识别方法LSP。 LSP方法结合了LDA和SinglePass的优点,在首层主题识别时,考虑到微博数据量大、特征稀疏的特点,采用LDA主题识别方法进行识别,接着在识别子层主题时,引入了微博特有的评论转发功能,改进传统的SinglePass主题识别方法对子层主题进行识别。通过设置大小不同的相似度阈值可以生成不同粒度层次的主题集合,从而形成多层的主题结构。同时,针对微博数据特征稀疏问题,提出语义与统计相结合的中文微博相似度计算方法。该方法在利用知网作为背景知识计算语义相似度的同时,引入了词语的相关度,从而使包含不同同义词、近义词的文本或具有相关语义的文本也能被识别出来,进而提高了微博文本相似度计算的精度。最后,通过新浪微博实例数据集对该文提出的中文微博主题层次识别方法LSP进行了实验验证,结果表明给出的主题层次识别方法能有效表达主题的层次结构。
其他文献
立法协商机制的发展促进了立法新常态的形成,其有助于提升立法质量、强化政协职能。在中国的语境下,立法协商主要是指人民政协在立法事务的过程中发挥参政议政职能的活动,其
本文通过对甘肃X村、L村和M村的民俗习惯与司法实践的调研,展示山区民间纠纷解决方式的演变历程。在山区乡村,1990年以前的民事、经济纠纷的解决方法基本上都是习惯习俗,它们
目的构建micoRNA-205(miR-205)慢病毒表达载体,感染乳腺癌细胞MB231,建立稳定表达miR-205的MB231细胞株,观察其增殖能力的变化。方法酶切慢病毒载体GV369,设计并合成miR-205
随着科学技术革命和数字化革命的开展,通过在城市管理中应用和推广数字化技术,实行数字化管理,一方面可以提高城市管理和服务的效率,另一方面可以推动城市在全球化进程中获得
<正>在当代中国,中国特色社会主义法治发展进程与法治改革进程是内在地结合在一起的。以党的十八大和十八届三中全会、四中全会为标志,当代中国法治改革进入了一个崭新的历史
<正>2009年4月,胡锦涛总书记视察山东省时指出:"要大力发展海洋经济,科学开发海洋资源,培育海洋优势产业,打造山东半岛蓝色经济区。"山东省委、省政府据此出台了《关于打造山
<正> 运气学说就是通常所说的“五运六气”,是古人研究自然气候变化规律对人和生物的影响的一种学说。它涉及到天文、气象、历法等方面的知识,对古代农业和医学的发展,起过一
民法是民事生活的百科全书。民事生活具有民众性、民间性、民生性、民族性、民俗性、民主性、伦理性和自然性,民事生活不尽是市场生活、不同于政治生活、不等于社会生活。民
目的比较肺癌影像学分期与外科手术后病理分期,评价胸部CT检查在非小细胞肺癌术临床分期中的准确性。方法 90例接受胸部外科手术的病人,术前按照临床检查及CT影像结果进行临