针对确定话题的离散文本舆情聚类与可视化研究

来源 :武汉理工大学 | 被引量 : 13次 | 上传用户:franklee19851126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的迅速发展,越来越多的网民习惯通过论坛(BBS)、博客(Blog)等网络载体对一些事物或事件发表自己的观点。这些存储分散、观点各异的离散文本(Discrete Text)构成了一种包罗万象的网络舆情。对离散文本中所包含的情感极性进行定性定量分析,是掌握网民对相关事物或事件的态度和网络舆情的重要途径。在此基础上,对随时间变化的舆情进行聚类分析,并将其结果可视化,可以直观地呈现舆情发展趋势,这是许多领域共同关注的热点问题。综上所述,以情感极性分析为线索、以聚类分析为依据、以观点挖掘为策略、最终实现舆情分析之目标。目前,对中文文本的观点挖掘研究较晚,很多基础性工作仍然在进行中。针对网络离散文本的舆情分析研究工作也仅处于起步阶段,本文针对离散文本的特点,对离散文本进行舆情聚类分析。本文选取离散文本中的博客文本标题和摘要作为研究对象。博客文本情感表达丰富,并且其极性分布非常分散,因此获得博客文本的核心语义或者集中概念难度较大;而标题和摘要包含的情感词较少,所表达的概念相对集中。因此选取博客搜索结果的标题和摘要作为最终研究对象是加速聚类收敛的重要措施。本文实验主要分为博客文本舆情聚类分析和聚类结果评价两个部分。其中,博客文本舆情聚类分析包含基于概念的舆情聚类分析模型和聚类结果可视化。本文通过改进传统的向量空间模型(VSM),引入词语的概念,采用基于概念的向量空间模型来表示博客文本(标题和摘要),提高文本表示精度。分别使用基于概念和传统的向量空间模型表示文本,采用k-means算法进行聚类分析,并可视化和评价聚类结果。其中传统向量空间模型作为对比组来评价基于概念的舆情聚类分析模型性能。聚类结果评价采用Ground Truth模型,选取常用的三个度量精度(Precision)、熵(Entropy)和边缘索引(Rand Index)来评价聚类结果。实验证明基于概念的向量空间模型比传统基于词语的向量空间模型在离散文本舆情聚类上具有更好的性能。
其他文献
J亚群禽白血病病毒(Avian Leukosis Virus Subgroup J,ALV-J)是禽白血病/肉瘤病毒群的一个新亚群,是由英国人Payne于1991首次报道,其主要引起肉种鸡的髓细胞瘤(Myelcytomatos
当归芍药散的临床应用江西棉纺织印染厂职工医院(330039)严爱凤当归芍药散,原出后汉张仲景《金匮要略》中,笔者用此方加减应用于临床,浅述如下。1临床应用1.1月经前后腹胀痛,经水色暗兼挟血块
本文利用2004-2010年间我国13家代表性商业银行的样本数据,以DEA测算出的效率值为因变量,研究了外资银行进入程度对我国商业银行效率的影响及开放政策的最优水平。研究表明:
金融支持生态农业产业化经营是实现农业现代化的重要途径,而我国的金融支持则存在"失位"、"缺位"和"错位"现象。构建金融支持体系的对策是要加大政府支农力度,鼓励民间资本积
商周时期遗留下来的各种房屋建筑遗存和遗迹现象中,蕴含着极为重要的历史信息。对房屋建筑遗存系统的分析和研究,将会丰富和充实商周史的研究,进而会促进对中国早期古代文明
本文共分为三章,第一章为“证据能力的比较法分析”,第二章为“关联性的内涵及界定”,第三章为“关联性与证据能力之关系”,结语在总结全文的同时,对我国证据能力及关联性问
塔铭是释氏的志幽文字,是独具中国文化特色的涉佛文体。塔铭出现得很早,大约在南北朝时期,就有了雏形,此后不断演化,渐成规模。唐代是塔铭创作极为繁盛的时期,有众多文学家参
目的构建含人cyclin D1基因全长编码区的蓝色真核荧光表达载体BFP-cyclin D1,并观察cyclin D1的表达对MCF-7增殖和迁移能力的影响。方法以人乳腺癌MCF-7细胞总RNA为模板,经PC
骨骼系统肿瘤分为原发性和继发性两种,骨肉瘤是原发恶性骨肿瘤之一。乳腺癌、前列腺癌、肺癌等均具有较强的骨转移倾向。通过向动物骨髓腔内接种肿瘤细胞建立的肿瘤模型,具有
在市场竞争日趋激烈的今天,企业销售人员的胜任力直接影响着企业的业绩,关系着企业的生存和发展。因此,如何更有效地开发和提高企业销售人员的胜任力也就越来越受到企业和研