面向社交网络的文本可视化技术研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:xiezuoyaoxiezuoyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,社交网络在人们的日常生活中扮演着越来越重要的角色。与传统网络应用如论坛、贴吧、博客等相比,社交网络中的用户数量更多,用户间交流更频繁,信息传播速度更快。社交网络数据具有用户数量庞大,信息类型丰富多样且冗杂的特点,使得人们很难直接从海量的数据中得到有价值的信息。而可视化技术能够生动直观地向用户展示信息,且其可交互的特点使得用户能够在观察可视化展示后根据自己的理解进一步地获取信息。然而目前基于社交网络数据的可视化分析工具多是面向情感分析、水军识别、传播分析、文本分类为主,缺乏为用户提供以主题为主线的社交网络数据的可视化工具,用户难以根据感兴趣的领域获得社交网络中的相关信息,以主题为线索的社交网络数据可视化成为当前研究热点之一。基于以上背景,本文对社交网络数据的文本可视化技术进行研究,并在以下几个方面展开了工作:1.深入研究了网络数据爬取技术,分析了目标社交网站的网页元素,针对数据采集过程中遇到的问题,设计网络爬取方案,采用Requests技术、Selenium-Driver技术与Python多线程技术threading相结合的方式,实现对动态网页与静态网页的高效爬取。根据数据特征设计表结构,将爬虫得到的数据实时存入MySQL数据库。2.提出了一种交互式的主题河流可视化方法。首先对主题河流进行基于离散系数的初始排序优化,提出了歧义点的概念,对容易产生歧义的点进行计算与可视化设计,并提供了交互功能,使用户能够在局部根据歧义点标识对主题河流进行重排序,达到消除歧义的效果。实验结果表明交互式的主题河流能有效展现时序文本数据,并能有效解决传统主题河流的局部展现歧义问题。3.提出了一种分组排序数据的可视化方法,实现了具有分组与组内排序特征的数据的可视化设计。其思路是采用基于扇形图的分区方法对实体的分组信息进行展示,采用分层的布局方法对实体组内信息进行展示,同时结合实体的颜色、大小、形状等设计。实验验证了该可视化方法能有效地对分组排序数据进行直观展示,而且能够实现对空间的充分利用。4.针对取得的社交网络文本数据进行分析与预处理,设计并实现了社交网络文本数据可视化工具,共包括六个功能模块:话题结构模块、主题河流模块、词云模块、用户可视化模块、问题展示模块,回答展示模块。并对各模块之间进行交互设计,实现了以主题为线索的文本可视化展现。
其他文献
随着智能交通的不断发展,无线传输技术受到人们越来越多的关注。在城市环境中车辆的行驶速度比较快,造成节点间的通信链路不稳定,网络拓扑结构变化频繁等。车辆节点的密度分
随着汽车保有量的增加,汽车配件的需求也不断攀升。但是我国汽车配件交易市场缺少相应的交易依据,也缺少统一的配件交易管理制度;汽车配件准入门槛低,导致汽配市场里原厂件、
海洋占地球表面的71%,它已经成为人类生存和发展不可缺少的重要环境。海洋中不仅资源丰富,开展的海上交通运输更已成为现今国际物流的重要手段。但海冰灾害给人类海上运输、
随着国家对海洋观测领域的不断深入探索和重视,各海洋管理部门、研究机构都纷纷建立了满足自身业务需求的海洋观测系统,并积累了大量的数据资料。由于这些数据获取方式不同,组织
随着海洋探测与开发的不断深入,对具有自主导航能力的水下机器人的需求越来越大。在深海复杂环境中,单独的采用惯导组件进行导航,无法克服系统误差的累积问题、无法满足高精度自
近年来,互联网的普及和网络技术的飞速发展,为P2P技术的发展奠定了良好的基础。当前P2P技术已成为了流媒体的关键技术,并且已经广泛应用于多个领域。然而当前国内外对于P2P流
随着各种新电信技术及业务的快速发展,其网络功能将不断的增加,导致电信管理网越来越复杂。基于传统TMN(Telecom Management Network,电信管理网)标准的管理应用已经开始呈现出
在医学史上,中医学取得的辉煌成就,是我国文化宝库不可缺少的部分,中医药的地位显得越来越重要。如何加强对中医药品的管理,决定了中医药企业是否能在竞争日益激烈的医疗市场
随着互联网图像的海量增长以及人机交互系统的快速发展,如何对图像进行有效的组织分类,使人们在浩如烟海的图像资源中找到想要的图像,越来越引起人们的注意。近年来,图像情感
基于构件的软件开发是一种采用可复用构件设计与构造软件系统的软件复用途径,把“软件实现”让位于“软件集成”。充分、有效地利用已有的开发成果,可以减少重复劳动,同时提高软