基于微博数据的用户画像系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:haschie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,互联网用户数量快速增加,企业积累了大量的用户行为数据。在如今的大数据时代,企业已经不甘于仅仅是保存这些用户数据,而是希望通过对用户行为的分析去发现新的商业模式。而传统的用户分析过于依赖于个人经验,因此需要一个简单但是功能强大的分析平台让用户分析平台化简单化。基于微博数据的用户画像系统使用K-means聚类算法分析用户行为,将用户分成一个个聚类,通过分析聚类中心将每一类用户抽象成高度精炼的短文本。画像之后的用户是一个个语意突出的短文本的集合。用户画像可以帮助分析者深入,快速的认识用户,并且协助进行用户二次分类。每一个精炼的短标签背后是基于大量数据的分析挖掘,因此大大的提高了数据的可用性,将分析者从繁杂的用户数据中摆脱出来。系统提供了丰富的用户接口,不仅提供页面查询服务,还提供发送UDP数据包的协议查询。页面查询部分,使用LAMP搭建支撑平台。协议查询部分,使用接口层,逻辑层,数据层三层分离的架构,每层由若干台服务器组成,支持动态的增加和减少服务器,能很好的应对流量暴涨。本系统采用多种数据分析方法和数据可视化方法,将用户分析平台化,简单化。此外,在协议查询模块,使用心跳包,缓存,主备机等机制,保证了系统的稳定性和可扩展性。
其他文献
针对鱼骨状分支水平井注采配置关系,对鱼骨状分支水平井复杂的注采特征进行了研究,并根据微单元划分的思想,结合注采微单元水驱效果差异,确定五点井网是最适宜的鱼骨状分支水
我国作为农业大国,近年来,水利工程的建设发展非常迅猛,农田水利渠道工程也逐渐开始受到政府部门的重视,为我国农业高产量提供了支持与保障。因此,加强农田水利渠道的设计与
运用文献资料法、比较分析法等,对我国健身软件的种类、特点和发展方向进行研究,研究表明:我国现有的健身软件主要分为四类:数据分析类、视频课程类、在线预约私教类、个性化
<正>规模化猪场在我国越来越多,近年来保育猪越来越难养,疾病越来越复杂,猪场普遍存在哺乳仔猪疾病多、生长速度慢、健康水平差、成活率不高等问题,本人通过对成活率保持在
期刊
苏丹红类染料(苏丹红1号、2号、3号、4号、苏丹红G、对位红)已被证明对人具有致癌作用,因此,世界各国均不允许将其作为食品着色剂使用。目前,已有众多分析方法用于食品中此类
时间标记就是确定一个脉冲信号发生或结束的时间信息。随着社会经济水平的提高与科学技术的发展,在通信、授时、电子交易、电力、信息安全等多个领域,多通道高精度时间标记显示
铺地柏的繁殖培育方法一般采用嫩枝扦插法,关键的技术环节是扦插苗床的消毒,插穗的处理、扦插时期选择和扦插后的温度、适度控制。
<正> 水豚是世界上最大的啮齿动物。在南美洲从巴拿马到乌拉圭的沼泽与江河地带,生存着数量众多的野生水豚。 委内瑞拉人爱吃水豚肉。早在18世纪,西班牙移民在南美大草原上建