基于IPTV大数据的用户身份识别研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ldpjk77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户识别问题是数据分析和挖掘中的重要问题之一,旨在实现对关联到某些资源信息的人的身份进行验证。通常情况下,研究人员利用与用户相关的数据资源,提取可以作为用户身份标识的特征,通过特征降维、选择等操作后,使用相似性度量方法对用户的特征进行相似度匹配,输出相似度最大的结果作为识别结果。用户识别问题在个性化推荐、信息取证和隐私保护等领域具有广泛的应用和重要的研究价值。在用户识别问题研究中,特征的选择和构造,以及特征的相似度匹配,是关乎识别效果的两个重要方面。本文紧紧围绕这两个方面展开相关的问题研究。主要工作如下:特征集合的构造方面:本文利用IPTV用户观看记录数据集,关注其中的频道这一项,产生用户在时间顺序上的项目序列,之后从项目序列中提取特征。关于特征提取和构造方法,本文提出了混合多模项集热度排序处理方法和可扩展多模项集构造方法,分别从特征集合构造的固定数目和固定比例的两个不同角度,提取出频率较高的项集构成特征集合。实验证明,多模项集的构造确实有助于提高识别精确率,并且,提出的两种特征构造方法的确行之有效。相似性度量方面:为了准确衡量用户特征集合间的相似度,在Jaccard系数的基础上,本文提出了基于影响值的相似性度量方法,可以达到与Jaccard系数相当甚至更高的识别精确率;结合KL散度,本文还提出了SJKL方法,该方法的效果比Jaccard系数和KL散度更优。识别结果决策方面:本文提出了基于交集的多种相似性度量方法的融合决策方案,虽然带有一定的拒绝率,但该方案相比于单独使用一种相似性度量方法,可以实现更高精确率的用户识别决策。总而言之,本文聚焦于IPTV用户数据,着力实现用户的身份识别。通过对用户识别中的相关问题进行研究,本文提出了有利于提高识别精确率的特征构造方法、相似性度量方法、识别结果决策方法,为个性化推荐、隐私保护等领域的研究提供了重要的借鉴意义。同时,本文提出的方法在用户识别的其他类似场景中同样适用,具有一定的普遍适用性。
其他文献
近年来,移动智能终端在处理器、嵌入式传感器和网络传输速率方面有所发展。人们把数据众包的思想与移动智能终端的感知能力相结合,提出一种快速、简便和低成本的新的数据收集范式,即“移动群体感知”。移动群体感知平台通过招募大量的移动用户收集数据,为各类城市监控应用提供数据支持,被广泛的应用于环境监控、交通监控和医疗健康监控等场景。由于云平台是不可信的,在数据聚合过程中云平台存在泄漏移动用户隐私的风险。此外,
在无线传感器网络的研究中,分簇路由协议是其中的重要分支,2000年提出的LEACH协议成为了众多研究的基础。其中非均匀分簇路由协议作为解决能量空洞问题的重要手段,能够极大的延长网络的生命周期,有着广阔的应用前景。本文基于传统非均匀分簇EEUC协议,在簇头选举,数据融合,路由传输三个阶段分别提出相应的优化方法,用来降低网络能耗延长网络生命周期以及提高传输数据的精度,论文主要工作如下:(1)在簇头选举
随着光学技术及产品的开发和应用,金属镜作为其中重要的光学元件之一,对金属镜实现高效、高精、低表面损伤加工的需求越来越多,对加工技术的要求越来越高。本文针对固结磨料磨具研磨金属镜加工技术进行了深入的研究。本文对固结磨料磨具研磨的加工机理进行分析,从磨粒角度入手,分析了单颗磨粒的受力和磨粒整体分布情况;对不定偏心研磨下,固结磨料磨具与工件间的相对运动轨迹进行探索,推导出了磨具上一点相对于工件的轨迹方程
网络考试系统是高校考试方式的发展趋势,尤其今年疫情带来的影响,更加迫切的需要考试的网络化。本论文探索实现的是支持大规模考生参加的局域网网络考试系统。本论文主要通过对现有考试方式的分析,确立了系统开发的可行性、必要性,完成了系统的功能性需求、非功能性需求。之后对网络考试系统进行了概要设计,介绍了微服务架构与单体应用架构之间的对比,阐释了本文采用微服务架构的优点,设计了考务管理前端、考试终端,进行了微
国际能源危机的来临、国家政策的导向促使节能问题成为制造业关注的重点问题。随着智能工厂的发展,机器人柔性生产线将会在未来逐渐成为制造工厂中的生产主力军,同时也是制造工厂的主要能耗者。可以预见,机器人柔性生产线节能技术具有重要的研究意义。本文基于工业机器人轨迹规划和柔性生产线调度,开展机器人柔性生产线节能技术研究。所提出的节能技术均在真实工业机器人与柔性生产线进行了应用实验,具有一定的应用价值。主要研
随着互联网技术的快速发展,安全技术与云计算逐渐交织形成一种新的安全防御途径——安全共享资源池。“安全即服务”作为一种新的服务受到学术界和产业界极大的关注,用户只需租用安全资源,即可在不消耗本地计算资源的情况下享受到安全服务。但是随着安全共享资源池的扩展,数据中心管理成本不断增加,安全资源池如何在确保安全性的同时降低成本成为人们关注的问题。研究根据节点资源负载随时间的变化特点,达到安全共享资源池的资
连接查询技术往往需要很高的时间开销。随着数据量加大,连接查询会因其时间开销过大而失去实用性。现实的数据集通常是包含大量重复元组的脏数据集,会造成查询结果包含重复元
随着大数据时代的到来,互联网迎来新的发展,无论对于企业还是个人,数据信息都越来越重要,保护数据信息的安全,在发生意外的时候保证充足的容灾备份成为当下越来越重要的研究方向。由于数据量的飞速增长,需要通过迅速、高效的方法把源数据同步到备份服务器中。采用常规同步的方法在面对数据量较大的时候,有占用存储空间多,占用网络带宽高,同步效率低下等问题,所以本文从现实考虑出发,提出以数据分块算法和布隆过滤器为基础
近年来,国家多次进行普法行动意图让全国人民知法懂法,以此来降低犯罪率。全靠人力来普法将是一个漫长而艰难的过程,目前很多涉案人员了解案情都是要通过求助专业法律人员,这
人类获取信息的80%以上来自视觉,大脑视觉系统具有效率高和鲁棒性强等优势,如何理解和模拟大脑视觉信息加工方式是神经科学与计算机科学交叉领域的热点问题。功能磁共振成像(functional Magnetic Resonance Imaging,f MRI)因其良好的时空间分辨率和无损成像等优点已成为研究人脑的主要手段之一。基于f MRI建立视觉编码模型是以大脑视觉感知机制为依据,模拟大脑视觉信息处理