移动云盘和web搜索作弊行为分析

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wangshuxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户行为研究对互联网服务提供商保证应用的稳定、可靠、高质量,以及控制成本提高效率有非常重要的意义。各种应用的用户请求数据海量且特征多维度,分析要求及时性和准确性,不同的网络应用在用户行为模式上差异巨大,互联网用户行为分析面临巨大挑战。本文研究分析移动云盘和web搜索两种典型应用,主要工作包含以下两个方面:  一、移动云盘用户行为和性能分析。研究大规模移动云存储用户访问行为和数据传输性能瓶颈对于云服务提供商准确理解移动用户需求,提升服务质量,优化系统设计意义重大。通过采集某大规模移动云存储系统服务器端的HTTP请求日志数据和测量客户端请求流,获取了约3.5亿条HTTP请求和包级别数据。重点分析了用户会话识别和特性,刻画了用户行为模式和参与度特征,并从传输层角度分析了移动云存储的传输性能问题。分析结果揭示了移动云盘用户以备份为主的使用行为,以及影响传输性能瓶颈的两个主要因素(即块传输之间空闲时间和服务器接收窗口)。基于上述分析结果,指出传统云存储服务中广泛使用的增量编码和块级重复数据删除优化不适用于移动云盘系统,并提出延迟上传策略减少服务器峰值压力,以及传输块大小调整策略减小数据块传输间隔。  二、web搜索作弊行为检测与分析。检测日益隐蔽的web搜索作弊行为,识别botnet、众包作弊用户,是保障搜索引擎检索结果的准确相关和用户良好的检索体验的重要一环。不同于已有以作弊用户为主体的检测方法,本文提出以作弊搜索词为主体的检测方法,利用短时间内搜索的相关性,设计和实现检测搜索作弊词的系统,并刻画了作弊搜索的模式及其特征。主要检测步骤包含基于TF-IDF的作弊候选词筛选,基于搜索词位置向量的X-means作弊候选词聚类,以及基于弱连接的非作弊热搜词过滤。分析某大规模搜索引擎的数据集结果表明,作弊词识别准确率为86.6%,达到提升作弊检测覆盖率,识别更多低频作弊用户的效果。最后,对该搜索引擎中作弊行为特征进行了分析,发现了三种典型的作弊模式,即工作日活跃、早中晚活跃和持续活跃。
其他文献
个性化主动服务有覆盖推送、过滤推送和发布-订阅推送三种实现方式,其中发布.订阅推送方式能较好地满足用户的个性化要求,且实现简单,因此在PAS框架中采用了发布-订阅实现方
基于构件的软件开发的关键工作为构件的组装,而传统的构件组装未能很好地对B/S应用的开发进行支持.该文的重点在于如何把构件组装与B/S应用的开发进行结合,并提出了一个基于J
学位
实时操作系统中通常需要使用各种外部设备,并且要求对外部事件作出快速准确的响应,否则可能导致灾难性后果.此外嵌入式系统使用的设备种类繁多,往往需要用户自行编写相应的设
随着学术成果的蓬勃发展,学术论文大量涌现,如何从最新的学术论文中挑选出自己感兴趣的学术论文,成为科研人员亟待解决的难题之一。传统的学术推荐系统面临着如下三个问题:(1)需
传统的Web访问控制一般是通过口令,或公钥证书等手段对用户进行身份认证,然后根据服务器端的访问控制列表对用户进行授权.实践证明,传统的访问控制列表方式已经不能满足Web环
该将对传输层安全协议SSLV3.0进行研究分析,介绍在嵌入式系统中实现SSL协议客户端功能的过程.SSL是一个完整而开放的通讯协议,它概括了使用对称密钥算法、公开密钥算法、数字
网络数据管理协议(NDMP,NetworkDataManagementProtocal)是一个用于网络数据备份与恢复的开放性协议.遵循NDMP标准的服务器上不再需要安装其他备份代理,就能被NDMP兼容的备份
DOM(DocumentObject Model,文档对象模型)是由W3C组织制定的一个对象化的XML数据接口,一个与语言无关、与平台无关的标准接口规范.它定义了HTML和XML文档的逻辑结构以及存取
计算机图形学中的流体场景模拟,无论在传统的影视特效、广告、三维游戏开发等领域,还是在逐渐兴起的虚拟现实、增强现实等领域,都有着广泛的应用和研究价值。然而,由于流体形态的