论文部分内容阅读
用户行为研究对互联网服务提供商保证应用的稳定、可靠、高质量,以及控制成本提高效率有非常重要的意义。各种应用的用户请求数据海量且特征多维度,分析要求及时性和准确性,不同的网络应用在用户行为模式上差异巨大,互联网用户行为分析面临巨大挑战。本文研究分析移动云盘和web搜索两种典型应用,主要工作包含以下两个方面: 一、移动云盘用户行为和性能分析。研究大规模移动云存储用户访问行为和数据传输性能瓶颈对于云服务提供商准确理解移动用户需求,提升服务质量,优化系统设计意义重大。通过采集某大规模移动云存储系统服务器端的HTTP请求日志数据和测量客户端请求流,获取了约3.5亿条HTTP请求和包级别数据。重点分析了用户会话识别和特性,刻画了用户行为模式和参与度特征,并从传输层角度分析了移动云存储的传输性能问题。分析结果揭示了移动云盘用户以备份为主的使用行为,以及影响传输性能瓶颈的两个主要因素(即块传输之间空闲时间和服务器接收窗口)。基于上述分析结果,指出传统云存储服务中广泛使用的增量编码和块级重复数据删除优化不适用于移动云盘系统,并提出延迟上传策略减少服务器峰值压力,以及传输块大小调整策略减小数据块传输间隔。 二、web搜索作弊行为检测与分析。检测日益隐蔽的web搜索作弊行为,识别botnet、众包作弊用户,是保障搜索引擎检索结果的准确相关和用户良好的检索体验的重要一环。不同于已有以作弊用户为主体的检测方法,本文提出以作弊搜索词为主体的检测方法,利用短时间内搜索的相关性,设计和实现检测搜索作弊词的系统,并刻画了作弊搜索的模式及其特征。主要检测步骤包含基于TF-IDF的作弊候选词筛选,基于搜索词位置向量的X-means作弊候选词聚类,以及基于弱连接的非作弊热搜词过滤。分析某大规模搜索引擎的数据集结果表明,作弊词识别准确率为86.6%,达到提升作弊检测覆盖率,识别更多低频作弊用户的效果。最后,对该搜索引擎中作弊行为特征进行了分析,发现了三种典型的作弊模式,即工作日活跃、早中晚活跃和持续活跃。