基于机器学习的APP分类方法研究与应用

来源 :西南大学 | 被引量 : 0次 | 上传用户:peiyingbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
5G网络和5G手机的普及,互联网移动生态伴随着硬件和网络的发展在蓬勃发展。用户通过手机的媒介,每天以增量的方式,产生EB级别的数据,这就意味着需要处理大量的数据。在大数据的时代背景下,企业对于自己积累的历史数据,网络上可以利用的数据,进行挖掘和利用,也变得十分重要,利用这些数据给企业带来商业价值。百度的竞品观察室(SCOP-Scop’s Competitor Observation Platform)平台应运而生,平台定位为移动生态最权威的综合性竞品分析平台,提供10万+APP数据、3万+研究报告、150家公司财报及近百家媒体科技资讯等竞品分析服务。本论文是本人在百度实习期间参与的工程内容,为了实现平台APP一级、二级分类标准更替时,自动更新两份数据源的APP分类信息。首先进行基础数据建设,然后实现不同源数据交叉验证,最后利用前两部分内容实现APP自动分类。利用可利用的数据,针对问题提出相应解决方案。主要包含以下内容:(1)基于分类模型的APP信息融合;(2)基于感知哈希和SIFT算法多源分类APP关联;(3)基于集成学习的APP自动分类;(4)系统平台功能应用。具体针对措施如下:(1)针对APP的信息融合,本文主要利用仅有的APP名称、APP安装包名、是否系统应用和样本数四个字段,构建APP名称是否一致、是否存在包含关系,安装包名整体和分段的文本相似度、编辑距离,安装包中词的IDF值等作为数据特征。本文提出利用RF和LR模型的特性,构建RF+LR融合分类模型,进行两两APP判断,判断其是否是同一个APP,得到所有是同一个APP的分类结果,最后利用APP样本数的大小排序,得到APP主-子包的格式。通过APP信息汇总,得到一个APP的所有安装包信息,构成了系统平台的最基础数据。(2)针对多源分类APP关联,利用第一部分得到的APP安装包数据,通过应用宝官方网站,使用爬虫技术获取APP图片信息。目前平台外购一份第三方数据(questmobile--https://www.questmobile.com.cn/),包含APP的详细数据(DAU、WAU等),对数据进行展示时,需要对两份数据源的数据进行交叉验证。本论文主要利用APP的图标信息,判断两份数据源的APP是否是同一个APP。本文利用感知哈希算法和尺度不变特征转换(SIFT)算法,前者主要提取图片包含的特征,生成一组“指纹”,然后对不同图片的“指纹”,进行比较得到图片的相似度。当图片出现微小变更时,感知哈希算法则无法进行判断,本文利用SIFT算法,构建图片的尺度空间,获取空间中的极值点,定位图片中的关键点并获取方向参数信息,图片关键点的描述,从而提取出图片的特征信息。通过提取的特征点信息匹配特征点个数,得到两张图片相似程度。本文将感知哈希算法和SIFT算法结果融合到一起,进行判断不同数据源APP的图标是否是同一个APP。根据已有数据验证,有着较为不错的结果,同时可以利用企业自有数据进行APP分类后,同步更新外购第三方数据APP的分类。(3)针对APP自动分类,本文利用APP名称、APP安装包名以及通过爬虫获取到的APP应用描述信息,对这三部分特征分别进行分词和提取TF-IDF特征,然后利用bagging集成的方式,构建集成学习模型,预测该APP的一级和二级分类信息。针对应用描述信息TF-IDF特征,本论文利用线性核SVM模型和两层隐层神经网络模型构建两个弱分类器,对于应用名TF-IDF融合描述信息特征,利用两层隐层神经网络构建一个弱分类器,最后我们利用这三个弱分类器利用bagging的思想,加权得到最终的预测结果。目前系统上有一级分类7个,二级分类53个,通过上述模型的预测结果,我们得到一级分类的准确率有0.940,二级分类的准确率有0.898。达到了不错的模型效果,极大的减少了人工一一标注的工作量。(4)针对平台功能应用,本文主要利用Yii后端框架、VUE前端框架和Echart组件将前三部分实验结果结合部门其他数据进行竞品观察室平台的数据展示,从而服务企业。本文通过基于厂商、安装应用市场分发的安装包,得到汇总的APP信息,从而可以得到平台的完整指标数据。避免了因为安装包不同,导致遗漏某个厂商安装包下的指标数据。在和平台外购questmobile数据进行数据交叉验证时,相互参考,避免出现数据波动,无法判别数据的可用性。有了前两部分数据后,我们在平台上对每个APP分类通过集成学习的方法进行自动分类,减少人工成分。在整个实验的过程中,为了保证算法的可行性和稳定性,通过已有数据和爬虫数据,进行多批次的实验,大量的算法尝试。实验结果表明,本文的算法模型具有较好的效果,且本论文的所有内容已经全部上线竞品观察室平台,服务于百度企业。
其他文献
在国家政策的大力支持和引导下,我国新能源汽车产业飞速发展。伴随着新能源汽车保有量的不断增加,由于技术不完善导致的产品质量问题逐渐暴露,事故率明显升高,给人们的安全出行带来了挑战。为了加强新能源汽车应用推广和安全监管,促进技术发展,国家要求企业建立完善针对新能源汽车的远程监控平台,实时监控车辆运行情况。然而面对日益增长的终端数量和数据量,传统车辆监控平台架构设计在性能、时延和可靠性上难以满足现存需求
由于社会的发展与科技的进步,在城市混合交通中,城市的机动化水平得到的长足的发展。各类公共交通运输工具鱼龙混杂,电瓶车在其中所需要占据着的位置相对较弱,且据中国公安部交管局初步统计,电瓶自行车驾乘人员死亡事故中,约80%为颅脑损伤致死。有相关研究表明,正确佩戴安全头盔能够将交通事故死亡风险降低60%至70%。故2020年4月,公安部道路交通管理局又一次做出了重要部署安排,在本年度国内城市控制范围里,
开源软件的诞生促使软件行业踏入了新的发展周期,与此同时,它受到了政府、相关企业、软件从业者的普遍认可,并得到了广泛应用。开源软件在竞争激烈的软件开发模式中占据了一席之地,也因此成为了全球科技创新的重要载体。随着中国进入科技自主创新的时代,推进国内的开源运动以及发展国内的开源软件产业势在必行,而开源软件的可持续性发展与开源软件许可证的选择问题息息相关。开源软件许可证是开源软件代码复用和协作开发的法律
随着人类进入信息化社会,教育信息化已成为推动和深化中学教育改革的一项重要措施。将信息技术和现代教育理念与课程教学有效结合对于提高教学效率、提升教学质量及学生综合素质具有重要意义。《高中信息技术课程标准(2017版)》明确提出中学教育部门应以围绕全面提升学生信息素养为目标,针对自身实际特点有效利用现代信息技术整合课程资源,丰富学生学习方式,鼓励学生在开放、协作的数字环境下进行自主学习和实践,并利用多
近年来,随着我国经济的快速发展以及道路交通的建设,机动车总量和驾驶员数量都有显著的增加。对交通安全管理体系、事故应急处理带来了极大的考验。通过对大量交通事故案例分析,诱发汽车交通事故的主要原因是驾驶员在行车过中存在许多与驾驶无关的行为,比如在驾驶过程中接电话、查看信息等。这些行为分散了驾驶员的注意力,导致驾驶员无法注意周边的交通环境,从而发生交通事故。交通事故的发生给人类社会带来了巨大经济损失和大
系统论认为开放性、自组织性、复杂性、整体性、关联性、等级结构性、动态平衡性、时序性等是所有系统的共同基本特征。在传统的几何学中,人们总是习惯在欧几里得空间对一个几何对象进行研究和度量。与传统的几何学不同,分形理论作为一种新的认识论和方法论,在很多方面都具有启发意义:一是整体与局部形态的相似,启发人们通过认识部分来认识整体;二是揭露了介于整体与部分、有序和无序之间的新形态;三是从一个特定层面揭示了世
实时环境感知是自主移动机器人需要具备的重要能力之一,依靠各种传感器,机器人能从所处环境中获取信息为它服务。用于获取三维场景信息的传感器有激光雷达、结构光相机、TOF相机和双目相机等。相比于其他传感器,双目视觉传感器价格更加低廉,搭配合适算法时可以满足大部分需求。基于这个前提,本文将设计实现一套使用双目视觉传感器进行障碍物检测的系统,要求准确实时检测场景中的障碍物。本文的主要的工作和创新如下:首先,
在新地理课程改革的背景下,课程资源的开发和利用、教学策略、课堂有效性得到更多教师的关注,乡土地理课程资源作为地理学中一个特定的学科概念,相比于地理教材内容更贴近学生的生活实际,更容易引起学生的学习兴趣。崇左市位于中国西南部,与越南接壤,属于老少边地区,教育较落后。崇左市在自然环境和社会经济活动方面具有丰富多样独具特色的乡土地理课程资源,这些课程资源与高中地理课程内容密切相关,极具研究价值。乡土地理
近年来,道路交通安全越来越受到重视,中国交通运输部统计表明约50%的汽车交通事故是由车辆偏离正常车道引起的,据美国联邦公路管理局估计,2002年美国44%的致命交通事故与车道偏离有关,车道偏离也被认为是车辆翻车事故的主要原因。车道偏离预警系统(Lane Departure Warning System,LDWS)作为提高道路安全的重要创新技术,将人员伤亡率减少了50%以上,有效地避免了交通事故的发
随着深度学习研究的不断深入,无人驾驶技术得到高速的发展,为人们的出行提供了新的体验。无人驾驶系统对周围环境的了解程度是实现车辆安全驾驶的基础,算法对环境的理解能力影响了无人驾驶系统的智能程度,为车辆的决策系统提供数据支持。如今的深度学习算法解决了传统算法对环境理解层次低,难以提取较高维度抽象特征的问题。基于深度学习的算法能够通过大量的样本训练学习,从中提取到高级抽象的特征,并得到泛化能力强的模型。