论文部分内容阅读
近年来随着互联网技术的蓬勃发展,带动电子商务的快速兴起而大幅度改变传统商业交易的方式与习惯。网络广告在大家网络生活中扮演着越来越重要的角色,一方面各大电商平台可以通过投放广告扩大产品的知名度,增加用户和网站的粘度;另一方面消费者可以通过广告尽快找到自己需要的产品。如何能够快速高效的投放广告,并且通过消费者浏览广告的行为去了解消费者的真实需求,已成为各大广告平台争相探索的主题。基于以上背景,本文旨在提出并设计一个新型的大数据广告发布平台。该平台使用Java语言编写遵循J2EE规范。整个平台包括广告发布子系统和用户行为收集子系统。未来该平台会基于收集的用户行为数据进行深度分析,并挖掘用户喜爱偏好增加根据用户兴趣推荐广告的系统。其中广告发布系统使用了SpringMVC作为系统的主体框架,在系统前台页面实现上使用JSP技术和JQuery技术用来实现系统和用户行为的交互;系统持久层则使用了Hector框架用来实现Java程序和Cassandra集群的交互最终完成系统数据的持久化;为了方便管理人员查找维护广告素材,本系统的搜索功能通过使用Apache Solr搭建分布式搜索引擎用来实现系统中的全文检索功能。广告匹配的Service主要使用java语言实现了一个匹配算法,该算法可以根据浏览器端的Client JS Library收集如URL、Refer URL、Cookie、日期等过来的数据来匹配到对应的广告并展示到页面相应的位置上,并且该算法支持模糊匹配;收集广告页的URL、ReferURL、Cookie等数据的Client JS Library使用原生Javascript代码实现;广告在网页位置的定位使用了Sizzle引擎实现,并支持JQuery的Selector语法。在用户行为收集及分析系统的实现上,由于需要处理海量数据所以采用了当前业界流行的大数据处理的相关技术Spark,Hadoop,Hbase。其中因为Spark具备流式计算能力所以用来处理实时性要求较高的运算;Hadoop与Hbase相结合用于存储用户大量行为数据以及以后对这些数据的分析与运算为未来的商业决策提供强有力的数据支持。该平台具有以下特点:(1)平台能够处理具有一定规模的海量用户行为数据信息;(2)平台处理的不是随机样本数据而是全体数据;(3)平台关注的不是数据的精确性而是混杂性。平台的实施主要包括以下三个阶段:第一阶段:广告发布系统的实施,公司市场人员可以通过该系统设定广告,并将广告在指定时间段内发布到网站指定页面。第二阶段:用户行为收集系统的实施,通过公司市场人员主动在公司网站上投放广告,在用户浏览网页及点击广告时收集用户的行为数据作为以后分析用户喜爱偏好的依据。第三阶段:用户行为分析及广告推荐系统的实施,根据第二阶段收集的用户行为数据,分析用户喜爱偏好,在用户再次访问网站时根据用户喜好主动推送广告。