论文部分内容阅读
随着电子商务的高速发展,在线交易量日益增大,光靠网银自身的系统已经支撑不了客户支付的要求,于是一系列第三方支付公司如雨后春笋拔地而起。第三方支付平台汇总了各大银行的支付接口,同时还丰富了很多应用,满足了客户在线支付的需求。第三方支付平台允许商户网站接入其提供的支付接口,为客户提供在线支付服务。本文分析了支付宝在线支付平台的具体情况,可以得到目前支付宝平台主要提供资金的在线流动服务,对具体的交易内容是无法知晓的,使得很多电子商务网站在线进行一些非法交易,严重破坏了网络支付环境。针对当前接入支付宝平台支付接口的电子商务网站规模和业务领域进行了分析,找出了一套合理地商户风险监控方案,建立商户风险监控系统,系统还提供管理员后台操作界面,允许人工介入对系统发现的嫌疑商户进行验证,确保最终整改的商户确实为非法商户。商户风险监控系统分为爬虫子系统、审核任务子系统。本文对爬虫子系统的基础数据维护、基础数据加载、分布式环境负载均衡、网页地址分发和去重以及文本分析结果处理功能做了详细的需求分析以及设计实现。根据对当前商户数据量的评估,设计了合理的系统物理架构。维护的基础数据包含关键词、商户筛选策略以及应用场景,这些数据加载到爬虫系统中用来进行高风险商户网站的筛选和商户网站内容的分析。采用基于Hash的任务调度机制实现了分布式爬虫的负载均衡,利用BloomFilter数据结构,实现了高效的网页地址去重,由关键词分析之后的嫌疑违规文本会被封装成人工核查任务分发给审核任务子系统。该系统于2011年12月20号已经上线运行。在实际运营中验证了爬虫子系统的理论研究和设计实现的实际价值,对商户的监控起到了比较好的效果。