论文部分内容阅读
本论文主要来源于微软亚洲研究院与中山大学智能信息处理和云计算实验室的合作项目:广告增强系统工程。本文在实验室和中国电信广州研究院合作的分布式图像检索平台iSimilar基础上,利用已有的核心技术及架构,结合分布式计算、网络爬虫、图像检索、手机应用开发等技术,为此项目提出了解决方案。同时设计和实现了一个端到端的在线移动广告信息增强系统——iSearch。该系统向后端广告发布商提供广告注册服务,向前端用户,特别是移动设备用户提供广告识别服务。本文的主要工作有以下几个方面:(1)设计并实现了一个基于可视化检索的广告信息增强系统;系统的主要模块有:①广告注册模块,包括用户注册、登录、退出,广告信息上传,用户个人信息管理及广告信息管理等功能;②可视化检索模块,提供了电影、衣服、广告三个频道的信息检索功能。③手机客户端,提供了在Android及Windows Phone智能手机上使用本系统可视化检索功能的方法;④数据操作模块,包括数据抓取、分析、处理及模板管理等功能。(2)对开源网络爬虫Heritrix和Nutch进行了实验和分析;并在Nutch的基础上实现了一个可定制的分布式数据抓取工具,该工具适用于对有相同结构的网页进行准确的信息抓取。(3)封装了一个HTTP接口,客户端可方便地通过HTTP协议获取系统的图像检索服务。本文的主要贡献是改进了一些和项目相关的现有技术:主要有:(1)提出了一种基于XPATH的模板信息提取方法,实现了对网页指定数据的准确提取;并将该方法与网络爬虫结合,一定程度上解决了现有网络爬虫不能进行数据的准确抓取的问题。(2)提出了一种对新插入的数据构建增量索引的方案,解决了原iSimilar平台构建全量索引耗时长导致的新插入数据不能被实时检索的问题。(3)利用MySQL数据库存储标注信息,解决了iSimilar不能很好地支持长文本存储的问题。此外,本论文提出了一种创新的广告信息增强系统的应用模式;利用图像检索技术及移动互联网,提供了一个端到端的可视化移动搜索平台,人们几乎可以随时随地获取他们感兴趣海报广告的更多相关信息,达到有效增强海报广告效果的目的。本论文根据软件工程的开发流程,对iSearch系统进行了详细的分析、设计以及实现。目前,iSearch系统各模块的功能已经实现,可以通过Android客户端、WindowsPhone客户端及浏览器简单快速地使用系统提供的检索功能。分布式数据抓取工具已经被验证能够准确提取指定信息,并完成了对“时光网”的指定数据的准确抓取。系统的有效代码约一万五千行。