基于Nutch的分布式电商数据采集技术研究

来源 :广东通信技术 | 被引量 : 0次 | 上传用户:zhoujans
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的广泛应用和示范效应,企业越来越重视数据的价值挖掘,尤其是结合企业内外部数据进行客户行为、偏好的分析与识别。而电商数据,对一些企业来讲无疑是宝贵的外部数据资源。但电商数据的获取,会受到电商网站的一些反爬技术限制,使其采集变得越来越困难。针对电商领域的数据采集以及在采集电商网站数据过程遇到的数据大,速度慢,访问校验,IP访问限制等问题,结合实际需求,研究、提出一种基于Nutch的分布式电商数据采集方案。 With the widespread application and demonstration effect of big data technology, enterprises pay more and more attention to the value mining of data, especially the analysis and identification of customer behavior and preference based on the internal and external data of the enterprise. E-commerce data, for some enterprises, is undoubtedly a valuable external data source. However, access to e-commerce data will be subject to some anti-crawling technology restrictions on e-commerce websites, making it harder and harder to collect data. In view of the data acquisition in the field of e-commerce and the problems such as large data, slow speed, access check and IP access restrictions encountered during the collection of e-commerce website data, a Nutch-based distributed e-commerce Data collection program.
其他文献
工作记忆是对信息进行暂时性加工储存的能量有限的系统,语音回路是工作记忆中的一个重要组成部分,主要负责加工和存储语音信息,从而影响语篇理解。为了探究语音回路对中国学
义渠都城考证琐记──义渠国都在今宁县焦村乡西沟村张耀民春秋战国时期的义渠国都城,历代史志都说是在宁州西北。但在宁州西北何处,则说法不一。《庆阳府志》说:“在宁州西北五
<正>新生儿大疱性表皮松解症(epidermolysis bullosa,EB)是一种极为少见的以皮肤黏膜起疱为主要特征的遗传性疾病,男女均可以发病,EB的病理缺陷位于皮肤基底膜带,根据大疱与
根据产生质量好的汉字形码输入法的必用知识,导出确定汉字形码输入法编码质量的四要素,及获取质量好的四键一字汉字形码输入法的四个必要条件,讨论第一代汉字形码输入法与第二代
简要介绍在板坯厚度变化较大的热轧中板和宽厚板生产线中,新型高压水除鳞机的结构及特点。
"汉武故事"系列作品,在汉武帝求仙的历史背景下,将博物志、小说、神话及编年史各种文体形态杂糅,利用读者与作者在知识体系、价值判断和宗教信仰上的差异,制造出叙事张力,揭示
<正>《蓝田吕氏家族墓园》由陕西省考古研究院、西安市文物保护考古研究院、陕西历史博物馆编著,文物出版社2018年9月出版发行。本书为16开精装本,共1280页,定价1880元。吕氏
<正>随着全反式维甲酸(ATRA)及亚砷酸(ATO)引入到治疗急性早幼粒细胞白血病(APL)中,该疾病的治疗和预后有了划时代的进步。虽然近来一些APL诊治的详尽综述和国际性的指南已经
1临床资料患者男,19岁。因"掌跖弥漫性坚硬黄色斑块伴疼痛9月余"于2010年1月12日入院。患者于去年9月前长跑训练后出现掌跖部皮肤干燥,散在黄色坚硬斑块。不久皮疹逐渐加重,斑
木质素是一种储量丰富、可再生的重要资源,工业木质素主要来源于造纸废液,全世界的年产量约为5000万吨。目前,大部分工业木质素被直接排放或燃烧掉,这不仅浪费资源,而且加重