分布式JS解析在Web信息采集系统中的应用

来源 :电子技术与软件工程 | 被引量 : 0次 | 上传用户:kangcj66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文为了能够突破原本网页信息采集系统无法实现脚本解析的动态化信息采集技术弊端,提出在Web信息采集系统中运用分布式JS解析技术。首先概述JS解析脚本语言常用引擎技术,并实现JS解析结合Hadoop分布式计算,提取解析系统的实际运行所处异构集群环境,基于原本Nutch系统文件的存储结构基础之上,设计整体系统文件数据结构及存储格式。发现设计的该分布式JS解析应用于Web信息采集系统思路,能够动态化、高效且准确的实现Web信息采集,为该领域提出出信息采集技术新思路。
其他文献
本文主要针对于电气自动化控制和人工智能技术进行分析,首先对电气自动化控制和人工智能技术进行了阐述,随后分析了人工智能技术存在的优势,最后讨论了人工智能技术在电气自动化控制系统中的具体应用。
本文在标准分计算基础上,提出一种基于分数排名的改进标准分模型,根据高校录取分数线的影响因素对灰度预测模型加以改进,将改进标准分模型与灰度预测模型相结合,实现分数预测。并结合四川省高考录取历史数据搭建了高考志愿决策系统,该系统可以对高校录取分数线进行预测,实验结果证明,本文提出的模型以及改进算法在该系统应用中具有很高的准确性和通用性。
目的 应用3.0T高分辨磁共振成像(High-resolution MRI,HRMRI)探讨:症状性大脑中动脉(MCA)狭窄的病因;症状性MCA粥样硬化狭窄患者责任血管与非责任血管斑块特点及管壁特征的区别。
目的回顾性分析额叶癫痫(FLE)的临床及发作期和发作间期脑电图特点,为临床早期识别和治疗提供依据。方法详细整理75例FLE患者的临床资料,发作期及发作间期脑电图改变和影像学
时代诊断是理论建构的前提.一个时代、四重结构既是邓先生对当下中国时代病症的诊断,也是其对中国法学进行总体批判的前提性判准.但这一前提是不周延的;无论是主流法学,还是
初中数学注重学生核心素养培养,在基础知识传授的基础上,加强学生思维能力和解题能力培养,实现学生的全面发展.在实际的课堂活动中,借助解题教学加强学生思维能力锻炼,提升学
本文将阐述如何运用大数据技术的优良特性,助力企业解决所面临的难题,促进企业由传统的问题驱动的被动式改进转变为数据模型驱动的主动式改进。
研究发现,Percheron动脉(artery of percheron,APO)闭塞所致双侧丘脑梗死占缺血性卒中的0.1%~0.3%,占丘脑梗死的22%~35%。临床主要表现为突发意识障碍、垂直凝视障碍、认知障碍等
目的探讨SCN9A 基因多态性与癫痫发生的相关性.方法搜集134例癫痫患者及正常对照组7 3 例血样,提取全基因组DNA.聚合酶链反应-限制性片段长度多态(PCR-RFLP)、测序法检测rs1093
叙述了电阻系数与孔隙度和水饱和度关系确定的泥质岩石结构参数的变化范围。列举出关于填隙溶液电性质与其浓度关系的试验资料。阐述了地电检测岩石物理状态的方法和列举出在