基于Gecko浏览器内核的谷歌翻译爬虫

来源 :现代计算机 | 被引量 : 0次 | 上传用户:zxy556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异步加载技术在Web中广泛使用,这给网络爬虫开发带来一些困难。本文提出一种基于Gecko浏览器内核的异步数据采集方法。此方法模拟浏览器加载网页,完成用户输入,触发执行脚本,最终获得目标数据。应用上述方法,设计并实现了面向谷歌翻译的专用爬虫,能够批量生成双语平行语料,并采用轮询检测机制进一步提高爬虫效率。实验结果表明:本文所提出的解决方案是行之有效的,如何模拟用户操作是实现爬虫的基础,如何检测目标数据是提高效率的关键。
其他文献
在电力场景下,由于光线变化、相似度高,导致传统算法准确率较低。针对这种情况,提出一种小样本目标检测方法,采用迁移学习的精简模型自动提取物品的特征,可以克服环境变化的干扰,能准确地识别目标,为实现电力场景下作业机器人智能作业奠定基础。实验证明相对于传统方法,本文方法在保证识别速度的同时准确率可提升8%。
由于近年来高校内频频发生危害安全、财物遭窃等突发事件,配备校园电动巡逻车来处理突发事件成为了很多高校的选择,高覆盖、低能耗是高校配备电动巡逻车时共同追求的目标。为帮助各高校有效利用校内巡逻车,本文讨论了校园巡逻车最优布置策略,基于图论的思想利用层次分析法建立了评价体系,采用蒙特卡洛模拟算法进行优化求解并给出了最少车辆配置方案以及校园巡逻路线安排。本模型可用来指定校园巡逻策略,并可以通过图的形式清晰直观地展示成效。同时随着评价体系的建立,本模型可对校园已经采取的巡逻策略进行评估,便于后期的改进。
计算机视觉是在感知层上最为重要的核心技术之一,被应用于众多领域。在农业领域,主要应用于植物生长监测、农作物病害的监测与防治等。结合深度学习发展的大背景,将图像语义分割分为基于编-解码架构和基于融合架构,并对优秀学者在农作物病害识别方面的研究进行详细介绍,总结农作物病害图像分割应用中所存在的问题。
利用微反应器设计了连续合成二甲基二烯丙基氯化铵的新工艺,考察了反应温度、物料摩尔比、停留时间对反应的影响,并通过单因素条件对实验工艺进行优化.结果 表明,较优的实验
以乙二醛为底物、硝酸为氧化剂、亚硝酸钠为引发剂、盐酸为助催化剂,在具有特殊微结构的金属微通道反应器内连续生成乙醛酸。考察了物料摩尔比、硝酸质量分数、引发剂摩尔分数、助催化剂摩尔分数、温度和停留时间对反应的影响,结果表明,n(HNO3)∶n(乙二醛)∶n(Na NO2)∶n(HCl)=0.85∶1∶0.15∶0.2、硝酸质量分数为35%、温度为55℃、时间为2 min时,乙二醛转化率为80.3%,乙醛酸选择性达78.3%。与间歇反应相比,连续流微通道反应具有停留时间短、强传质传热的特点,大大缩短了反应时间,
针对软件代码存在安全隐患等问题,提出一种基于邻域划分加权SMOTE算法的Transformer-CNN(TF-CNN)源代码漏洞检测模型,并且对Transformer模型位置编码进行了改进,可以更好地学习源代码特征表示。模型以可能产生漏洞的库函数为切入点提取代码切片,将其转化为固定长度的特征向量,通过基于邻域划分的加权SMOTE算法合成少数类样本,将合成后的新数据集作为TF-CNN模型的输入。本文方法可充分学习源代码的局部特征和全局特征,能更好地获取源代码的语义信息。实验结果验证了使用加权SMOTE算法的
通过对粉末涂料体系和树脂的选择,以及脱气剂、硅烷偶联剂等助剂的添加,制得在热镀锌钢管表面具有优异附着力的粉末涂料产品,最终得到的“钢管+镀锌层+粉末涂层”的三层防护
在微服务架构下,应用系统的业务逻辑分解到多个微服务中处理,不同微服务对业务规则的实现方式可能各异,容易导致业务规则管理散乱、难以控制,为了实现业务规则的统一管控,在微服务架构中引入业务规则平台是有效的办法。首先研究微服务架构的特点,然后分析微服务中业务规则的实现方式及存在问题,最后提出微服务架构下的业务规则平台技术方案以及业务规则迁移方法。
教学过程中教师通过观察学生面部表情可以了解学生的学习情绪从而做出相应的教学决策,但教师不能记录每个学生听课中表现出来的情绪变化,特别是在在线教育中存在情感缺失的问题,从而导致做出的决策稍显片面。本文提出将面部表情识别技术应用于学生学习情绪识别,首先收集学生在真实课堂中听课时的面部表情数据建立训练数据集,进而搭建相应的神经网络模型进行实验。最后在真实数据集上进行了多组和SVM模型的对比实验并应用于在
本文针对国外业主对Piece Mark表的提交需求,结合海洋石油工程股份有限公司的PCMS系统,采用VSTO编程技术,对该进度报表进行了研究和开发,并在某国外FPSO船体建造项目中进行了应用。