基于缩进轮廓的HTML文档重复模式挖掘方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:Test_518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能,提出了一种基于缩进轮廓的HTML文档重复模式挖掘方法。该方法首先定义了缩进轮廓模型,是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构,它是HTML文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘HTML文档中的重复模式。实验表明,
其他文献
本文阐述PISA阅读评价标准的理论及意义,结合人教版英语五年级下册Unit 4“When is the art show?”这一课的教学,分享在深度学习理念指导下,根据PISA2000中使用的阅读素养评
为了快速检测出食品中有害物质的含量,设计了一种能够在现场检测、温度可控的便携式食品安全检测仪。采用分光光度法测量溶液浓度,DS18B20温度传感器和半导体加热制冷元件控制溶液反应的温度,由TSL230光频转换器进行数据采集,采集的数据经PIC16F877单片机处理,实现温度、浓度数字显示。实验表明:系统操作简单,能控制溶液反应的温度以适应不同的被测对象,能对亚硝酸钠和甲醛浓度进行测量,测量误差在1
Web服务有几种形式化表示:WSMO(Web服务建模本体)和OWL-S(Web服务本体语言)。为了分析WSML的逻辑特性,提出用一阶动态逻辑来表示WSML。这里的一阶动态逻辑与传统的PDL不同,后者是
软装饰因建筑自身布局空间而生,是建筑空间的扩展和发展。绿色生态型软装饰是降低室内空气污染、美化室内环境、提升家居品味的重要方式。从软装饰的现状及存在问题、功能、
为解决因电机电流尖峰脉冲对驱动器数字电部分造成干扰的问题,设计了基于线性光耦的电流隔离采样的无刷直流电机(BLDCM)控制系统。在逆变电路母线与地之间接入一个采样电阻器,
【摘 要】本文对高职院校机械基础课程教学改革措施进行思考,从整合和优化课程内容、灵活运用多种教学方式、加强三维设计软件和CAD技术的应用、多方面开发课外活动、完善课程考核制度等方面提出机械基础课程教学改革措施。  【关键词】高职院校 机械设计 教学方式 教学改革  【中图分类号】G 【文献标识码】A  【文章编号】0450-9889(2020)47-0051-02  机械基础作为工科类学生尤其是机
随着火电机组容量的不断增大,传统计划检修的设备管理模式不能很好适应现代电力企业的发展要求,利用精密诊断技术开展设备全寿命周期管理、精细化状态检修能够提升企业发电设
作为一种矩阵分解方法,奇异值分解可用于提取图像的代数特征。图像的奇异值特征具有很多好的性质,如稳定性、几何不变性、对噪声的不敏感性。但是只用一个尺度的图像奇异值特征难以获得高识别率。基于小波变换和奇异值分解,提出了基于小波多尺度奇异值分解的图像特征提取方法,它将多个尺度的小波子图奇异值特征组合起来用于人脸识别,在ORL,YALE和JAFFE 3个人脸数据库上的识别率分别达到82.11%,100%和