基于CURE算法的网页分块及正文块提取研究

来源 :微型机与应用 | 被引量 : 0次 | 上传用户:xr6088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。
其他文献
FCM算法作为基于目标函数的模糊聚类算法中最经典的算法之一,在实际应用中得到了深入的研究,但FCM算法需要人为给定分类数C,因此破坏了聚类的无监督性。针对FCM算法的不足,提
针对传统图像分割算法需要参数设置等缺点,提出了一种自动的图像分割算法,采用基于改进视觉注意机制的粗分割和结合主动轮廓与区域生长的精确分割两个过程对图像进行自动分割。实验结果表明,该方法的分割性能优于自适应阈值算法和Kmeans聚类算法,且具有较强的鲁棒性。
通过改进指纹识别流程和预处理算法,使指纹识别系统能有较强的伪指纹判别性能。在指纹图像预处理环节计算多个前景灰度特征值,包括图像质量特征值、材质特征值和信息量特征值。选取特定的阈值,对前后采集的指纹图像特征值进行比较,判别是否为伪指纹图像实验结果证明了该方法的有效性。
针对传统生理监测系统价格昂贵、操作麻烦、便携性差等问题,设计出一套无线的、可穿戴的、低心理负荷的多参数生理监测系统。该系统可在被监护人员的运动状态下实时、连续、长
元数据是数据仓库的关键技术之一,也是数据仓库安全性的解决途径之一。对基于元数据的数据仓库安全模型进行了研究,对原模型进行了改进,并提出了在Oracle9i数据仓库平台上的解决
图像插值是将低分辨率图像放大后提高视觉效果的有效方法,传统算法中有较简单且算法复杂度小的方法,但插值后的图像常常有锯齿边缘或者效果模糊,因而实际应用并不广泛。为克服以上缺陷,提出了一种先将图像进行区域划分,然后再进行快速图像插值的算法,既保证了算法较低的复杂度,又优化了图像显示效果,适合实际应用。
目前,电子政务的工作重点已经转向深化政务应用、提升应用效益、加强运行维护的阶段,因此,电子政务运维管理框架及标准化的制定尤为重要。基于信息技术基础框架库(ITIL)规范,重点论
讨论了一个自主开发的移动仓储管理系统的设计和实现。该系统基于J2ME平台,能够配置在移动通信设备之上,完成现场货物信息的基本管理功能,以适应现代仓储管理的应用需求。