一种基于节点密度分割和标签传播的Web页面挖掘方法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:ilbgsm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块
其他文献
在某些时候,有的人会让弥站着中枪、躺着也中枪,你都不知道怎么躲。你可能会被别人抛弃、被人排挤、利益会被别人窃取、被别人拿去当挡箭悼。
介绍了唐河倒虹吸工程管身底板八字的模板工序、钢筋工序、混凝土浇筑工序、养护工序等,为同类工程施工提供借鉴。
开展领导班子和领导干部综合分析研判(以下简称"研判"),是党的十八届三中全会做出的重要决策。我们围绕建立研判机制设计并发放调查问卷2016份,做到"四个全覆盖",即覆盖全市所有有
新时期,为了不断促进企业可持续发展,要重视有效的开展企业政工工作,本文结合工作实际,分析了企业政工队伍思想建设对策。为了进一步提高企业政工队伍思想建设水平,要有针对
国家的经济发展是一个变化的过程,在经济建设与发展过程中遇到问题与困难也是在所难免的,因此只有正面的面对这些问题与困难,并积极的寻找解决方案才能使我国的经济始终保持
合取范式可满足与最大可满足问题是理论计算机科学的核心问题.最大不全满足问题是最大可满足问题的一般化.限制每个子句均含有k(≥2)个字母的最大不全满足问题又称为最大不全k
介绍了天津站前广场绿地排水系统工程使用的真空负压装置及自动化控制系统。实践证明,该控制系统有效地解决了站前广场绿地强制排水问题。
在实现循环到流水硬件结构自动映射过程中,迭代间启动间距的自动分析技术是可重构编译器研究的难点.在现有细粒度可重构编译器中,主要采用人工输入制导语句的方法来控制循环
调查表明:人们有87%左右的时间都在室内空间中活动,例如办公楼、商场、地铁站等.随着物联网以及RFID、Wi-Fi等室内定位技术的快速发展,如何有效管理日益增长的室内移动对象数
本文在分析离散数学教学现状的基础上,提出了任务驱动式教学方法在离散数学教学中的应用,阐述了该方法在课程教学中实施的步骤和注意事项,文章最后给出了一个实际教学案例,并提出