一种基于节点密度分割和标签传播的Web页面挖掘方法

来源 :计算机学报 | 被引量 : 0次 | 上传用户：ilbgsm

【摘要】

：

获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和

【作者】

：

张乃洲曹薇李石君

【机构】

：

河南财经政法大学计算机与信息工程学院,武汉大学计算机学院

【出处】

：

计算机学报

【发表日期】

：

2015年2期

【关键词】

：

页面分割节点密度标签传播 DOM树块分类社会计算社交网络 Web page segmentation node density label propa

【基金项目】

：

国家自然科学基金（61272109,61202285）, 国家星火计划项目（2012GA750007）, 河南省科技厅基础与前沿技术研究项目（122300410378）, 河南省教育厅科学技术研究重点项目（13A520032）资助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成：第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块

其他文献

唐河倒虹吸管身底板八字混凝土施工技术简介

介绍了唐河倒虹吸工程管身底板八字的模板工序、钢筋工序、混凝土浇筑工序、养护工序等，为同类工程施工提供借鉴。

期刊

连接套放大样捣振

最大不全k满足问题的局部搜索近似算法

合取范式可满足与最大可满足问题是理论计算机科学的核心问题.最大不全满足问题是最大可满足问题的一般化.限制每个子句均含有k（≥2）个字母的最大不全满足问题又称为最大不全k

期刊

局部搜索算法近似性能比合取范式可满足性local search algorithm performance ratio conjunctive nor

真空预压自动化控制系统在天津站前排水工程中的应用

介绍了天津站前广场绿地排水系统工程使用的真空负压装置及自动化控制系统。实践证明，该控制系统有效地解决了站前广场绿地强制排水问题。

期刊