基于树先剪枝的网页正文抽取方法研究

来源 :科技创新与应用 | 被引量 : 0次 | 上传用户：daiguangying

【摘要】

：

本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪

【作者】

：

王亮高屹

【机构】

：

西藏民族学院信息工程学院,

【出处】

：

科技创新与应用

【发表日期】

：

2013年36期

【关键词】

：

剪枝技术信息熵 DOM树网页

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪音节点,生成抽取公共路径,抽取相关网页。经过试验验证,该方法降低了搜索的复杂度,提高了搜索的准确度,提高了搜索效率。 In this paper, we propose a new method of extracting web page text based on tree pruning technique and information entropy. This method analyzes the various templates and texts on the webpage, extracts the webpage which is located according to the information entropy, converts the webpage into the DOM tree, deletes the noise nodes, generates the public path and extracts the related webpages. After experimental verification, this method reduces the search complexity, improves the search accuracy and improves the search efficiency.

其他文献

对高校中层管理人员目标责任制考评的思考

本文对目前高校中层管理人员目标责任制考评中存在的问题及其应对措施作了探讨.提出应从考评主体明晰化、考评目标科学化、考评指标具有可操作性、考评的方法和程序规范化、

期刊

高等学校目标责任制考评方法colleges and universities system of aim responsibilitycheck me

创新我国环境监测质量管理体系的几点建议

我国环境监测质量管理体系在当前的宏观调控下,得到完善和发展。使环境监测质量管理体系走向了制度标准化和科学化的方向。我们要创新我国的环境监测质量管理体系,加强环境监测的力度,完善相应的体系,培养管理人员能够很好的监测环境质量。

期刊

环境监测质量管理管理体系

基于树先剪枝的网页正文抽取方法研究

其他学术论文