基于树先剪枝的网页正文抽取方法研究

来源 :科技创新与应用 | 被引量 : 0次 | 上传用户:daiguangying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪音节点,生成抽取公共路径,抽取相关网页。经过试验验证,该方法降低了搜索的复杂度,提高了搜索的准确度,提高了搜索效率。 In this paper, we propose a new method of extracting web page text based on tree pruning technique and information entropy. This method analyzes the various templates and texts on the webpage, extracts the webpage which is located according to the information entropy, converts the webpage into the DOM tree, deletes the noise nodes, generates the public path and extracts the related webpages. After experimental verification, this method reduces the search complexity, improves the search accuracy and improves the search efficiency.
其他文献
本文对目前高校中层管理人员目标责任制考评中存在的问题及其应对措施作了探讨.提出应从考评主体明晰化、考评目标科学化、考评指标具有可操作性、考评的方法和程序规范化、
我国环境监测质量管理体系在当前的宏观调控下,得到完善和发展。使环境监测质量管理体系走向了制度标准化和科学化的方向。我们要创新我国的环境监测质量管理体系,加强环境监测的力度,完善相应的体系,培养管理人员能够很好的监测环境质量。