基于HTML5语义化标签的Web文本提取技术

来源 :贵阳学院学报:自然科学版 | 被引量 : 0次 | 上传用户:gaoyeye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过研究新Web标准网页的数据结构,并在信息抽取技术的基础上,提出了一种基于HTML5语义化标签的网页正文提取技术。该技术能够有效的过滤掉与网页主题无关的噪音信息,从而能有效提取有价值文本信息。
其他文献
文章在分析国外PDA案例的基础上,从读者决策采购产生的背景、英国Nottingham Trent Universily PDA项目、国内高校图书馆实施PDA项目面临的问题等方面进行探讨,围绕促使PDA项目