一种基于树结构的Web数据自动抽取方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:lisakk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介绍了一种基于树结构的自动从HTML页面中抽取数据的方法 在HTML页面的树形结构之上 ,提出了基于语义块的HTML页面结构模型 :HTML页面中的数据值主要存在于语义块中 ,不同的HTML页面的主要区别在于语义块的区别 基于语义块的结构模型 ,自动抽取通过 4个步骤完成 :通过HTML页面比较发现语义块 ;区分语义块中数据值的角色 ;推导数据模式和推导抽取规则 在实际HTML页面上的实验已经证明 ,这种方法能够达到较高的正确率 ,同时 ,随着文档的增大 ,方法也能够保证线性的时间复杂度
其他文献
新型的美术综合课程提倡以情感体验为中心综合构建知识。教师要创设课堂情境,激发学生潜能;优化课堂情境,培育学生美感;运用课堂情境,促进学生表现;凭借课堂情境,完善技能操
2007年中国第一家P2P网贷平台成立,此后P2P网贷行业实现了爆发式的增长,P2P网贷是金融行业和互联网行业相结合的产物,决定了它的高风险性和风险的多样性,其中由于信用风险的
温州电厂煤仓间原有的高压静电除尘器,经过多年的运行,除尘器内部部件磨损老化较为严重,两台机组除尘效率均低于80%,除尘器的粉尘浓度已经严重超标,已不能满足当今环保要求,
文章对基层统计部门领导的行为事件访谈和关键事件访谈文本的扎根理论分析,提取了59个胜任力成分。通过归类分析形成了17个类属,编制了包含59个自我描述项目的胜任力自评问卷
铰接列车是我国基础建设中非常重要的特种设备运输工具,其对道路设计的通行性和安全性提出的要求较高,但目前相关规范未全面考虑铰接列车的安全通行需求,此类特殊道路的设计
2012年美国的"签证风波"将孔子学院推上了舆论的风口浪尖,事件虽然很快得以平息,但美国作为拥有孔院最多的国家,其近几年建设出现的问题依然是层出不穷。究其根本在于中美两国
制定较为完善的机电设备设计选型、安装拆除、运行维护、监测监控、试验调试等操作规程和规章制度是加强电器设备管理的基础。最主要工作还是贯彻落实,狠抓现场管理和质量标
宁夏隆德县山洪灾害防治试点县项目建设以非工程措施为主,建立山洪灾害监测预警系统,积极防御山洪灾害,有效降低灾害损失。阐述了隆德县山洪灾害防治试点项目的建设情况、总
目的了解医院临床分离的鲍曼不动杆菌科室分布与耐药特点,为临床合理选用抗菌药物治疗鲍曼不动杆菌感染提供参考。方法回顾性分析某大型教学医院住院患者送检病原学标本中分