网页数据自动抽取系统

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:gxx756_3476
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOM based Automatic Extraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。
其他文献
目的:骨髓间充质干细胞(bone mesenchymal stem cells,BMSCs)具有向多种组织分化的潜能,在多种疾病的治疗取得了很大的进展。在缺血性心脏疾病中,BMSCs能明显改善心脏的功能。本研
患者,女,57岁,2015年5月28日就诊。主诉:右手臂疼痛无力1d。自诉1d前因在家洗衣拖地时用力不当,休息后遂感觉右手臂疼痛无力,沉重酸麻,伸举困难,动则加剧,有筋扭别之感。查体:
在嵌入式实时数据库系统中,实时事务执行效率的高低直接影响着整个数据库系统性能的好坏。因此有必要对嵌入式实时事务进行有效预分析和预处理,以支持实时事务实现定时限制。文
在数字影像中,理想的直线段由呈阶梯状排列的游程所构成。论文利用这一特征提出了一种检测直线段的新方法,它以逐行或逐列搜索带有缝隙的游程作为基础,搜索时能根据已取得的部分直线段预测下一段游程的起始像素位置,检测速度较快,获取的直线段较长,所得结果非常适合于用作为基元以合并成完整的直线。该算法的原理还可用来快速确定表格框线的转角。
文章针对内蒙古地区火力发电厂控制系统相对落后的情况,从节能降耗方面讨论了新上机组和老机组改造中DCS控制系统的优化方案。
讨论了C/C++源程序中缓冲区溢出的常见表现;分析了其特性以及产生机理;提出了在源代码的AST上附加安全属性进行漏洞静态检测的方法;讨论了该方法的实现过程。