自动粒度选择的半结构化页面信息抽取

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:sosen871213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半结构化页面的数据记录问存在结构相似性,在先序遍历DOM树生成的标记序列中表现为重复出现的模式,可利用后缀树进行挖掘。由于标记序列可以在块粒度和文本粒度两个级别上展现,而不同粒度下产生的最佳抽取模式在抽取效果方面又表现出不确定性,因此提出一种自动粒度选择的半结构化页面信息抽取方法。算法从后缀树获取的重复模式中选取最大重复和串联重复构成候选模式集,通过特征参数确定两个粒度各自的最佳模式集,最后引入抽取结果规则度参数并进行综合评价,以确定抽取模式完成半结构化页面数据记录的自动抽取。
其他文献
为了更好地实现非结构环境下的遥机器人作业,提出了"增强感知"这一概念,并设计了具有增强感知功能的遥机器人控制系统。在该系统中机器人的状态、报警等重要信息成为输出通道传
以遵义师范学院图书馆为例,分析了西部地方科院校图书馆女馆员队伍的现状、存在的问题,以及需具备的条件,提出了加强地方本科院校图书馆队伍建设应采取的措施。
根据不同人发相同音节时,一个基音周期内的波形具有一定相似性的特点,提出一种新的基音周期标准化的语音信号预处理方法。该方法在一个嵌入式的、非特定人、孤立数字的语音识别
分析了当前股市存在的问题,介绍了进入股市的必要条件,提出了避免股市风险的措施。文章指出,只有看清股市存在的问题,并制定好应对风险的措施,才能搞好股市投资。
面向在地面搜索地下气味源的任务,针对传统六边形路径搜索算法的不足,提出移动机器人依靠气体传感器的气味跟踪与气味源定位变步长搜索算法,并进行了非均匀土壤中实际扩散情
针对四川省华蓥山煤业股份有限公司龙门峡南矿+623m回风巷在施工中,揭露被黄色泥沙和夹杂物密集充填的溶蚀导水裂隙破碎带,采用高压水射流冲洗技术先对溶蚀导水裂隙破碎带进行