信息集成系统中HTML2XML的研究

来源 :第二十届全国数据库学术会议 | 被引量 : 0次 | 上传用户:songchanglei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文利用信息提取转化实现了一个基于文档对象模型DOM(Document Object Model)的由HTML数据到XML数据的转化原型系统HTML2XML,该系统利用领域数据的DTD模式信息以及用户与系统之间的交互实现了由HTML数据到XML数据的半自动转化.本文的研究内容不包含对查询请求的转换,仅涉及HTML页面信息的转换.利用本文提出的方法可以构建信息集成系统中的包装器软件.
其他文献
随着Internet特别是数据网格的推广和普及,网上的信息迅猛增加,成了一个巨大的信息库.而提供信息的数据源来自不同的提供者,各个数据源的数据模型、数据结构、内容表示、查询语言以及所使用的概念、词汇都会有很大不同,如何快速、准确地找到自己需要的信息已成为人们日益关心的问题.在Internet这样海量的数据环境下,如何实现数据集成,是一个非常具有挑战性的问题.本文提出了一种利用本体作为全局模式集成X
脚本是一个程序或者一串指令,它由另一个程序解释或执行而不是像编译过的程序一样由处理器直接执行.Web应用测试脚本是脚本的一种,而Web应用测试脚本语言是Web应用自动测试工具的核心.本文就基于 XML的Web应用测试脚本语言进行了研究综述.
Stacking是Wolpert提出的一个重要学习框架.它通过对多个模型的输出结果进行泛化,利用前一层模型输出的结果作为下一层的学习输入信息,使得前一次的学习能够充分用于后面的归纳过程当中去,发现并且纠正所使用学习算法中的学习偏差,以提高学习的精度.目前,Stacking框架最主要的应用是组合分类器,以取得比组成它们的单个分类器更高的分类准确率.Stacking中每一层的各分类器可使用任何分类算法
本文的研究工作集中在如何基于Servlet技术将CORBA对象发布到Web上,使得企业级应用集成能够兼顾到CORBA和J2EE的优点.在分析了已有技术在灵活性、易用性及通用性上存在的不足的基础上,提出了CORBA对象的两种Web发布方法,着重介绍动态请求方法的关键技术及实现细节,并对基于动态请求方法实现的StarConnect进行了性能比较分析,验证了其高效性.
本文提出了计算XPath相似性的算法,它是一个基于元素匹配的递归过程.实验结果表明:该算法很好地反映了XPath间的结构相似性.XPath相似性的提出有重要的意义:既可以对用户行为进行聚类分析进而研究用户行为模式,还可以用于在SDI系统中构建高效索引结构以及用户查询聚集操作的预处理步骤等.
本文研究了XML在数据集成方面的相关技术,提出了面向Web的数据集成方案.实现了Web中各种信息系统之间的接口问题,通过XML和关系数据库的接口,不但可以把网络上的有意义XML信息通过抽取模式,在关系数据库中进行有效的关系管理,而且还提供了相应的策略,可以无缝地与面向对象系统、数据仓库系统等进行接口,实现了Web中系统之间信息的共享和交流,具有良好的可扩充性.
本文以空间句法为理论基础,借鉴空间数据库相关研究成果,探索面向对象的空间句法数据组织方式和数据模型构建方法,提出了新的空间句法数据模型SSOODM(Space Syntax Object-Oriented Data Model).SSOODM是空间句法分析中的一个新概念和模型,是在现有相关研究基础上的创新,具有一定的理论价值.
本文在PicHunter的概率模型基础上,提出结合长期学习的用户模型,通过基于用户模式匹配的长期学习,识别当前用户的特定检索语义,从而真正实现了包含不同用户U的动态的用户模型,合理地利用了历史反馈信息.实验显示,与PicHunter相比,本文方法能明显提高相关反馈的效果.
会议
会议