【摘 要】
:
如今很多现有的数据并不存在于数据库管理系统,它们的数据结构很多是不关联的,有时也是不规则的,例如为HTML或SGML文档,尤其是XML文件,已经逐渐发展成为一个大型的XML数据储
论文部分内容阅读
如今很多现有的数据并不存在于数据库管理系统,它们的数据结构很多是不关联的,有时也是不规则的,例如为HTML或SGML文档,尤其是XML文件,已经逐渐发展成为一个大型的XML数据储存库。本文要研究的知识提取即在这样一个前提条件下,通过特定的工具将HTML转化为XML文档,并对其广泛的词汇表中的可选标签进行研究,结果表明本方法对于重复标签的XML文档的研究尤为有效。对于XML文档之间的相似性度量,可以采取不同的方法,或者研究其文档的结构,内容,或两者都是。文中介绍了如何将模糊理论与这种半结构化并且共享一个共同词汇标签的XML结合起来。这种做法的基本思想是采用与模糊集合相对的另一种形式模糊袋,以衡量比较,评价XML文档之间的结构相似性,然后介绍了对提取的知识如何进行有效的分类。本文首先对相关背景和技术作了一个简单的介绍,随后重点介绍如何应用模糊技术对XML文档进行结构的分析,在此基础之上结合对文档的内容分析产生更精确的分类,提出了一种更为灵活的相似度计算的方法。最后阐述基于所生成的聚类代表研究如何实现本体研究中的两个基本的抽象关系is-a和part-of,之后可以通过选择恰当的本体的描述语言OWL将所提取的类之间的关系和限制进行表述。
其他文献
随着信息化的发展,企业内部往往建立了大量的应用子系统,但这些系统之间往往不能很好地实现相互协作,从而在企业内部会形成许多信息孤岛。面向服务架构的应用集成可以减少不同类
带时间窗口的车辆路径问题(VRPTW)是现实物流问题的一个数学抽象模型。本文将蚁群优化算法(ACO)用于求解该问题。我们的首要目标函数是降低VRPTW中的车辆数,第二目标函数是降
现有的报表系统各自拥有自己的报表模板,这些报表模板之间无法进行数据交换,这就形成了软件工程中的“孤岛模式”,从而使这些报表之间的报表模板无法重用。针对这个问题,本文
近年来,信息科学与计算科学方面的研究呈现一种蓬勃发展态势,软件系统应用在人类生活的方方面面。由于人们对软件系统智能化程度要求的不断提高,“自适应系统”方面的研究应
随着计算机和网络技术的不断发展,计算机网络的安全问题也日益突出。传统的安全手段对防止非法入侵起到一定作用,但在遭受新型的网络攻击时,系统可能会遭受不可预料的损失,这越来
基于双目立体视频的远程智能监控系统是将双目立体视频、网络传输、目标检测、智能跟踪等技术应用于视频监控系统中,将多种技术有机结合起来,充分发挥各自的优势和特点,实现它们
SIP(Session Initiation Protocol,会话初始化协议)是由IETF组织提出的一个基于IP网络中实现实时通讯应用的一种信令协议,它是基于C/S模式的。这种网络结构给VoIP系统带来自身无
在现代医学中,根据X光图像对病情做出判断已经成为医学诊断过程中尤为重要的一部分,医学图像处理与分析越来越多地受到人们的重视。如何在获得医学图像后对其进行增强,从而得
随着我国工业和经济的飞速发展,电网规模不断扩大,在工业、商业中的用电量和居民日常生活用电量也越来越大,用电安全方面的问题日益受到人们的重视。电气火灾对人身安全及财产损失所带来的巨大影响不容忽视。而配电线路上的电弧故障是引发电气火灾的主要原因。插拔电器的触头松动、线路绝缘层老化破损或触头接触不良都会导致电弧故障的发生。传统的低压保护电器都是以过电流和漏电流为保护对象,它们无法检测出配电线路上的串联电
软件工程是一项复杂的活动,软件工程师分析理解具有众多不同内部关系的组件的复杂结构,并通过有效工具获取与软件结构相关的信息,这是软件工程中研究的一个热点。在面向对象