基于规则的文本挖掘技术的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:poabc123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文提出了一种新的文本文件结构化数据提取技术,我们称之为TSDE(Text Structured Data Extracting),它是一个交互式的文件结构及数据提取工具.用户通过该工具提供的图形化用户界面(GUI)完成适当数量的文本数据抽取示范,包括逐步分解文件、确定文件的层次结构、找出所关心的文本区域及描述文本块语义等,TSDE的挖掘器不断学习用户所做的示范,并从中找出用于文本数据挖掘的规则,这些规则经过完善后就可以用于类似文本文件的数据挖掘工作,最后根据用户的需要形成各种格式的表格.这篇论文主要从:1、TSDE的工作原理,2、TSDE的体系结构,3、结构挖掘,4、错误诊断,5、原型设计,6、表达规范,7、程序接口等几个方面展开讨论的.
其他文献
地理信息系统(简称GIS)正形成一个完整的技术系统并逐渐地建立其独特的理论体系.它的应用渗透于社会的各个领域,已从传统的自然资源管理、土地规划等领域扩展到交通、军事、
随着Internet的迅速发展,特别是随着电子商务、政府上网工程的启动,网络安全问题越来越受到人们的关注.目前网络安全的主要技术有:加密技术、入侵检测、防火墙以及VPN技术.但
该文根据现有分布式信息系统的特点,讨论了分布式信息系统的软件技术.分布式信息系统的软件技术是个外延很广的概念,该文重点讨论了分布式信息系统软件的设计与实现问题.对一
具有真实感的人脸模拟是计算机图形工作者长期以来所追求的目标.它的应用范围十分广泛.可以用于人体语言感知模型的研究,虚拟环境,通信技术,辅助教学,医疗研究,电影响制作,游
信息系统开发方法的选择对信息系统建设的成败至关重要。应用传统的信息系统开发方法进行信息系统的开发建设,软件的可重用性很低,系统的开发效率也很低,信息系统的可升级性和扩
该文将对如何解决制药行业的生产过程控制进行深入的探讨.全文介绍了ERP系统的基本模型和UML的基本理论,并详细地讨论和研究制药行业ERP系统的生产控制子系统,提出了适用于制
该文给出了一种基于互连网电子邮件机制将稿件及时地传回总社的满意的方法.通过将以电子邮件格式存放的稿件解码成以纯文本文件存放的格式,从而很好地解决了电子邮件易传染病
Series-parallel图是平面图的一种.该文对series-parallel图(S-P图)的画图算法进行了较为系统、全面的研究.Seires-parallel图的画法就是把符合定义的S-P图自动、美观地画到
中国已有若干条WDM干线,今后还将有更多条WDM工程陆续上马.当前电信骨干传送网的承载业务量大、传输通路多、对传输的质量和可靠性要求高,一旦WDM系统出现障碍,造成的危害与
文章首先结合国内外电子商务的发展情况和技术特点对电子商务系统的发展现状作了概括性的介绍,在此基础上对区域性电子商务服务平台的总体结构、层次模型、体系划分、业务功