论文部分内容阅读
随着企业、组织的规模日益扩大,就需要对企业中流通的文档进行挖掘以求信息、知识的共享和流通。企业中流通的文档基本上来自于异构数据源,因此,如何从这些异构文档中抽取有效信息并加以保护成为一个研究热点。虽然目前对文本处理技术已经有了很大的发展和应用,但是存在一些问题有待研究:如何抽取有效的文本;如何抽取标记文档中的数据信息;如何有针对性的对XML文档的敏感数据进行加密。 针对以上三个问题,根据不同文本和XML文档的映射关系,本文在文档结构分析的基础上提出了流处理模型,并结合元素树模型,提出了一种将Word、Excel以及HTML文档文件解析成为有语义的XML文档的方法。从文档处理的角度,提出一种有利于文本挖掘的方法。在完成异构数据转换的基础上,来实现XML文档的存储安全。 本文综合运用了Java编程技术、XML编程技术、XML安全规范以及安全访闯策略。通过继承和二次开发多个开源项目,例如Apache POI、HTMLParser、JExcel、PDFBox等,来实现文档处理系统的两大功能:文档转换和文档保护。文中详细描述了系统的各部分的分析、设计和实现。 本研究工作主要是为了满足宏观层次的知识挖掘项目的需要,为以后工作的开展积累经验。随着研究的进展,和系统最终功能的集成,本系统的主要接口包可以作为网络中间件填充到Web应用中去。