论文部分内容阅读
数据库服务外包是近几年兴起的一种新的数据库应用模式。外包数据库模型中数据的完整性检测是为了防止外包数据库提供商内部和外部人员对数据库内容篡改,保证查询者获得正确查询结果的一种手段。现有的完整性检测方法都是针对关系型数据库中的结构化数据,对于文本这种非结构化数据目前还没有成型的解决方案。为了完善外包数据库模型中数据完整性检测技术,提出了一种基于数字指纹的文本数据的完整性检测方案。首先,介绍了外包数据库模型的基本工作原理,分析了现有的数据完整性检测技术的优缺点和外包数据库中特有的安全机制,并阐述了中文分词的相关技术和主要问题。其次,为了满足提高分词速度的迫切需求,根据汉语成词特点,建立一种新的词典机制,提出了应用分治策略的汉语分词方法,并利用统计技术解决汉语分词中广泛存在的交集型歧义切分问题。再次,通过对文本数据的分析,利用Karp-Rabin算法思想,提出了文本数据的数字指纹抽取方法,在该方法基础上,提出了一种基于数字指纹的文本数据的完整性检测方案,该方案不仅可以检测文本数据的完整性,还可以对被篡改数据的位置进行精确定位。然后给出了客户端和服务器端两种指纹管理方案,同时进行了安全性分析,并分别阐述了上面两种情况下秘密文本数据和公开文本数据的完整性检测方案。最后,对上述分词方法和文本数据完整性检测算法进行了理论分析,并通过实验对所提方法的正确性和有效性进行了验证。