论文部分内容阅读
摘要:本文针对单面规则的文档图像,研究其拼接复原方法。利用Matlab读取函数图像?,将纸条图片转换成相对应的灰度值矩阵,提取每个灰度值矩阵的边缘列向量(第一列、最后一列),用Matlab中corrcoef( )函数计算任意纸条矩阵第一列与最后一列的皮尔逊相关系数,两者最大的即相邻。最后可拼得整篇文章。
关键词:相关性分析;灰度值矩阵;皮尔逊相关系数
破碎文件的拼接在司法物证复原、历史文献修复、军事情报获取等多领域都有着重要的应用。传统上,拼接复原工作在工作量较小时可以通过人工,达到较高的准确率,但效率很低。当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,人们开始开发碎纸片的自动拼接技术,以提高拼接复原效率。本文将19张图片[2]先导入matlab中,得到19个灰度值矩阵,再将这19个灰度值矩阵的边缘提取出来[4],用corrcoef( )函数对任意两纸条矩阵的递延第一列和最后一列进行相关性系数的计算,两者最大的即相邻。最后得到整篇文章。
一、皮尔逊相关系数[3]
皮尔逊相关系数又称简单相关系数或“皮尔逊积矩相关系数”,它描述了两个定距变量间联系的紧密程度。样本的简单相关系数一般用R表示,计算公式为:
其中n 为样本量, 分别为两个变量的观测值和均值。R描述的是两个变量间线性相关强弱的程度。R的取值在-1与+1之间,若,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若,表明两个变量是负相关,即一个变量的值越大另一個变量的值反而会越小。R的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若R=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)。
利用样本相关系数推断总体中两个变量是否相关。碎纸片拼接过程中我们利用和相关性系数的大小来判断两条碎纸片是否相邻。
现有一张印刷体文字文件通过碎纸机纵切成19片破碎纸片[2],建立碎纸片拼接复原模型和算法,并针对中、英文各一页文件的碎片数据进行拼接复原。
复原算法的实现。以中文为例。首先将所有图片导入到Matlab中,通过imread()函数将每张纸条读取成1980×72灰度值矩阵。以纸条000为例:纸条000一部分如图二;读得灰度值矩阵表,
应用程序读取19张纸条灰度值矩阵的第一列及最后一列,进行相关性分析,得到皮尔逊相关性系数
皮尔逊相关性系数最大的即相邻。没有相关性系数结果的即为首和尾得出第一张纸条为008,最后一张为006。由程序我们找出两者之间的最大值,可得纸顺序。
参考文献
[1] 陈宇云. 灰度图像的边缘检测研究[D].电子科技大学,2009.
[2] 全国大学生数学建模组委会. 2013高教社杯全国大学生数学建模竞赛 B题——碎纸片的拼接复原.
[3] 杨帆,冯翔,阮羚,陈俊武,夏荣,陈昱龙,金志辉. 基于皮尔逊相关系数法的水树枝与超低频介损的相关性研究[J]. 高压电器,2014,06:21-25+31.
[4] 邵春雨,胡方涛,程明辉,李厚彪. 基于边界像素匹配的碎片拼接问题研究[J]. 实验科学与技术,2015,02:212-215.
关键词:相关性分析;灰度值矩阵;皮尔逊相关系数
破碎文件的拼接在司法物证复原、历史文献修复、军事情报获取等多领域都有着重要的应用。传统上,拼接复原工作在工作量较小时可以通过人工,达到较高的准确率,但效率很低。当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,人们开始开发碎纸片的自动拼接技术,以提高拼接复原效率。本文将19张图片[2]先导入matlab中,得到19个灰度值矩阵,再将这19个灰度值矩阵的边缘提取出来[4],用corrcoef( )函数对任意两纸条矩阵的递延第一列和最后一列进行相关性系数的计算,两者最大的即相邻。最后得到整篇文章。
一、皮尔逊相关系数[3]
皮尔逊相关系数又称简单相关系数或“皮尔逊积矩相关系数”,它描述了两个定距变量间联系的紧密程度。样本的简单相关系数一般用R表示,计算公式为:
其中n 为样本量, 分别为两个变量的观测值和均值。R描述的是两个变量间线性相关强弱的程度。R的取值在-1与+1之间,若,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若,表明两个变量是负相关,即一个变量的值越大另一個变量的值反而会越小。R的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若R=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)。
利用样本相关系数推断总体中两个变量是否相关。碎纸片拼接过程中我们利用和相关性系数的大小来判断两条碎纸片是否相邻。
现有一张印刷体文字文件通过碎纸机纵切成19片破碎纸片[2],建立碎纸片拼接复原模型和算法,并针对中、英文各一页文件的碎片数据进行拼接复原。
复原算法的实现。以中文为例。首先将所有图片导入到Matlab中,通过imread()函数将每张纸条读取成1980×72灰度值矩阵。以纸条000为例:纸条000一部分如图二;读得灰度值矩阵表,
应用程序读取19张纸条灰度值矩阵的第一列及最后一列,进行相关性分析,得到皮尔逊相关性系数
皮尔逊相关性系数最大的即相邻。没有相关性系数结果的即为首和尾得出第一张纸条为008,最后一张为006。由程序我们找出两者之间的最大值,可得纸顺序。
参考文献
[1] 陈宇云. 灰度图像的边缘检测研究[D].电子科技大学,2009.
[2] 全国大学生数学建模组委会. 2013高教社杯全国大学生数学建模竞赛 B题——碎纸片的拼接复原.
[3] 杨帆,冯翔,阮羚,陈俊武,夏荣,陈昱龙,金志辉. 基于皮尔逊相关系数法的水树枝与超低频介损的相关性研究[J]. 高压电器,2014,06:21-25+31.
[4] 邵春雨,胡方涛,程明辉,李厚彪. 基于边界像素匹配的碎片拼接问题研究[J]. 实验科学与技术,2015,02:212-215.