基于R语言的手写数字识别研究

来源 :电脑迷·中旬刊 | 被引量 : 0次 | 上传用户:nathan_zk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:手写数字识别现有的比较流行的方法有基于神经网络的识别、KNN、以及SVM等。而本文基于R语言,首先将图片预处理得到灰度矩阵,与数字矩阵计算协方差矩阵,得到线性拟合模型;之后采用核回归和Nadaraya-Watson估计建立第二个模型,对比和分析两个模型的预测效果。
  关键词: 协方差矩阵;线性拟合模型;核回归;Nadaraya-Watson;估计
  1 相关研究工作
  本文基于手写数字识别这个大课题,分别用到了线性拟合模型[1],以及基于核回归方法[2]的模型来进行识别。将建立好的两个模型预测的错误率进行比对,综合分析两种模型的优劣。
  2 基于R语言的线性模型识别手写数字
  2.1 数据的处理
  本文使用了MNIST的3与7的数据集,包括训练集和预测集。每一个数字被处理后形成16乘16的像素点,可以得到一个包含训练集各个数字的灰度矩阵,每一行的数据对应了一个图像的各个像素点的灰度值,值域为-1到1。
  取出训练集的第一列组成一个矩阵,与灰度矩阵进行相关性计算,得到协方差矩阵。公式如公式(1)所示。其中Cov为求协方差,D为求方差。
  取出协方差矩阵中数值最大的十个值,作为手写数字的特征点,便于进行线性拟合。
  2.2 模型的建立
  针对该研究问题,手写数字只有3和7两种可能,所以我们有理由假设该事件满足二项式分布。如公式(2)所示,其中k为实验次数,k=0,1……n; p为一次事件成功的概率
  由此我们可以得到模型的拟合方程,即包含十个特征像素点的线性模型。
  2.3 模型的预测和评估
  本文将predict函数得到的p值作为判断3和7的条件,大于等于0.5则认定数字为7,反之则为3。由训练集和测试集分别得到样本内错误率和预测错误率。样本内错误率为0.01074444,测试错误率为0.02875399。我们发现依然有图像是難以预测如下图所示。
  可以发现,错误预测的图像有一些共性。1.数字的书写习惯奇怪,使用关键像素点难以判别 2.数字写得太小,或偏离中心。所以,我们接下来的目标是解决这些问题。
  3 基于R语言的核回归模型识别手写数字
  3.1 数据的处理
  本模型特征值选取经过处理后的一维曲线。首先需要将原图像进行中心化,解决数字偏离中心的情况;再将图像进行缩放,解决写得太小的问题。处理后的图像横坐标会相应改变,纵坐标将原图像同一竖直方向的点的值相加,得到压缩后的纵坐标,进而获得x方向以及y方向的两条压缩后的一维图像。如下图所示。
  3.2 模型的建立
  如图三所示,分别是单一样本进行降维后的一维曲线结果,我们在进行模型建立的实际过程中需要对训练集的所有样本进行训练,采用核回归的Nadaraya-Watson估计方法,得到相应的拟合曲线。其中核权重方程采用公式(3)。其中x、y分别为一维曲线的横纵坐标。
  进过核回归得到的训练集拟合曲线如下图三所示。
  由图三可以发现,数字3和7的拟合曲线有着很大的差别。我们的判别方法采用分别将每个样本的x、y方向上的一维曲线与拟合得到的曲线计算点距离之和,值较小的曲线即认为是所属的拟合曲线。
  3.3 模型的预测和评估
  本文采用对模型进行交叉检验来获得预测错误率。核回归模型对于测试数据集的错误率大约为0.05,与线性模型相比错误率有所提升。
  4 模型对比与分析
  从预测的错误率来看,线性模型具有更高的准确率,然而我们仅仅选用了相关性较大的十个像素点,具有一定的局限性;而核回归模型能解决线性模型的一些问题,但是准确率上反而降低了。经过综合分析,在后续的研究中可以考虑直接使用二维的核回归模型,这样能避免很多信息的丢失,提高预测的准确性。
  参考文献:
  [1]冷建飞,高旭,朱嘉平.多元线性回归统计预测模型的应用[J].统计与决策,2016(07):82-85.
  [2]赵亮,赵春霞,张二华.核回归方法的散点拟合曲面重构[J].计算机研究与发展,2009,46(09):1446-1455.
其他文献
随着城市集中供热的发展,各大中城市已建或筹建了多个中小热电厂和大型热源厂.一般这些项目的供热系统规模较大,涉及面很广,一旦发生故障,破坏程度较大,而且在短时间内难以恢
学位
本文针对目前多数热电厂冬、夏两季热负荷不平衡的问题,以国产C12-50/10型次高压12MW抽汽凝汽式供热机组为例,分析计算了热电厂在夏季利用机组的富余抽汽,作为溴化锂制冷机的
摘要:变电设备状态维修,即要减少不必要的计划性停电,又要努力减少意外的事故停电。其直接目的是提高供电可靠率。它的主要涵义是改进定期的停电测试和检修制度,大力开展带电检测和在线监测,经状态诊断认定有必要时才停电测试或检修。近几年来,在广泛吸取国内外开展设备状态维修的经验教训的基础上,建立了实施的规则体系。并在部分设备和项目上开始试行。本文试图将由此所得的认识初步归纳总结,为下一步开展状态维修工作提供
电力系统的电压控制分区是一个非线性的大规模组合优化问题,使用常规方法常难以得到理想的结果.文中首先基于电压幅值对无功功率的灵敏度定义了电力系统各节点间的电气距离.
齿轮是汽车重要零部件之一,起着传递动力和运动的作用。工作时啮合齿面间既有滚动又有滑动,齿根还要承受脉冲或交变应力的作用,极易产生齿面磨损、齿面麻点以及齿根断裂等现象。
摘要:本文主要統计和分析了量子通信领域的专利数据,阐述了量子通信领域专利申请的发展趋势、国别状况以及全球申请人的相关情况,并对量子通信中的量子保密通信以及器件这两个重要分支作了具体分析。  关键词:量子通信;专利;申请;保密  1 概述  量子信息是量子力学与经典信息结合的产物,兼备二者的优点,包括量子通信和量子计算两部分。与传统的经典信息学一样,量子信息学也是研究信息的获取、传输、储存和保密及应
提出一种附加在高压直流 ( HVDC)系统上的辅助型模糊逻辑控制器以提高交直流互联电力系统稳定性。在控制器的设计中应用能量函数法 ,通过增大振荡的减速能量来提高系统的稳定
研究了用萘钠引发的一步法阴离子聚合反应合成不同C60含量的C60化学修饰的聚甲基丙烯酸甲酯(C60-PMMA).利用傅立叶变换红外吸收光谱(FT-IR)、紫外-可见吸收光谱(UV-VIS)、热
1月29日下午,同济大学与菲尼克斯现场总线及管控一体化联合实验室在上海建成。国家建设部原部长谭庆琏、上海市建委黄建之副主任、上海城市发展信息研究中心江绵康主任、同