论文部分内容阅读
生物特征识别技术作为一种新型的身份验证技术,拥有广阔的市场前景。新的生物特征识别技术层出不穷,呈现出百花齐放的景象。很多生物特征识别技术都被宣称能达到99.99%甚至更高的识别率。然而,当系统被真正投入应用时,它的实际性能并不能达到所宣称的程度。这主要是因为研究成果在市场化过程中缺少可信的评测。 生物特征识别系统评测是一项很复杂的技术,其主要任务包括定义评测指标、确定评测流程、确定评测样本量、设计评测样本的采集方法等。目前,评测指标已经有一定标准,每种生物特征识别技术也已经有专门的评测流程和方法。但是与评测结果是否可信相关的问题(例如如何确定样本量、如何设计样本采集方法等),目前仍然未被解决。 本文针对与评测可信度最相关的样本量确定问题,展开一系列研究。研究中,作者就如何估计评测结果的可信度、评测样本量与可信度有怎样的关系、如何确定样本数量和如何采集评测样本等问题,提出了有效的解决方案。其中主要的工作包括: 1、提出基于二重分割的置信区间估计方法 具体来说,生物特征识别系统评测的可信度,可以用该评测的评测指标的置信区间来表示。本文采用的基于二级分割的非参数抽样方法对评测指标的置信区间进行估计。这种方法充分考虑了成对数据样本的相关性(即对于A、B、C三个用户,A与B的相似度和A与C相似度之间存在着相关性)问题,因此可以得到比传统方法更为可信的置信区间。 2、给出基于关系结构的评测样本量与置信区间之间的关系推导 本文分析了非参数随机抽样方法所推算的置信区问w与对应样本量n之间的关系,推导出如下方程:w2=β1/n2+β2/n,并在万人级别的北京大学手指静脉数据库上验证了这个方程的正确性。 3、提出基于置信弹性的评测样本量确定方法 本文发现了扩大样本量对可信度的提高具有边际效应递减的规律。我们用置信弹性来衡量样本采集的性价比。置信弹性,即置信区间的缩小倍数与其对应的数据扩容倍数之比。本文根据置信弹性给出了样本量的确定方法。 4、提出基于多重回归的增量式样本采集方法 本文所给出的样本量确定方法是在已经采集了一定测试样本的基础上给出的。本文提出了增量式的样本采集方法,对样本进行多次采集,从而正确地确定高可信评测所需要的样本量。