论文部分内容阅读
上个世纪是西方心理学长足发展的一个世纪。产业/组织心理学会(Society for Industrial and Organizational Psychologists,简称SIOP)作为美国心理学会(America Psychological Association,简称APA)的第14个分支,从会员人数、会员收入和学会影响来看,是最火的心理学分支之一。美国以及其它许多国家,在政府机构、企业和咨询界从事测评的人,大多数是产业/组织心理学(I/O psychology)背景。这些人主导了西方特别是美国的人力资源测评方法论。
这些产业/组织心理学家在做测评时,往往以心理测验法为主,而以行为观察法为辅。根据Susan E. Embretson在The Second Century of Ability Testing: Some Predictions and Speculations一文中的预测,这个趋势会在本世纪的美国得到长久的延续。
从实际效用的角度看,心理测验和其所依据的心理计量学实际上是对人力资源管理的误导,因为心理测验所测量的认知能力和人格与实际生活中的能力和成就尚有一臂之距。换言之,心理测验所测量的能力局限于学业能力。按照后来的智力理论家(例如R.J.Sternberg和H.Gardner)的观点,智力并不是单一的能力。例如,智力至少包含个人智力(personal intelligence)、自知力(intrapersonal intelligence)以及人际智力(interpersonal intelligence)。其中,正统心理测验能够准确测量的顶多是个人智力中的学业智力(academic intelligence)。
美国军队曾经大规模应用心理测验。例如,第一次世界大战中,美国心理学家用智力测验作为从近二百万应征者中征兵的筛选工具,当时有两套测验,用于有阅读能力的人和不懂英语的人或文盲半文盲。心理学界认为,这是成功应用心理测验的典范。可是,根据美国畅销书Storming Heaven: LSD and the American Dream的评价,结果令人失望。测验淘汰了八千六百四十八个智力低下者,同时得出结论:这些人以及他们所代表的全体美国人的平均智力年龄只相当于13岁零一个月。换句话说,一般美国人的聪明程度与十几岁少年相仿。
一战中,心理学家们还用人格测验预测一个人在战场上的表现,结果并不成功。Storming Heaven一书中这样写道:武德沃兹设计了一套125题的问卷用于测量哪些人格在作战时会崩溃。不幸的是,这个工具在实用性上是一个失败。
即使在重视学业智力的教育测验领域,心理测验法的有效性也受到挑战。二十世纪末,美国有人开始提倡所谓真实测评(authentic assessment)或称作业测评(performance assessment),看重开放式问答题(open-ended responses)、论述题(essays),以及学生作品。值得一提的是,欧洲的教育考试一直没有像美国那样依赖多项选择题。
以行为观察为主流、以心理测验为旁支来看人力资源测评的发展,对于一般心理学出身的人来说,不是一件容易事。据中国评鉴中心的先行者陆红军讲,80年代他在国内推广评鉴中心时,许多中国心理学界的人认为是旁门左道。其实,对于综合、实用能力的测评,最有效的方法不是心理测验,而是行为观察。基于这种认识,原HayGroup和Towers Perrin的张伟俊在成立上海人才之初便决意将评鉴中心作为上海人才的核心竞争力之一,并邀请本人创建并领导上海人才有限公司测评事业部。我们为企业评估和选拔管理人员所用的方法,从来都是以行为观察法为主、以心理测验法为辅。我们的信条是:不以心理测验评判一个人的管理才干。
观察法的外在效度高,成本也高,适用于重要岗位的选拔。
战争比商业竞争更残酷。战争中,国家主权和成千上万的人命都掌握在将帅手上。所以,选将是所有人事选拔中最要命的事。在这种场合,没有人敢用心理测验决定由谁带兵打仗。战国时代的《六韬》一书中的《龙韬》,其中有一篇文章题为《选将》,记载姜太公(又名姜子牙或姜尚,辅助周武王打败商纣王的中国名将)所倡导的结构化的行为观察的方法选拔将领:“武王曰:何以知之?太公曰:知之有八征:一曰问之以言,以观其辞。二曰穷之以辞,以观其变。三曰与之问谍,以观其诚。四曰明白显问,以观其德。五曰使之以财,以观其廉。六曰试之以色,以观其贞。七曰告之以难,以观其勇。八曰醉之以酒,以观其态。八征皆备,则贤不肖别矣。”
中国古代军事家关于选将的模型很多,大致相当于现在所说的资质模型(competency model),例如孙子的“将者,智、信、仁、勇、严也”。中国古代军事家们大概都有自己的资质模型。但如何按照这些标准选将呢?姜太公的选将八法是否广为应用,我们不得而知。不过,后来科举制度衍生出武举制度,考试内容有长垛、骑射、步射、马枪、举重、言语、材貌等,都属于行为观察。据说,骑射这一项,应试者射向人形靶三箭,三箭皆中为优,二箭中为良,一箭中为及格。笔试作为补充,例如论述战略及默写《孙》、《吴》 等兵书的内容。但是,这些行为观察只限于军事技术技能,而领导能力、决策能力及信、仁、勇、严等品质似乎并没有在武举考试中得到考察。
德国人在第一次世界大战中,使用了评鉴中心(assessment center,或译成评价中心)这一术语,并用此法选拔军官。美国人在第二次世界大战中选拔间谍,用到了评鉴中心方法。二战后,英国军队一直沿用评鉴中心为陆军学院招生。我把评鉴中心的特点概括为“二高四多”。二高:高效度、高成本。四多:使用多种测评方法(包括心理测验法)、多个测评师同时测评多个对象的多个测评指标。美国空军军官学校(Squadron Officer School)旨在发展领导力的著名的X计划的核心内容,就是利用评鉴中心的翻版,在模拟解决问题的情境中观察学员的领导能力。
姜太公选将之法并不是由中国人,而是由德国人、美国人、英国人发扬光大,这对中国人来说是一个遗憾!曾经分别在J.C.Penny和AT&T两家公司使用评鉴中心的两位美国心理学家William Byham 和Douglas Bray1970年创立的DDI,是最早把评鉴中心商业化的人力资源管理咨询公司。DDI在1973年发起的一年一度的世界性的有关评鉴中心的技术和商业集会,到2003年已经是第三十一届。评鉴中心无疑是姜太公选将法的技术体现。从姜太公选将到评鉴中心在军事和商业上的广泛应用,我们看到不同于心理测验法的行为观察法的发展轨迹。评鉴中心代表最有效的行为观察法,其它行为观察法包括工作样本、单一情境模拟、可计分行为访谈等。
上文说到评鉴中心效度高。有人会问:效度有多高?国内外的研究证明,评鉴中心的效度远远高于心理测验。根据我在应用评鉴中心过程中得到的客户反馈,这种方法屡试不爽。
上文还说到评鉴中心成本高。评鉴中心的成本高到什么程度呢?时间上,大概需要一天到一个星期,出一份报告往往需要几个测评师十几个小时的时间。所以,美国评鉴中心的价格是几百到几千美元一个人。中国的评鉴中心也不会便宜到哪里去。虽然评鉴中心的成本高,但从投资回报和风险管理来讲,一个字:值。我的忠告是:对于重要岗位,要么不做测评,要做就做评鉴中心。那么,什么是重要岗位?重要岗位指的是管理、销售以及客户服务。
同事包晨星在一篇文章中,用F.Schmidt 等人设计的公式对评鉴中心的投资回报做了一个计算。他假定一个企业要聘用5位销售经理,候选人共有50名。以效度为0.6,并且每位候选人施测成本5000元计,那么一年的收益为98300元,五年为1491500元。他用的公式为:EG = Ns rxy2 SDy Zx - Nt C,其中,EG代表该测评方法能给企业带来的效益(元),Ns代表聘用的人数,rxy代表该测评方法的预测效度,SDy代表招聘岗位的一年的业绩差异金额,Zx代表被聘用的人的测评成绩的标准分的平均,Nt代表候选人数,C代表测试每一位候选人的成本金额。
由此可见,评鉴中心的问题不是成本,因为这个成本是可以带来丰厚回报的。评鉴中心以及多数行为观察法的问题在于评分的主观性。评分标准设计得不好,就会出现评分者信度低的问题。通俗地说,是评分者们对于同样一个人的同样的行为表现仁者见仁智者见智。对于结构化程度不高的评鉴中心设计,评分的问题更加严重。
心理测验内部一致性高,成本低,适合大规模的筛选。
行为观察追求外在效度,心理测验追求内在效度,两者有天壤之别。
从Francis Galton和Cattell开始,统计学在心理测验技术中一直扮演重要角色。在智力和人格研究的某个阶段,因素分析方法甚至比理论家更有权力决定智力和人格的元素。从正态分布、相关系数、常模、智商、情商、项目分析、内部一致性、效标参照效度,到项目反应理论,众多术语让外行感到眼花缭乱。这些概念和统计工具,保证了心理测验具有高度的内部一致性或者说信度。开发一个测验需要漫长的过程,必须保证测验符合心理计量学的指标。所以,对心理测验稍有了解的人都会问:信度、效度怎样?有无常模?这就是心理测验的思维定势。用心理计量学的信度效度指标衡量评鉴中心,结果是信度(内部一致性)一塌糊涂,而效度却非常之高。可见,评鉴中心不是心理测验的一种,心理计量学的信度、内部一致性等概念可能不适用于评鉴中心。
与行为观察法相比,心理测验客观吗?我的回答是否定的。心理测验不如行为观察客观。心理测验(不包括投射测验)只是评分者之间完全一致,评分完全不受评分者的主观因素影响。但是,心理测验的行为样本的代表性有很大问题。西方心理学界有一个颇具讽刺的定义:智力是智力测验所测量的心理品质。人格测验就更不用提了,都是测评对象自己说自己如何如何,答题是主观的,评分再客观也无法弥补。
与其说心理测验不客观,不如说心理测验的外在效度低。外在效度指的是把一个概念、理论或工具拿到心理学以外的现实生活中去,它能否解决问题。内在效度指的是一个概念、理论或工具在心理学内部能否自圆其说。即使有的心理测验的效标参照效度很高,这个效度也只是内在效度。什么是效标?智力的效标之一是学业成绩,外倾性格的效标之一是他人评价。效标如果比心理测验准确,那么开发心理测验还有什么必要?参照靠不住的效标计算效度还有什么意义呢?如果说有意义,那意义就是:证明这个测验还没有差到比效标还不可靠的程度!
既然效标参照效度是这样计算的,那么效度指标也就并非越高越好。试想,如果智力测验和学业成绩的相关系数等于1(perfect correlation),那么我要问,这个测验测的是智力还是学业成绩?
心理测验的优势不是客观性,而是标准化计分导致的低成本。考TOEFL的人自己要买2B的铅笔若干支,然后在答题纸上面涂黑圈圈。这样做是方便了扫描仪,从而极大地降低了ETS(美国的教育考试中心,即Educational Testing Services)的评分成本。在电脑化和网络时代,心理测验低成本的优势就更明显。
由于成本低,心理测验适合大规模的施测。但由于外在效度低,所以它只能测量某些最最基本的能力。由于这一点,它更适合筛选(确定谁不合格),而非选拔(确定谁更适合)。美国一战征兵测验、现在ETS的各种考试都是这类筛选的性质。
文官考试和教育考试是大规模应用测验的领域。现在中国的高考制度,形式上更接近西方的标准化测验。高考真正考察的其实是这几个方面的能力:成就动机、毅力、时间管理、基本智力、记忆力等。
科举考试不失为一种好的测评方法,它被废除,我认为主要是因为科举考试没有体现现代社会思想和管理理念。科举考试是大规模应用的测验,但不是标准化的心理测验,而更像所谓的performance assessment和评鉴中心,评分的成本估计不会低。中国目前实行的公务员考试,采用了西方标准化教育心理测验的方法,在方法论上不如古代科举考试。这种考试的效度令人担忧。可喜的是,党中央提出了“人才强国”的方针,并且强调不以学历、经历、出身选人才。我衷心希望政府也不以多项选择题的考试成绩选拔公务员。
1977年,英国两位心理学家Peter Saville 和Roger Holdsworth创立了SHL,如今SHL已经成为在伦敦股票交易市场上市的世界闻名的心理测验开发商。SHL1984年诞生的标志性产品OPQ (Occupational Personality Questionnaires),据说用了四年时间研发而成,代表了心理测验的最高水平。美国此类心理测验开发商数量更多。
在上海人才的咨询实践中,我们开发的基本工作能力测验一直被用于企业招聘的筛选或初选,而我们开发的工作风格问卷(Work Style Inventory, 简称WSI)则存入员工档案,以备人力资源规划之用。这类测验的另一个好处,是可以积累大量的数据库,作为参照标准。
中国的产品和服务目前大都不如西方发达国家,就连指甲钳这样的小东西都是外国的好。但在测评方面,我感觉中国人完全可以比外国人做得好。下面,我谈谈原因。
中国文化是滋养测评的优良土壤。然而,当今许多人听到测评就嗤之以鼻,本人也经常用“泛滥”二字形容中国的测评市场。甚至,“测评”二字几乎成了骂人的话。但是,这种不满主要是指向心理测验本身的局限和对心理测验的误用和滥用。最典型的泛滥形式是在企业招聘、选拔、晋升中使用心理学经典测验作为主要测评工具。我就听说,有的测评公司用卡特尔16因素人格测验(16PF)为企业选拔管理者。
正如我前文所说的那样,中国的测评有过辉煌的过去,我们有姜太公行为观察的好传统,有孔夫子“听其言而观其行”的测评理念。而且,正因为中国的心理学落后,心理测验不发达,因祸得福,少走了不少弯路。如果我们大力发展行为观察法,中国人有理由在测评领域领先世界。为此,我呼吁业界同仁在以下方面共同努力。
第一,发扬中国测评重视行为观察的传统。对于关键岗位的招聘、选拔、晋升测评,以行为观察法为主,以心理测验法为辅。
第二,推动行为观察标准化。我曾经把计分标准化程度高的评鉴中心比喻为体操比赛评分,把计分标准化程度很低的评鉴中心比喻为选美比赛评分。根据把评鉴中心传授给上海人才的George Thornton III在Assessment Centers in Human Resource Management(中文版即将由上海人才翻译出版)一书中的描述,我得出的结论是,美国的大多数评鉴中心,按照我的比喻,属于选美比赛式的评分。如果上海人才能够代表国内评鉴中心的水平的话,可以说我们在评鉴中心的评分上已经超过了美国大多数公司。
第三,通过研发,利用信息技术降低行为观察法的成本。在这方面,上海人才已经取得了初步成就,如专有技术电脑辅助公文筐测验CIT (Computerized In-tray Tests)。
对于心理测验法,我们同样应该用其所长、避其所短。而且,使用行为观察法的人会得益于心理计量学的修养。因为心理计量学的许多原理,同样适用于行为观察法。特别是现代心理测验理论中的项目反应理论(Item Response Theory),适用于电脑辅助的情境测验。上海人才下一步要做的研发工作之一就是在CIT中采用项目反应理论。
中国人开发本土的心理测验势在必行。为避免西方能力心理测验过于注重学业能力的弱点,我们必须保证测评的维度和题目与工作高度相关。例如,测量空间推理能力不如测量听懂上级指令的能力更能反映大多数工作岗位对人的要求。再如,测量归纳逻辑能力,用抽象的图形不如用工作中的样本。为克服西方人格心理测验过于重视跨情境的人格特征的局限,中国人开发人格测验必须重视人格的工作情境特异性。又如,你测量一个人如何与人沟通,不如测量这个人如何与上级、同事、下属、客户等沟通。
这些产业/组织心理学家在做测评时,往往以心理测验法为主,而以行为观察法为辅。根据Susan E. Embretson在The Second Century of Ability Testing: Some Predictions and Speculations一文中的预测,这个趋势会在本世纪的美国得到长久的延续。
从实际效用的角度看,心理测验和其所依据的心理计量学实际上是对人力资源管理的误导,因为心理测验所测量的认知能力和人格与实际生活中的能力和成就尚有一臂之距。换言之,心理测验所测量的能力局限于学业能力。按照后来的智力理论家(例如R.J.Sternberg和H.Gardner)的观点,智力并不是单一的能力。例如,智力至少包含个人智力(personal intelligence)、自知力(intrapersonal intelligence)以及人际智力(interpersonal intelligence)。其中,正统心理测验能够准确测量的顶多是个人智力中的学业智力(academic intelligence)。
美国军队曾经大规模应用心理测验。例如,第一次世界大战中,美国心理学家用智力测验作为从近二百万应征者中征兵的筛选工具,当时有两套测验,用于有阅读能力的人和不懂英语的人或文盲半文盲。心理学界认为,这是成功应用心理测验的典范。可是,根据美国畅销书Storming Heaven: LSD and the American Dream的评价,结果令人失望。测验淘汰了八千六百四十八个智力低下者,同时得出结论:这些人以及他们所代表的全体美国人的平均智力年龄只相当于13岁零一个月。换句话说,一般美国人的聪明程度与十几岁少年相仿。
一战中,心理学家们还用人格测验预测一个人在战场上的表现,结果并不成功。Storming Heaven一书中这样写道:武德沃兹设计了一套125题的问卷用于测量哪些人格在作战时会崩溃。不幸的是,这个工具在实用性上是一个失败。
即使在重视学业智力的教育测验领域,心理测验法的有效性也受到挑战。二十世纪末,美国有人开始提倡所谓真实测评(authentic assessment)或称作业测评(performance assessment),看重开放式问答题(open-ended responses)、论述题(essays),以及学生作品。值得一提的是,欧洲的教育考试一直没有像美国那样依赖多项选择题。
以行为观察为主流、以心理测验为旁支来看人力资源测评的发展,对于一般心理学出身的人来说,不是一件容易事。据中国评鉴中心的先行者陆红军讲,80年代他在国内推广评鉴中心时,许多中国心理学界的人认为是旁门左道。其实,对于综合、实用能力的测评,最有效的方法不是心理测验,而是行为观察。基于这种认识,原HayGroup和Towers Perrin的张伟俊在成立上海人才之初便决意将评鉴中心作为上海人才的核心竞争力之一,并邀请本人创建并领导上海人才有限公司测评事业部。我们为企业评估和选拔管理人员所用的方法,从来都是以行为观察法为主、以心理测验法为辅。我们的信条是:不以心理测验评判一个人的管理才干。
观察法的外在效度高,成本也高,适用于重要岗位的选拔。
战争比商业竞争更残酷。战争中,国家主权和成千上万的人命都掌握在将帅手上。所以,选将是所有人事选拔中最要命的事。在这种场合,没有人敢用心理测验决定由谁带兵打仗。战国时代的《六韬》一书中的《龙韬》,其中有一篇文章题为《选将》,记载姜太公(又名姜子牙或姜尚,辅助周武王打败商纣王的中国名将)所倡导的结构化的行为观察的方法选拔将领:“武王曰:何以知之?太公曰:知之有八征:一曰问之以言,以观其辞。二曰穷之以辞,以观其变。三曰与之问谍,以观其诚。四曰明白显问,以观其德。五曰使之以财,以观其廉。六曰试之以色,以观其贞。七曰告之以难,以观其勇。八曰醉之以酒,以观其态。八征皆备,则贤不肖别矣。”
中国古代军事家关于选将的模型很多,大致相当于现在所说的资质模型(competency model),例如孙子的“将者,智、信、仁、勇、严也”。中国古代军事家们大概都有自己的资质模型。但如何按照这些标准选将呢?姜太公的选将八法是否广为应用,我们不得而知。不过,后来科举制度衍生出武举制度,考试内容有长垛、骑射、步射、马枪、举重、言语、材貌等,都属于行为观察。据说,骑射这一项,应试者射向人形靶三箭,三箭皆中为优,二箭中为良,一箭中为及格。笔试作为补充,例如论述战略及默写《孙》、《吴》 等兵书的内容。但是,这些行为观察只限于军事技术技能,而领导能力、决策能力及信、仁、勇、严等品质似乎并没有在武举考试中得到考察。
德国人在第一次世界大战中,使用了评鉴中心(assessment center,或译成评价中心)这一术语,并用此法选拔军官。美国人在第二次世界大战中选拔间谍,用到了评鉴中心方法。二战后,英国军队一直沿用评鉴中心为陆军学院招生。我把评鉴中心的特点概括为“二高四多”。二高:高效度、高成本。四多:使用多种测评方法(包括心理测验法)、多个测评师同时测评多个对象的多个测评指标。美国空军军官学校(Squadron Officer School)旨在发展领导力的著名的X计划的核心内容,就是利用评鉴中心的翻版,在模拟解决问题的情境中观察学员的领导能力。
姜太公选将之法并不是由中国人,而是由德国人、美国人、英国人发扬光大,这对中国人来说是一个遗憾!曾经分别在J.C.Penny和AT&T两家公司使用评鉴中心的两位美国心理学家William Byham 和Douglas Bray1970年创立的DDI,是最早把评鉴中心商业化的人力资源管理咨询公司。DDI在1973年发起的一年一度的世界性的有关评鉴中心的技术和商业集会,到2003年已经是第三十一届。评鉴中心无疑是姜太公选将法的技术体现。从姜太公选将到评鉴中心在军事和商业上的广泛应用,我们看到不同于心理测验法的行为观察法的发展轨迹。评鉴中心代表最有效的行为观察法,其它行为观察法包括工作样本、单一情境模拟、可计分行为访谈等。
上文说到评鉴中心效度高。有人会问:效度有多高?国内外的研究证明,评鉴中心的效度远远高于心理测验。根据我在应用评鉴中心过程中得到的客户反馈,这种方法屡试不爽。
上文还说到评鉴中心成本高。评鉴中心的成本高到什么程度呢?时间上,大概需要一天到一个星期,出一份报告往往需要几个测评师十几个小时的时间。所以,美国评鉴中心的价格是几百到几千美元一个人。中国的评鉴中心也不会便宜到哪里去。虽然评鉴中心的成本高,但从投资回报和风险管理来讲,一个字:值。我的忠告是:对于重要岗位,要么不做测评,要做就做评鉴中心。那么,什么是重要岗位?重要岗位指的是管理、销售以及客户服务。
同事包晨星在一篇文章中,用F.Schmidt 等人设计的公式对评鉴中心的投资回报做了一个计算。他假定一个企业要聘用5位销售经理,候选人共有50名。以效度为0.6,并且每位候选人施测成本5000元计,那么一年的收益为98300元,五年为1491500元。他用的公式为:EG = Ns rxy2 SDy Zx - Nt C,其中,EG代表该测评方法能给企业带来的效益(元),Ns代表聘用的人数,rxy代表该测评方法的预测效度,SDy代表招聘岗位的一年的业绩差异金额,Zx代表被聘用的人的测评成绩的标准分的平均,Nt代表候选人数,C代表测试每一位候选人的成本金额。
由此可见,评鉴中心的问题不是成本,因为这个成本是可以带来丰厚回报的。评鉴中心以及多数行为观察法的问题在于评分的主观性。评分标准设计得不好,就会出现评分者信度低的问题。通俗地说,是评分者们对于同样一个人的同样的行为表现仁者见仁智者见智。对于结构化程度不高的评鉴中心设计,评分的问题更加严重。
心理测验内部一致性高,成本低,适合大规模的筛选。
行为观察追求外在效度,心理测验追求内在效度,两者有天壤之别。
从Francis Galton和Cattell开始,统计学在心理测验技术中一直扮演重要角色。在智力和人格研究的某个阶段,因素分析方法甚至比理论家更有权力决定智力和人格的元素。从正态分布、相关系数、常模、智商、情商、项目分析、内部一致性、效标参照效度,到项目反应理论,众多术语让外行感到眼花缭乱。这些概念和统计工具,保证了心理测验具有高度的内部一致性或者说信度。开发一个测验需要漫长的过程,必须保证测验符合心理计量学的指标。所以,对心理测验稍有了解的人都会问:信度、效度怎样?有无常模?这就是心理测验的思维定势。用心理计量学的信度效度指标衡量评鉴中心,结果是信度(内部一致性)一塌糊涂,而效度却非常之高。可见,评鉴中心不是心理测验的一种,心理计量学的信度、内部一致性等概念可能不适用于评鉴中心。
与行为观察法相比,心理测验客观吗?我的回答是否定的。心理测验不如行为观察客观。心理测验(不包括投射测验)只是评分者之间完全一致,评分完全不受评分者的主观因素影响。但是,心理测验的行为样本的代表性有很大问题。西方心理学界有一个颇具讽刺的定义:智力是智力测验所测量的心理品质。人格测验就更不用提了,都是测评对象自己说自己如何如何,答题是主观的,评分再客观也无法弥补。
与其说心理测验不客观,不如说心理测验的外在效度低。外在效度指的是把一个概念、理论或工具拿到心理学以外的现实生活中去,它能否解决问题。内在效度指的是一个概念、理论或工具在心理学内部能否自圆其说。即使有的心理测验的效标参照效度很高,这个效度也只是内在效度。什么是效标?智力的效标之一是学业成绩,外倾性格的效标之一是他人评价。效标如果比心理测验准确,那么开发心理测验还有什么必要?参照靠不住的效标计算效度还有什么意义呢?如果说有意义,那意义就是:证明这个测验还没有差到比效标还不可靠的程度!
既然效标参照效度是这样计算的,那么效度指标也就并非越高越好。试想,如果智力测验和学业成绩的相关系数等于1(perfect correlation),那么我要问,这个测验测的是智力还是学业成绩?
心理测验的优势不是客观性,而是标准化计分导致的低成本。考TOEFL的人自己要买2B的铅笔若干支,然后在答题纸上面涂黑圈圈。这样做是方便了扫描仪,从而极大地降低了ETS(美国的教育考试中心,即Educational Testing Services)的评分成本。在电脑化和网络时代,心理测验低成本的优势就更明显。
由于成本低,心理测验适合大规模的施测。但由于外在效度低,所以它只能测量某些最最基本的能力。由于这一点,它更适合筛选(确定谁不合格),而非选拔(确定谁更适合)。美国一战征兵测验、现在ETS的各种考试都是这类筛选的性质。
文官考试和教育考试是大规模应用测验的领域。现在中国的高考制度,形式上更接近西方的标准化测验。高考真正考察的其实是这几个方面的能力:成就动机、毅力、时间管理、基本智力、记忆力等。
科举考试不失为一种好的测评方法,它被废除,我认为主要是因为科举考试没有体现现代社会思想和管理理念。科举考试是大规模应用的测验,但不是标准化的心理测验,而更像所谓的performance assessment和评鉴中心,评分的成本估计不会低。中国目前实行的公务员考试,采用了西方标准化教育心理测验的方法,在方法论上不如古代科举考试。这种考试的效度令人担忧。可喜的是,党中央提出了“人才强国”的方针,并且强调不以学历、经历、出身选人才。我衷心希望政府也不以多项选择题的考试成绩选拔公务员。
1977年,英国两位心理学家Peter Saville 和Roger Holdsworth创立了SHL,如今SHL已经成为在伦敦股票交易市场上市的世界闻名的心理测验开发商。SHL1984年诞生的标志性产品OPQ (Occupational Personality Questionnaires),据说用了四年时间研发而成,代表了心理测验的最高水平。美国此类心理测验开发商数量更多。
在上海人才的咨询实践中,我们开发的基本工作能力测验一直被用于企业招聘的筛选或初选,而我们开发的工作风格问卷(Work Style Inventory, 简称WSI)则存入员工档案,以备人力资源规划之用。这类测验的另一个好处,是可以积累大量的数据库,作为参照标准。
中国的产品和服务目前大都不如西方发达国家,就连指甲钳这样的小东西都是外国的好。但在测评方面,我感觉中国人完全可以比外国人做得好。下面,我谈谈原因。
中国文化是滋养测评的优良土壤。然而,当今许多人听到测评就嗤之以鼻,本人也经常用“泛滥”二字形容中国的测评市场。甚至,“测评”二字几乎成了骂人的话。但是,这种不满主要是指向心理测验本身的局限和对心理测验的误用和滥用。最典型的泛滥形式是在企业招聘、选拔、晋升中使用心理学经典测验作为主要测评工具。我就听说,有的测评公司用卡特尔16因素人格测验(16PF)为企业选拔管理者。
正如我前文所说的那样,中国的测评有过辉煌的过去,我们有姜太公行为观察的好传统,有孔夫子“听其言而观其行”的测评理念。而且,正因为中国的心理学落后,心理测验不发达,因祸得福,少走了不少弯路。如果我们大力发展行为观察法,中国人有理由在测评领域领先世界。为此,我呼吁业界同仁在以下方面共同努力。
第一,发扬中国测评重视行为观察的传统。对于关键岗位的招聘、选拔、晋升测评,以行为观察法为主,以心理测验法为辅。
第二,推动行为观察标准化。我曾经把计分标准化程度高的评鉴中心比喻为体操比赛评分,把计分标准化程度很低的评鉴中心比喻为选美比赛评分。根据把评鉴中心传授给上海人才的George Thornton III在Assessment Centers in Human Resource Management(中文版即将由上海人才翻译出版)一书中的描述,我得出的结论是,美国的大多数评鉴中心,按照我的比喻,属于选美比赛式的评分。如果上海人才能够代表国内评鉴中心的水平的话,可以说我们在评鉴中心的评分上已经超过了美国大多数公司。
第三,通过研发,利用信息技术降低行为观察法的成本。在这方面,上海人才已经取得了初步成就,如专有技术电脑辅助公文筐测验CIT (Computerized In-tray Tests)。
对于心理测验法,我们同样应该用其所长、避其所短。而且,使用行为观察法的人会得益于心理计量学的修养。因为心理计量学的许多原理,同样适用于行为观察法。特别是现代心理测验理论中的项目反应理论(Item Response Theory),适用于电脑辅助的情境测验。上海人才下一步要做的研发工作之一就是在CIT中采用项目反应理论。
中国人开发本土的心理测验势在必行。为避免西方能力心理测验过于注重学业能力的弱点,我们必须保证测评的维度和题目与工作高度相关。例如,测量空间推理能力不如测量听懂上级指令的能力更能反映大多数工作岗位对人的要求。再如,测量归纳逻辑能力,用抽象的图形不如用工作中的样本。为克服西方人格心理测验过于重视跨情境的人格特征的局限,中国人开发人格测验必须重视人格的工作情境特异性。又如,你测量一个人如何与人沟通,不如测量这个人如何与上级、同事、下属、客户等沟通。