论文部分内容阅读
博弈论可以成功解释经济中许多低效率现象,找出导致低效率的制度根源,从而帮助政府制订、修改政策,完善政府行为,以提高经济效率。政府制定什么政策、会收到什么效果,可以通过构造博弈模型进行研究。目前我国出现“市场秩序”混乱,政策执行低效问题,其实质是政府制定的政策目标和政策结果相冲突,出现“政府政策错位”的现象。
所谓政府政策“错位”,即政府制定的政策目标和执行的政策结果出现不一致现象,常被称为“激励的悖论”。这个悖论对于制定各项政策,进行管理体制改革都极有启发意义。下面运用博弈理论,通过构造博弈模型对此做一个较为深刻的剖析。
一、“执法者——不法分子”模型的建立
首先构造下面“执法者一不法分子”博弈模型。在此模型中,博弈方有两个:执法者和不法分子;执法者的策略集为“监管、不监管”;不法分子的策略集为“违法、不违法”。当执法者“监管”时,如果不法分子“违法”,可能会被执法者“逮住”而遭受处罚,对不法分子而言具有负效用,记为得益“-P”。这一得益可能表现为被罚款,严重者甚至会被判刑等。因此,政府执法者“监管”会帮助提高政府威信,假设不考虑执法者能得到的一些心理上的满足,他并没有其他更实际的效用,因此他的得益是零。当执法者“不监管”时,如果不法分子“不违法”,则执法者本来拿一份国家工资就该履行一份职责,不法分子本就不应违法,两者都是应该的,两者都没有什么特别的得益,当然也都没什么损失,即得益都是零。
“监管”是费时费力的,难免发生冲突,因而也不利于干群间的个人关系,因此如果不法分子“不违法”时,执法者也“不监管”,省时省力而效果又自然达到了,所以执法者能得到一份正的效益,记为S,但此时不法分子什么得益也不会有。而如果执法者“不监管”,不法分子选择“违法”,则执法者一定程度“失察”,执行任务的完成、执行效果的实现都得打折扣,对他来讲有一定程度的负效用(如党纪处分),记为得益“-D”,此时不法分子违法(如偷税漏税)成功,有一定程度的正效用,记为得益“V”。最后可以得到的得益矩阵如下图所示:

这是一个严格竞争博弈,博弈双方只有竞争而没有合作的可能。这是因为:若执法者的策略是“监管”,则不法分子的策略是“不违法”;若不法分子的策略是“不违法”,则执法者的策略是“不监管”;若执法者的策略是“不监管”,则不法分子的策略是“违法”;若不法分子的策略是“违法”,则执法者的策略又是“监管”,如此循环往复,根本没有协调的时候。
严格竞争博弈一定存在纳什均衡解(通俗些讲,“纳什均衡”是指博弈中的博弈方在策略选取时达到的这么一种状态:假设每一个博弈方都是理性人,已经选取了某策略的任一博弈方都不愿单独改变其策略,否则都只能是使得他的当前得益减少),但却不可能是纯策略的(“纯策略”是指以绝对的态度在众策略中进行取舍,选取某一策略则一定不取其他策略),而是混合策略的(“混合策略”跟“纯策略”相反,是指以相对的态度在众策略中进行取舍,选取任一策略都是以一定概率进行的,但总概率必须等于1)。因此,用划线法、箭头法的严格下策消去法思想是不可能得到纳什均衡解的,它没有严格下策。必须引进混合策略的思想,找它的混合策略解。
二、模型的求解
在没有纯策略纳什均衡解的情况下,不法分子采用的混合策略必须使得执法者无论是“监管”还是“不监管”,其期望收益都是一样的,惟其如此,不法分子才会失去改变策略的冲动。执法者采用的混合策略也必须使得不法分子无论是“违法”还是“不违法”,其期望收益都是一样的,也惟其如此,执法者才会失去改变策略的冲动。只有当双方都没有改变策略的冲动时,博弈才能达到一个双方都不愿打破的均衡局面,这时双方的策略集合便是本博弈的纳什均衡解。假设不法分子违法的概率为p(则不违法的概率为1-p),执法者不监管的概率为q(则监管的概率为1-q),则:

我们先讨论不法分子选择“违法”与“不违法”两种策略的概率的确定。

图2中横轴表示不法分子选择“违法”的策略的概率pt,它分布在0到1之间,“不违法”的概率则等于1-p1;纵轴反映对应于不法分子“违法”的不同概率,执法者选择“不监督”策略的期望得益。设执法者的得益为R,则R与p1之间存在如下的线性关系:
R=Pt*(-D)+(1-Pt)*S=S-(S+D)t*Pt
图中从S到-D连线的纵坐标就是在横坐标对应的不法分子“违法”概率下,执法者选择“不监督”的期望得益。容易说明该线与横轴的交点pt*就是不法分子选择“违法”概率的最佳水平,选择“不违法”的最佳概率则为1-pt*。首先,S到-D连线上每一点的纵坐标,就是在不法分子选择该点横坐标表示的“违法”概率时,执法者选择“不监督”策略的期望得益S(1-Pt)+(-D)pt。假设不法分子的“违法”概率大于pt*,此时执法者“不监督”的期望得益小于0,因此他肯定百分之百选择“监督”,从而不法分子逃一次被抓一次有赔无赚,因此对不法分子来说大于pt*的“违法”概率是不可取的。反过来,如果不法分子“违法”的概率小于pt*,则执法者“不监督”的期望得益大于0,因此执法者天天不监督是合算的,此时即使不法分子提高一些“违法”的概率(即违法更频繁一些),只要不大于pt*,执法者都会选择“不监督”,因此不法分子不用害怕会被抓住。由于不法分子在保证不被抓住的前提下,“违法”概率越大收获就越大,因此他会使“违法”的概率趋向于pt*,均衡点是不法分子以概率pt*t*和1-pt*分别选择“违法”和“不违法”。此时执法者“不监督”与“监督”的期望得益都等于0,选择纯策略“不监督”和“监督”,或混合策略的期望得益都是相同的。不过,事实上,为了让不法分子也没有可乘之机,执法者也必须选择特定概率分布的混合策略。
执法者采取“不监督”与“监督”的混合策略概率分布,也可用同样的方法来确定。结论是图3中的pg*和1-pg*是执法者的最佳概率选择。 在不法分子和执法者的博弈中,不法分子分别以概率pt*和1-pt*随机选择“违法”与“不违法”,执法者分别以概率pt*和1-pg*随机选择“不监督”与“监督”时,双方都不能通过改变策略或概率改善自己的期望得益,因此构成混合策略纳什均衡,这也是该博弈惟一的纳什均衡。
三、“激励的悖论”及其启示
不法分子与执法者之间的混合策略博弈,实质上揭示了一种“激励的悖论”。
首先,考察政府为了抑制违法现象而加重对不法分子的惩罚时会出现的结果。对不法分子的惩罚加重会使得P增大。在图3中,这相当于-P向下移动到-p1,如果执法者混合策略中的概率分布不变,此时不法分子“违法”的期望得益变为负值,因此不法分子会停止“违法”。但是在长期中,不法分子减少“违法”会使执法者更多地选择“不监督”,最终执法者会将“不监督”的概率提高到pt*1,达到新的均衡,而此时不法分子“违法”的期望得益又恢复到0,他会重新选择混合策略。由于不法分子的混合策略概率分布是由图2决定的,并不受P值的影响,因此政府加重对不法分子的惩罚在长期中并不能抑制违法,最多只能抑制短期的违法发生率,它的主要作用是使得执法者更多地懒得监督。当然,如果将执法者可以轻松完成工作也看作增加了社会福利,那么政府加重对不法分子的惩罚还是有意义的。
同样地,可以再讨论加重对失职或者说治法不严的执法者的处罚会出现什么结果。加重对执法者的处罚意味着D增大到D1。此时,如果不法分子“违法”的概率不变,那么执法者“不监督”的期望得益变为负值,执法者肯定会选择“监督”。执法者“监督”不法分子只能减少违法的概率,直到将pt*下降到pt*1,此时执法者又会恢复混合策略,达到新的混合策略均衡。这就是说,加重对执法者的处罚在短期中的效果是使执法者真正尽职,但在长期中并不能使执法者更尽职,执法者的勤勉程度并不是由D决定的。加重处罚失职执法者在长期中的真正作用,恰恰是会降低违法发生的概率。这样,不法分子和执法者博弈的最后结果是:在其它条件不变的前提下,不法分子之所以违法,是因为对失职执法者的处罚不够;执法者之所以不监督,则是因为对违法不法分子处罚太甚。要使不法分子不违法,得加强对执法不严的执法者的处罚;要使执法者少监督,裁减冗员提高效率,则要加重对违法的不法分子的处罚。
此模型所揭示出的政策目标和政策结果之间的这种罚A抑B、罚B扬A的“意外”错位关系,也常被称为“激励的悖论”。这个悖论对于制定各项政策,进行管理体制改革都是极有启发意义的。政府加重对不法分子的惩罚在短期内虽然能抑制不法行为,但在长期会使执法者增加不打击行为,不法现象不会改善。但加重对执法者惩处力度的做法短期内会使执法者真正尽职,长期却可起到抑制不法行为的作用。因此,严惩扰乱社会经济秩序的违法分子固然必不可少,但加强对监管者的监管力度却能使监管更有效。政府下决心要整顿经济秩序促进市场“理性”发展,在奖惩制度的设计上,监管监管者与监管违规操纵者并举,才是最好的选择。
此模型还可帮助我们理解为何政府再三强调要加强监管、惩治腐败,而经济生活中的股市黑幕、基金丑闻、权力寻租、工程腐败等扰乱正常经济秩序的活动仍屡禁不止,政府政策收效甚微。一个重要的原因在于政府设计的策略机制是否真的构成“可信的威胁或承诺”,政府的相关法规及监管配套政策的方向是否正确,措施力度是否恰当构成博弈“可置信”的机制保障。
实际上,每一政策的出台都纠缠着许多冲突对抗的利益关系,是多方面博弈的均衡结果。政府要使制定的政策有效,就必须考虑别人可能采取的各种对策,以使你的政策本身符合纳什均衡的要求。市场和政府都不是完美的,政府进行战略性的政策干预和合理性规制就是要把市场竞争处理成一场博弈。如何使这一博弈沿着预期的目标前行而不致发生偏离和扭曲正是当前我国政府机制改革应着重解决的问题。
(作者单位:江西财经大学统计学院)
所谓政府政策“错位”,即政府制定的政策目标和执行的政策结果出现不一致现象,常被称为“激励的悖论”。这个悖论对于制定各项政策,进行管理体制改革都极有启发意义。下面运用博弈理论,通过构造博弈模型对此做一个较为深刻的剖析。
一、“执法者——不法分子”模型的建立
首先构造下面“执法者一不法分子”博弈模型。在此模型中,博弈方有两个:执法者和不法分子;执法者的策略集为“监管、不监管”;不法分子的策略集为“违法、不违法”。当执法者“监管”时,如果不法分子“违法”,可能会被执法者“逮住”而遭受处罚,对不法分子而言具有负效用,记为得益“-P”。这一得益可能表现为被罚款,严重者甚至会被判刑等。因此,政府执法者“监管”会帮助提高政府威信,假设不考虑执法者能得到的一些心理上的满足,他并没有其他更实际的效用,因此他的得益是零。当执法者“不监管”时,如果不法分子“不违法”,则执法者本来拿一份国家工资就该履行一份职责,不法分子本就不应违法,两者都是应该的,两者都没有什么特别的得益,当然也都没什么损失,即得益都是零。
“监管”是费时费力的,难免发生冲突,因而也不利于干群间的个人关系,因此如果不法分子“不违法”时,执法者也“不监管”,省时省力而效果又自然达到了,所以执法者能得到一份正的效益,记为S,但此时不法分子什么得益也不会有。而如果执法者“不监管”,不法分子选择“违法”,则执法者一定程度“失察”,执行任务的完成、执行效果的实现都得打折扣,对他来讲有一定程度的负效用(如党纪处分),记为得益“-D”,此时不法分子违法(如偷税漏税)成功,有一定程度的正效用,记为得益“V”。最后可以得到的得益矩阵如下图所示:

这是一个严格竞争博弈,博弈双方只有竞争而没有合作的可能。这是因为:若执法者的策略是“监管”,则不法分子的策略是“不违法”;若不法分子的策略是“不违法”,则执法者的策略是“不监管”;若执法者的策略是“不监管”,则不法分子的策略是“违法”;若不法分子的策略是“违法”,则执法者的策略又是“监管”,如此循环往复,根本没有协调的时候。
严格竞争博弈一定存在纳什均衡解(通俗些讲,“纳什均衡”是指博弈中的博弈方在策略选取时达到的这么一种状态:假设每一个博弈方都是理性人,已经选取了某策略的任一博弈方都不愿单独改变其策略,否则都只能是使得他的当前得益减少),但却不可能是纯策略的(“纯策略”是指以绝对的态度在众策略中进行取舍,选取某一策略则一定不取其他策略),而是混合策略的(“混合策略”跟“纯策略”相反,是指以相对的态度在众策略中进行取舍,选取任一策略都是以一定概率进行的,但总概率必须等于1)。因此,用划线法、箭头法的严格下策消去法思想是不可能得到纳什均衡解的,它没有严格下策。必须引进混合策略的思想,找它的混合策略解。
二、模型的求解
在没有纯策略纳什均衡解的情况下,不法分子采用的混合策略必须使得执法者无论是“监管”还是“不监管”,其期望收益都是一样的,惟其如此,不法分子才会失去改变策略的冲动。执法者采用的混合策略也必须使得不法分子无论是“违法”还是“不违法”,其期望收益都是一样的,也惟其如此,执法者才会失去改变策略的冲动。只有当双方都没有改变策略的冲动时,博弈才能达到一个双方都不愿打破的均衡局面,这时双方的策略集合便是本博弈的纳什均衡解。假设不法分子违法的概率为p(则不违法的概率为1-p),执法者不监管的概率为q(则监管的概率为1-q),则:

我们先讨论不法分子选择“违法”与“不违法”两种策略的概率的确定。

图2中横轴表示不法分子选择“违法”的策略的概率pt,它分布在0到1之间,“不违法”的概率则等于1-p1;纵轴反映对应于不法分子“违法”的不同概率,执法者选择“不监督”策略的期望得益。设执法者的得益为R,则R与p1之间存在如下的线性关系:
R=Pt*(-D)+(1-Pt)*S=S-(S+D)t*Pt
图中从S到-D连线的纵坐标就是在横坐标对应的不法分子“违法”概率下,执法者选择“不监督”的期望得益。容易说明该线与横轴的交点pt*就是不法分子选择“违法”概率的最佳水平,选择“不违法”的最佳概率则为1-pt*。首先,S到-D连线上每一点的纵坐标,就是在不法分子选择该点横坐标表示的“违法”概率时,执法者选择“不监督”策略的期望得益S(1-Pt)+(-D)pt。假设不法分子的“违法”概率大于pt*,此时执法者“不监督”的期望得益小于0,因此他肯定百分之百选择“监督”,从而不法分子逃一次被抓一次有赔无赚,因此对不法分子来说大于pt*的“违法”概率是不可取的。反过来,如果不法分子“违法”的概率小于pt*,则执法者“不监督”的期望得益大于0,因此执法者天天不监督是合算的,此时即使不法分子提高一些“违法”的概率(即违法更频繁一些),只要不大于pt*,执法者都会选择“不监督”,因此不法分子不用害怕会被抓住。由于不法分子在保证不被抓住的前提下,“违法”概率越大收获就越大,因此他会使“违法”的概率趋向于pt*,均衡点是不法分子以概率pt*t*和1-pt*分别选择“违法”和“不违法”。此时执法者“不监督”与“监督”的期望得益都等于0,选择纯策略“不监督”和“监督”,或混合策略的期望得益都是相同的。不过,事实上,为了让不法分子也没有可乘之机,执法者也必须选择特定概率分布的混合策略。
执法者采取“不监督”与“监督”的混合策略概率分布,也可用同样的方法来确定。结论是图3中的pg*和1-pg*是执法者的最佳概率选择。 在不法分子和执法者的博弈中,不法分子分别以概率pt*和1-pt*随机选择“违法”与“不违法”,执法者分别以概率pt*和1-pg*随机选择“不监督”与“监督”时,双方都不能通过改变策略或概率改善自己的期望得益,因此构成混合策略纳什均衡,这也是该博弈惟一的纳什均衡。
三、“激励的悖论”及其启示
不法分子与执法者之间的混合策略博弈,实质上揭示了一种“激励的悖论”。
首先,考察政府为了抑制违法现象而加重对不法分子的惩罚时会出现的结果。对不法分子的惩罚加重会使得P增大。在图3中,这相当于-P向下移动到-p1,如果执法者混合策略中的概率分布不变,此时不法分子“违法”的期望得益变为负值,因此不法分子会停止“违法”。但是在长期中,不法分子减少“违法”会使执法者更多地选择“不监督”,最终执法者会将“不监督”的概率提高到pt*1,达到新的均衡,而此时不法分子“违法”的期望得益又恢复到0,他会重新选择混合策略。由于不法分子的混合策略概率分布是由图2决定的,并不受P值的影响,因此政府加重对不法分子的惩罚在长期中并不能抑制违法,最多只能抑制短期的违法发生率,它的主要作用是使得执法者更多地懒得监督。当然,如果将执法者可以轻松完成工作也看作增加了社会福利,那么政府加重对不法分子的惩罚还是有意义的。
同样地,可以再讨论加重对失职或者说治法不严的执法者的处罚会出现什么结果。加重对执法者的处罚意味着D增大到D1。此时,如果不法分子“违法”的概率不变,那么执法者“不监督”的期望得益变为负值,执法者肯定会选择“监督”。执法者“监督”不法分子只能减少违法的概率,直到将pt*下降到pt*1,此时执法者又会恢复混合策略,达到新的混合策略均衡。这就是说,加重对执法者的处罚在短期中的效果是使执法者真正尽职,但在长期中并不能使执法者更尽职,执法者的勤勉程度并不是由D决定的。加重处罚失职执法者在长期中的真正作用,恰恰是会降低违法发生的概率。这样,不法分子和执法者博弈的最后结果是:在其它条件不变的前提下,不法分子之所以违法,是因为对失职执法者的处罚不够;执法者之所以不监督,则是因为对违法不法分子处罚太甚。要使不法分子不违法,得加强对执法不严的执法者的处罚;要使执法者少监督,裁减冗员提高效率,则要加重对违法的不法分子的处罚。
此模型所揭示出的政策目标和政策结果之间的这种罚A抑B、罚B扬A的“意外”错位关系,也常被称为“激励的悖论”。这个悖论对于制定各项政策,进行管理体制改革都是极有启发意义的。政府加重对不法分子的惩罚在短期内虽然能抑制不法行为,但在长期会使执法者增加不打击行为,不法现象不会改善。但加重对执法者惩处力度的做法短期内会使执法者真正尽职,长期却可起到抑制不法行为的作用。因此,严惩扰乱社会经济秩序的违法分子固然必不可少,但加强对监管者的监管力度却能使监管更有效。政府下决心要整顿经济秩序促进市场“理性”发展,在奖惩制度的设计上,监管监管者与监管违规操纵者并举,才是最好的选择。
此模型还可帮助我们理解为何政府再三强调要加强监管、惩治腐败,而经济生活中的股市黑幕、基金丑闻、权力寻租、工程腐败等扰乱正常经济秩序的活动仍屡禁不止,政府政策收效甚微。一个重要的原因在于政府设计的策略机制是否真的构成“可信的威胁或承诺”,政府的相关法规及监管配套政策的方向是否正确,措施力度是否恰当构成博弈“可置信”的机制保障。
实际上,每一政策的出台都纠缠着许多冲突对抗的利益关系,是多方面博弈的均衡结果。政府要使制定的政策有效,就必须考虑别人可能采取的各种对策,以使你的政策本身符合纳什均衡的要求。市场和政府都不是完美的,政府进行战略性的政策干预和合理性规制就是要把市场竞争处理成一场博弈。如何使这一博弈沿着预期的目标前行而不致发生偏离和扭曲正是当前我国政府机制改革应着重解决的问题。
(作者单位:江西财经大学统计学院)