|
囚徒博奕与道德教育 辛一山
囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;如果两人都坦白则各判7年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的行动回报。可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,这是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判7年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。即是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑7年。在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力改变自己的选择,因此这个组合是纳什均衡。
囚徒困境反映了个人理性和集体理性的矛盾。如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。当然,A和B可以在被警察抓到之前订立一个"攻守同盟",但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。
这个例子只是一次性的博弈结果,而如果进行同样性质的多次博弈演绎之后,囚徒的选择就会偏向于合作,而且对于背叛者实行报复,结果“一报还一报”变成为最佳选择。理论上的解释是:短期行为背叛有利,长期的行为互动会形成一定的合作模式。背叛者总体要吃亏。
虽然这是一个囚徒例子,但相对于社会道德教育也是具有相同的意义。社会里人们的行为可分解为短期行为和长期行为。在社会发展的初级阶段人们会为了获取眼前利益而选择相互背叛,但人们通过长期的社会活动经验总结出一套社会相互合作的行为规则,这就是囚徒博弈多次演绎结果的体现。这样的一套行为规则,我们把它确定为道德规范。最为成熟社会道德规范模式是我们中国人总结出来的,那就是儒家所宣传的伦理道德。简单的概述就是:“仁、义、礼、智、忠、信、孝、勇”。中国古代的伦理道德系统周全、庞大,它涉及所有的社会生活门类。
伦理道德追求的是长期的目标,它的效用就像现在的商家追求品牌效用一样,有品牌自然就有效益。一个社会的道德伦理越发达,就说明它的文明水平越高。这种趋势就像囚徒博弈的超级演绎,只有合作才是人类低成本高效益发展的正确途径。现在我们废弃了祖先总结出来的一整套伦理道德经验,整个社会限于无序之中,人们就像原始状态刚进化时那样着眼于眼前的利益。只要能够获得利益不在乎说谎、欺骗,可这样的行为就像典型的囚徒博弈一样最终只会给自己带来伤害。
现在社会的毛病那么多,腐化、贪污、谎言、欺骗、不讲信誉、……等等全都是追求短期化目标的结果,大家也苦于找不到解决的办法。这等于是捧着金饭碗到处要饭,实际的解决大量社会问题的办法,祖先早已经为我们设计好了。为什么我们要固执的坚持错误的观念反对原来行之有效的道德伦理教育?
大家都知道短期化行为不好,但怎么使得人们句有长期化行动的目标和需求?这些祖先也为我们准备好了。只是简单的收拾一下就可以有大的转变,马上行动起来注重社会的道德伦理教育吧!
注释:道德是社会或特定群体的共同期望值,是一种行为的标准。人们对这样的标准有希望其他的人都能达成的期望。道德可以减少社会整体的损耗。道德有限制和惩罚不道德的有力机制。 |
|