互惠利他主义的博弈论模型及其形而上学预设(1)-科技哲学

【内容提要】经典自然选择学说和亲缘选择理论难以解释有机体的利他行为。互惠理论提出，一个有机体付出代价帮助另一个有机体，可以在下一次受另一个有机体帮助时获益更大。以此为基础，人们建立起标准迭演囚徒困境博弈模型、修正的囚徒困境博弈模型以及厨师困境博弈模型，对不同情况下的利他现象作出了解释。互惠利他主义博弈论模型的形而上学预设，是有机体的行为理性。行为理性不同于工具理性和价值理性。后二者中理性的主体都是有意识的人或者人的集团，而行为理性中并不需要主体具有主观动机，只需要它们有行为。互惠利他主义的博弈论模型中的基本假定，都建立在理性预设的基础之上。行为理性冲击了我们通常的理性概念，在利他现象的研究中显示出其方法论优势。
【关键词】互惠理论/生物学哲学/形而上学/利他主义/博弈论

【正文】
近几十年来，与生物学突飞猛进的发展相应，国际生物学哲学界的研究异常活跃，文献大量涌现，涉及的领域十分广泛。国内科学界和哲学界对于国际生物学哲学的活跃景象作出的反应不多。而在这不多的反应中，70—80年代主要是对分子生物学哲学问题的关注，80—90年代主要是视野向生命伦理学和生态哲学的扩展。这两个方面所涉及的生物学对象，从尺度上看分别是生命的微观结构和宏观现象，从性质上看分别是纯粹生命现象和生命与社会的关系。动物行为学（ethology）的研究对象无论是从尺度上还是从性质上看，均介于这二者之间。近20年来，以这门学科为中心，旁及理论生物学尤其是行为生态学（ behavioral ecology）等领域，新发现的科学事实、对这些事实的理论解释、关于这些解释的哲学分析相互交错，构成了科学观察、数学建模、方法论探讨共同推进的局面。这方面的研究迄今在国内学术界很少见诸文献。本文拟对这一领域中的互惠利他主义的博弈论模型及其形而上学预设进行哲学分析，以引玉之砖，促进国内哲学界对于动物行为学进展及其哲学问题的关注。
　　　　自然选择论与亲缘选择论的困难
达尔文生物进化论的核心是自然选择学说。按照这个学说，物种在生存斗争的过程中，经过自然选择的作用，逐渐产生新的物种，实现生物的进化。[1] 自然界的有些现象可以用生存竞争直截了当地作出解释。南极洲帝企鹅在下水之前为了确定水中是否有海豹，有时相互往水中推拥。黑头鸥为了免除捉鱼之苦，往往趁附近成鸥不在巢中时捕食其雏鸥。雌螳螂为图觅食之便，甚至寻找机会吃掉与之交配的雄螳螂。这些都是生存竞争的极端例子。
但是，生物界似乎还存在利他行为。有不少鸟在察觉到捕食飞禽出现时，会发出警叫声让同伴逃避，自己因警叫却处于危险境地。汤姆森瞪羚在发现捕食者时，会通过跳跃向同伴发出信息，而使自己暴露在捕食者面前。鸟的警叫和瞪羚的跳跃看上去好像都是自我牺牲行为。但是，这些行为实际上也是个体的一种生存策略。察觉到捕食飞禽的鸟如果不发出警叫，其他仍在活动的鸟就会把捕食者的注意引向它自己周围，给包括自己在内的鸟群带来危险。因此，发出警叫比不发出警叫更好。当然，警叫还是有一定的危险，不过警叫时容易暴露声源的鸟会被自然淘汰。此外，捕食者首选的猎物是容易捕获者，因此瞪羚的跳跃是显示自己身强力壮，其目的在于让捕食者去捕食体弱无力者。这样看来，鸟的警叫和瞪羚的跳跃不过是“主观”为自己，客观为他者而已。
与鸟的警叫和瞪羚的跳跃相比，生物界还盛行着利他者甚至“主观”上也不为自己的自我牺牲行为。亲代付出精力、时间和能量孕育、喂养和保护子代，而自己一般不得益，这几乎是动物界的普遍现象。蜜蜂中的工峰自己不生育，只承担筑巢、采蜜、养幼蜂等工作。如果遇到掠夺蜂蜜者，工蜂还得刺螫掠夺蜂蜜者，自己却因刺螫中内脏拖出体外而死亡。对于这些纯粹的利他行为，经典的自然选择学说难以作出令人满意的解释，因为利他的有机体与那些不付出代价而在被帮助中受益的有机体相比，在生存斗争中应当有劣势而不能进化。所以初看上去，似乎接受自然选择说就不能承认利他行为的存在，而事实上这种行为确然存在。
为了解释利他行为的存在，汉密尔顿（William Hamilton）提出了亲缘选择理论，　并且建立了相应的数学模型[　2] ，后来道金斯（Richard Dawkins）对其基本思想作了进一步阐发[3]。简单说来，这个理论认为，近亲之间利他行为的存在和进化，是由于有机体只是基因的载体。自私的基因控制着个体的行为，使自己的拷贝得到保存和大量繁殖，而近亲具有共同基因的比例大，这就决定了近亲之间在必要时要采取利他行为。亲代生育和抚养子代自己不得益，是因为子代的基因来自父体和母体的各占1／2。工蜂自杀性地保护蜂蜜，是因为巢中与它有相同亲代的蜜蜂的基因有1／2与它的相同，并且这些蜜蜂的子代的基因还有1／4与它的相同。为了相同基因的利益，它必须做出牺牲。亲缘选择理论部分解释了近亲之间存在利他行为的现象，但是却不能解释非近亲有机体之间存在的利他行为。[4]
　　　　标准迭演囚徒困境博弈模型
面对经典自然选择说和亲缘选择说面临的困难，生物学家们诉诸互惠利他主义。初略地讲，互惠利他主义之所以进化，是因为一个有机体付出代价帮助另一个有机体，可以在下一次受益于另一个有机体的帮助，这样获益更大。这里，“互惠利他主义”是指两个有机体之间交换适合度（fitness）代价和利益的行为。为了精确地发展这一思想，生物学家们广泛使用博弈论模型。在这些博弈论模型当中，以二人迭演囚徒困境博弈最为基本。
囚徒困境博弈源自关于两个合伙犯罪者的传说。[5] 这两个被捕的囚徒在警方面前要么合作（保持沉默），要么背叛（坦白），不可抗拒。如果二人都保持沉默，他们在受审期间就会处于禁闭状态，但在不长的时间比如说6个月之后就会获释。如果二人中的一人供出对同犯不利的证据，他（或她）就将作为证人逍遥法外，而另一个囚徒则不得不承担全部法律责任，譬如蹲5年监狱。如果两个囚徒都坦白，二者都将承担蹲2年牢的刑事责任。显然，背叛是最佳选择，但是，如果二人都沉默就会比二人都背叛的结果更好。于是，合作还是背叛，就成为一个二难困境。这个博弈刻划出博弈者利益部分冲突的情况，被许多研究领域作为一种有效的分析手段而广泛采用。据统计，迄1980年止，关于囚徒困境博弈的科学出版物已达数千篇（部）之多。[6]
特里弗斯（Robert Trivers）最早采用囚徒困境博弈，提出了描述互惠利他主义行为的自然选择模型。该模型说明了自然选择在系统中如何不利于骗子（非互惠者）。[7]阿克塞尔罗德（Robert Axelrod ）与汉密尔顿[8]以囚徒困境博弈境况中的进化稳定策略概念为基础，发展了这个模型。这两篇论文已经成为现代经典，引用它们的文献已近千篇。在这两篇论文的基础上，关于互惠性的囚徒困境建模工作不断深入。
用囚徒困境博弈的语言来说，有机体的行为受其采取的策略支配，而这种策略就是使用合作与背叛手段的规则。譬如全背叛策略，博弈者在每一步博弈中都背叛。再如一报还一报策略，博弈者在第一步合作，然后采用其对手在上一步采用的手段。在非零和博弈中，孤立地看，不存在最佳策略。策略的优劣取决于该策略本身以及与之遭遇的种种策略的性质，还取决于遭遇到的各种策略相互作用的历史。阿克塞尔罗德组织了两次计算机竞赛，由自愿参赛者提交博弈策略程序参赛。两次竞赛中提交的程序分别有14和62个，结果都是一报还一报获胜。[9] 一报还一报能够成功，是因为它引诱对手合作，而当帮助得到对手的有条件报答时，这样的帮助就有利。显然，这是一个基于合作的策略。进一步的理论分析表明，以互惠性为基础的合作能够在一个自私的世界中开始，还能够在与范围广泛的其他策略相互作用的同时兴盛起来，并且能够对抗其他策略的侵犯。[10]
一些观察结果进一步确证，没有亲缘关系的有机体之间的合作可以是稳定的。鲈鱼具有雌雄两性器官，充当雌性角色就要高投资（产卵），充当雄性角色则是低投资（给卵受精）。两尾鲈鱼之间的交配大致是轮流充当雌雄性角色，如果性角色分工不平等，那么这种关系就会破裂。[11]虹＠①群易于遭受肉食动物的进攻，所以有时就需要有一两尾虹＠①离群探察肉食动物是否有进攻的先兆。如果两尾虹＠①前往探察，那么每尾虹＠①都有接近该肉食动物（合作）和畏缩不前（背叛）两种选择。如果两尾虹＠①同时探察，那么两尾虹＠①被吃掉的危险就会减少。[12]
在动物行为学中，囚徒困境博弈可用以下支付矩阵表示：
附图
支付（payoff）是两个博弈者在实施一定的策略后出现的后果。R、T、P和S 表示对有机体的适合度支付。每一对后果中的第一个字母表示对于博弈者1的支付，第二个字母表示对于博弈者2的支付。R 是对二者合作的奖励（reward），T是对背叛的诱惑（temptation），P是对二者背叛的惩罚（punishment），S是对傻瓜（sucker）的欺骗。绝大多数生物学文献都认定，囚徒困境由两个必要条件决定，这就是：（1 ）对手合作，自己背叛结果最好，对手背叛，自己合作结果最差，双方合作比双方背叛结果要好，就是说支付值的大小顺序为T＞R＞P＞S。这是指令条件。（2 ）对双方合作的奖励比对背叛的诱惑和对傻瓜的欺骗的平均效果好，即R＞（T＋S）／2。这是反剥削条件。满足这两个条件的博弈，就被称为标准囚徒困境。在这两个条件中，指令条件使博弈者面临困境，反剥削条件使博弈者不能通过轮流互相剥削来摆脱困境。在单局性的以及局数一定的囚徒困境博弈中，虽然相互合作比相互背叛好，但每一个博弈者通过背叛却可以最大限度地增加自身的利益，行为自私的有机体应当比利他主义者做得更好。[13]合作之所以进化，是因为博弈双方还有相遇的机会，博弈还可以多次进行。在重复次数不定的博弈，即迭演博弈中，合作可以出现并且能够稳定下来。像一报还一报策略的成功，就解释了在亲缘和群体选择未发生的情况下合作可以变得稳定的原因。
　　　　互惠利他主义的必要条件
阿克塞尔罗德和汉密尔顿用标准迭演囚徒困境为分析互惠利他主义的进化奠定了基础之后，生物学家们对这个基础的坚实性曾经提出过一些疑问，其中最主要的批评有两点，一是认为单局囚徒困境表示的是互助而不是互惠，二是认为互惠利他主义需要利他滞后发生的机会。[14]针对这些批评，博伊德（Robert Boyd）提出，迭演囚徒困境中的互惠行为是滞后的并且发生于延续的时间之中，从而为囚徒困境作为互惠利他主义的恰当模型作了辩护。[15]最近，日本学者研究了点阵结构种群中合作的进化[16]，瑞典学者提出了研究迭演博弈的状态空间法[17]，等等。这些工作的基础，都是标准囚徒困境模型。[18]
然而，博伊德的工作只说明囚徒困境博弈至少可以用来建立某些情况下的互惠利他主义模型，但并不意味着建立一切情况下的互惠利他主义模型都必须利用这种博弈。为了探索其他形式的模型，哲学家斯蒂芬斯（Christopher Stephens）从一般意义上得出了互惠利他主义所必要的非形式条件，分析指出标准囚徒困境博弈的必要条件并不是互惠利他主义的必要条件，继而给出了互惠利他主义的必要形式条件。
互惠利他主义的非形式条件，就是不借助数学（这里是博弈论）模型来定义互惠利他行为所必须符合的决定性特征。而用博弈论语言表达这些特征，便得出互惠利他主义所必须满足的形式条件。
斯蒂芬斯提出，互惠利他主义的特征有四个。这就是：（1 ）该行为必须减少某个供体（即提供帮助者）的与某个自私的抉择有关的适合度；（2）受体（即接受帮助者）的适合度相对于非受体必须被提高；（3）该行为的完成必须不依赖于某个直接利益的接受；（4 ）条件（1）、（2）和（3）必须适用于参与互惠帮助的两个个体。这里，条件（1）和（2）是使该行为互惠的条件。条件（3 ）把互惠利他主义与互助主义区别开来，因为在互助主义中只有受体同步提供某个回报利益，供体才采取行动。条件（4）使利他主义互惠。这四个特征分开是互惠利他主义的必要条件，合起来是互惠利他主义的充分条件。但是，仅有这4个条件还不够，互惠利他主义要能够进化，还必须有进一步的条件限制。斯蒂芬斯提出，互惠利他主义进化要满足的必要条件是：（5 ）必须存在察觉“骗子”的机制；（6 ）必须存在交换帮助的大量（不定）机会。显然，没有条件（5），非利他主义者就会总是占利他主义者的便宜，这样互惠利他主义就不会进化；有了这个条件，利他主义者就有了惩罚不合作的有机体的办法。没有条件（6），博弈就是单局的，博弈者占主导地位的选择就是背叛；有了这个条件，就保证了博弈的局数不定。
根据互惠利他主义及其进化的上述6个必要非形式条件，分析标准迭演囚徒困境博弈的必要条件，可以发现本文第二节提到的反剥削条件即R＞（T＋S）／2并不是囚徒困境所必要的，而且指令条件即T＞R ＞P＞S也不是互惠利他主义所必要的。就是说，可以把标准囚徒困境博弈模型放到互惠利他主义进化模型之一，甚至是囚徒困境模型之一的位置上，而不是互惠利他主义的一般模型的位置上。我们从分析反剥削条件开始。这个条件是为了保证困境的存在，因为对双方合作的奖励比对背叛的诱惑和对傻瓜的欺骗的平均效果好，但是在迭演的情况下如果R ≤（T＋S）／2，困境仍然存在。R≤（T＋S）／2 意味着一对有机体轮流获得T（诱惑）和S（欺骗）回报的效果不会比轮流获得R （报偿）的效果差，这是一个允许博弈者交替剥削的条件。通俗地说，这次你吃亏下次我吃亏，有时会比两次你我都不吃亏的平均效果还好。因此，去掉反剥削条件，不会削弱合作的基础。实际上，交替剥削成了合作的一种形式。不过，这里的合作不是直接合作而是滞后合作，博弈者允许自己被剥削是为了交换剥削另一个博弈者的机会。当然，交替剥削要达到比双方合作好的效果，还需要一些条件规定4个支付值的相对大小，这就涉及到指令条件的突破。
把互惠利他主义行为的非形式条件形式化，可以得到如下支付矩阵：
附图
这里的值表示只是对博弈者1的适合度支付。显然，非形式条件（1）因为T＞R且P＞S而得到满足。条件（2）因为R＞S且T＞P或者仅仅使T＞ P而有效。这些非形式条件，不论单独还是一起，都不必要求指令或反剥削条件。把这些非形式条件具体化，斯蒂芬斯得到包括标准囚徒困境模型在内的5个互惠利他主义模型。定义这些模型的条件分别是（注：斯蒂芬斯没有用缩写字母而是用中性字母表示4个支付值。本文不采用斯蒂芬斯的表示法，仍沿用通行的支付值表示字母。）：模型1：T＞R＞P＞S且R＞（T＋S）／2；模型2：T＞R＞P＞S且R≤（T＋S）／2；模型3：T＞P＞R＞S且P＞（T＋S）／2；模型4：T＞P≥R＞S且P≤（T ＋S）／2；模型5：T＞P＞S＞R且P≤（T＋S）／2。模型1 就是标准囚徒困境博弈。模型2是经斯蒂芬斯修正了的囚徒困境博弃。其他3个模型是斯蒂芬斯提出的“厨师困境博弈”。
　　　　修正的囚徒困境博弈模型和厨师困境博弈模型
在模型1的情况中以及模型2的某些情况中，利他主义表现为同步合作；在所有其他情况下，互惠利他主义表现为滞后合作。一般说来，帮助对于被帮助者甚至对于双方来说都是好事。但是，物极必反，有时过多的帮助反而糟糕。模型3－5刻划的就是这种情况，因为在这3 个模型中同步合作的支付值（R）都小于同步背叛的支付值（P）。这就像过多的厨师会搞糟一锅汤一样。所以斯蒂芬斯把这种情况称之为厨师困境博弈。不过，在这种情况下，虽然同步合作不会使博弈者受益，但是非同步合作还是会相互受益的，所以互惠利他主义仍然存在。在3 个厨师困境模型中，模型3是不稳定的厨师困境博弈，因为两个博弈者由于同步背叛而做得更好。模型4中R≤P，是强厨师困境博弈。相比较而言，模型5就只能称为弱厨师困境博弈了。修正的囚徒困境博弈和强弱厨师困境博弈即模型2、4和5，表示的就是滞后合作可能稳定的各种互惠利他主义。这3个模型可以用来分析和解释一些实际的观察结果。
帕克（C.Packer）曾经报导，一种雄性橄榄色狒狒［即猎神狒狒（Papio anubis）］形成联盟的行为满足互惠利他主义的判据。[19]一只雄狒狒为了与一只雌狒狒交配，在与竞争的狒狒的争斗中常常请求另一只雄狒狒的帮助。而被请求的雄狒狒则可以作出帮助与否的选择。在请求者（一只雄狒狒）接近雌狒狒的同时，被请求者（另一只雄狒狒）给予帮助不但自己不获利而且还使自己处于冒险状态。显然，这里的互惠帮助是非同步的，因为在一次帮助中只有一只狒狒得到报偿，另一只狒狒仅仅花费帮助代价。可以把单局博弈扩展为单迭演博弈，即以第一个博弈者的行动作为开始，以第二个博弈者的行动作为结束。于是，有机体甲在第一局博弈中帮助有机体乙而乙在第二局中帮助甲，就可以当作一次迭演来处理为二者都合作了。余类推。但是，用哪一种模型描述这种帮助较恰当，则取决于经验细节。如果在单迭演博弈中，提供帮助的雄狒狒冒的风险不大，即R＞（T＋S）／2为真，那么就要用标准模型来描述。但是，如果提供帮助的雄狒狒冒的风险大到R＜（T＋S）／2的程度，标准模型就无能为力，而要用修正的囚徒困境博弈模型了。

哲学网编辑部 未经授权禁止复制或建立镜像
地址：上海市虹梅南路5800号2座416室邮编：200241
ICP证号：晋ICP备 05006844号

学术与思想 Academic

哲学命题 Proposition

学科方向 Philosophy

学术资源 Resources

互惠利他主义的博弈论模型及其形而上学预设(1)-科技哲学