“游戏进行无限轮,但实际上,当连续100轮没有新的策略变化时,视为结束。最终比较总分。平局即你们获胜,因为你们的目标是‘不输’。”
“听起来是重复博弈的标准模型,”朱九珍思考,“最优策略通常是‘以牙还牙’:第一轮合作,之后每一轮复制对方上一轮的选择。”
“那是简单策略,”主脑说,“我的五个复制体将使用五种不同策略,从简单到复杂。你们需要制定一个策略,应对所有五种对手。策略必须在游戏开始前确定,中途不能更改。”
“但我们可以根据对手的历史调整每轮的选择,”车妍说。
“可以,但必须基于预设的决策规则。比如,‘如果对方在过去三轮中背叛两次以上,则本轮背叛’这样的规则。但规则必须提前定义。”
“我们需要讨论,”上官玉狐说。
“给你们十分钟,”主脑说,“十分钟后,游戏开始。”
五人围成一圈。这是纯粹的智力游戏,没有任何武力或特殊能力的用武之地。
“五种策略,”郝大说,“主脑没说具体是哪五种,但可以推测。最可能的是:永远合作、永远背叛、以牙还牙、宽容以牙还牙(类似以牙还牙,但偶尔原谅背叛)、以及随机策略。”
“随机策略最麻烦,”朱九珍说,“完全不可预测。”
“但我们不需要赢每一个对手,”车妍说,“只需要总比分不输。我们可以针对不同对手制定不同应对,但问题是我们不知道哪个对手用哪个策略,而且我们五人对战五个对手,是五个独立的对局同时进行。”
“不,”艾莉娅突然说,“主脑说‘你们五人作为一个团队’,意思是我们的选择必须一致。所以我们每次只能做一个选择,这个选择同时面对五个对手。换句话说,我们是在用一个策略同时对战五个不同策略的对手。”
“那就更复杂了,”张海摇头,“我们要找一个策略,在面对永远合作、永远背叛、以牙还牙、宽容以牙还牙和随机策略时,总分不输。”
“我们需要计算,”郝大闭上眼睛,真相之眼自动开启。但这次,他看到的不只是真相,而是可能性树。在真相之眼的视野中,无数策略分支展开,每个选择导致不同的分数流。但可能性太多,即使真相之眼也无法处理所有。
“关闭它,”上官玉狐突然按住郝大的肩膀,“用逻辑,不是用能力。主脑在测试我们的逻辑,不是我们的超能力。”
郝大点头,关闭真相之眼。纯粹的数学和逻辑问题。
“我们可以用这样的策略,”车妍开始在地上画图,“第一轮永远合作。之后,记录每个对手的历史。对于永远合作的对手,我们永远合作,每轮得3分,完美。对于永远背叛的对手,我们永远背叛,每轮得1分,虽然不高,但不会得0分。对于以牙还牙的对手,我们永远合作,它也会永远合作,也是每轮3分。对于宽容以牙还牙,类似。麻烦的是随机策略。”
“随机策略的期望值是多少?”朱九珍计算,“如果我们永远合作,对方随机选择,50%合作得3分,50%背叛得0分,期望值1.5分。如果我们永远背叛,对方50%合作我们得5分,50%背叛得1分,期望值3分。所以对随机策略,永远背叛更好。”
“但如果我们永远背叛,对永远合作的对手就糟了,”艾莉娅说,“永远合作的对手在我们背叛时得0分,但我们在它合作时背叛得5分,所以其实我们得分高。但道德上...”
“这里没有道德,只有逻辑,”上官玉狐说,“但我们不能只考虑单个对手,要考虑总分。我们需要最大化总分,确保不输。”
郝大突然想到一个策略:“我们使用‘自适应’策略:对每个对手单独记忆,但基于一个简单规则:如果对手的合作率高于某个阈值,我们合作;否则背叛。但我们需要动态调整阈值。”
“太复杂,需要预设规则,”车妍说,“而且主脑可能限制策略复杂度。”
时间一分一秒过去。
“我有个想法,”张海突然说,这让大家有些惊讶——张海通常不是策略制定者。
“说,”上官玉狐鼓励。
“我们不追求最大化得分,我们追求不输。主脑的五个复制体之间没有协调,我们的选择会同时影响五个对局。如果我们永远选择合作,那么对永远合作、以牙还牙、宽容以牙还牙,我们都能得高分;对永远背叛,我们得0分,但它得5分;对随机,期望值1.5。总分可能不低,但永远背叛的对手会拉高主脑方的总分。”
“如果我们永远背叛,”张海继续,“对永远合作我们得高分,对永远背叛我们得低分,对以牙还牙会陷入互相背叛,对随机期望值3分。但以牙还牙的策略会因为我们第一次背叛而永远背叛,所以那个对局会变成双方永远背叛,每轮各得1分。”
“复杂,”郝大揉太阳穴。
“简单化,”艾莉娅说,“考虑极端