耶鲁博弈论 第1节 导论——五个入门结论

Python3.8

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

耶鲁博弈论 第1节 导论——五个入门结论

本系列笔记来自耶鲁博弈论,课程视频来自b站耶鲁大学:博弈论,笔记不定期更新。

一、开胃菜——成绩博弈

开场游戏:你和你的同桌在完全不知情的情况下,填写自己的成绩 α α α β β β,然后老师将所有同学随机分成两两一组,你的成绩将按照以下情况给出:
(1)若你填写 α α α 你的对手填写 β β β,你将得到 A A A 等级,你的对手将得到 C C C 等级
(2)若你填写 α α α 你的对手填写 α α α,你将得到 B − B- B 等级,你的对手将得到 B − B- B 等级
(3)若你填写 β β β 你的对手填写 β β β,你将得到 B + B+ B+ 等级,你的对手将得到 B + B+ B+ 等级
(4)若你填写 β β β 你的对手填写 α α α,你将得到 C C C 等级,你的对手将得到 A A A 等级

课堂上老师询问了几个选 α α α 的同学的理由,第一个人觉得对方也会填 α α α,所以我要填 α α α;第二个人的理由是,填 α α α 的结果总要优于填 β β β.
而选择 β β β 的同学觉得选择 β β β 成绩波动较小,(会从B+波动到C)(实际上选择 α α α 波动和 β β β 一样,从A到B-);另一个觉得一开始大家可以合作,都填 β β β 获得最大利益。

目前我们涉及到博弈的行为策略参与人,但是忽略了一个博弈的必备要素:动机(objectives).

下面我们用效用矩阵表示收益(Possible Payoffs):

可能情况 Pair
Me
α,α α,β
β,α
β,β
效用 Pair
Me
0, 0 3,-1
-1,3
1, 1

前提是所有人只在乎自己的成绩,并且努力想取得更高的成绩。这里显然能够看出,不管对手选择什么,选择 α α α 的效益始终大于 β β β ( 0 > − 1 , 3 > 1 ) (0 > -1, 3 > 1) 0>1,3>1

我们称这种始终不会取得劣势的选择称作严格优势策略

因此得到第一个结论:1.不要选择严格劣势策略,原因很简单,the payoffs are lower.
但似乎这样的结论有些过于简单而不值得讨论。

但是如若别人也是这样想,选择了 β β β,那么你们都将获得 1 的效用,而 1 是 大于 0 的,因此选择 β β β 是更好的选择,这似乎与第一个结论有些矛盾。

实际上这种说法有两个问题,其一,我的想法实际上是无法影响到你的想法,也就是我的选择无法左右你的选择,其二,建立在第一个假设上,若我的想法能够左右你的想法,那么为了争取最大的效用,我应该选择 α α α 而不是 β β β

由此得到第二个结论:2.理性的选择(严格优势策略)往往使得结果变得糟糕
协商难以达成的原因不是缺少沟通,而是没有强制力

(囚徒困境,三个和尚没水吃,企业价格战)

换种情况,若效用矩阵变成下面这样:

效用 Pair
Me
0, 0 -1,-1
-3, 3
1, 1

若我选择 α α α,而对手选择了 β β β,但是我感到愧疚,良心受到谴责,减去我的负罪感的负效用后只得到了 -1(把他称作负罪感)。相反我选择 β β β,而对手选择了 α α α,觉得不服气只得到了 C,因此下次要好好学习,表现出了雄心壮志,并且这个成绩是因为对手选了 α α α 所致,在道义上的谴责又减去了一些效用,最终变成了 -3.

α α α 的人觉得这样可以最小化损失,而选 β β β 的人觉得这样有机会获得最大效用 1.

当对方选择 α α α 时,我应该选择 α α α 才能获得最大效用,相反,当对方选择 β β β 时,我也应该选择 β β β 才能得到最大效用。因此,这种情况下没有严格优势策略,而这也仅仅是改变了博弈的收益,并没有改变博弈的结构和结果,但是我们的目的被改变了。第一种情况我们显然应该选择 α α α,而第二种情况我们却不知道该选什么,这种博弈叫 协和谬误

由此得出第三个结论:3.汝欲得之,必先知之
永远选择优势策略,损失小,如果对手有优势策略应以此作为选择策略的指导

第三种情况,我们更改对手每种情况的效用,如下:

效用 Pair
Me
0, 0 3,-3
-1, -1
1, 1

显然, α α α 是严格优势策略,选择 α α α 更好。

第四种情况,仅仅修改我自己不同情况下的效用,如下:

效用 Pair
Me
0, 0 -1,-1
-3, 3
1, 1

这种情况下,对我自己而言,没有了所谓的严格优势策略,但是对于对手而言, α α α 是严格优势策略,他必定会选择 α α α,因此我只能选择 α α α 来获得最大效用。

因此得到第四个结论:4.站在对方的立场上去分析对方会怎么做

综上可以得到第五个结论: 5.人都是自私的

填数游戏

每个人写下 1 − 100 1-100 1100 中随机一个数,最终离平均数的 2 3 \frac{2}{3} 32 最接近的人获得奖励

解析请看下节…

【老师每节课开奖是为了不让学生逃课吗?(笑)】

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值