ゲーム理論「囚人のジレンマ」

今回はミクロ経済学における「ゲーム理論」と、それに基づく「囚人のジレンマ」のお話です。

参考著書：経済の基本　監修　遠山眞人さん

ゲーム理論とは

意思決定をする主体を「プレーヤ―」、選択できる手段を「戦略」と呼び、プレーヤーは相手の戦略を予測したうえで自分の戦略を選択すること

アメリカの数学者フォン・ノイマン氏が経済学者オスカー・モルゲンシュテルンの協力で書いた本「ゲームの理論と経済活動」から始まった分野で、ゲーム理論という名前もこの本のタイトルが由来となります。

これらのゲーム理論は、ミクロ経済学でよく使用されています。

ミクロ経済学とは

ミクロ経済学とは、個々の家計や企業など一つひとつの経済主体を対象にするものです。例えば、消費者はどんな消費行動をとるのか、企業は何をどれだけ生産すれば最も利潤が大きくなるのか、といった研究や戦略などを指します。

ペイ・オフ（利得）が最大になる戦略が最適の戦略

プレーヤーは、何を基準に戦略を選択するのでしょうか？プレーヤーがある戦略を選択した結果、得られる利益をペイ・オフ（利得）といいます。

そしてこのペイ・オフが最大になる戦略が、プレーヤーにとって最適の戦略となります。

ゲーム理論とナッシュ均衡

ゲーム理論では、それぞれが相手の戦略を予測したうえで自分の戦略を選択するので、

各プレイヤーが最適の戦略を選択している状態を「ナッシュ均衡」といいます。

つまり、予測する相手の戦略に対して、自分の戦略のペイ・オフが最大になっている、しかも各プレイヤーがそうなっている状態が「ナッシュ均衡」なのです。

今回は、ナッシュ均衡が発生することにより、

必ずしもゲーム理論において、ペイ・オフが最大になる戦略が最適の選択とは限らないという

有名な例である「囚人のジレンマ」をご紹介します。

囚人のジレンマ

「囚人のジレンマ」では、共犯AとB、2人の囚人と検事が登場します。そして検事は、囚人Aに対して次のような司法取引をもちかけます。

（2人とも黙秘を続けても、それぞれ懲役3年は確実だ。だが、囚人Aが囚人Bを裏切って自白すれば、囚人Aは懲役1年にしてやる。

その場合、囚人Bは懲役10年だ。もし二人とも自白したら、それぞれ懲役6年だ。囚人Bにも、同じ話をしている）

この場合でいう、ペイ・オフとは「懲役期間の短さ」ということになります。

そして、2人合計した懲役期間が最も短いのは、「2人とも黙秘を続ける」という「合計6年」の選択となります。

もし2人が相談できて、お互いに信用できたら、この選択をしたかもしれません。

しかし2人は別々に収監されていて、相談することができない状態です。

もしできたとしても、相手の言うことを信用できるか、疑心暗鬼にもなるでしょう。

結局囚人Aはひとりで考えて戦略を決めるしかありません。

ナッシュ均衡が最適の選択とは限らない

この場合、囚人Aは、囚人Bが黙秘を続けた場合と、裏切った場合に分けて考えるのが普通です。

（囚人Bが黙秘を続けた場合、自分も黙秘を続ければ懲役3年、自分が裏切れば懲役1年、裏切った方がトクだ）

（囚人Bが裏切った場合、自分が黙秘を続ければ懲役10年、自分も裏切れば懲役6年、やはり、裏切った方がトクだ）

一方、同じ話を聞いている囚人Bもまったく同じことを考えます。

こうして2人は、合理的な選択の結果（ナッシュ均衡の結果）として両者とも「裏切り」という戦略を選択します。

しかし、実はこの選択は、客観的にみると最適の選択ではありません。

なぜなら、結果的に、2人の合計懲役年数が「12年」という、最も長い懲役期間を選択したことになるからです。

自分のペイ・オフが最も大きくなる選択をした結果、2人合わせて最もペイ・オフが小さくなるという皮肉なジレンマに陥ってしまったということです。

黙秘（3年）：黙秘（3年）　＝6年

黙秘（10年）：裏切り（1年）＝11年

裏切り（1年）：黙秘（10年）＝11年

裏切り（6年）：裏切り（6年）＝12年

大切なのは「全体観」

よく、視野を広げよう、視座を上げよう、と言われますが、これは何事にも当てはまりますね。

自分だけの、「目先の利益」ばかり追いかけてしまうと、結果的には損だったというお話はいくらでもあります。

また全体観を養うには、ノーペイン・ノーゲインの原則（痛みなくして得るものなし）に則ることが大切だと思います。周囲を大切にするひとは、周囲からも大切にされます。やはり大切なことは、「普遍の原理原則」ということですね。

本日もありがとうございました。