研究紹介

強化学習は、実験研究で見られる条件付き協力をよく説明する

キーワード:協力行動,強化学習,ネットワーク

囚人のジレンマ(協力行動が一見起こりにくい)的な状況のもとで、どうやって協力的な社会が達成されるのか?進化ゲームの研究は、協力行動を可能にする様々な仕組みを明らかにしてきた。多くの論文がある。

進化ゲームとは、ひとことで言えば「うまくやっている隣人のしていることを真似よう」という行動ルールのことである。これはもっともらしく思えるが、実は、実験室やインターネットを用いた近年の行動実験によると、進化ゲーム理論の予測はよくはずれる。例えば、進化ゲーム理論によれば、色々なネットワークの上にプレイヤーを置いてゲームを行わせると、ネットワーク構造がない場合よりも協力が起こりやすい。しかし、実験では大抵そうならない。また、実験では、隣人が前回多く協力するほど、自分は次回に多く協力し、「条件付き協力」と呼ばれる。しかし、進化ゲーム理論から条件付き協力を導出するのは難しい。さらには、実験では、隣人が前回協力した度合いのみならず、自分が前回協力したかどうかによって、あたかも気まぐれに、自分の次回の協力程度は変わる。

本研究では、進化ゲームではなく、強化学習という異なる行動ルールによって、上記のような実験結果を説明できることを示した [Ezaki et al. PLOS Comput Biol (2016)]。強化学習は、相手がうまくやっているかどうかは見ずに、自分の得た利益だけを気にする行動ルールである。得られた利益が多かったら、次回も続ける。少なかったら、次回は逆のことをしてみるのである。