AlphaGo Zeroの棋譜を鑑賞する、3日の学習で人類を超え21日でMastarを超えていく過程

ネットサーフィンをしていると

無視できない衝撃的なニュースが飛び込んできました。

囲碁ＡＩが「独学」で最強にグーグル、産業応用探る：日本経済新聞

開発が終了したと思われていた

史上最強囲碁ソフトであるAlphaGoが

今度は一切外部の棋譜を使わない自己対戦のみで従来のAlphagoの実力を超えてしまったのです。

わずか3日の出来事

記事から引用します

当初はランダムに石を並べていたが、自己対戦を繰り返すことで急速に上達。実験３日後には、2016年３月にトップ棋士に勝った際のアルファ碁に100戦全勝をあげた。

なお、3日後に100戦全勝と書いてあるのは翻訳ミスでしょう。

実際にグラフを見ると、セドル氏と対戦したAlphaGoに追いつくのが3日ですので。

初期のAlphaGoはこの強さに到達するまでに半年の学習を必要としていました。

それもGooleが総力を挙げて取り組んでの半年間です。

当時の学習に用いた計算資源が少なかったという事は決してありません。

学習方法が大幅に進歩したという事です。

21日の学習でMastarを超える

AlphaGo Zeroの成長はまだ続きます。

学習の21日めには世界最強の囲碁棋士を破ったAlphago Masterに棋力で追いつきます。

囲碁の神様ではないかと言われるほど強かったMasterも

最終的には100戦でAlphaGo Zeroに89-11という手合違いの実力差にまで引き離されてしまいます。

最近のAIの学習方法の進歩は加速している印象ですね。

従来不可能と言われていた分野でも次々にAIが参入しては追い越していきました。

最近ですと確率ゲームのポーカーでもAIが人類に勝利したニュースが新しいですね。

きゅうり農家の方でも機械学習を元にきゅうりの仕分けをする時代ですし

もう人類が優位な点は殆どないのかもしれません。

人間の知識は足枷でしかない

DeepMind社の記事を読んでみましょう

AlphaGo Zero: Learning from scratch | DeepMind

This technique is more powerful than previous versions of AlphaGo because it is no longer constrained by the limits of human knowledge.

この技術は、もはや人間の知識の限界に制約されていないため、旧バージョンのAlphaGoよりも強力です。

えーと、はい。

人類の棋譜とか上を目指す際には邪魔だとハッキリ言っていますね。

学習方法も変わったようです

It uses one neural network rather than two. Earlier versions of AlphaGo used a “policy network” to select the next move to play and a ”value network” to predict the winner of the game from each position. These are combined in AlphaGo Zero, allowing it to be trained and evaluated more efficiently.

2つではなく1つのニューラルネットワークを使用します。 AlphaGoの以前のバージョンでは、「ポリシーネットワーク」を使用して次のプレイを選択し、「バリューネットワーク」を使用して各ポジションからゲームの勝者を予測しました。これらはAlphaGo Zeroで結合され、より効率的に訓練され、評価されます。

従来のAlpha Goは2つの方式を同時並行して思考していましたが

今回のAlphaGo Zeroはそれらが統合され、より効率的な探索を実現してます。

そして衝撃的なのがこの文面

AlphaGo Zero does not use “rollouts” - fast, random games used by other Go programs to predict which player will win from the current board position. Instead, it relies on its high quality neural networks to evaluate positions.

AlphaGo Zeroは、他のGoプログラムが現在のボードポジションから勝つプレイヤーを予測するために使用される高速のランダムゲームである「ロールアウト」を使用しません。代わりに、位置を評価するために高品質のニューラルネットワークに依存しています。

ロールアウト使わないんです！！

終局まで実際に打ってみて勝率を算出するのではく

AlphaGo Zeroはその局面情報から次の最善手を思考します。