みくにまるのブログ

意識低い系ブロガー、みくにまるが送るブログ。

googleが最強の将棋ソフトAlphaZeroを開発!!わずか12時間の学習で既存の最強ソフトを上回る

電王戦が終了して

将棋ソフト界隈の動きも一段落したところですが

とんでもないニュースが飛び込んできました!!!

googleが将棋ソフトに参戦

なんとAlphaGoで有名なgoogleが

将棋ソフトもこっそり開発していたのです!!

[1712.01815] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

f:id:mikunimaru:20180530010328g:plain

 

あっという間にelmoのレーティングを超えてしまう図

 

 

f:id:mikunimaru:20171206134656j:plain

 最終的にはelmoに9割勝てるようになる図

 

ちなみに現在の最強ソフトであるapery-qhapaqは

elmoに対して勝率81%ですので

この勝率9割というのが偶然でなければ

現状の最強ソフトよりも強いという事になります。

www.mikunimaru.com

 

対最強チェスソフトには無敗

 strongest skill level using 64 threads and a hash size of 1GB. AlphaZero convincingly defeated
all opponents, losing zero games to Stockfish and eight games to Elmo

64スレッドでハッシュ1GBのelmo及びStockfish(チェスソフト)と100局対戦したようです。 

elmoは8勝、Stockfishは0勝。

・・・むしろ将棋代表のelmoは頑張ってる方という感想。

思考時間は1手1分

Each program was given 1 minute
of thinking time per move

64スレッドで1手1分ですから相当深く読ませての対戦ですね。

おそらく電王トーナメントの棋譜よりも濃密でしょう。

探索量は1/8000未満でこの強さ

 . AlphaZero searches just
80 thousand positions per second in chess and 40 thousand in shogi, compared to 70 million
for Stockfish and 35 million for Elmo

1秒辺りの探索局面数は

elmoが35,000,000局面なのに対して

AlphaZeroは僅かに40,000局面の探索となっています。

探索の量ではなく質の高さで強さを発揮している事が分かります。

12時間の学習で超える

f:id:mikunimaru:20171206141820j:plain

上記の強さは12時間の学習によって到達したようです。

強さ以外に何が凄いの?

Stockfishもelmoも

探索部分は手作業での非常に細かいチューニングが施されています。

コンピュータソフトとは言っても

熟練プログラマの職人芸のような部分が大きかったのです。

計算力さえあればいい

今回のAlphaZeroの場合は

AlphaZeroの制作そのものは高度な知識が必要だったと思われますが

一度AlphaZeroが完成した後はチェスや将棋への最適化を行わなくても

ルールを教えた後は延々と学習を回していくだけで

勝手に職人芸的なチューニングをされた既存ソフトよりも強くなりました。

AlphaZero, to the games of chess and shogi as well as Go, without any additional domain
knowledge except the rules of the game, demonstrating that a general-purpose reinforcement
learning algorithm can achieve, tabula rasa, superhuman performance across many challenging
domains.

つまりAlphaZeroさえあれば

ゲーム毎に細かいチューニングをする

熟練プログラマの手を借りる必要はないのです。

google一強時代へ

今回のAlphaZeroの登場によって

囲碁将棋チェスと

主要ボードゲーム全てで

google製のソフトが最強となりました。

 

しかも学習時間はわずかに12時間ですからね。

本腰入れたら更にぶち抜かれるのは目に見えています。

果たして最新の将棋ソフトはこの勝率に追いつけるのか・・・

次回のコンピュータ将棋選手権も注目です。