googleが最強の将棋ソフトAlphaZeroを開発!!わずか12時間の学習で既存の最強ソフトを上回る
電王戦が終了して
将棋ソフト界隈の動きも一段落したところですが
とんでもないニュースが飛び込んできました!!!
googleが将棋ソフトに参戦
なんとAlphaGoで有名なgoogleが
将棋ソフトもこっそり開発していたのです!!
[1712.01815] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
あっという間にelmoのレーティングを超えてしまう図
最終的にはelmoに9割勝てるようになる図
ちなみに現在の最強ソフトであるapery-qhapaqは
elmoに対して勝率81%ですので
この勝率9割というのが偶然でなければ
現状の最強ソフトよりも強いという事になります。
対最強チェスソフトには無敗
strongest skill level using 64 threads and a hash size of 1GB. AlphaZero convincingly defeated
all opponents, losing zero games to Stockfish and eight games to Elmo
64スレッドでハッシュ1GBのelmo及びStockfish(チェスソフト)と100局対戦したようです。
elmoは8勝、Stockfishは0勝。
・・・むしろ将棋代表のelmoは頑張ってる方という感想。
思考時間は1手1分
Each program was given 1 minute
of thinking time per move
64スレッドで1手1分ですから相当深く読ませての対戦ですね。
おそらく電王トーナメントの棋譜よりも濃密でしょう。
探索量は1/8000未満でこの強さ
. AlphaZero searches just
80 thousand positions per second in chess and 40 thousand in shogi, compared to 70 million
for Stockfish and 35 million for Elmo
1秒辺りの探索局面数は
elmoが35,000,000局面なのに対して
AlphaZeroは僅かに40,000局面の探索となっています。
探索の量ではなく質の高さで強さを発揮している事が分かります。
12時間の学習で超える
上記の強さは12時間の学習によって到達したようです。
強さ以外に何が凄いの?
Stockfishもelmoも
探索部分は手作業での非常に細かいチューニングが施されています。
コンピュータソフトとは言っても
熟練プログラマの職人芸のような部分が大きかったのです。
計算力さえあればいい
今回のAlphaZeroの場合は
AlphaZeroの制作そのものは高度な知識が必要だったと思われますが
一度AlphaZeroが完成した後はチェスや将棋への最適化を行わなくても
ルールを教えた後は延々と学習を回していくだけで
勝手に職人芸的なチューニングをされた既存ソフトよりも強くなりました。
AlphaZero, to the games of chess and shogi as well as Go, without any additional domain
knowledge except the rules of the game, demonstrating that a general-purpose reinforcement
learning algorithm can achieve, tabula rasa, superhuman performance across many challenging
domains.
つまりAlphaZeroさえあれば
ゲーム毎に細かいチューニングをする
熟練プログラマの手を借りる必要はないのです。
google一強時代へ
今回のAlphaZeroの登場によって
囲碁将棋チェスと
主要ボードゲーム全てで
google製のソフトが最強となりました。
しかも学習時間はわずかに12時間ですからね。
本腰入れたら更にぶち抜かれるのは目に見えています。
果たして最新の将棋ソフトはこの勝率に追いつけるのか・・・
次回のコンピュータ将棋選手権も注目です。