タグ

AlphaGoに関するrin51のブックマーク (3)

  • 強化学習入門 Part3 - AlphaGoZeroでも重要な技術要素! モンテカルロ木探索の入門 - - Platinum Data Blog by BrainPad

    記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 強化学習入門の第3弾。「モンテカルロ木探索(Monte Carlo Tree Search, MCTS)」を解説するとともに、実際にAI同士で五目並べを戦わせてみました! こんにちは。アナリティクスサービスAI開発部の山崎です。 昨年も強化学習界隈は盛り上がりを見せていましたが、今なお、強化学習と言えば一番にAlphaGoを思い浮かべる人も多いのではないでしょうか。昨年、AlphaGoZeroという進化バージョンが発表され、一切のお手を用いずに従来バージョンより強いということが話題になりました。(それまでのAlphaGoは、人のお手をある程度学び、その後勝手に学んでいくものでした) さらに、AlphaGoZeroを一般化したアルゴリズムに修正したAlphaZeroが登場し、チェス

    強化学習入門 Part3 - AlphaGoZeroでも重要な技術要素! モンテカルロ木探索の入門 - - Platinum Data Blog by BrainPad
  • モンテカルロ木探索を Python で実装する

    はじめに AlphaZero 深層学習・強化学習・探索 人工知能プログラミング実践入門 以上のを参考にさせていただき、モンテカルロ木探索(MCTS)を Python で実装しました。 実装リポジトリは以下です。 今回は、 MCTS を書くときに気をつけたことなどを将来の自分に向けてまとめておこうと思います。 局面に対するお気持ち MiniMax や MCTS の実装やを読むときに以下のような悩みが発生すると思います。 二人でプレイしているけど、現在見ている state オブジェクトの turn プロパティって先手と後手のどっちを表しているんだ? そもそも MiniMax や MCTS ってどっちの視点で考えればいいんだ? 上記のような部分は、ではかなり省略されることが多いです。 視点の考え方 まず、どっちの視点で考えればよいかですが、stateの局面でこれから打つ側の視点に立って考え

    モンテカルロ木探索を Python で実装する
  • AlphaGo Zeroの論文の要約 : ブログ

    AlphaGo Zeroが自己学習のみで過去最強になったというニュースが出たのでその元論文を読み、要約をしました。 まず感想を述べると、過去数千年にわたって蓄積してきた知識をAIが数時間で発見することに対する気持ち良さがありました。人間などクソらえと思っておりますので、こう言うニュースはとてもスッキリします。そして人間の発見していない打ち筋の発見にも感動しました。これこそがAIの真髄だと信じています。人間が見えていないものをAIが見つける、僕もいつかそんなことをしてみたいと思いながら生きています。 あともう一つ重要だと思ったのは、とてもネットワーク構造および学習過程が簡素化されたことです。マシンパワーも過去に比べて非常に少なく済み、個人でもすぐに再現実験ができそうなくらいです。AIが強くなることと、構造および学習のsimplerが同時に達成できていることが質的だと思います。 一応、下記

    AlphaGo Zeroの論文の要約 : ブログ
  • 1