科学・技術と自然環境について、教育を考える。
  • 07«
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • »09
プロ棋士に勝てる囲碁ソフトがついに出現
プロ棋士に勝てる囲碁ソフトがついに出現

囲碁の世界でもついにコンピューターはプロ棋士に勝った。グーグルの囲碁ソフトAlphaGOが中国出身でヨーロッパのプロ棋士に5戦5勝で完勝したそうである。

 コンピューターの愚直さと容量の限界ゆえに、当分の間は囲碁では人間に勝つことはできないと私は侮っていたが、ところが、ディープラーニング(深層学習)というソフトができて、学習能力のかなり高いソフトができたと3~4年前に聞いて考えが変わった。  深層学習によって、判断能力を養うことができるという。たとえば、人間の世話をするロボットは、人との交流を重ねることでその人の癖や性格を読み取り、状況に応じて行動(反応)するところまで進歩した。それを囲碁ソフトに用いたら、プロ棋士に勝てるソフトがそう遠くないうちに現れるだろうと予想していたが、これほど早く人間が追い越されそうになろうとは思いもよらなかった。私の予想よりも2~3年早かった。近くそのコンピューターAlphaGOと世界のトップ棋士李セドルとが対局するそうだ。多分AlphaGOが勝つだろう。
 
AlphaGOはこれまでのモンテカルロ法のソフトの上に深層学習ソフトを重ねたものだそうである。それはモンテカルロ法を用いて打った着手を分析して、学習ソフトによってその結果から学び、次に活かす。こうして、自らのソフトを改良するという方法であろう。それゆえ、モンテカルロ法がベースである。問題はその学習法の中身である。
 このコンピューターにトップのプロ棋士たちの棋譜から3000万にも及ぶ着手をAlphaGoのニューラルネットワークに与え、その後強化学習の手法を用いて、過去の対局データから、どのような手が最善手となる可能性が高いのかを学ばせる。このアプローチのおかげで、着手について評価すべき探索空間を大幅に削減でき(思考木の枝切りで)、現実的な時間内に次の着手を見つけ出せるようになったそうである。

モンテカルロ法は「カンニング法」
 以前の囲碁ソフトの開発は、布石や定石、攻め合い法などを記憶させた上で、囲碁理論を取り入れた評価関数(一手の価値を決める関数)を求めるという正攻法であった。しかし、うまい評価関数の開発は大変難しく停滞していた。そこで逆手を取ってモンテカルロ法が開発されてから、ゲームソフトは飛躍的に強くなった。囲碁ソフトも当然飛躍した。モンテカルロ法とは、ゲーム終局までの着手をランダムに並べ、すべてのパターンを較べてみて、その中の勝ちパターンを選ぶ。その着手系列を逆に辿ってその局面まで行き、着手を決める方法である。この方法は結果(答え)を見てもとに遡るのであるから、一種のカンニング法であり、ゲーム理論は原理的には一切必要としない。だから、手数が短く最後まで並べ切れるゲームなら、モンテカルロ法は負けなしである。だが、囲碁の場合は、手数が長く着手の変化は莫大であるから、終局まで打つには容量が不足し、最後まで並べ切ることは実際には不可能である。そこで無駄な着手の変化を切り落とす(思考の枝切り)ために「ミニマックス法」(詳細は省略)が開発された。
 ミニマックス法にはある程度の囲碁理論が要るはずであが、それでもカンニング的モンテカルロ法は正攻法でないから、囲碁理論の進歩にはほとんど寄与せず、強さにも限界があると思っていた。

 この深層学習法は、最善と思われるモデル(プロ棋士の棋譜)を多数与えておいて、その中から最善手に至る方法を学習させるというものであるから、これも一種のカンニング法である。すなわち、現在の囲碁界での最善のパターン(答え)に至る道筋に関するモンテカルロ法といえるだろう。それゆえ、この種のソフトは限られた目的にのみ適用可能であり、応用範囲は限られた狭い学習である。答えの分かっていない課題へのアプローチ、適応範囲の広い創造的学習とは異質である。
望ましい学習は、ミニマックス法での余分な枝切り法と着手の段階数を如何に減らすかを、自らの創造で改良する学習である。その方法が格段に進歩すれば、総合的判断力が優れたものになるので、そのプログラミングは着手を決める一種の「評価関数」となり得るだろう。それが「評価関数」となりうるなら、囲碁理論の進化に寄与しうると思う。

このソフトの問題点
囲碁・将棋などのゲームソフトの「学習」は、主として多くの情報を集めて新たな法則を見いだす帰納法による学習である。それは論理的証明に繋がる学習とは異質のものである。囲碁・将棋の学習には帰納法的学習が必要であり、論理的証明(演繹法)の能力は今の段階では要らない。ちなみに、演繹的証明法は帰納法的証明よりも遙かに難しいから、それはコンピューターには当分できそうにないと思う。

 今の深層学習法(ディープラーニング)は結果(学習目的)の分かっている問題について、反復経験により帰納的に学習するものである。つまり、技術学習には適しているが、問題を自ら見出し探究する学習には無力である。それは、いわば技術と科学の違いに対応するだろう。

  ゲームや単一労働などの個別的能力ではコンピューターは人間を超えることは可能だが、すべての点で、あるいは総合的な能力では容易に人間を超えられない。特定分野のことを学習するプログラミングを次々に追加することで何処まで進歩しうるか、予測はまだできない。論証の能力や創造性は、帰納的法則の学習で得られる能力とは次元の異なるものである。人間の意識と思考能力は複雑多岐、かつ高度であり、そのメカニズムは未知な分野が多い。 

(もう少し詳しい考察は、囲碁誌『囲碁梁山泊』の次号に掲載されるので、ここではそのエッセンスだけに止めた。)

スポンサーサイト
この記事へのコメント

管理者にだけ表示を許可する
 
Copyright © 2005 自然と科学. all rights reserved.