グロッキングという謎:AIはなぜある瞬間から"わかる"ようになるのか?
──よくAIは「ただ統計的に学習した表現にもとづき、次の言葉を確率的に選んでいるだけだ」と言われますが、使っていると、まるで意思や創造性があるように感じることもあります。またアイデアやひらめきが「降りてくる」ような気がすることもあります。
中西 それについては2つの考え方がありますね。1つは、人間は結構知識を持っていろいろ考えていると思いきや、実は人間の思いつきも「類似度」なんじゃないかという話です。いっぱい入力をしている人、いっぱい本を読んでいる人、いっぱい美術を鑑賞している人、いっぱい音楽を聞いている人は、やっぱり引き出しがあっていろんなものを作れる。たとえばミュージシャンなら、たくさん音楽を聞いているから引き出しがあっていろんな曲が書けるということで、一つの見方として、類似性の組み合わせと捉えることもできます。類似度を求めてきて、いっぱいの引き出しからちょっとずつ作っているに過ぎないという見方があります。
もう1つは、これはまだわかっていないところなんですけど、この本の7章に書いているGrokking(グロッキング)ですね。これは、一言でいうとAIがある瞬間突然に"わかる"ようになるという現象です。もちろん学習して類似度を求めるという考え方で結構説明がつくんですが、説明がつかないところがあるんです。
──「説明がつかないところ」というのは、どういうことでしょうか。
中西 今までの統計の常識では、学習をしすぎると問題が起きるとされてきました。式がその学習データに沿いすぎてしまって、新しいデータを入れたときにうまく合わないということが起こりうるんです。これを「過学習」と呼びます。
たとえば、いくつかのデータを使って予測モデルを作るとします。本来、そのデータの背後にあるシンプルなルール——直線1本で表せるような関係——をつかめれば、新しいデータにも正確に対応できます。ところが学習を続けすぎると、モデルが既存のデータの細かい誤差や揺れにまで合わせようとして、必要以上に複雑な形になってしまう。その結果、新しいデータを入れたときに誤差が大きくなり、予測精度がかえって下がってしまうんです。だから従来は、学習を適切なタイミングで止めることが鉄則とされてきました。
ところが、学習を続けていると、過学習気味に見える期間のあとで、あるタイミングから未知データでの性能(汎化)が急に改善することがある──そうした現象がOpenAIの研究者によって報告されました。AIがある時点から問題のルールやコツをつかんでしまう。
──なんだか不思議なようなワクワクする話ですね。
中西 たとえば、ChatGPTの場合で考えてください。言語学習をしているから言語が素晴らしいのはわかる。大規模ですから。ただ、言語パターン学習の延長として理解できる部分は多い一方で、直感だけでは説明しきれない振る舞いも観測される、というのが私の感触です。たとえば、数式も言語として入れているかもしれないんですけど、それだけでは「1足す1が2」とは正確に出ないはずなんです。しかし、もうちょっと詳しい数学でもうまく解ける例があると報告がありますし、数学に関して興味深い結果が報告された例もあります。
言語のパターンを学習しているだけなのに、数学的な推論能力まで見せることがある。これは単純な当てはめ以上が起こっていると見え、Grokkingという現象が関係している可能性もある、と私は見ています。
Grokkingについては、「こういう条件で起こるらしい」という研究は進んでいますが、なぜそうなるかはまだ完全に解明されていません。私は、コンピュータの世界が自然科学のように「観察・計測」の対象になりつつあると考えています。
これまでは人間が作り、人間の解釈だけで理解できる世界だと思われてきました。しかし大規模なデータと莫大な計算量を用いることで、計算結果がまるで自然現象のように振る舞う領域が現れてきたと捉えています。Grokkingには、従来の延長線だけでは説明しきれない謎も残っています。今やAI研究は「作る」だけでなく、観察や計測を通じて理解を深めるという、自然科学に近い段階に入ったのではないでしょうか。
