人間とAIと未来
思考AI について、いろんな人がいろんなことを言っている。
私なりの理解と未来予想について、ここらで1つ書き残しておこうと思う。
人とAI
太古の昔から肉体と精神の二元論なるものが語られてきたが、現代的な言葉で言い換えれば「意識」とか「魂」はソフトウェアで、肉体はハードウェアだ、と言えよう。
コンピュータの世界ではソフトウェアは電気信号に乗ってハードウェア間を自由に往来できるが、人間のソフトウェアは他の肉体へ飛び移ることはできないしコピーを作ることもできない。 (今のところは。)
脳とAI
脳は思考と記憶が一体化しているが、 AIは必ずしもそうではない。
現代の標準的なAIのアーキテクチャは思考と記憶を切り離している。AIのモデルは出荷前に膨大な情報をインプットするが、リリースした後は基本的に記憶はすべて llama.cpp やその外側のハーネスの力を借りることになっている。モデル自体は記憶を持たない、つまりステートレスであり、そのような設計のおかげで多数のコピーをクラウド上に立ち上げて世界中のユーザを同時に相手することができる。1つ数十GB 以上の容量を食うモデルが「記憶」を持ってしまったらそれは個々のユーザ専用になってしまう。こんなアーキテクチャではとてもではないが世界中の需要を今のような手頃な価格で満たすのは不可能だろう。
"her" という映画では世界中のユーザが「1つのAI」とやり取りをするという設定になっているが、この未来はこないだろう。世界中のユーザの相手をする単一のデータベースを作るのが難しいのと同じ話だ。 read はコピーでスケールするが、 write は容易にはスケールしない。これは本質的な問題であり、技術進歩で解決はしないだろう。
ローカルLLMだと話が違ってくる。モデル自体が個々のユーザ専用にチューニングされていく、というようなことも可能だ。思考の過程でモデル自体に改変が起きるような、「脳」に近い実装が可能になる。人間の感情は脳内の化学物質の影響と言われているが、思考の過程で何かがモデル内に「残存する」ようになれば、より人間的な振る舞いをするかもしれない。
ローカルLLMとクラウドAIとの性能差はこの先も埋まることはないだろうから、「高性能なクラウドAI」と「パーソナライズされたローカルAI」を組み合わせて使う、というのが未来の標準的なやり方になっていくのではないか、と私は予想している。
リモートMCPとUIエージェント
今、ブラウザから新幹線のチケットを買ったりホテルの予約を取ったりすることができるが、AIがここに入り込むことによって体験とアーキテクチャが大きく変わるだろう。
検索はすでにブラウザ上ではなくAIチャットで済ます人が増えている。同じように、ブラウザを開かずに手元のAI経由で色々するのが今後は当たり前になっていくかもしれない。
ホテル予約サイトは今のように html でユーザーインタフェイスを用意する必要はない。予約の検索機能、宿泊予約の送信、といったより具体的な操作のカタログを用意しておき、それをAIに渡せるようにする。この仕組みがまさにリモートMCPだ。AIはそのカタログを見て、ユーザの指定する日付、エリアで検索し、結果一覧をビジュアルにユーザに提示する。テキストだけじゃなく、写真入りの表のようにするのは別に難しいことではないし、その中の1つをタップでユーザに選択させることもできるだろう。サイトはUIを提供せず、AIがUIを動的に生成するわけだ。
[ユーザ] <=> [UIエージェント] <=> [Webサービス]
このような仕組みになれば、今のように html で Web アクセシビリティを頑張る必要もない。狭い画面も広い画面も、タッチパネルも音声入力も、UI エージェントが全部仲介してくれるのだ。 Web サービスはただ機能を提供するだけでよくなる。
脳接続インターフェイスと境界
すでにイーロン・マスクがやっているようだが、脳とコンピュータを直接電気的に接続する、という研究が進んでいる。
ところで「脳」から見れば人間の身体は「外部装置」に過ぎないわけだが、我々は自然と「身体」と「外界」を区別している。皮膚があるからか?そうとも言える。しかし義手や義足も慣れれば身体の一部になるというし、ラケットスポーツなどの名手はラケットを身体の一部のように感じるという。皮膚は必ずしも境界ではないのだ。
私が考えるに、通信速度の隔たりが境界となる。ラケットに伝わる振動はほぼ瞬時に脳に伝わるから、やがて身体の一部となる、そういうわけだ。
ここでちょっと視点を変えて、2つのAIが対話しながら仕事をする「マルチエージェント」について考えてみよう。複数のエージェントを何らかのチャネルで接続したとして、AIのモデル内の処理と比べればエージェント間の通信は通常とても遅い。これがAIとAIの境界であり、AIを1つ2つと数える基準となる。
今でも、密に連携する複数のエージェントセッションをひとまとめにして1つのタスクに当たらせる、のような手法は存在しているが、このやり方がさらに洗練されれば、もはや融合した1つのAIと見えるようになるかもしれない。
脳接続インターフェイスの話に戻る。脳からネットワークへ繋ぎ、ネットワーク越しにロボットアームを動かし、指先のセンサの情報がフィードバックされるとしよう。これが十分に速くなれば、もはやそのロボットアームは身体の一部のように感じられたとしても不思議はない。
ロボットを動かさなくても、脳から直接コンピュータのメモリに電気的にアクセスし、検索したりデータを取り出したりを瞬間的にできるようになったら、それは身体の一部となる。さすがに脳内の記憶域よりは遅いだろうが、鮮明であり、自然忘却もしない。
もしこれが可能になったら、「他の人間と記憶を共有する」というのも当然可能になる。
人間の集団の意思決定が難しいのは通信帯域の遅さが原因かもしれない。もし大勢の人間が電気的に情報をやり取りできるようになったら今よりずっとスムーズに集団の意思決定を可能にできるかもしれない。 (ネタバレになるのでタイトルは防ぐが、最近話題になったSFのラストシーンがちょうどそんな描写だった)
インターネットに多数の人間とAIが接続して高速に通信すると、もはや「個人」という境界は溶けてしまい、やがて星全体が1つの「思念体」になる。これを描いたSFはいくつかあって、 AVATAR がそうだったし、グノーシアもそうだ。
ローカルな超知能
AIの性能を突き詰めていくと光の速度でさえ足枷になるが、そこを越えていくと人間より遥かに知能の高い、言ってみれば500歳まで生きた長老のような知識と、若き天才数学者の並外れた思考力を兼ね揃えたようなAIが実現するだろうと私は考えている。
すでに mythos が国家安全保障の脅威となったが、超知能は国家が管理し、ライセンスを持った限られた人間だけがアクセスするようになるだろう。
この世界観は森博嗣の「Wシリーズ」に描かれている。森博嗣恐るべし。