<AI時代の人間の道とは?>
これまで人間固有の特徴だと考えられていた言語と思考能力を機械が持つようになりました。生成AIの高波が近づく世界において、個人と社会はどのように対応すべきなのでしょうか。
ヘレン・ケラー(1880~1968)は、1歳のときに激しい猩紅熱(しょうこうねつ)と脳膜炎によって聴力と視力を完全に失った複合障害者だ。先天的な聴覚障害者は、発声器官に問題がなくても、ほとんどの人は話すことができない。しかし、ヘレン・ケラーは聴覚障害者だったが演説家としても活動した。音をまったく聞くことのできないヘレン・ケラーは、どのようにして話をして、世界各地で大衆に向けて演説できたのだろうか。ヘレン・ケラーがみせた優れた認知・学習能力は、人工知能(AI)の未来に関して重要な事実を教えてくれる。様々な形態の情報を受けいれ総合的に処理する人間の認知の驚くべき能力だ。
■サム・アルトマンの解雇と「AI研究6カ月中断」要求の背景
2022年11月にOpenAIの生成AI「ChatGPT」が公開されてから、AIが示す性能テストは衝撃の連続だ。すでに米国の名門大学の入学試験、弁護士試験、医師免許試験などを合格し、専門的な翻訳家・小説家・画家・作曲家レベルの成果物を瞬く間に作りだしている。
生成AIが単に専門家レベルの成果物を作りだすレベルを越え、人間の知能と判断力を越えるという推測が出てくると、遠からず「強いAI」が人間を脅かすという懸念も広がっている。2023年3月のヨシュア・ベンジオ氏などの著名なAI研究者による「AI研究の6カ月間中断」を求める公開書簡と、11月にOpenAIのサム・アルトマン最高経営責任者(CEO)が取締役会で解任された後に復帰することになった背景にも、「人間が統制できない強いAI」に対する恐れがある。
懸念が生じているのは、人間のように多様な能力を持った「汎用AI(Aritificial General Intelligence、AGI)」のためだ。これまでのAIは「アルファ碁」のように、いかに人間より優れた能力をみせたとしても、碁盤という領域にその能力が限定されていた。碁盤の外側ではアルファ碁は無力だった。作曲のAIも絵を描くAIも、特定の領域においてのみ驚異的であるにすぎない。
特定分野に特化したAI(narrow AI)と汎用AIは大きく異なる。汎用AIは既存の機械知能とは次元の違う、人間に似た知能であるためだ。人間の知能は、アルファ碁のような機械知能とは違い、様々な形態の情報を統合的に認知して活用できるのが特徴だ。
人間の認知の主な特長は「マルチモーダル(MultiModal:多様なモード)」だ。人間は何かを認知して判断するとき、視覚・聴覚・触覚・嗅覚などの様々な感覚を動員して総合的に理解して推論する。しかし、これまでのAIは、アルファ碁のように、ほぼ特定の形態(mode)の情報、すなわち単一な類型のデータを中心に認識して処理して出力していた。
■人間の認知の特徴「マルチモーダル」とは
ところが、2023年3月にOpenAIが公開したGPT4モデルでは、マルチモーダル機能が部分的に登場した。特定の類型のデータだけでなく、テキスト・イメージ・オーディオ・ビデオなどの異質なデータを同時に処理し、それらを総合して推論する能力を公開したのだ。これをみた全世界のAI専門家たちが「6カ月のAI研究の中断」を呼び掛けたが、その背景にはAIのマルチモーダル機能がある。
初歩的な段階だが、AIのマルチモーダル機能は急速に向上している。OpenAIは2023年9月、ChatGPTのアップグレード有料サービスである「ChatGPTプラス」「ChatGPTエンタープライズ」を発売し、マルチモーダル機能を搭載した。グーグルがChatGPTの対抗馬として2023年12月に発売した生成AIのGeminiは、マルチモーダル機能でChatGPTを凌駕するという点を強調している。フェイスブックのメタは、マルチモーダルのイメージ生成AIの「カメレオン(CM3leon)」を出し、2023年12月にはマルチモーダルのデータセット(Ego-Exo4D)を公開した。アマゾンも2023年11月に開発者カンファレンスで、既存のイメージ生成AIのTitanにマルチモーダル機能を搭載したモデルを公開し、競争に飛び込んだ。
現時点で公開されたり発売されているビッグ・テック企業のマルチモーダル機能は、テキストやイメージ、オーディオの情報を認識して他の形態の情報に処理する水準に留まっている。テキストやイメージの情報を認識してオーディオに出力するような初歩的な方式だ。しかし、後退と停滞なしに迅速に発展する機械学習の属性上、AIのマルチモーダル機能の発達は時間の問題だ。ならば、AIのマルチモーダル機能が人間に似た水準にまで発達し、人類の存在を脅かすのではないかという問題を避けることができなくなる。
■AIがマルチモーダルを備えれば「モラベックのパラドックス」を乗り越えられるか
米国のロボット工学者であるハンス・モラベックは、1970年代に「(人間にとって)難しいことは(ロボットにとっては)容易で、(ロボットにとって)容易なことは(人間にとって)難しい」と述べた。コンピューターは、数学的計算や論理解析などは瞬時にやり遂げることができるが、言語理解、身体的バランス、運動能力などの人間の日常的な行為を遂行することはかなり難しい。「モラベックのパラドックス」だ。
モラベックは、このパラドックスは人間の進化の歴史とその機能の逆設計の難易度に基づくと説明する。人類にとって、言語の使用や歩行のような能力は、長期にわたる進化を経て生じたのに対し、読み・書き・演算・論理の能力は比較的最近に習得した能力だ。機械知能は「逆設計」を通じて人間の能力を実現しようとしているが、古い機能であるほど実現が難しいということだ。機械は人々が苦手とする数学計算やチェス・囲碁・翻訳などの業務は容易に解決するが、三歳児のように対話したり走ったり他人の表情を読んで反応することは、ほとんど不可能だ。
三歳くらいになれば、適切に様々な形態の情報を統合・認知するマルチモーダル知能を活用する。文章を読めないだけであり、視覚・聴覚・触覚・嗅覚・味覚などをすべて動員して状況を理解し、対応することができる。私たちは、取引契約をするときには、相手の話と論理がいかに流暢であっても、目つきと表情を参考にして判断する。映画『ソウルの春』を観るときは、心拍数が上がる状況も映画鑑賞に反映される。人間は、言葉で表現したり認知できないものであっても、五感を動員して総合的に理解して処理するマルチモーダルの達人だ。
ハンガリー出身の哲学者であり経済学者であるマイケル・ポランニーは、「人間は言葉で表せる以上のことをはるかに多く知っている」と人間の認知の特徴を説明した。ポランニーは、人間は自ら知っていると認知したり説明できないが知っている「暗黙知」を持っていると述べた。「ポランニーのパラドックス」と呼ばれる。機械は明示的に特定の形態のデータを通じて認知・学習するが、人間はすべての感覚を動員して情報を受けいれ・処理する統合的な認知能力を持っている。
何の音も聞くことができないヘレン・ケラーが、話す方法を学び演説家として活動した理由も、彼女の優れた「マルチモーダル」学習能力のおかげだ。彼女は触覚を利用してサリバン先生が話すときに振動する首の喉仏と唇の動きを感じて、自分も似た声を出すためにどのように発声の筋肉を動かさなければならないのかを努力して知ろうとした結果、話す方法を習うことができるようになった。YouTubeには、ヘレン・ケラーがそうした手法で話す方法を習う場面や世界各地で演説する動画が多数投稿されている。
まったく音を聞くことができないヘレン・ケラーが、触覚を利用して情報を収集して頭の中で理解した後に発声器官を動かして文章で表現を達成したことは、障害を乗り越えた偉大な人間の象徴でもあるが、人間のようにマルチモーダル機能を備えようとするAIの開発においても、主要な目標になっている。