私たちはAIによって世の中がどのように変わるのかは予測すらできないのだが、これは私には見覚えがある光景だ。1990年代後半にインターネットが登場して世の中が激変しようとしていたときと同じだ。今、同じことが今の人工知能で起こっている。
プロフィール:鈴木傾城(すずき けいせい)
作家、アルファブロガー。著書は『ボトム・オブ・ジャパン』など多数。政治・経済分野を取りあげたブログ「ダークネス」、アジアの闇をテーマにしたブログ「ブラックアジア」を運営、2019、2020、2022年、マネーボイス賞1位。 連絡先 : bllackz@gmail.com
GoogleがリリースしたGeminiの衝撃
2023年はChatGPTが世界を席巻した時代となった。MicrosoftがChatGPTを保有するOpenAI社と提携していち早く自社製品にAIを組み込んで、GoogleやMetaやAppleやAmazonなどを一気に追い抜いて再びハイテクの最前線に戻ってきた感もある。
しかし2023年12月6日、ChatGPTで「AI(人工知能)開発に遅れを取った」と言われていたGoogleが次世代のAIモデルである「Gemini(ジェミナイ)」をリリースして一気に巻き返しにきた。
これは、チャットGPT4を超える「破壊的進歩をしたAI」とも評価される。チャットGPTは主にテキストを処理するAIだが、このGeminiはマルチモーダルと言って、テキストだけでなく音声・動画・画像など、さまざまな種類のデータを処理できるように進化する。
このマルチモーダルが実現すると、AIの可能性は一気に広がる。Googleの発表したデモ動画を見ると、人間が絵を描いて「これは何に見える?」と問いかけると、AIは絵の途中でいくつもの所感を述べる。
やがて、それが鳥の絵だと認識すると「鳥」と答え、風景を書くと「それはアヒルに見える」と答えるのである。
そして、アヒルを青く塗り始めるとAIはリアルタイムで「青で塗るなんてアヒルにはあまり見られない色ですね」と言い出す。このようにカメラで手元を映しながら音声でAIに伝えると、AIは音声に反応して情報を答える。
これが「マルチモーダル」の意味である。AIは画像と音声の両方を処理して結果をリアルタイムで出力するのだ。
このデモは動画が処理されているように見えるのだが、実際にはまだ動画は処理できないようだ。ただ、最終的にはそのように動くようになるよう設計されており、いずれはそれが実現するのだろう。これがGoogleのリリースした「Gemini(ジェミナイ)」だった。
【金融・経済・投資】鈴木傾城が発行する「ダークネス・メルマガ編」はこちら(初月無料)
Geminiは世界最強の知能を持った存在になった?
Googleが公開したGeminiの動画があまりにも想像を絶する賢さなので、巷では「あまりにも盛り過ぎなのではないか?」「本当はそこまで賢くないのではないか?」という疑念まで出てきている。
実際問題として、Googleが出した動画はGeminiの能力を誇張した部分がいくつもあってすぐに炎上した。2024年にリリースされると、さらに検証が進んでいくつもの欠陥が指摘されて叩かれることになるだろう。
これはChatGPTが凄まじい能力を持ちながらも、さらりと「嘘」や「幻想」を真実のように答える欠陥を持っているのと同じである。Geminiが組み込まれたBardも、情報が古いとかコードを間違うとかいくつもの問題点が指摘されている。
ただ、AIの進歩の凄まじい早さを考えると、Geminiの賢さは恐らくすぐに人間の想像を超えていくだろう。
Googleの発表では、「Gemini Ultra」はMMLU(機械学習モデル、特に自然言語処理モデルの理解力と推論能力を総合的に評価するために設計されたベンチマーク)のスコアが90.0%となって人間を超えたと報告している。
GPT-4のMMLUスコアは87.3%なので、GeminiはGPT-4を超えて、人間の専門家をも超えて、世界最強の知能を持った存在になったということでもある。
ベンチマークで良くてもリアルな使用で使いものにならない場合もあるので、それも単純に鵜呑みにできるものではないが、人工知能がマルチモーダルの機能を手に入れたら、たしかにGoogleが発表したGeminiのようなことは可能になるのである。
これまで人工知能はテキストだけしか処理できないようになっていたが、むしろそのほうが人間的に見ると不自然だ。AIが「対象を映されている動画を把握して、音声で問いかけられたら動画をリアルタイムで把握して答える」のが人間らしい。
いずれ、それは近いうちに実現されるのだろう。
【ここでしか読めない!】『鈴木傾城の「ダークネス」メルマガ編』のバックナンバーの購入はこちらから。
専門家を超えるような知識と情報量と課題解決能力
GoogleのGeminiにしろ、OpenAIのGPT-4にしろ、これから新たに生まれてくるかもしれない人工知能にしろ、その進化は強烈なまでに早い。最終的にこれらの人工知能は把握した情報を論理的に処理できるようになる。
たとえば、Geminiのデモでは、世界地図を見ると「これは世界地図だ」と答えるだけでなく「世界地図を使ってゲームを作ってくれ」と言われたら、即座に「国当てゲーム」を作ることができることが示唆されている。
人工知能は、まだ初期段階とは言え数学や論理的思考もできるようになっているということでもある。今後、人工知能はこれらの論理的思考を元にして、特定の条件下では専門家を超えるような知識と情報量と課題解決能力を見せるようになっていく。
かつてGoogleはチェスの王者と人工知能を勝負させて、プロを木っ端微塵に叩きのめしたことがあったが、もう人工知能は「限られた条件」の中では、とっくの前に人間を知性で叩きのめす能力を手に入れているのだ。
進化は止まらないので、今は人工知能でできないことも、あっという間にできるようになっていくのではないか。
Geminiは来年にはAndroidに組み込まれていくようになるので、スマートフォンの世界でも再び何らかのパラダイムシフトが起こる可能性もある。ただし、スマートフォンに組み込まれるのは「ナノ」である。
Geminiは「ナノ」「プロ」「ウルトラ」の3つのレベルで区分けされていて、そのうちGeminiの潜在能力を最大限に発揮するのは「ウルトラ」なのだが、このウルトラが一般的に使われるようになったとき、世界は想像を絶するほどの変化を遂げるだろう。
ダークネスの電子書籍版!『邪悪な世界の落とし穴: 無防備に生きていると社会が仕掛けたワナに落ちる=鈴木傾城』
インターネット以来の最大のパラダイムシフトになる
すでにAIは架空の人物をリアルに生成し、それを動画として動かすことも可能になっているので、人間のモデルを人工知能の架空モデルに置き換えるような動きも出てきている。
さらに転職支援サイトなどにAIが導入されて、いくつかの質問に答えるとAIが自分自身の気づかない強みも含めて職務履歴書を自動的に作成するような機能を提供していたりする。
企業サイトではチャット機能にAIを取り入れて、定型的な質問にはAIが答えているし、ショッピングサイトではAIが商品情報からSNSの投稿文を自動生成するようなこともされており、実際に機能している。
新聞社でもスポーツの結果や株式市場の結果などのルーチン記事はAIが自動的に作成しているし、コールセンターもAIが音声で答えたり、人間のスタッフに素早く情報を与えて上司への報告や指示を仰ぐ時間を大幅に削減させたりすることで使われるようになっている。
今後は自動運転や創薬などの専門分野でもGeminiやGPT-4などの強力なAIがどんどん組み込まれていって、もう誰もついていけないほど進化を遂げていくようになる。
私たちはAIによって世の中がどのように変わるのかは予測すらできないのだが、これは私には見覚えがある光景だ。1990年代後半にインターネットが登場して世の中が激変しようとしていたときと同じだ。
あのときもインターネットの進化と社会変革を「オタクのおもちゃ」とか「ただコンピュータがつながっただけ」と嘲笑する人がいたのだが、結果的にインターネットは全世界を一変させた。
今、同じことが今の人工知能で起こっている。人工知能はもうとっくの前に人間を知性で叩きのめす能力を手に入れているのだから、これが世界にパラダイムシフトを起こさないわけがない。
1990年代後半にインターネットが登場してから私は期せずして軸足をインターネットに移していたのだが、今後はどのような形になるのかは別にして、関心とライフスタイルを全面的にAIに移していきたいと思っている。これは良くも悪くもインターネット以来の最大のパラダイムシフトになるはずだ。