アレクシス・コヌーは映画「Her」について考え込んでいます。過去数年間、彼はその映画の架空の音声技術であるサマンサを実現しようと取り組んできました。
ChatGPTのAdvanced Voice Modeは、コヌーがMetaで同様の仕事をした後にOpenAIで立ち上げたプロジェクトで、彼は何とかそれを実現しました。このAIシステムは、音声をネイティブで処理し、人間と同様に< a href="https://techcrunch.com/2024/08/17/openais-new-voice-mode-let-me-talk-with-my-phone-not-to-it/">返答します。
現在、彼は新しいスタートアップ、WaveForms AIを立ち上げ、より優れたものを構築しようとしています。
コヌーは、その映画で描かれたディストピアを避ける方法について多くの時間を費やしているとTechCrunchのインタビューで語りました。「Her」は、人々が他の人間ではなくAIシステムと親密な関係を築く世界を描いたSF映画でした。
「その映画はディストピアですよね? 私たちが望む未来ではありません。私たちはその技術をもたらし、善をもたらしたいのです。その映画の会社が行うこととは真逆のことをしたいと思っています」とコヌーは述べました。
テクノロジーを構築することは、それに伴うディストピアを排除することのようにも思えます。しかし、コヌーはそれを建設し、そして新しいAIスタートアップが人々が「AGIを感じる」のを手助けすると確信しています。
月曜日に、コヌーはWaveForms AIを立ち上げ、新しい音声LLM企業として独自の基盤モデルを訓練しています。同社は、2025年にOpenAIやGoogleの提供と競合するAIオーディオ製品をリリースすることを目指しており、アンドリーセン・ホロウィッツが主導する4,000万ドルのシード資金調達を発表しました。
AIは人間の生活のあらゆる側面の一部であるべきだと以前に述べたマーク・アンドリーセンが、コヌーの取り組みに個人的な関心を持っているとコヌーは語っています。
コヌーの「Her」への執着心は、OpenAIをある時点でトラブルに巻き込んだ可能性があります。スカーレット・ヨハンソンは今年初めにサム・オルトマンのスタートアップに法的脅しを送りました。
しかし、映画がコヌーに与えた影響は否定できません。「Her」は2013年に公開されたとき、明らかにSFでした。当時、AppleのSiriはかなり新しく、非常に限定的でした。しかし、今日、その技術は驚くほど手の届くところにあります。
キャラクター.AIなどのAI仲間プラットフォームは、そのチャットボットと話したいという数百万人のユーザーに毎週到達しています。このセクターは、偶に悲劇的で不安定な結果をもたらすこともありながら、生成的AIの人気の用途として台頭しています。
WaveForms AIのCEOはAI仲間プレイスペースを慎重に見ており、それは彼の新しい会社の中核ではありません。コヌーは、人々がWaveFormsの製品を新しい方法で使用するだろうと考えており、たとえば何かを学ぶために車でAIと20分間話すようなことも含まれます。しかし、その会社をもっと「水平な」ものにしたいと述べています。
将来、生成的AIと対話することが、あらゆる種類のテクノロジーとのインタラクションの一般的な方法になると信じています。これには車と、コンピュータとの対話も含まれるかもしれません。WaveFormsは、すべてを実現する「情緒的にインテリジェント」AIを供給することを目指しています。
「私は人間対AIの相互作用が人間同士の対話を置き換える未来を信じていません。どちらかというと、補完的な関係になるでしょう」とコヌーは述べています。
彼は、AIがソーシャルメディアの間違いから学ぶことができると述べています。例えば、AIはソーシャルアプリの成功の一般的な尺度である「プラットフォーム上での時間」に最適化するべきでないと考えています。これは、ドゥームスクローリングなどの健康に良くない習慣を促進する可能性があるからです。広く、WaveFormsのAIが人間の最善の利益と一致していることを確認したいと考えており、これを「行うべき最も重要な仕事」と呼んでいます。
コヌーは、OpenAIが彼のプロジェクトにつけた「Advanced Voice Mode」という名前は、ChatGPTの通常の音声モードとは異なる技術がどれほど異なるかを十分に表現していないと述べています。
古い音声モードは、実際には音声をテキストに変換し、それをGPT-4で処理し、そのテキストを再び音声に変換していました。それはやや手作りの解決策でした。しかし、Advanced Voice Modeでは、コヌーによると、GPT-4oは実際にはあなたの声のオーディオをトークンに分解し(らしい、1秒のオーディオはおおよそ3つのトークンに等しい)、それらのトークンを直接オーディオ固有のトランスフォーマーモデルを通して実行しています。これにより、Advanced Voice Modeは非常に低遅延を持つことが可能になると説明されました。
AIオーディオモデルについてよく言及される主張の1つは、「感情を理解できる」というものです。テキストベースのLLMが大量のテキスト文書の中で見つかるパターンに基づいているように、オーディオLLMも人間が話している音声クリップで同じことをしています。人々がこれらのクリップを「悲しい」とか「興奮した」とラベル付けすることで、AIモデルは、それを聞いたときに類似の音声パターンを認識し、自分自身の感情的な抑揚で応答するようになります。つまり、彼らが「感情を理解する」というよりも、彼らは人々がそれらの感情に関連付ける音声特性を体系的に認識しています。
AIをより人間味のあるものにする、賢くはなく
コヌーは、現在の生成型AIがGPT-4oよりも著しく賢くなる必要がないと賭けています。WaveFormsは、これらのモデルの基盤となる知能を改良するのではなく、AIとの会話をよりよくすることを試みています。
「単に、彼らにとって最も楽しい対話を選ぶ人々の市場が存在するでしょう」とコヌーは述べています。
そのため、スタートアップは自らの基盤モデルを開発できる自信を持っており、理想的にはより小さく、よりコストがかからず、より速く実行されるものになるでしょう。直近の証拠から、古いAIスケーリングの法則は遅れつつあることが明らかになっています。
コヌーは、OpenAIの元同僚であるイリヤ・スツケバーが、しばしば彼に「AGIを感じる」ことを試みることについて話していたと述べています。基本的には、超知能AIに到達したかどうかを判断するために直感を使うことです。WaveFormsのCEOは、AGIを実現することはある種の基準に到達するのではなく、むしろ感覚になると確信しており、オーディオLLMがその感覚の鍵となるでしょう。
「私は、それに話せるとき、それを聞くとき、直接トランスフォーマーと話すことができるとき、そのAGIを感じることができるようになると思います」とコヌーは説明しました。
AIを話すことがより優れたものにするというスタートアップの取り組みは、人々が依存しないようにする方法を考え出す責任ももちろうと明らかです。それでも、WaveFormsへの投資をリードしたアンドリーセン・ホロウィッツのゼネラルパートナーであるマーティン・カサドは、「人々がAIとより頻繁に話すことが悪いことであるわけではないかもしれない」と述べています。
「私はインターネットでランダムな人と話すことができ、その人は私をいじめることができ、その人は私を利用することができます… ランダムな暴力を振るうことができるビデオゲームと話すことができ、またはAIと話すことができます」とカサドはTechCrunchのインタビューで述べています。「それが重要な問題研究であると考えています。AIと話すことが実際により望ましい結果となる可能性があるという結果になるとは驚かないでしょう」と続けました。
一部の企業は、AIとの愛情深い関係を築くことを成功の目印と考えるかもしれません。しかし社会的な観点からは、それは映画「Her」が描こうとしたように、完全な失敗の印にもなり得るでしょう。それがWaveFormsが今歩むべき狭間であるということです。
元記事はこちら