AIの開発と運用がますます高コスト化しています。今年、OpenAIのAIの運用コストは$70億に達する可能性があり、一方、AnthropicのCEOは最近、$100億を超えるモデルが近日登場する可能性があると示唆しています。sourcesource
AIをより手頃にする方法を模索中です。
一部の研究者は、既存のモデルアーキテクチャを最適化する手法に焦点を当てており、他の人々は、拡張可能な価格で提供する可能性が高いと考える新しいアーキテクチャの開発に取り組んでいます。
カラン・ゴエルは、後者のグループに属しています。共同設立したスタートアップCartesiaで、ゴエルは、大量のデータ(テキスト、画像など)を一度に処理できる新しい高効率モデルアーキテクチャと呼ぶ「state space models(SSMs)」に取り組んでいます。
「私たちは、真に有用なAIモデルを構築するために新しいモデルアーキテクチャが必要だと信じています」と、ゴエルはTechCrunchに語りました。「AI業界は競争が激しい場所であり、最高のモデルを構築することが成功への鍵です」。
学術的ルーツ
Cartesiaに加わる前、ゴエルはスタンフォード大学のAIラボの博士課程学生で、コンピュータ科学者クリストファー・レイなどの指導のもとで働いていました。スタンフォードでゴエルは、同じラボのフェローであるアルバート・グーと出会い、2人はSSMにつながるものを概説しました。
その後、ゴエルは、Snorkel AI、その後Salesforceでアルバイトをし、一方、グーはカーネギーメロン大学の助教授になりました。しかし、グーとゴエルはSSMを研究し続け、アーキテクチャに関するいくつかの画期的な研究論文を発表しました。
創設チームにはレイも含まれるCartesiaは、おそらく最も人気のあるSSMであるMambaの多くの派生物に関わっています。昨年12月、グーとプリンストン大学のトリ・ダオは、研究用プロジェクトとしてMambaを始め、その後のリリースを通じて磨きをかけています。
Cartesiaは、Mambaの上に構築されるだけでなく、独自のSSMsをトレーニングしています。すべてのSSM同様、CartesiaのモデルはAIに一種の作業メモリのようなものを提供し、計算リソースを引き出す方法において、モデルをより速くし、潜在的により効率的にします。
SSMs vs. transformers
今日のほとんどのAIアプリは、ChatGPTからSoraまで、トランスフォーマーアーキテクチャを採用しています。トランスフォーマーがデータを処理する際、何かと呼ばれる「隠れ状態」にエントリを追加して、処理した内容を「記憶」します。たとえば、モデルが本を読み進めると、隠れ状態の値は本の中の単語の表現となります。
隠れ状態は、トランスフォーマーが非常にパワフルである理由の一部ですが、その非効率性の原因でもあります。たとえば、トランスフォーマーが読み込んだ本について一言述べるには、モデルは隠れ状態全体をスキャンする必要があります。これはまるで本全体を再読するような計算上の要求があります。
一方、SSMは、すべての以前のデータポイントを一種の要約に圧縮します。新しいデータが入力されると、モデルの「状態」が更新され、SSMは以前のデータのほとんどを破棄します。
その結果、SSMは大量のデータを処理し、特定のデータ生成タスクでトランスフォーマーよりも優れたパフォーマンスを発揮することができます。推論コストが現状のようになるにつれ、これは魅力的な提案となります。
倫理的懸念
Cartesiaは、外部組織や内部とのパートナーシップを通じてSSMを開発するコミュニティ研究所のように運営しています。同社の最新プロジェクトであるSonicは、声を複製するSSMであり、新しい声を生成し、録音された音声のトーンやリズムを調整することが可能です。
製品を迅速にリリースしてきたCartesiaですが、他のAIモデルメーカーが直面してきた倫理的問題にも遭遇しています。
Cartesiaは、最低限、いくつかのSSMをThe Pileという著作権侵害された本を含むオープンデータセットでトレーニングしています。多くのAI企業は、Fair Use原則が彼らを侵害の主張から保護すると主張していますが、それでも作家たちは、MetaやMicrosoftなどがThe Pile上のモデルをトレーニングしているとして訴えています。
Cartesiaは、Sonicベースの音声クローナーに対する明確なセーフガードがほとんどないようです。少し前に、昔の副大統領カマラ・ハリスの声クローンを作成することができました。Cartesiaのツールでは、スタートアップの利用規約に同意することを示すチェックボックスのみが必要です。
Cartesiaのデータの取り扱いは、市場に影響を与えていないようです。少なくとも、Cartesiaが技術的優位にある間は。GoodcallのCEO、ボブ・サマース氏は、Sonicを選んだ理由として、遅延時間が90ミリ秒未満の唯一の音声生成モデルであると述べています。
現在、Sonicはゲーム、音声吹き替えなどに使用されていますが、ゴエルは、SSMができることの一部しか見ていないと考えています。
そのビジョンは、どんなデバイスでも実行でき、テキスト、画像、ビデオなどの任意のモダリティのデータをほぼ即座に理解し、生成できるモデルです。この方向に向かって、Cartesiaは今年、リアルタイム翻訳などのために携帯電話やその他のモバイルデバイスで最適に動作するよう最適化されたSonic On-Deviceのベータ版をリリースしました。
Sonic On-Deviceに加え、Cartesiaは、異なるハードウェア構成に適したSSMを最適化するためのソフトウェアライブラリであるEdgeや、Reneというコンパクトな言語モデルも公開しました。
「私たちは、どんなデバイスでも動作し、巨大なコンテキストに対して推論できるリアルタイムインテリジェンスを開発することを目指す、GO-TOなマルチモーダル基本モデルになることを長期的なビジョンとしています」とゴエル氏は述べています。「技術面、誤用、バイアスなど、様々な側面のテストを行う専門チームを持っています。さらには、モデルの安全性と信頼性を追加で独立して検証するための外部監査者とのパートナーシップを確立しています… このプロセスは継続的に洗練される必要のあるものであることを認識しています」。
発展途上のビジネス
ゴエル氏によれば、数百の顧客がSonic APIアクセスを支払っており、これはCartesiaの主要な収益源であり、オートメーション呼び出しアプリGoodcallも含まれます。 CartesiaのAPIは、最高で月間800万文字まで無料で読み上げ、最も高価なプランは1か月につき800万文字までのために$299です(Cartesiaは、専用サポートとカスタム制限付きのエンタープライズティアも提供しています)。
Cartesiaは、デフォルトではカスタマーデータをモデルのトレーニングに使用しています。これは珍しくない政策ですが、プライバシーに配慮したユーザーには望ましくない可能性があります。ゴエル氏は、ユーザーが望む場合にはオプトアウトでき、大規模な組織向けにはカスタムの保持ポリシーを提供していると述べています。
Cartesiaのデータ手法は、ビジネスに実害があるようには見えません。少なくとも、Cartesiaが技術的な優位性を持ち続ける間は。GoodcallのCEO、ボブ・サマース氏は、いつも以上のツールであるSonicを選んだ理由として、90ミリ秒未満のレイテンシーがある唯一の音声生成モデルであると述べています。
今日、Sonicは、ゲーム、音声吹き替えなどに使用されています。しかし、ゴエル氏は、SSMができることの一部しかできていないと考えています。
彼のビジョンは、どのデバイスでも実行し、文書、画像、ビデオなどの任意のモダリティのデータをほぼ即座に理解し、生成できるモデルです。この方向に向かって
元記事はこちら