水曜日, 5月 22, 2024
ホームアプリ【衝撃!テキストから映像へのジェネレーション技術に限界が!】Runwayが提示する第二世代技術とは?

【衝撃!テキストから映像へのジェネレーション技術に限界が!】Runwayが提示する第二世代技術とは?

『Avengers: Endgame』のような大作映画の監督を務めるJoe Russo氏がColliderのパネルインタビューにおいて、AIが2年以内に完全な映画を制作できるようになると予想したと述べました。

それはかなり楽観的なタイムラインですが、AIによる完全な映画制作の可能性はますます高まっています。

先週、Googleが支援するAIスタートアップのRunwayが、テキストプロンプトまたは既存の画像から映像を生成するモデル「Gen-2」をリリースしました。RunwayのGen-1モデルの後継として今年2月に発売されたGen-2は、現在市販されているテキストからビデオを生成する最初のモデルの1つです。

「市販されている」というのは重要な区別です。画像やテキストに続く生成AIの次のフロンティアであるテキストからビデオが、特にテックジャイアントの間で注目を集めています。この分野でデモンストレーションされたテキストからビデオモデルは、研究段階にあるため、一部のデータサイエンティストとエンジニア以外はアクセスできない状態です。

もちろん、最初に登場すると言うことが必ずしも良いというわけではありません。

興味本位で、また読者のために、私はGen-2にいくつかのプロンプトをかけて、モデルが何を成し遂げることができ、できないことが分かるようにしました。(Runwayは現在、100秒ほどの無料ビデオ生成を提供しています。)私には狂気じみたやり方がありましたが、映画監督やプロ、またはアームチェアの範囲内で、たとえばシルバースクリーンで見たいであろう様々な角度、ジャンル、スタイルをカバーしてみました。(本文より)

Gen-2の最も注目すべき制限の1つは、モデルが生成する4秒間のビデオのフレームレートです。それはかなり低く、場所によってはスライドショーのようなものになります。

それが技術的な問題なのか、Runwayがコンピューティングコストを下げるために試みたものなのかは不明です。いずれにせよ、Gen-2は、編集者がポストプロダクションの作業を避けたいと望んでいる場合には、最初からあまり魅力的な提案にはなりません。

フレームレートの問題を超えて、Gen-2で生成されたクリップは、しばしばある種の籠りやかすみが共通して見られます。ピクセル化が物体の周りに起こる場合もあります。物体の「カメラ」と言えるものが回りこむか、急速にズームする場合などです。

また、多くの生成モデルと同様に、Gen-2は物理学や解剖学に関する一貫性に欠けています。Gen-2で生成されたビデオにおいて、人々の腕や足は一緒になり、また分離される一方、物体は床から溶けて消え、その反射は歪んでいます。また、プロンプトによっては、艶やかで感情を欠く目を持つ、安物の人形のような顔が現れることがあります。

それに加えて、コンテンツの問題もあります。Gen-2は、偏見を理解することが難しく、プロンプトの特定の記述に執着する一方で、ランダムに無視する場合があります。

私が試したプロンプトの1つ、「旧式カメラで撮影された、『発見の映画』のスタイルで描写される水中ユートピアの映像」というものでは、ユートピアの描写は得られず、匿名のサンゴ礁を通る最初の人称ダイビングのようなものだけが生成されました。すべてのプロンプトでGen-2はうまく機能せず、あるプロンプトでは明示的に「ゆっくりズーム」することが要求されていたのに、それを生成できず、平均的なアストロノーツのルックスを完璧に再現できなかった場合があります。

問題は、Gen-2のトレーニングデータセットにあるかもしれません。

Stable Diffusionと同様に、Gen-2は拡散モデルであり、まず、ノイズだけで構成された始めの画像から、段階的にノイズを取り除き、プロンプトに近づけます。拡散モデルは、数億から数十億の例をトレーニングして学習します。Gen-2のアーキテクチャに関するある学術論文によれば、このモデルは、内部データセットの240万の画像と640万のビデオクリップでトレーニングされました。

多様性のある例が必要です。データセットにアニメーションのフッテージがほとんど含まれていない場合、モデルは、参照点を欠いたまま、適切なクオリティのアニメーションを生成できなくなります。(もちろん、アニメーションは広範囲に及ぶ分野なので、データセットにアニメや手描きアニメーションのクリップがあったとしても、モデルがすべての種類のアニメーションに適合する guaranteeはありません。)

一方で、Gen-2は、表面的なバイアステストに合格しました。DALL-E 2のような生成AIモデルは、大統領や取締役などの権限委任の画像を生成したことにより、社会的なバイアスを後押しするという批判を受けていますが、Gen-2は、少しは多様性を持ったコンテンツを生成しました。主題が「CEOが会議室に入るビデオ」の場合、Gen-2は、男性よりも女性(ただし、男性の方が多かった)が会議テーブルの周り

元記事はこちら

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -
Google search engine

Most Popular

Recent Comments