2016年、Hammad Syedと元WhatsAppエンジニアのMahmoud Felfelは、Mediumの記事のテキストを音声に変換するChrome拡張機能を作成することが面白いと考えました。この拡張機能は、どんなMediumの記事でも音声で読み上げることができ、Product Huntでも紹介されました。1年後、それはビジネス全体を生み出しました。
「個人や組織がアプリケーション向けにリアルなオーディオコンテンツを作成するのに大きな機会があると感じました」とSyedはTechCrunchに語りました。「独自のモデルを構築する必要がなく、これまで以上に人間の品質の音声体験を迅速に展開できるようになりました。」
SyedとFelfelの会社、PlayAI(旧PlayHT)は、「AIの音声インタフェース」として位置付けられ、顧客はいくつかの事前定義された声を選択したり、声をクローン化したりして、PlayAIのAPIを使用してテキストを音声に変換できます。
トグルスイッチを使用すれば、ユーザーは声の抑揚、リズム、声質を調整できます。
PlayAIの興味深い実験の1つは、PlayNoteで、PDF、動画、写真、曲などのファイルをポッドキャストスタイルの番組、読み上げサマリー、一対一の議論、さらには子供向けの物語に変換することです。GoogleのNotebookLMのように、PlayNoteはアップロードされたファイルやURLからスクリプトを生成し、AIモデルのコレクションに送り、共に完成した製品を作り出します。
私が試してみたところ、結果は悪くありませんでした。PlayNoteの「ポッドキャスト」設定は、品質の面でほぼNotebookLMと同等のクリップを生成し、写真や動画を取り込むツールの能力は魅力的な作品を生み出します。最近作ったチキンモレ料理の写真を与えると、PlayNoteはそれについて5分間のポッドキャストスクリプトを作成しました。本当に、私たちは未来に生きています。
もちろん、このツールはすべてのAIツール同様に、時折変なアーティファクトや幻覚を生成します。PlayNoteは選択した形式にファイルを適応させるために最善を尽くしますが、例えば乾燥した法的書類が最適なソース素材としてはないことを期待しないでください。たとえば、マスク対OpenAI訴訟をベッドタイムストーリーとしてフレーム化したものをご覧ください。
PlayNoteのポッドキャスト形式は、PlayAIの最新モデルであるPlayDialogによって実現され、このモデルは対話のコンテキストと履歴を使用して、会話の流れを反映した音声を生成できるとSyedは述べています。この会話の歴史的なコンテキストを使用して抑揚、感情、ペーシングを制御し、自然なデリバリーと適切なトーンで会話を提供するためのPlayDialog」と続けました。
ElevenLabsとの一角を争うPlayAIは、過去に安全面への緩いアプローチで批判されています。同社の音声クローニングツールは、ユーザーに声をクローンするために「すべての必要な権利や同意を持っている」と示すチェックボックスを確認する必要がありますが、その検査機構はありません。私はKamala Harris氏の声のクローンを録音から作成するのに何の問題もありませんでした。
また、PlayAIは、「性的、攻撃的、人種差別的、脅迫的コンテンツを自動的に検出してブロックする」と主張していますが、私のテストではそのようなことはありませんでした。Harrisクローンを使用してここには組み込めないほど率直なスピーチを生成しましたが、一度も警告メッセージは表示されませんでした。
一方、PlayNoteのコミュニティポータルは、公に生成されたコンテンツで溢れており、「口で性行為を行う女性」のような露骨なタイトルのファイルがあります。
Syedは、同意なしにクローンされた声の報告に対応し、責任を持つユーザーをブロックし、即座にクローンされた声を削除すると伝えています。こちら。また、高い忠実度の声のクローンを提供するPlayAIが、20分間の音声サンプルが必要であり、スキャムを行う人々が支払う意思があまりないため(年間請求される場合は月額49ドル、月額99ドル)、価格が高く設定されているとも述べています。
「PlayAIにはいくつかの倫理的な保護措置があります」とSyedは述べています。「例えば、弊社のテクノロジーを使用して合成された音声かどうかを識別するための堅固なメカニズムを実装しています。もし何らかの誤用が報告された場合、私達は素早くそのコンテンツの起源を検証し、事態を是正し、今後の倫理的な侵害を防止するための断固たる行動を取ります」と述べました。
もちろん、そうであることを願っています。そしてPlayAIが、死んだテックの著名人をフィーチャーするマーケティングキャンペーンから離れるであろうと願っています。PlayAIのモデレーションが十分でない場合、Tennesseeでは、個人の声を無許可で録音するAIをホストするプラットフォームに対して法的問題に直面する可能性があります。
PlayAIの音声クローニングAIをトレーニングするアプローチもいくぶん曖昧です。同社は、競争上の理由から、モデルのデータをどこから取得したかを明らかにしません。
「PlayAIは主にオープンデータセット、[ライセンス付きデータ]、および社内で構築された独自のデータセットを使用しています」とSyedは述べています。「弊社の製品のユーザーデータやクリエーターデータ、トレーニングデータには使用していません。私たちのモデルは、男性と女性の声を複数の言語とアクセントで提供するために、数百万時間の実際の人間のスピーチでトレーニングされています。」
ほとんどのAIモデルは公共のウェブデータでトレーニングされていますが、それらの中には著作権のあるデータや制限付きライセンスのデータも含まれています。多くのAIベンダーは、合理的利用原則が彼らを著作権請求から保護すると主張しています。しかし、データ所有者たちは、許可なしに彼らのデータを使用したと主張するクラスアクション訴訟を提起しています。
PlayAIは訴えられていません。ただし、同社の利用規約は、法的脅威にさらされたユーザーをサポートしない可能性があることを示しています。
PlayAIのような音声クローニングプラットフォームは、俳優たちが声の仕事が最終的にAI生成のボーカルに置き換えられ、俳優たちはデジタルの複製がどのように利用されるかにほとんどコントロールを持たなくなることを恐れる批判に直面しています。
ハリウッド俳優組合SAG-AFTRAは、オンラインの人材市場NarrativやReplica Studiosを含む一部のスタートアップと取引を行い、「公正」かつ「倫理的」な音声クローニングの取り決めについて説明しています。ただし、これらの提携も強い批判を受けています。SAG-AFTRAのメンバーさえその対象となっています。
カリフォルニアでは、パフォーマーのデジタル複製(声のクローンなど)に依存する企
元記事はこちら