近年、Deepfakesやその他の人工知能の欺瞞と結びつくと、合成音声は恐ろしいものとして扱われるようになっています。しかし、自分で話すことができなくなった人たちにとっては、合成音声は欠かせないツールでもあります。Acapela groupは、新しいサービス「my own voice」を発表し、誰でも無料でAI音声プロファイルを訓練できるようにしました。
Acapelaは、約25年にわたってテキストから音声に変換する業界において活躍しており、最近はアクセシビリティ企業のTobii Dynavoxに買収されましたが、それでも独立して運営されています。
多くの業界と同様に、アクセシビリティ業界も、コンシューマー向けの機械学習プロセスの登場によって大きな影響を受けています。Acapelaの共同設立者であるRemy Cadic氏によると、7~8年前は、自分でカスタマイズした合成音声を作るのは非常に手間がかかり、その結果もあまりよくありませんでした。
「8時間訓練する必要があったため、非常に時間がかかりました。しかし、現在では50文の音声を収録するだけで、10分で音声を作成することができ、翌日には使用可能です。ニューラルテキストから音声への技術の進化が確かに起こっていると言えます。」
自分自身の声を使用できる音声生成器を持つことは、選択肢があると感じた人々にとって、まさに必要なものです。自分自身が使用したい音声を持っている人も多いですが、これまでその選択肢はありませんでした。
「my own voice」のプロセスを実際に経験してみると、簡単に作成することができました。小説、レシピブック、記事からランダムに選出された50文を使って、音声収録のインターフェースがシンプルで使いやすくナビゲーションも簡単でした。そして、約一日後に私の音声を使用しているサンプルページを確認することができました。品質は十分で、その他のモデルのように不気味に感じることがなく、明らかに自分自身の声であり、デモページで投げた任意の文章を処理できました。
この音声を使いたい場合は、いつでもダウンロードして使用することができます。これにはTobii DynavoxのTD Talkおよびデバイスが含まれます。実際、同社は先週、新しいデバイスを発表しました。アクセシビリティ技術は非常にスリムになっています。
ここで伝えたいのは、神秘的で人工知能の音声技術の力を証明することではなく、どんな文句を言わず、また誰に対してもツールとして使えるものだということです。
いくつかの疾患、癌、または特定の処置を受けることを必要とする多くの人々は、数ヶ月または数年後にはうまく話せなくなるでしょう。自分の声を保存するのが困難な場合もありましたが、可能な限り銀行業務を簡単にすることは多くの人々にとって重要なサービスです。
子供向けにカスタマイズされた音声作成も可能で、音声スクリプトを読みやすく調整し、子供たちの合成音声の品質を向上させることもできます。
また、保存した音声を録音し直したり、人工的に年齢を上げたりすることもできますが、新しい技術に挑戦することになります。
そして、最大の違いは、最新のニューラルプロセッシングチップをスライドしなくても、オフラインのデバイスとの互換性です。「音声を作成することは簡単ですが、クラウドを介してのみ利用可能で、それは実用的ではありません」とCadic氏は述べています。
つまり、文章を読んだり、話したりできる人々にとっては、50文の音声が理想的ですが、話すことができなくなった人々からの音声収録でもトレーニングすることができますが、やはり簡単ではありません。
同社は、他のAIアプリケーションと同様にトレーニングプロセスの多様性と思慮深さも重要であることを発見しました。Cadic氏は、ある超高速トレーニングテクニックの問題点は、「基本的には、ユーザーに最も近いトレーニング素材のスピーカーを見つけようとする。しかし、トレーニングに最も近い話者がいない場合、それは同じに聞こえない。」と指摘しています。
レコーディングおよび銀行業務プロセスは無料で、アカウントに登録して自分自身の合成音声を数分でトレーニングできます。ここでアカウントにサインアップできます。ダウンロードしてデバイスにインストールする場合は、料金が発生します。
元記事はこちら