この記事では、AIを活用したテキストから音声への変換サービス、ElevenLabsの使い方について解説しています。
ElevenLabsとは:AIを活用したテキストから音声への変換サービス
ElevenLabsは、AIの力を利用してリアルな音声を生成するサービスです。
過去にもテキストの読み上げを行うサービスは存在しましたが、最新のAI技術を活用することで、人間が読み上げるようなリアルに近い音声を生成することが可能になりました。
GoogleとPalantir出身者が創設したAIスタートアップ企業
ElevenLabsは、元Googleの機械学習エンジニア、Piotr Dabkowskiと、元Palantir(ピーター・ティールが設立したデータ分析企業)のデプロイメントストラテジスト、Mati Staniszewskiによって2022年に設立されました。
両者ともポーランド出身で、ElevenLabsを設立するきっかけは、アメリカ映画の不適切な吹き替えに遭遇したことから始まりました。
2023年6月には、オフィスがなく従業員もたったの15名しかいない状態で、1億ドルの評価額で1,900万ドルのシリーズAの資金調達に成功しました。
このラウンドは、ベンチャーキャピタルファームのAndreessen Horowitz、元GitHubのCEOであるNat Friedman、Deepmindの共同創設者であるMustafa Suleyman、そしてO’Reilly Mediaの創設者であるTim O’Reillyといった著名な企業家たちによって主導されました。
これらの事実から、ElevenLabsが世界的に注目を集めているスタートアップであることが伺えます。
ElevenLabsの使用例(1):次世代技術による、よりリアルな音声の生成
ElevenLabsの音声技術を使用して生成された音声の例をご紹介します。
以下の音声は、ElevenLabsが提供している音声モデルを使用して生成したものです。電話の音などの簡単な加工は施されていますが、スピーチ音声については、ほとんどそのまま使用されています。
ElevenLabsの使用例(2):自分で用意した音源をモデルにする、クローン音声の生成
以下の音声も、ElevenLabsを使って生成したものです。
この例からも分かるように、あらかじめ用意された音源の使用とあわせて、自分の声など、自身でアップロードした音声をモデルに使用することも可能です。
また、以下の動画は、ElevenLabs社が提供するデモンストレーションです。
この動画を通じて、スティーブ・ジョブズやビル・ゲイツなどの、有名人のクローン音声を試聴することができます。
ElevenLabsの使い方:概要
ここでは、基本的な使用方法について説明します。
Speech Synthesis: 音声の生成とダウンロード
メイン画面は「Speech Synthesis」と呼ばれ、ここから音声を生成します。直感的なUIにより操作は容易ですが、
- 「Settings」で使用する音声モデルを選ぶ
- 「Text」に、生成したいテキストを貼り付ける
- 「Generate」を押して音声を生成し、MP3音源をダウンロードする
という流れで、音声の生成と保存ができるようになっています。
Settings > Voice Settings
「Voice Settings」では、「Stability」と「Clarity + Similarity Enhancement」の2項目を調整することが可能です。
以下は、それぞれの項目の説明です。
Stability:生成する音声の「安定性」を調整します。ニュースの読み上げのような安定した音声を生成したい場合は「More stable」に近づけ、感情表現豊かな音声にしたい場合は、「More variable」に近づけます。
Clarity + Similarity Enhancement:生成する音声の「明瞭性」と、モデル音源との「類似性」を調整します。値が高いほど、雑音、音声の歪みなど不自然な音声特性が生じる可能性があります。生成した音声にノイズなどが発生した場合は、この項目の値を「Low」に近づけて再生成することが推奨されています。
To Default: 上記の2項目を初期値に戻します。「Stability」と「Clarity + Similarity Enhancement」は、それぞれ50%と75%の初期値になっています。
以下のアコーディオンには、ElevenLabsの注釈を日本語訳したものも掲載しています。詳細に理解したい方は、こちらもあわせてご確認ください。
設定項目の説明(ElevenLabs)の日本語訳:
設定 > 音声設定
Stabilty(安定性)
More Stable(より安定したものに):
安定性を高めると、音声は再生成間でより一貫性がありますが、それは音声が少し単調に聞こえることもあります。長いテキストフラグメントについては、この値を下げることを推奨します。
More Variable(より変動性があるものに):
変動性を高めると、音声は再生成間での出力が変動し、より表現豊かになります。ただし、不安定になる可能性もあります。
Clarity + Similarity Enhancement(明瞭性 + 類似性の強化)
High(高): 高強化は全体的な音声の明瞭性とターゲットスピーカーの類似性を強化します。非常に高い値はアーティファクトを引き起こす可能性があるので、最適な値を見つけるためにこの設定を調整することを推奨します。
Low(低): 生成された音声に背景のアーティファクトが存在する場合、低い値が推奨されます。
Voice LabとVoice Libray:クローン音声モデルの生成や、カスタム音声の管理
「VoiceLab」の画面では、音声生成に使用するモデルの管理が可能です。
「Voice Library」からは、コミュニティの他のメンバーが公開をした音声モデルを選び、自分の「Voice Lab」に追加することも可能です。
VoiceLab > Add Generative or Cloned Voice
また、「+」のマークからは、新たにGenerative VoiceあるいはCloned Voiceの生成が行えます。使用可能な項目は、プランにより異なります。
以下は、それぞれの項目についての説明です。
Voice Design:新しいGenerative Voiceを生成します。性別、年齢、アクセント、アクセントの強さといった、事前に用意された項目から、新しい音声モデルを自由に生成することができます。
Instant Voice Cloning:自分がアップロードした音声から、モデル音源を生成します。アップロードする音源は、「1人のみの音声、1分以上の再生時間、環境音や音楽などのBGMが入っていないもの」である必要があります。
Voice Library:コミュニティの他のメンバーが公開した音声モデルを選び、自分のVoiceLabに追加できます。
Professional Voice Cloning:よりリアルに近い音声を生成する項目です。こちらは、近日公開予定の項目であるため、まだ使用することはできません。
ElevenLabsの料金体系:無料からプレミアムまで利用可能
ElevenLabsのプランは、こちらのページから確認できます。
Enterpriseを含む6つのプランがありますが、価格が設定されている5つのプランを比較すると、下記のようになります。
Free | Starter | Creator | Independent Publisher | Growing Business | |
---|---|---|---|---|---|
価格(月間) | $0 | $5 | $22 | $99 | $330 |
生成可能文字数(月間) | 10,000 characters | 30,000 characters | 100,000 characters | 500,000 characters | 2,000,000 characters |
* 音声換算したときの目安 | 12分 | 36分 | 120分 | 10時間 | 40時間 |
上記の文字数を超えての生成 | × | × | $0.30 / 1,000 characters | $0.24 / 1,000 characters | $0.18 / 1,000 characters |
* 音声換算したときの目安(追加分) | – | – | $3 / 12分 | $2.4 / 12分 | $1.8 / 12分 |
* 一度に生成可能な文字数 | 2,500 | 5,000 | 5,000 | 5,000 | 5,000 |
ランダムボイスの生成(Voice Designの使用) | ○ | ○ | ○ | ○ | ○ |
カスタムボイス生成可能数 | 3 | 10 | 30 | 160 | 660 |
クローンボイス(Instant Voice Cloning)の生成 | × | ○ | ○ | ○ | ○ |
クローンボイス(Professional Voice Cloning)の生成 | × | × | ○ | ○ | ○ |
多言語のボイス生成 | ○ | ○ | ○ | ○ | ○ |
API アクセス | ○ | ○ | ○ | ○ | ○ |
商用利用 | × | ○ | ○ | ○ | ○ |
高品質な音源のダウンロード(96kbbs audio) | × | × | ○ | ○ | ○ |
その他 | クレジット表記が必要 |
私が利用しているのは、Creatorプラン(月20ドル)ですが、こちらで生成可能な文字数(100,000 characters)では、おおよそ2時間程度に相当する音声を生成できます。
米印の項目は、私が追記したもので、元のページにはない項目です。上記の公式サイトに記載されている「100,000 characters (~2hr of generated audio)」という記述を元に単純計算したものなので、目安として参考にしてください。
また、一度に生成可能な文字数の上限については、今後増やす予定とのことです。(出典)
ElevenLabsの商用利用:Starterプラン以上で商用利用が可能
ElevenLabsで生成した音声の商用利用の可否は、ご利用のプランによって異なります。
Starterプラン以上を利用している場合は、生成した音声の商用利用が許可されています。クレジットの表記も必要ありません。
フリープランを利用している場合は、商用利用は許可されていません。ただし、フリープランで作成した音声は、「elevenlabs.io」あるいは「11.ai」のクレジットを表示することで、公開することは許可されています。
また、許可を得ていない他人の声をクローンし、不適切な利用を行うことは禁止されています。海外の事例として、エマ・ワトソンやジョー・ローガンなどの著名人の音声モデルが許可なしに作成され、ヘイトスピーチを含む音声が公開されるという問題が発生しています。
他人の音声を利用してコンテンツを作成するときは、特に利用規約への注意が必要です。
下記のアコーディオンには、ElevenLabsの商用利用に関する、FAQや利用規約の日本語訳を記載しております。主要なポイントのみの抜粋となっていますので、オリジナルのリンクも合わせてご参照ください。
ElevenLabsの商用利用に関する日本語訳(一部抜粋)
プラットフォームで生成したコンテンツを公開できますか?(引用元のリンク)
無料プランには商用ライセンスが含まれていません。さらに、無料プランに登録しているユーザーや未登録のユーザーが私たちのサービスを使用して生成したコンテンツは、当社プラットフォームの外で公開する際に、”elevenlabs.io” または “11.ai” を説明文に含めて、ElevenLabsへの帰属を明記するようお願いしています。
有料プランにはすべて商用ライセンスが含まれており、帰属表示は不要です。サービスで生成するコンテンツに必要な知的財産権を持っており、そのコンテンツが法律や私たちの利用規約を違反しない限り、生成されたコンテンツを商用目的で使用することができます。詳細は私たちの利用規約で確認することができます。
簡単に言うと、サブスクリプション期間中に生成されたすべてのものは、あなたが永久に商用利用することができます。それに対して、サブスクリプション期間前後に作成されたものは常に帰属表示が必要となります。
アップロードしたファイルの所有権は私にありますか?(引用元のリンク)
私たちは、現地の法律に従って当該ファイルをレビューする権利を除き、あなたがプラットフォームにアップロードするファイルに対する権利を一切主張しません。
声のクローン技術の安全な使用とベストプラクティスについて(引用元のリンク)
・自分自身の声とコンテンツを使用してクローンを生成する場合、声のクローンは安全です。このクローンはあらゆる目的に使用できます。
・他の人の声やコンテンツを使用してその人の許可を得てクローンを生成する場合、声のクローンは安全です。許可を得た目的に対してのみ、このクローンを使用できます。
・他の人の声やコンテンツを使用して、その人の許可を得ずにクローンを生成する場合、声のクローンは一部の非商業目的でのみ安全です。この非商業目的には以下のものが含まれます:
・個人的な学習や非商業的な研究
・教育目的
・カリカチュア、パロディ、風刺
・芸術的・政治的なスピーチによる公共的な討論への貢献
・引用
・批評やレビュー
声のクローン技術の使用には非常に重要なルールが適用されます:詐欺、差別、ヘイトスピーチ、オンラインでの乱用などの悪用目的で声のクローンを生成することは法律に違反します。
ElevenLabsの対応言語:英語を含む28言語に対応(日本語にも対応)
ElevenLabsは、英語を含む28言語に対応しています。
ElevenLabsは日本語にも対応しています。日本語を使用する際には、言語モデル一覧の「Eleven Multilingual v2」を選択してください。あとはテキスト欄に日本語を書いて「Generate」を押せば、日本語の読み上げ文章が生成されます。
ただし、英語と比べると日本語の音声変換の精度は、あまり高くありません。漢字の読み間違いや、不自然なイントネーションも見られるため、使用する際には一部をひらがなで書くなど、工夫する必要があるでしょう。今後のアップデートに期待したいですね。
言語モデルごとの違いについて
ElevenLabsでは、音声を生成する際に3種類の言語モデルから選択できるようになっています。
基本的には、最新モデルである「Eleven Multilingual v2」を選べば問題ありません。
それぞれの言語モデルの役割は、以下のとおりです。
Eleven Multilingual v2(デフォルト設定):ElevenLabsの提供する最新のモデル。英語を含む28言語に対応。安定性、言語の多様性、およびアクセントや声の再現性が改良された。
Eleven Multilingual v1:2番目にリリースされたモデル。英語を含む8言語に対応。公式サイトで言及されているとおり、「実験的なモデル」として多言語への対応を目指している。
Eleven English v1:英語のみに対応する初期モデル。英語のデータセットに特化してトレーニングされ、初期モデルであるため幅広い最適化が施されているものの最も制約が多く、精度も一般的には低い。
日本語音声を使用した、クローンモデルの生成
また、日本語音声をモデルにした外国語のクローンボイスの生成も簡単に行えます。私自身も試しにいくつかの英語音声を生成してみましたが、非常にきれいに発音するものができました。
外国語のナレーション音声を自分の声で作成したいとき、外国語学習のイメージトレーニングとして自分の音声で聞いてみたいときなど、いろいろな場面で活用できるでしょう。
動画をもとにした、吹き替え音声(Dub)の生成
また最近、「Dubbing」という新機能がリリースされています。
こちらはYouTube動画やTikTok動画などを貼り付けて、元音声の言語と、翻訳したい言語を選ぶだけで、簡単に吹き替え音声が生成できるサービスです。
今後、動画配信者が、海外ユーザー向けに発信したいときなどに活用できそうです。
ElevenLabsのAPI利用:リアルタイムな音声の読み上げが可能
ElevenLabsのAPIを活用すれば、ChatGPTを始めとするLLM(大規模言語モデル)で生成された文章を、リアルタイムで音声として読み上げることができます。
このAPIはText-To-Speech (TTS) エンドポイントを介して、テキストを音声に変換するサポートを行っています。ユーザーはテキストと音声の設定を提供することで、高品質の音声を簡単に生成できるようになっています。
新たに導入された入力ストリーミング機能を使うと、LLMの応答をストリーミング方式で受け取り、1秒未満の短い遅延でリアルタイムの音声生成が行えます。ElevenLabsは標準の声のセットも提供しており、特定のAPIキーなしでこれらの声を利用することも可能です。提供される声は、追加や編集が容易で、音声を生成する際にはそれぞれの声に対応するIDを使用します。
ElevenLabsは、わずか数行のコードで、クリエイターや開発者がリアルで魅力的な音声を実現できるソフトウェアを提供しています。詳しい情報や使い方については、API ReferenceやGithubページをご参照ください。
まとめ
ElevenLabsは、高品質の読み上げ音声や、クローン音声の生成と管理が手軽にできるサービスです。商用利用も可能で、様々なコンテンツ制作に活用できるでしょう。しかし、言語対応やクローン利用の倫理的な側面も考慮する必要があります。
今後のアップデートによる機能の拡充や、倫理的なガイドラインの明確化が期待されます。
詳しい操作方法や料金プランなどは、ElevenLabs公式サイトで確認することができます。興味のある方はぜひ、サイトを訪れてみてください。