【AI初心者向け】音声生成で使われる「WaveNet」とは何かを徹底解説

音声生成技術のWaveNetはコンピュータによる音声をより人間の自然な声に近づけましたよね。

ここ数年でAmazonから「Amazon Echo」、Googleは「Google Home」など、さまざまなスマートスピーカーが登場してきました。

スマートスピーカーは私たち人間が話しかければ、それに応えてくれる便利なコンピュータです。初めてスマートスピーカーを使った人は話しかけた内容に対して、的確に分かりやすく応えてくれることに驚いたのではないでしょうか。

そしてもう一つ多くの人が感じた驚きがあります。それはスマートスピーカーから出される人間のような自然な音声。

まるで人間と話しているように感じた方、ひょっとしたら人間だと思い込んでいる方もいらっしゃるでしょう。

そんな驚きの自然な音声を実現させた技術の一つがWaveNetです。今回は音声生成技術のWaveNetについてお伝えします。

DeepMindが発表した「WaveNet」とは何か
WaveNetで何が変わったの︖
スマートスピーカーとWaveNetの関係
WaveNet技術が使われている⾝近な製品
WaveNetの技術は今後どうなるのか

DeepMindが発表した「WaveNet」とは何か

「AlphaGo」というAI（人工知能）を搭載した囲碁のコンピュータをご存知でしょうか。

一昔前まで囲碁はAI（人工知能）にとって人間に勝るのは難しいゲームの一つとされていましたが、2017年にAlphaGoが世界最強の囲碁棋士と呼ばれていた柯潔（カ・ケツ）に勝利し世界中を驚かせました。

このAlphaGoを開発したのはGoogle傘下のAI（人工知能）開発企業・DeepMind社で、今回お伝えしているWaveNetを開発した企業です。

冒頭で少し触れたように、スマートスピーカー（Google社製）へWaveNetは搭載されています。

そしてスマートスピーカーで使用されている、コンピュータと人間とをつないでいる対話型音声応答システムで、中心になっている技術は「音声認識」「音声生成」「対話制御」の3つ。

音声認識・・・人間が話した内容を推定する技術
音声生成・・・与えられた文章やデータをもとに人間の音声を生成する技術
対話制御・・・人間の話に適切な応答内容を出力する技術

主にこの3つの技術で「コンピュータが人間の話を聞いて適切に音声で応える」対話型音声システムを成立させています。

そしてこのうちの人間に伝える内容を音声化する「音声生成」の技術がWaveNetです。

WaveNetで何が変わったの︖

WaveNetが登場して従来の音声生成技術を用いるよりも、より人間に近い自然な音声生成を実現できるようになりました。

その違いは下記のGoogleサイトで聞き比べることができます。

サポートされている音声と言語 – GooglCloud.

上記のページにある日本語の標準とWaveNetの音声を比べると、明らかにWaveNetの方が滑らかで自然な発音なのが分かります。

では従来とWaveNetとで何が変わったのでしょうか。

その大きな要因はディープラーニング。

WaveNetにはAI（人工知能）の先進技術であるディープラーニングが使用されています。

開発段階でAI（人工知能）には目的に応じた予測や判断をさせるために必要なデータから学習をさせます。その学習するシステムにディープラーニングで用いているのが人間の脳神経細胞の仕組みをモデル化したニューラルネットワークです。

このディープラーニングを使用することで、従来では難しかった「大量の音声データの学習」「大量の音声データを計算処理する」が可能になりました。

そのためAI（人工知能）の学習効率と精度が向上し、それを使用しているWaveNetでは先ほどのサンプル音声のように非常になめらかで自然な音声を実現できたのです。

スマートスピーカーとWaveNetの関係

少しずつですが、日本でもスマートスピーカーは普及しはじめています。ここではスマートスピーカーとWaveNetの関係について紹介しましょう。

現在のスマートスピーカーは「天気予報が知りたい」「あの曲が聞きたい」など、私たちが欲しい情報を提供してくれるのがメインになっています。

そしてこれからスマートスピーカーと同じように普及し始めるのがIoT。

IoTはこれまでパソコンやスマートフォンがメインだったインターネットを、家電や自動車などとも接続・連携させて操作などが行えるようになるネットワーク環境です。

そのIoT環境の中でスマートスピーカーは、例えば音声で部屋の照明やテレビの電源を入れるなどの音声操作で使用することも可能になります。

そしてそんなスマートスピーカーから聞こえる音声が人間のような声だと親近感がわきますよね。実際にスマートスピーカーを使っている方の中には、親しみを感じる方もいらっしゃいます。

どう見てもスマートスピーカーはコンピュータですが、WaveNetでつくられた音声によって人間に親しみを持たせる役割も担っています。

そのためWaveNetはスマートスピーカーのスパイスのような存在だといえるでしょう。

現在、スマートスピーカーはさまざまな種類が登場していますが、WaveNetが使用されているのはGoogleから販売されているスマートスピーカーだけです。

しかしWaveNetが使われている製品は、ほかにもたくさんあります。

WaveNet技術が使われている⾝近な製品

WaveNetが使用されている製品は複数あります。

WaveNetはGoogle傘下のDeepMind社が開発しているのでGoogleが開発している製品だけに限定されているイメージですが、そうではありません。

詳しく説明するとWaveNetはスマートスピーカーなどの製品自体ではなく、Googleアシスタントと呼ばれる対話型音声対応システムに搭載されています。

「OK Google」でおなじみのGoogleアシスタントはGoogleが提供しているWebサービスです。

つまりインターネットに接続可能でGoogleアシスタントが使用できる製品であれば、WaveNetが作り出す人間のような自然な音声と対話ができます。

そのためAndroidスマートフォンなどのGoogle製品はもちろんですが、現在はiPhoneやWindows・MacのパソコンでもGoogleアシスタントの使用が可能です。

そして前章でも紹介したようにIoT環境が普及していけば、もっとWaveNetを用いているGoogleアシスタントもさまざまなところに広がっていく可能性もあるでしょう。

WaveNetの技術は今後どうなるのか

現在でも自然な音声を生成できているWaveNetですが、人間の音声と比べればまだまだです。

そのためこれからさらにWaveNetで生成される音声がより人間に近づくためには「ディープラーニングの進化」と「大量の音声データの取得」がカギではないでしょうか。

ディープラーニングの研究開発は世界中で行われているので、少しずつでも進化して行くのは間違いないでしょう。

そして「大量の音声データの取得」とは現在よりも音質を向上させるため、ディープラーニングでAI（人工知能）に学習させる大量の音声データが今後も必要だということです。

この２つは今後のWaveNetにとって大きな課題であり、現在以上に技術を進化させるためのカギといえるでしょう。

囲碁のコンピュータAlphaGoを開発したGoogle傘下のDeepMind社は、スマートスピーカーに搭載されている音声生成技術・WaveNetを開発しました。

WaveNetは従来の技術を用いた音声よりも、より人間に近い自然な音声生成を実現できるようになっています。

その大きな要因になっているのはAI（人工知能）の先進技術・ディープラーニングです。

ディープラーニングをWaveNetで使用した結果、非常になめらかで自然な音声を実現でき、その音声を聞いた人の中には人間のような声に親近感を持つ方も多くいらっしゃいます。

現在WaveNetはGoogleが提供しているWebサービスのGoogleアシスタントに使用されており、Google製品に限らず、iPhoneやパソコンでもGoogleアシスタントが使用できればWaveNetで作り出す人間のような自然な音声との対話が可能です。

そしてこれからさらにWaveNetが進化していくためには「大量の音声データの取得」「ディープラーニングの進化」がカギといえるでしょう。

現段階でもWaveNetが作り出す音声には親近感がわくほどですが、現在進行形でディープラーニングや音声生成技術が研究開発されているので、近い将来に再び驚くような音声がWaveNetで作り出される可能性は大きいです。

【お知らせ】

当メディア（AIZINE）を運営しているAI（人工知能）/DX（デジタルトランスフォーメーション）開発会社お多福ラボでは「福をふりまく」をミッションに、スピード、提案内容、価格、全てにおいて期待を上回り、徹底的な顧客志向で小規模から大規模ソリューションまで幅広く対応しています。

御社の悩みを強みに変える仕組みづくりのお手伝いを致しますので、ぜひご相談ください。