現在は第三次AI(人工知能)ブームということで、最近はAI(人工知能)に関連したニュースやサービスが世の中に溢れていますよね。そうした情報に触れていると、様々な専門用語に出会います。その中の一つが「音声認識」。
「音声認識」という言葉は、単語から何となくイメージはつくけれど、ちゃんとは説明できない人が多いそんな単語でしょう。そこで今回は、「音声認識」についてお伝えしていきます。
一言で言うと「音声認識」とは・・・
人間の喋る言葉を文字や文章などの書かれた言葉に変換する技術のことです。
音声認識と音声合成
音声認識とは、人間の喋る音声言語をコンピュータによって解析し、文字や文章などの書かれた言葉に変換する技術のことを言います。
AI(人工知能)が注目されてから一気に「音声認識」という単語を聞くようになりましたが、「音声認識」は古くから読み上げた音声を文章に変換するディクテーションシステム、カーナビゲーションシステムの操作などに応用されてきました。
また最近では、スマートフォンに搭載されているSiriやGoogle アシスタント、スマートスピーカーなど、様々な分野で活用され私たちにとってもすっかり身近な存在になっています。
一方、音声認識とは逆に、文字や文章などの書かれた言葉(テキスト)を音声に変換する技術は「音声合成」と言います。テキストを音声に変換することから、「テキスト読み上げシステム」という別名もあります。
近年では、コンピュータの処理能力やAI(人工知能)技術の発展、記憶領域・容量の向上など様々な要因によって、例えばAIアナウンサーが発する声のような、自然な音声合成が実現・実用化されるようになっています。
まとめ
つまり、音声認識とは
人間の話す言葉をコンピュータによって解析し、文字や文章などの書かれた言葉に変換する技術のことです。その逆に文字や文章などの書かれた言葉(テキスト)を音声に変換する技術は「音声合成」と言います。
つっちー
AI(人工知能)って「なにそれ美味しいの?」ってレベルだった僕が、AIエンジニアを目指してステップを踏んだり踏まれたりしている記事を書いてます。よかったら読んでみてください(実話)。
コメントをどうぞ