AI(人工知能)を使った認識ツールといえば画像認識が主ですが、昨今では音声認識をして音声テキスト化できる技術も発達してきています。
AmazonEcoなどのスマートスピーカーは音声認識技術。そして適切な語彙を組み合わせて出力する音声出力技術。これらの発展がなければここまで音声認識が一般化することはありませんでした。それもこれもディープラーニングが出てきてAI(人工知能)技術が発展してきてからでしょう。
ほとんどの人は視覚や聴覚を主に使って外界の情報を取得していますよね。しかしAI(人工知能)の進歩により、それらを人に変わり取得しすることができるようになったのです。
ですから、例えば仕事の中で議事録の作成の際に人が必死になって会話を記述しなくても、AI(人工知能)が音声テキスト化をしてくれます。
そこで今回は、実務で使える便利な音声テキスト化ツールを一つずつ解説していきましょう。
Googleブラウザの音声認識機能
そもそも画像認識や音声認識の精度は、原則としてはデータの質と量に依存します。
そこでまずはGoogleブラウザの音声認識機能についてお話します。
その意味でいえば自分の言いたかった言い回しを音声テキスト化Googleが提供してくれるので勉強にもなりますよね。
そうすることで音声認識の精度が上がり利用者はより便利になり、一方でGoogle側は放っておいてもデータが次々と集まり、データベースが充実する仕組み。
このように、両社がwinwinの関係となるため、GAFAと呼ばれるアメリカの大手IT企業の中でもGoogleは、AI(人工知能)技術に関してかなり先をいくかもしれません。
物書きのためのSpeechy
音声テキスト化ツールの使い道の一つとして、会議や対談などを録音しておけば最後にツールを使って得られた文章の整理をするだけで本を出版するときなどに書く手間が省けるかもしれませんし、そうすれば文章を書くのが苦手だったり、面倒くさいと感じる人でも気軽に出版することができますよね。
そこで今度は「Speechy」をご紹介しましょう。
ですから今読んでくださっているような記事の文章を作成する時でも、将来的には音声認識で音声テキスト化をおこない執筆する形態に代わるかもしれません。音声で入力した方が文字入力よりも話す方が効率良いですし。
このアプリは無料ですので使っていない方は一度は試してみてはいかがでしょうか。
Otterは周囲の騒音をカット
ところでこれまでの音声テキスト化ツールを使用するにあたっては、録音する環境が静かでなければ良質なデータは録れませんでした。ただ、それでは議論が飛び交う会議の場や、周囲がざわついている環境での実用性は低くなりますよね。
もちろん、どんな状況でも完璧に認識できるわけではないですが、実際の利用者の経験からみて、Otterは9割以上の精度で聞き取り、テキスト化してくれるそうです。しかも、テキストをタップすれば、「その文字が記録された時点で実際に話していた音声」が再生される機能付き。これなら元の音声でどう話していたかを聞き直して確認するのも簡単ですよね。
残念ながらこのサービスは現在英語版のみ。いつか日本語に対応したバージョンも登場してくれることを祈りましょう。
NTTドコモの音声認識API
今度は日本の音声テキスト化ツールの中に組み込むAPIについてご紹介します。
以前、音声認識を利用してそれを自然言語に変換し、発音するプログラムを作成した方の話を聞いたことがあるのですが、その際に利用されていたのがこのAPIでした。
NTTドコモの音声認識APIはなかなかの精度で解析してくれるそうで、なぜ日本のサービスNTTのAPIの精度が優れているのかというと、やはり何十年も音声データが蓄積してきたことが大きいから。
現在のAI(人工知能)は大量のデータがある方が有利なものが多いので、音声認識データについてはそれだけアドバンテージがあります。しかし、日本語自体の利用量は英語に比べて利用頻度は低いです。音声テキスト化するにしてもOtterのような英語のツールに比べたらまだまだデータが必要でしょう。
プログラミング開発をおこなっている方は是非一度利用してみてください。
ここまで音声テキスト化ツールについてお話しました。
最初にも述べましたが、現在はスマートスピーカーなどで各社がAI(人工知能)の音声認識の分野でしのぎを削っているところ。
画像認識に比べて音声認識は遅れていましたが、音声認識にディープラーニングを活用することにより、画像認識と同じように研究段階での音声認識の技術力が上がり、それに伴い実務面でも優れた音声テキスト化可能なツールも次々に現れてくる可能性があります。
もし先ほどお伝えしたOtterのような、雑踏の中でも音声テキスト化ができるツールが日本でも一般化されれば、良質なテキストデータが得られるので音声認識の精度はまだまだ上がると期待できるでしょう。
ですから人のアウトプットの手段は基本的に文字と音声ですから音声認識の発展はまだまだこれからなのではないでしょうか。
しかし、Googleの音声認識のように、利用できるものはどんどん使っていきたいものです。AI(人工知能)音声テキスト化ツールでは難しい部分は人が補う様にしてツールを使っていきましょう。