ライフスタイル

優秀すぎる!仕事がサクサク進む音声テキスト化のおススメツール

音声認識のイメージ

AI(人工知能)を使った認識ツールといえば画像認識が主ですが、昨今では音声認識をして音声テキスト化できる技術も発達してきています。

AmazonEcoなどのスマートスピーカーは音声認識技術。そして適切な語彙を組み合わせて出力する音声出力技術。これらの発展がなければここまで音声認識が一般化することはありませんでした。それもこれもディープラーニングが出てきてAI(人工知能)技術が発展してきてからでしょう。

ほとんどの人は視覚や聴覚を主に使って外界の情報を取得していますよね。しかしAI(人工知能)の進歩により、それらを人に変わり取得しすることができるようになったのです。

ですから、例えば仕事の中で議事録の作成の際に人が必死になって会話を記述しなくても、AI(人工知能)が音声テキスト化をしてくれます。

そこで今回は、実務で使える便利な音声テキスト化ツールを一つずつ解説していきましょう。

Googleブラウザの音声認識機能

googleアプリのイメージ

そもそも画像認識や音声認識の精度は、原則としてはデータの質と量に依存します。

現在主流なのはビックデータを使用するもの。Googleアプリの音声認識はGoogleの検索エンジンで集められた膨大な量のビックデータを使用したGoogleAPIを利用しているため、使いやすさはトップクラスといっていいでしょう。

そこでまずはGoogleブラウザの音声認識機能についてお話します。

これの凄さといえば、たとえ分かりにくい表現があってもGoogleの膨大なデータベースの中から最適な単語をチョイスしてくれることです。

その意味でいえば自分の言いたかった言い回しを音声テキスト化Googleが提供してくれるので勉強にもなりますよね。

そして、GoogleといえばPCでもスマートフォンでもあらゆる電子媒体に付属(又はウェブ上から無料でダウンロード可能)しているので極端な話場所を選ばずに使うことができます。

そうすることで音声認識の精度が上がり利用者はより便利になり、一方でGoogle側は放っておいてもデータが次々と集まり、データベースが充実する仕組み。

このように、両社がwinwinの関係となるため、GAFAと呼ばれるアメリカの大手IT企業の中でもGoogleは、AI(人工知能)技術に関してかなり先をいくかもしれません。

Googleの音声認識機能は検索フォームのマイクアイコンをクリックすると利用することができます。

Google

物書きのためのSpeechy

Speechyのイメージ

音声テキスト化ツールの使い道の一つとして、会議や対談などを録音しておけば最後にツールを使って得られた文章の整理をするだけで本を出版するときなどに書く手間が省けるかもしれませんし、そうすれば文章を書くのが苦手だったり、面倒くさいと感じる人でも気軽に出版することができますよね。

そこで今度は「Speechy」をご紹介しましょう。

「Speechy」は音声認識技術を利用した音声テキスト化アプリです。
このアプリを実際にダウンロードして使用してみましたが、素晴らしい精度で認識してくれました。普段会話している時と同じペースで話しても正確に認識してくれます。

ですから今読んでくださっているような記事の文章を作成する時でも、将来的には音声認識で音声テキスト化をおこない執筆する形態に代わるかもしれません。音声で入力した方が文字入力よりも話す方が効率良いですし。

このアプリの最大のメリットは、アプリを立ち上げたのちマイクボタンをワンタップするだけで認識が可能なこと。さらにスマホのメモ帳などに認識した文字をそのまま追加することができるという便利機能付きです。

このアプリは無料ですので使っていない方は一度は試してみてはいかがでしょうか。

Speechy

Otterは周囲の騒音をカット

otterのイメージ

ところでこれまでの音声テキスト化ツールを使用するにあたっては、録音する環境が静かでなければ良質なデータは録れませんでした。ただ、それでは議論が飛び交う会議の場や、周囲がざわついている環境での実用性は低くなりますよね。

しかし「Otter」は、周囲が騒々しいなかでの立ち話でも、ある程度その内容を聞き取ってテキスト化するし、話者が複数いる場合も、個々人をある程度は区別して認識してくれるのです。
その使い方として、ボイスレコーダーのように取材時に起動しておけば、会話を録音したうえで、その内容を自動的にテキスト(文字情報)に起こししてくれます。

もちろん、どんな状況でも完璧に認識できるわけではないですが、実際の利用者の経験からみて、Otterは9割以上の精度で聞き取り、テキスト化してくれるそうです。しかも、テキストをタップすれば、「その文字が記録された時点で実際に話していた音声」が再生される機能付き。これなら元の音声でどう話していたかを聞き直して確認するのも簡単ですよね。

残念ながらこのサービスは現在英語版のみ。いつか日本語に対応したバージョンも登場してくれることを祈りましょう。

Otter

NTTドコモの音声認識API

日本のイメージ

今度は日本の音声テキスト化ツールの中に組み込むAPIについてご紹介します。

以前、音声認識を利用してそれを自然言語に変換し、発音するプログラムを作成した方の話を聞いたことがあるのですが、その際に利用されていたのがこのAPIでした。

このAPIの利用方法はとてもシンプルらしく、NTTの音声認識APIの利用登録を「docomo Developer support」というサイトで行った後、そのページで発行される番号をプログラミングするときに使うことで利用が可能です。

NTTドコモの音声認識APIはなかなかの精度で解析してくれるそうで、なぜ日本のサービスNTTのAPIの精度が優れているのかというと、やはり何十年も音声データが蓄積してきたことが大きいから。

現在のAI(人工知能)は大量のデータがある方が有利なものが多いので、音声認識データについてはそれだけアドバンテージがあります。しかし、日本語自体の利用量は英語に比べて利用頻度は低いです。音声テキスト化するにしてもOtterのような英語のツールに比べたらまだまだデータが必要でしょう。

ちなみにこの「docomo Developer support」では音声認識以外にも、音声合成や言語解析、音響認識といったAPIもあります。

プログラミング開発をおこなっている方は是非一度利用してみてください。

docomo Developer support

 

音声のイメージ

ここまで音声テキスト化ツールについてお話しました。

最初にも述べましたが、現在はスマートスピーカーなどで各社がAI(人工知能)の音声認識の分野でしのぎを削っているところ。

画像認識に比べて音声認識は遅れていましたが、音声認識にディープラーニングを活用することにより、画像認識と同じように研究段階での音声認識の技術力が上がり、それに伴い実務面でも優れた音声テキスト化可能なツールも次々に現れてくる可能性があります。

もし先ほどお伝えしたOtterのような、雑踏の中でも音声テキスト化ができるツールが日本でも一般化されれば、良質なテキストデータが得られるので音声認識の精度はまだまだ上がると期待できるでしょう。

ですから人のアウトプットの手段は基本的に文字と音声ですから音声認識の発展はまだまだこれからなのではないでしょうか。

しかし、Googleの音声認識のように、利用できるものはどんどん使っていきたいものです。AI(人工知能)音声テキスト化ツールでは難しい部分は人が補う様にしてツールを使っていきましょう。

トップへ戻る
タイトルとURLをコピーしました