優秀すぎる！仕事がサクサク進む音声テキスト化のおススメツール

AI（人工知能)を使った認識ツールといえば画像認識が主ですが、昨今では音声認識をして音声テキスト化できる技術も発達してきています。

AmazonEcoなどのスマートスピーカーは音声認識技術。そして適切な語彙を組み合わせて出力する音声出力技術。これらの発展がなければここまで音声認識が一般化することはありませんでした。それもこれもディープラーニングが出てきてAI（人工知能)技術が発展してきてからでしょう。

ほとんどの人は視覚や聴覚を主に使って外界の情報を取得していますよね。しかしAI(人工知能）の進歩により、それらを人に変わり取得しすることができるようになったのです。

ですから、例えば仕事の中で議事録の作成の際に人が必死になって会話を記述しなくても、AI（人工知能）が音声テキスト化をしてくれます。

そこで今回は、実務で使える便利な音声テキスト化ツールを一つずつ解説していきましょう。

Googleブラウザの音声認識機能
物書きのためのSpeechy
Otterは周囲の騒音をカット
NTTドコモの音声認識API

Googleブラウザの音声認識機能

そもそも画像認識や音声認識の精度は、原則としてはデータの質と量に依存します。

現在主流なのはビックデータを使用するもの。Googleアプリの音声認識はGoogleの検索エンジンで集められた膨大な量のビックデータを使用したGoogleAPIを利用しているため、使いやすさはトップクラスといっていいでしょう。

そこでまずはGoogleブラウザの音声認識機能についてお話します。

これの凄さといえば、たとえ分かりにくい表現があってもGoogleの膨大なデータベースの中から最適な単語をチョイスしてくれることです。

その意味でいえば自分の言いたかった言い回しを音声テキスト化Googleが提供してくれるので勉強にもなりますよね。

そして、GoogleといえばPCでもスマートフォンでもあらゆる電子媒体に付属(又はウェブ上から無料でダウンロード可能)しているので極端な話場所を選ばずに使うことができます。

そうすることで音声認識の精度が上がり利用者はより便利になり、一方でGoogle側は放っておいてもデータが次々と集まり、データベースが充実する仕組み。

このように、両社がwinwinの関係となるため、GAFAと呼ばれるアメリカの大手IT企業の中でもGoogleは、AI（人工知能)技術に関してかなり先をいくかもしれません。

Googleの音声認識機能は検索フォームのマイクアイコンをクリックすると利用することができます。

Google

物書きのためのSpeechy

音声テキスト化ツールの使い道の一つとして、会議や対談などを録音しておけば最後にツールを使って得られた文章の整理をするだけで本を出版するときなどに書く手間が省けるかもしれませんし、そうすれば文章を書くのが苦手だったり、面倒くさいと感じる人でも気軽に出版することができますよね。

そこで今度は「Speechy」をご紹介しましょう。

「Speechy」は音声認識技術を利用した音声テキスト化アプリです。

このアプリを実際にダウンロードして使用してみましたが、素晴らしい精度で認識してくれました。普段会話している時と同じペースで話しても正確に認識してくれます。

ですから今読んでくださっているような記事の文章を作成する時でも、将来的には音声認識で音声テキスト化をおこない執筆する形態に代わるかもしれません。音声で入力した方が文字入力よりも話す方が効率良いですし。

このアプリの最大のメリットは、アプリを立ち上げたのちマイクボタンをワンタップするだけで認識が可能なこと。さらにスマホのメモ帳などに認識した文字をそのまま追加することができるという便利機能付きです。

このアプリは無料ですので使っていない方は一度は試してみてはいかがでしょうか。

Speechy

Otterは周囲の騒音をカット

ところでこれまでの音声テキスト化ツールを使用するにあたっては、録音する環境が静かでなければ良質なデータは録れませんでした。ただ、それでは議論が飛び交う会議の場や、周囲がざわついている環境での実用性は低くなりますよね。

しかし「Otter」は、周囲が騒々しいなかでの立ち話でも、ある程度その内容を聞き取ってテキスト化するし、話者が複数いる場合も、個々人をある程度は区別して認識してくれるのです。

その使い方として、ボイスレコーダーのように取材時に起動しておけば、会話を録音したうえで、その内容を自動的にテキスト（文字情報）に起こししてくれます。

もちろん、どんな状況でも完璧に認識できるわけではないですが、実際の利用者の経験からみて、Otterは9割以上の精度で聞き取り、テキスト化してくれるそうです。しかも、テキストをタップすれば、「その文字が記録された時点で実際に話していた音声」が再生される機能付き。これなら元の音声でどう話していたかを聞き直して確認するのも簡単ですよね。

残念ながらこのサービスは現在英語版のみ。いつか日本語に対応したバージョンも登場してくれることを祈りましょう。

Otter