令和の時代になっても、手渡しで配られる小学校のプリント、届くFAXはWordで書いたものをわざわざ印刷したもの、メールに添付された資料は印刷したエクセルをPDF化したもの…もううんざりですよね。
テキストのデータでぽんともらえれば早く済む仕事も、画像データで来てしまうともう一度パソコンに打ち直す必要があります。普段パソコンで仕事をしている人なら、このような事態に何度か直面したことがあるでしょう。
そんなときは、画像データをテキストデータに変換できる「OCR」がおすすめです!OCRソフトには色々あり、一昔前は有償のものが主流でしたが、実は普段使っているGoogleドライブで、お手軽にOCRができてしまうんです!
そこでこの記事では、OCRをGoogleドライブに任せる方法と、実際にGoogleドライブでのOCRはどのくらいの正解率なのかをご紹介します。
GoogleドライブでOCRをおこなう方法
まずはOCRをGoogleドライブでやる方法をご紹介しましょう。
- 画像データをGoogleドライブに入れる
- OCRしたい画像データを右クリック→アプリで開く→Googleドキュメントを選択
- テキスト化完了!
たったの3ステップです。
パソコンで仕事をしている人でしたら、Googleのアカウントを持っている人が多いはずです。新たにOCR専用のソフトをインストールすることなく、テキスト化ができてしまいます。とても便利ですよね!
実際にOCRをGoogleドライブに任せてみた
では実際にどのくらい正確に読み取ってくれるかを検証していきましょう。
実は私、数年前にどうしてもOCRしたい問題集があって(300ページくらい)、色々試したことのあるOCR探究者です!(そのときは結局諦めました…泣)
Wordに打ち込んだ横書きの文章
まずはWordに打ち込んだ、普通の文章です。(文章は、青空文庫さんの「羅生門」をお借りしました)
こちらをスクリーンショットで画像化し、GoogleドキュメントでOCRしてみます。
おお!できました!パッと見、ほとんど合っているような感じです。突然の英語にも、冷静に対応しているのが、とっても好感を持てますよね。
この読み込んだテキストがどのくらい合っているのか、テキストの差分を教えてくれるツールにかけてみました。
かなり正解率は高いです!間違っているのは、普段はあまり使わない難しい漢字が中心ですね。
…でもサンプル文章のチョイスを間違えてしまった気がします…。
とはいえ、この程度の間違いなら、画像データを確認しながらちょいちょい直すだけです。これを全部打ち込むことを考えたら、かなりの時間短縮になりますよね。
縦書きの文章
今度は縦書きに挑戦です。縦書きというのは日本独特の文化ですので対応が難しいのか、認識率が落ちるソフトや、無理やり横書きで読んでひどい結果になるOCRソフトがあります(遠い目)。さて、Googleさんのお手並み拝見です。
はい完了!ちなみに、このくらいのデータだと、10秒くらいでテキスト化してくれます。
横書きより、ほんの少しだけ認識率が落ちましたが、このくらいなら許容範囲です。
段組みレイアウトの文章
段組みもまた、OCRソフトが苦手とするところです。段組みレイアウトであることを理解してくれず、スペースを入れて次の段を読み込んでしまうため、めっちゃくちゃな文章が出来上がることがあります。さてさて、Googleさんはどうでしょうか。
あっ…やだ、Googleさん。続けて読んじゃってる…。段組みは苦手のようですね。段同士のマージンが少し狭かったのかもしれません。
手書き文章
無謀にも、手書きにチャレンジです。
突然入りこんだアルファベットが、まるでJ-POPの歌詞のようで何ともロックな風情です。
私の字にクセがありすぎるので、これはGoogleの敗北というよりは、私の字の敗北です…。
というか、こんなクセ字なのに、むしろよく読み取ってくれていると評価すべきでしょう。平仮名の認識率はなかなかのものですよね。
手書き風フォント
私の字がひどすぎて検証にならなかったので、手書き風フォントを使ってみました。
すると、かなりの認識率!字が整った人なら、十分読み取ってくれそうです!
名刺
さてテキスト化したいものは、なにも長々した文章だけではありません。例えば、名刺。会社の名前に人の名前、それに地名。なんて読むのか分からず、さてどうやってパソコンに打ち込むか…とキーボードの前で固まってしまうこともしばしばですよね。
ということで、仮の名刺を作ってみました。これで検証してみます!(住所などはもちろん仮です)
おっと!やるじゃないの、Googleドキュメント!!
段組みレイアウトの読み取りがいまいちだったので実はあまり期待していなかったんですが、かなりの認識率です。郵便番号のマーク以外は、全て正確に読み取っています!あら、すごいのね!
パンフレット
ちょうど手元にあったパンフレットを試してみました。
何も考えず、スマホでパチリ。ハッキリ言って、ひどい写真です。さて、グーグルさんはどう料理してくれるんでしょうか。
おお!意外とちゃんと読んでる!すごい!ピントもあっていないし、向きも間違っているようなひどい状態でも、頑張って読み取ってくれています!すごいね、Google!
Tシャツのプリント
これは息子のTシャツのプリントです。なんでこんなものを撮ったのかというと、この英語の意味を知りたかったからです。さて、さっそくOCRをGoogleさんにしてもらいまひょか。
Great!ちゃんと読み取ってる!英語の部分はちょっとかわいいフォントですが、一言一句間違いがありません。上の方の、「00」やら「TOOMOOT」からは、この汽車のイラストをなんとかテキスト化しようとした、Googleさんの努力がうかがい知れます。ごめんね、Googleさん。そこは読み取らなくていいの。
テキスト化されていれば、このままコピペで翻訳サイトにかけられます(この後、翻訳サイトにかけて意味を知った母。息子から質問があっても堂々と答えられます)。
保育園からのお知らせ
最後に、保育園からのお知らせもパチリとしてみました。こういったプリントはすぐにたまるので、後で見返すものは写真を撮っておくんですが、日々の写真に埋もれてしまって、見返したいときに探しまくるというのは、あるあるですよね。
もしテキスト化できれば、キーワードで検索できるため、とっても助かるんですが、Googleさんはやってくださるのでしょうか。お願いします!
これもやはり段組みレイアウトの上、突然の「ドナースだより」というパワーワードで出鼻をくじかれ少し心配していましたが、ちゃんと読み取ってくれています。この程度の認識率なら、感染症になった場合の登園の目安を確認するだけでしたら、十分です。
病名で検索をかければ、一発でこのプリントを探し出せますよね。これなら、「あれー?あのプリント、いつ頃配られたっけー?」と思いながら画像ストリームをスクロールしまくるストレスから解放されます。
さて、OCRをGoogleドライブで簡単にする方法と、実際にいろいろなものをGoogleに読み取ってもらい、その認識率を検証しました。特にパソコンで作られた、いわゆるワープロ打ちの資料はかなりの認識率でした。
私はこの機能、最近知ったんですが、今では保育園からのお便りは全てOCR化するためにGoogleドライブにぶちこんでいます。便利~♪
テキスト化しなくてはならないデータが数百ページあるならともかく、200文字程度だったら、いちいちOCRソフトをインストールするのも面倒くさいですよね。しかし、普段使っているGoogleドライブでお手軽にできてしまうなら、試してみる価値ありです。
上司からFAXで届いた文章修正データ、お客さんと交換した名刺、保育園や小学校で配られるプリント、OCRしたいものは全部、Googleに任せてみましょう!
コメントをどうぞ