機械学習に関する記事を読んでいて、テキストマイニングという言葉を見かけたことのある方は多いことでしょう。データから価値ある知見を導き出してデータ活用の可能性を大きく広げる分析手法としての「データマイニング」に似た言葉なので、なんとなくイメージはつきそうですが、なかなかはっきりと言葉の意味を理解している人は少ないかもしれません。
そこで今回はテキストマイニングについてお伝えしていきます。
一言で言うと「テキストマイニング」とは・・・
テキストマイニングによって数値データだけでは困難だった分析に手を広げられる
大量のテキストデータから有益な知見を得るプロセスのことを総称して、「テキストマイニング」と言います。
現在Webには多様かつ大量のテキストデータが存在しています。SNSやチャットでのコミュニケーション、ブログ、Amazonのレビューなど挙げだしたら切りがありませんよね。みなさんがWeb上で日々大量のテキストデータに触れているように、これらから得られるデータの大半がテキストデータです。
また、アンケートの自由記述からもテキストが取得できます。分析対象に数値だけではなくテキストも含めるということは、単に扱えるデータサイズが増えるということに止まらず、評判や不満点などの定性的なデータまで扱えることになるので、近年ではテキストマイニングの有効活用が注目されています。
何かしらのログやアンケートによって得られる数値データからは、あくまでデータ解析者が想定した問題に対するデータしか取得できません。自由記述によるテキストデータでは想定外の回答を得られることもあります。このように、テキストマイニングを活用することによって数値データだけでは困難だった分析に手を広げることができるようになるのです。
まとめ
つまり、テキストマイニングとは
<参考>
AI(人工知能)って「なにそれ美味しいの?」ってレベルだった僕が、AIエンジニアを目指してステップを踏んだり踏まれたりしている記事を書いてます。よかったら読んでみてください(実話)。
コメントをどうぞ