現在世の中はインターネットが普及し、それどころかIoTという言葉も出てきてあらゆるモノまでインターネットに繋がる時代になりましたよね。インターネットを通じて大量に収集され蓄積されたデータをビッグデータと呼びますが、私たちがコンピュータで扱っているデータには「構造化データ」と「非構造化データ」の二つがあります。
AI(機械学習)の理解を深めるにあたって、これらの用語の意味を理解することは非常に重要です。そこで今回は、「構造化データ」と「非構造化データ」についてお伝えして行きましょう。
一言で言うと「構造化データ/非構造化データ」とは・・・
非構造化データ:人間が読むために作られたデータです
世の中の多くは「非構造化データ」である
パソコンやスマートホンなどの通信機器が普及した現在では、私たちがコンピュータで扱っているデータには大きく分けて2種類があります。
一つは、コンピュータが理解できるように、構造的に作られた「構造化データ」です。これはコンピュータが処理できるようにルールに従ってつくられたデータ、行と列を持つ表形式のデータのことです。身近なところでは、データベースや表計算のデータ、CSVデータが該当します。
もう一つは、人間が読むために作られた「非構造化データ」です。例えばワードで作成した文書テキスト、画像、音声などが挙げられます。これは人間が読んで内容を理解したり解釈したりできる、人間が人間のために作ったデータです。
通常、「非構造化データ」はコンピュータにはその意図までは伝わりません。今話題のビッグデータのほとんどは、文章、音声、画像、センサーデバイスなどから蓄積されたデータで、80%以上が非構造化データだと言われています。
これまで、AI(人工知能)へのデータ活用は「構造化データ」を中心に行われてきましたが、ディープラーニング(Deep Learning)が発展したことで、画像やテキスト、音声データと行った「非構造化データ」に関する識別性能が大幅に向上しました。
ディープラーニングとは、深層学習とも呼ばれ、脳の神経ネットワークを単純化してコンピュータのプログラム上で再現した技術です。さらに詳しく知りたい方はコチラ
ただ、「構造化データ」「非構造データ」どちらの場合も、機械学習アルゴリズムを用いてモデルを構築するためには、データの形式を変換する「前処理」が必要になってきます。
前処理とは、データをAI(人工知能)が学習しやすいよう、前もって加工しておく処理のことです。
まとめ
つまり、「構造化データ/非構造化データ」とは、
AI(人工知能)って「なにそれ美味しいの?」ってレベルだった僕が、AIエンジニアを目指してステップを踏んだり踏まれたりしている記事を書いてます。よかったら読んでみてください(実話)。
コメントをどうぞ