AIとは何か

【3分でわかる】GAN(敵対的生成ネットワーク)の画像生成の仕組み

【3分でわかる】GAN(敵対的生成ネットワーク)の画像生成の仕組み

近年、注目されているAI(人工知能)技術の一つがGANですよね。

テクノロジーの進化にともなって、パソコンさえあれば自分で撮った写真を自宅でプリントアウトしたり、手軽に加工したりすることが可能になりました。

写真や画像の加工技術は年々進化し、現在はAI(人工知能)を使用したシステムも登場しています。

例えばパソコン上で描いたイラストへAI(人工知能)が自動で着色するWebサービスもその一つ。また最近、テレビ番組やネットで昔の白黒写真や映像をカラー化したものを見かけるようになりましたよね。

実はこのカラー化にAI(人工知能)が使用されており、その技術はGANなのです。そして現在GANは新しい画像生成技術として注目されています。

そこで今回はGANについて、その詳細をお伝えしましょう。

GAN(敵対的⽣成ネットワーク)とは

GAN(敵対的⽣成ネットワーク)とは

GANとはGenerative Adversarial Networkの略で、日本語では敵対的生成ネットワークと呼ばれています。そしてGANは2014年にAI(人工知能)研究者のイアン・グッドフェロー氏によって考え出されたAI(人工知能)を使用した画像生成技術です。

現在、さまざまなAI(人工知能)開発で使用されている手法がディープラーニング。ディープラーニングは人間の脳神経ネットワークを真似たニューラルネットワークと呼ばれるモデル(計算方法)を用いた最新のAI(人工知能)技術になります。

そしてGANでは2つのニューラルネットワークを使用して画像生成を行います。

ではGANの詳しい仕組みについてご紹介しましょう。

GAN(敵対性⽣成ネットワーク)による画像⽣成の仕組み

GAN(敵対性⽣成ネットワーク)による画像⽣成の仕組み

GANの仕組みを紹介する前に、ディープラーニングについて説明します。

これまでに開発されてきた多くのAI(人工知能)で用いられているのが機械学習と呼ばれる技術。

機械学習とは教師あり学習・教師なし学習・強化学習と呼ばれる学習方法によって、人間が持つ知的能力と同じような能力をコンピュータプログラムで実現させるAI(人工知能)技術になります。

そのうちのよく使用されている教師あり学習から進化したのがディープラーニングです。
教師あり学習では対象とする課題の正解・不正解の判断や予測を行わせるために基準となる特徴を、正解をセットにした学習用データからAI(人工知能)に学習させます。

そして以前はその特徴を人間が設定してAI(人工知能)に学ばせていました。しかしこの方法では精度の向上に限界があったのです。

そこで新たに登場したニューラルネットワークを機械学習に用いることで、データからAI(人工知能)自身が学習し自動で特徴を導きだせるようになり、従来よりも高精度の予測や判断が可能になりました。これがディープラーニングです。

ディープラーニングの登場はAI(人工知能)を飛躍的に進化させ、現在に至ります。

そしてGANもディープラーニングの応用技術でありニューラルネットワークを2つ使用するという、これまでになかった方法で画像生成を行います。

Generator(ジェネレーター)とDiscriminator(ディスクリミネイター)

GANはGenerator(ジェネレーター)とDiscriminator(ディスクリミネイター)という2つのニューラルネットワークで構成された仕組みです。
そしてGANの学習方法は教師なし学習(教師なし学習では正解・不正解を学習するのではなく、データからパターンなどを学習する方法です。)になります。

Generatorは日本語で生成ネットワークといい、目標になる画像のノイズと呼ばれる特徴をもとにして画像を生成していきます。そしてGeneratorが生成した画像と目標にしている画像が与えられ、両者を識別していくのが識別ネットワークと呼ばれるDiscriminatorです。

もちろん最初にGeneratorが生成した画像は目標画像にほど遠いものにしかなりません。

しかし「Generatorによる画像生成」と「Discriminatorによる識別」を繰り返し行い切磋琢磨させることで、限りなく本物に近い偽物の画像が生成されるようになるのです。

そのため最終的にはDiscriminatorが贋作だと識別できないほど、高精度の偽物画像がGeneratorによって生成されます。

これがGANによる画像生成の仕組みです。

GAN(敵対性⽣成ネットワーク)を使うことのメリット・デメリット

GAN(敵対性⽣成ネットワーク)を使うことのメリット・デメリット

先ほど紹介したGANの画像生成方法からも分かるように、GANは画期的なAI(人工知能)技術です。

しかしまだまだ発展途上の技術であり、大きなメリットもあれば課題となっているデメリットもあります。

GANのメリット

GANを使用するメリットは主に次の3つになります。

高画質画像が生成できる

GANが誕生する以前にも、VAE(変分オートエンコーダ)という画像生成技術がありましたが、それよりもGANは高品質画像の生成が行えます。

他の技術と組み合わせることが可能

GANは単体としてだけでなく、他の技術とも組み合わせることができます。

例えばテキストデータを数値形式に表現できるword2vecと組み合わせると、「メガネをかけた女性 – 女性 + 男性」の演算で「メガネをかけた男性」の画像生成が可能になります。

元データの特徴を含んだ新しいデータが生成できる

GANのデータを生成する仕組みがディープラーニングをサポートする技術として注目されています。その理由は、大量データを必要とするディープラーニングでデータ不足が課題になっているからです。

そしてGANはサンプルの特徴を持った新たなデータを生成できるので、ディープラーニングで必要なデータへの応用が期待されています。

GANのデメリット

現在、挙げられているGANのデメリットは次の2つです。

生成した画像の評価が難しい

GANで生成した画像の類似性を厳密に評価する場合、見た目ではなく数値的に判断しなくてはなりません。

例えば株価の予測であればその先の結果を基準にして、AI(人工知能)が出した予測を数値的に評価することができます。

しかし、GANで生成された画像を数値的に評価できる方法は現在のところありません。

学習が不安定

最初の画像生成では簡単に偽物だと識別されるので学習しなくなる勾配消失問題と、学習が進み生成された画像が識別をクリアできるようになり、偏った特徴の画像しか生成しなくなる問題がGANにはあります。
紹介した2つのデメリットには現在も根本的な解決策はなく、今後の課題です。

しかし日々、課題を解決するための研究は進んでいます。そして研究によって、これまでにさまざまなGANが開発されてきました。

GAN(敵対的⽣成ネットワーク)を使った画像⽣成の例

GAN(敵対的⽣成ネットワーク)を使った画像⽣成の例

2014年にGANが考案されて数年が経ち、その間に研究が進み次のような種類のGANが登場してきました。

ここではそれらのGANによって可能になった画像生成の例を紹介します。

CycleGAN

CycleGANとは全く関係のない2つの画像を使用して、互いに特徴を似せた画像を生成しあうことができます。

例えば風景写真をスケッチ画や絵画風の画像に生成したり、普通の馬をシマウマに変換したりなどの画像生成が可能です。

StyleGAN

StyleGANは人の目では見抜けないほどの非常に高画質な画像生成ができます。また低画質の画像を高い解像度の画像に仕上げることや、複数人の顔をもとに実在しない人物の顔画像を生成することも可能です。

StackGAN

StackGANは文章をもとに画像生成することができます。

そのため音声での画像修正や脚本からアニメを作ることも可能になるでしょう。

・Age-cGAN

Age-cGANでは人間の顔を年齢別に高画質な画像で生成できます。

例えば自分の顔画像を若くしたり、老けさせたりすることも可能です。

この他にも数種類のGANが開発されています。

今後も研究が進めば、前章で紹介したデメリットを抑えた新しいGANの誕生も期待できます。

GAN(敵対的⽣成ネットワーク)を応⽤すると、できること

GAN(敵対的⽣成ネットワーク)を応⽤すると、できること

お伝えしてきたようにGANの研究は進み、初期のころよりもさまざまな画像生成が可能になってきました。そしてGANの技術は画像だけでなく動画でも応用されています。

それがディープフェイク。

2020年の年末にTBSの「もしも!AI動画ランド」というバラエティー番組でディープフェイクを使って、有名なアスリートや芸能人の顔を交換し、実際にはありえないリアルな動画を作り放送していました。

ディープフェイクを使用すればこの番組内で放送された動画のように、Aさんの体にBさんの顔を合成したリアルな動画を生成することができます。

このようにテレビ番組で取り上げられるほど、ディープフェイクも画期的な技術として注目されていますが、悪用されるケースが発生し大きな社会問題にもなっています。

2020年の10月にディープフェイクを悪用した事件が起きました。それはディープフェイクを使って女性芸能人の顔をアダルト動画に合成して配信し摘発された事件です。

このようにディープフェイクを悪用するケースは世界中で発生しています。

またGANは音声にも応用できるので、合成音声によってイギリスのエネルギー企業が詐欺に合う事件も起きています。
GANはこれからのAI(人工知能)を大きく進化させる可能性を秘めた技術ですが、その反面で使い方によっては世の中を混乱させてしまう要素も十分含んでいるので、間違った使用への対策は早急な課題です。

 

まとめ

GANはディープラーニングで用いているニューラルネットワークを2つ使用して画像生成を行う最新のAI(人工知能)技術です。

そして仕組みはGenerator(ジェネレーター)とDiscriminator(ディスクリミネイター)という2つのニューラルネットワークで構成されています。

Generatorでは目標画像の特徴だけをもとにして画像生成を行い、Discriminatorがその生成された画像と目標画像を見比べて識別していきます。そして「Generatorによる画像生成」と「Discriminatorによる識別」の作業を繰り返すことで、真贋の見分けがつかないほどの高画質画像が生成されます。

このようにGANはこれまでにない方法で画像生成が行える画期的な技術なのです。

しかし発展途上の技術なので大きなメリットもあれば、その反面で解決しなければならないデメリットもあります。そしてGANの誕生から数年が経過しましたが、日々の研究で進化したさまざまな種類のGANが開発されてきました。これまでの進化の具合を見れば、今後デメリットを抑えたGANが誕生してくるでしょう。

また期待される反面で、紹介したように現在GANは悪用され世界中で社会問題にもなっており、そのため研究開発と同時に悪用を防ぐ何らかの対策も急がれます。

現在のところ世の中に及ぼす陰と陽の影響が半々ぐらいで共存していますが、その計り知れない可能性が良い方に向かって進化すれば、必ずGANは明るく世の中を照らす存在になるでしょう。

【お知らせ】

当メディア(AIZINE)を運営しているAI(人工知能)/DX(デジタルトランスフォーメーション)開発会社お多福ラボでは「福をふりまく」をミッションに、スピード、提案内容、価格、全てにおいて期待を上回り、徹底的な顧客志向で小規模から大規模ソリューションまで幅広く対応しています。

御社の悩みを強みに変える仕組みづくりのお手伝いを致しますので、ぜひご相談ください。

お多福ラボコーポレートサイトへのバナー

トップへ戻る
タイトルとURLをコピーしました