今話題の画像生成「GAN（敵対的生成ネットワーク）」について解説

ディープラーニングは近年大きく進化してきたAI（人工知能）の核となっている技術であり現在も研究開発が進められていますが、そのディープラーニングの新たな技術としてGAN（敵対的⽣成ネットワーク）は注目されていますよね。

機械学習の一種であるディープラーニングは人間の脳の仕組みを真似しているニューラルネットワークを応用した技術です。

従来の機械学習では学習から得られるデータの特徴を人間が決めていましたが、ニューラルネットワークを用いたディープラーニングでは学習からデータの特徴の設定をAI（人工知能）が自動で行えるようになり、これまで無理だった複雑なデータも処理できるようになりました。

そんなディープラーニングは画像認識や音声認識など識別や予測が必要なシステムで応用されていますが、GANはデータを生成するための新たな技術として注目されており、その用途で有名なのが画像生成。しかし、ディープラーニングによるデータの生成であれば他にも技術があるのですが、ではなぜGANが注目されているのでしょうか。

そこで今回GANが注目されている理由や実用例とその仕組みなどについてお伝えしましょう。

GAN（敵対的⽣成ネットワーク）てなに︖
GANは何ができるの︖
1. GANによる画像生成
2. そのほかのGANの応用
GANの特徴とは
GANが学習する仕組みとは
GANは今後どうなるのか
1. 今後GANの進化と普及で懸念されること

GAN（敵対的⽣成ネットワーク）てなに︖

機械学習には主に「教師あり学習」「教師なし学習」「強化学習」と呼ばれるAI（人工知能）の学習方法があります。

そのうちディープラーニングはAI（人工知能）が教師データと呼ばれる正解が与えられたデータをもとにして予測や識別ができるよう学習する「教師あり学習」での応用が一般的で、GANは正解データのないデータそのものから特徴を学習する「教師なし学習」の手法の一つです。

機械学習ではAI（人工知能）に分類・予測などの動作を実行させるために目的に合わせた学習方法でAI（人工知能）に大量のデータを学習させてモデルと呼ばれるシステムを構築します。

この学習で構築できるモデルは主に2つの分類・予測モデルがあります。

一つはAI（人工知能）に何らかの判断をさせる識別モデルで、画像認識などで用いられています。

もう一つはAI（人工知能）に入力されたデータから新しい擬似データを生成させる生成モデルで、GANはこの⽣成モデルに当てはまる技術です。

GANは2014年にイアン・グッドフェロー（機械学習分野の研究者）らが発表した論⽂でアーキテクチャ（論理的構造）として提案されました。

そしてGANの代表的な応用は画像生成ですが、では実際にGANでどのようなことができるのでしょうか。

GANは何ができるの︖

GANは2014年の論文発表から年々研究が進められ現在進行形で性能を高めているので、初期のころよりも応用できる用途に幅が出てきています。

ではGANを応用すると実際に何ができるようになるのかを紹介しましょう。

GANによる画像生成

GANの画像生成では実在しない人物や空間などの画像生成が代表例に挙げられますが、それ以外にもさまざまな種類のGANが登場してできることが増えています。

そこでその中から画像生成で主にできる3つを紹介します。

高解像度の画像生成

GANは従来の生成技術よりもよりも高解像度の画像生成が可能です。

その研究は年々進められ2015年にCNN（畳み込みニューラルネットワーク）というディープラーニングを応用したDCGANと呼ばれる手法で高解像度画像への対応が可能になりました。そして2018年にはBigGANやStyleGANが登場してより高解像度の画像生成が可能になってきています。

画像の変換

GANでは画像を「ゴッホ」や「モネ」「浮世絵」などそれぞれの画風に仕上げることや「普通の馬をシマウマに変換」「夏の風景画像を冬の風景に変換」そして「線画を写真へ変換」などができます。

これらはCycleGANやpix2pixと呼ばれる手法の登場で可能になりました。

文章からの画像生成

一般的に考えて文章から画像を描くのは難しいイメージですが、GANでは画像の特徴を書いた文章から画像生成が可能。

これは2016年にStackGANと呼ばれる手法が登場してテキストの記述内容から画像を生成できるようになりました。

そのほかのGANの応用

GANの応用は画像生成だけでなく動画にも応用されています。

その応用で有名な動画にワシントン大学の研究チームが作成したオバマ元大統領のフェイク動画があります。*2

この動画では画面左に本物のオバマさん、右にニセのオバマさんが並んで映し出されていすが、一見するとどちらがニセモノなのか見分けがつきません。

またまったくの別人が話していることを、あたかもオバマさんが話しているようにすることができるのです。

そして音楽での応用にはビートルズの名曲「Let It Be」をClassicに変換した事例もあり*3、最近ではアニメやゲームでの実用化に向けて動き始め少しずつGANの応用分野が広がっています。

*2　Synthesizing Obama: Learning Lip Sync from Audio

*3　Let It Be (Beatles) – Pop to Classic

GANの特徴とは

GANの大きな特徴の一つは前述の通り画像生成において従来の生成モデルよりも「高解像度画像の生成」が可能になったことです。

同じ生成モデルにはGANの他にVAE（変分オートエンコーダ）などがありますが、それらよりもGANの方が高い精度のデータ生成が可能なので高解像度画像の生成ができるようにました。

そしてこの他の主な特徴には次の3つが挙げられます。

これまでとは違ったデータ生成の手法

例えば画像データだと従来のデータの増やし方はサンプル画像を傾けたり、⾊を変えたりして人工的にデータを増やしていく手法でした。

しかしGANはサンプル画像の特徴を含んだデータをAI（人工知能）自身が新たに生成して増やしていくことが可能。

そしてこの特徴から大量のデータが必要でありながらデータ不足が課題でもあるディープラーニングへの応用が期待され注目されています。

また「オリジナルの特徴を含んだデータを増やす」ことを応⽤して「新しい画像の⽣成」「低画質の画像を⾼画質変換」「⾳声の⽣成」することができるようになりました。

要素の足し算引き算が可能

これは画像生成での応用を例に挙げると、「メガネをかけた男」―「メガネをかけない男」+「メガネをかけない女」という演算を実行すると「メガネをかけた女性」の画像が生成できるようになります。

一般的に考えてもウソみたいなことですが、GANでは可能なのです。この機能によって実在しない人物や空間の画像生成ができます。

⽣成データの評価が難しい

例えばAI（人工知能）が生成した画像データを評価する際に何を基準して行うのかが不透明。そのため人間によって実際に生成された画像を見て評価することが望ましいです。

上記のように「⽣成データの評価が難しい」については生成モデル全般に言える課題になりますが、今後の進展によって打開策が生まれること期待できるでしょう。

「高解像度画像の生成」「これまでとは違ったデータ生成の手法」「要素の足し算引き算が可能」についてはGANによって新たにできるようになったデータ生成の技術です。ではここまで紹介してきた「GANにできる」「GANの特徴」はどのような仕組みで実行されているのでしょうか。

GANが学習する仕組みとは

GANは2つのニューラルネットワークで構成された生成モデル。

1つはGenerator（ジェネレータ）と呼ばれるネットワークで偽物のデータを生成し、もう1つはDiscriminator（ディスクリミネイター）というネットワークでGeneratorが生成した偽物のデータと本物のデータを比べて真贋を判定します。

そしてこの2つのネットワークを競合させることでGeneratorが本物のデータに近い偽物データを⽣成できるようになるのです。

この両者の関係をGeneratorが「名画の贋作を描く画家」、Discriminatorを「鑑定士」だと設定してGANで名画「ゴッホのひまわり」を生成させてみましょう。

まずGeneratorには絵の特徴を示すノイズ（潜在変数）をDiscriminatorには本物の「ゴッホのひまわり」のデータを与えます。Generatorはノイズをもとに「偽物のゴッホのひまわり」を描き、Discriminatorは描かれた偽物を本物と比較して鑑定します。

やはり最初だと出来ばえがよくない絵になってしまうので鑑定士もすぐに見分けがつきますが、「描画」と「鑑定」というイタチごっこを繰り返しお互いが切磋琢磨していくと、Generatorの絵も上達しDiscriminatorも鑑定能力を上がり、最終的にGeneratorは本物に近い「偽物のひまわり」を描けるようになるのです。

このようにGANでは2つのニューラルネットワークをお互いに切磋琢磨させる手法でAI（人工知能）に学習させて、これまでできなかったデータ生成を実現しました。

そしてこのように２つのネットワークが相反する学習を行うので敵対的⽣成ネットワークと呼ばれています。

GANは今後どうなるのか

ここまでお伝えしてきたようにGANはこれまでにない機械学習の手です。そしてすでに画像や音楽、動画の生成で応用され、アニメやゲーム、デザイナーやファッション業界でもGANの実⽤化が進められています。

そのためGANは今後クリエイティブ分野ではもっと盛んに活用されていくと予想できるでしょう。

そしてディープラーニングでもGANによる「新しいデータを作り出す・増やす」が、大量のデータを必要とするディープラーニングの学習用データへの応用にも期待されています。

このようにGANの研究が進めば今後もっとお伝えした分野以外での応用も広がっていき、現在AI（人工知能）開発の主流になっているディープラーニングにも大きな進化をもたらしそうです。

このようにGANの広がりはさまざまな分野でプラスを期待されていますが、その反面懸念されることもあります。

今後GANの進化と普及で懸念されること

現在GANはAI（人工知能）研究者やAI（人工知能）エンジニアだけが扱うものではなく一般でも使用されるようになってきており、GANは初期のころよりも画像生成であれば高解像度画像に生成できるようになり、現在でもひと目では見分けがつかないレベルにまで達しています。

そして今後もっと進化していけば真贋の判別はより困難になってしまうでしょう。

そこで懸念されるのが画像や動画での悪用です。

今世界中がコロナウィルスの猛威にさらされ混乱しています。そんな最中にSNSでウソの情報を流す出来事がありましたよね。それは日本でコロナウィルスが感染拡大しはじめたころにSNSで「トイレットペーパーがなくなる」というウソの情報が拡散されて一時期日用品を扱うお店からトイレットペーパーがなくなるという騒ぎ起きました。

今回の出来事のように心理学から見ると人間はデマを信じやすい傾向にあるようです。

そしてこの件はSNSで投稿されたデマの文章だけで騒動になりましたが、文章ではなく画像や動画だったらどうでしょうか。

実際に記憶にも新しい熊本地震の際には動物園からライオンが脱走し街中に出ているフェイク画像が投稿されたことがあり、このときは大きな混乱にはなりませんでしたが物議を醸しました。

ではこれが動画だったらどうでしょうか。

ひょっとするとライオンのフェイク画像以上に信じる人が多くなり大きな騒ぎになったかも知れませんよね。

そのためGANはこれらのように悪用されてしまう恐れが十分に考えられます。

いくらGANがすばらしい技術でも使い方を間違えれば場合によっては社会に大きな混乱を招く事態が予想できます。

ですからGANが正しく活用されるためにも、法整備やAI（人工知能）開発に携わる関係者だけでなく社会全体に今まで以上の倫理観が必要になるでしょう。