機械学習（強化学習）をイメージでサクッと理解

囲碁AIがトッププロ棋士に勝利したことや、Googleが自動運転に関する特許競争力でトヨタ自動車を追い抜いたなど、日々AI（人工知能）に関するニュースが飛び交っていますよね。今ご紹介したニュースの背景には、AI（人工知能）ブームの火付け役となったディープラーニング（Deep Learning）もさることながら、「強化学習」という技術も深く関わっています。

つっちー

ディープラーニング（Deep Learning）とは、AI（人工知能）を支える中心的な技術のうち、脳の仕組みを単純化して、コンピュータのプログラム上で再現したものの一つです。ディープラーニング（Deep Learning）については以下のページで詳しく解説しています。

ディープラーニング（Deep Learning）

AI（人工知能）に興味のある方なら、「強化学習」という言葉を耳にしたことがある人もいるかもしれません。今回は、こうした囲碁AIや自動運転技術の背景にある「強化学習」についてお伝えしてきます。

もちろん、「強化学習なんて言葉今初めて聞いたよ・・・なんじゃそりゃ」という方もすんなり理解できるように解説していきますので、ご安心ください。

一言で言うと「強化学習」とは・・・
今回お話するのはここ！！
強化学習は赤ちゃんが経験を積んで歩けるようになっていくイメージ
強化学習を支える3つの概念、「環境」「行動」「報酬」
まとめ

一言で言うと「強化学習」とは・・・

赤ちゃんが歩くために何度も試行錯誤をするのと同じで、たくさんの経験から上手くいく行動を学んでいく方法です

つっちー

ちなみに、私は甥っ子が自分の足だけで立つ瞬間に以前立ち合ったのですが、生命の力強さというか感動で胸がいっぱいになりました！素晴らしい思い出として残っています(^^)

今回お話するのはここ！！

「強化学習」は機械学習でできることのうちの一つです！それでは「強化学習」について詳しく見ていきましょう。

つっちー

機械学習とは、（AI（人工知能）の中心をなす技術で、プログラム自身が学習していく仕組みです。「機械学習」については以下のページで詳しく解説しています。

機械学習

AI（人工知能）に興味のある方なら、「機械学習」という言葉を聞いたことがあるかもしれません。しかし、「AI（人工知能）とは？」「機械学習とは？」と聞かれて答えるとなるとなかなか難しいものですよね。私も説明できずに困った苦い思い出があります。今回は、誰もがわかるように機械学習についてお伝えします。

強化学習は赤ちゃんが経験を積んで歩けるようになっていくイメージ

「強化学習」を理解するには、赤ちゃんの例がわかりやすいです。赤ちゃんは、はじめは上手く歩けませんよね。みなさんご存知の通り、何度も何度も自分で歩こうと試行錯誤します。失敗を繰り返しながら、上手くいく歩き方を習得していき、自然と歩けるようになっていきます。

そして今回のテーマである「強化学習」とは、この例のように経験から試行錯誤をして、ある目的を達成するにはこの場合どうすれば良いかといったような最適な行動を、コンピュータが学んでいく手法のことを言います。

強化学習を支える3つの概念、「環境」「行動」「報酬」

強化学習を理解するには、「環境」「行動」「報酬」という3つの概念が重要です。

※ひとまず、以下の3つの概念があるんだな〜ぐらいの軽い認識でOKです。

環境・・・ある時点の状態
行動・・・その状態での実際の行動
報酬・・・その行動によって上がったスコアや目標に対する貢献

今回「強化学習」を赤ちゃんの例に置き換えて説明しましたが、「強化学習」では赤ちゃんのこと（学習を行う主体）をエージェントと言います。

赤ちゃん（エージェント）は、まだ歩くことができないという状態（環境）で歩こうと挑戦し（行動）、その挑戦（行動）によってどれだけ歩けたか（報酬）が、より大きくなるように努力を続けていくというわけです。

つまり、「強化学習」におけるエージェントは、「環境」において何かしらの「行動」を起こし、その行動から得られる「報酬」を獲得するという処理を何度も反復することで、報酬の合計が一番大きくなるように学習していきます。

「強化学習」は、最近では自動運転やゲームAIなどの分野で非常に注目を集めている技術であり、今後もさらなる活用が期待できるでしょう！

まとめ

つまり、「強化学習」とは、

経験を通じて試行錯誤をし、ある目的を達成するためにこの場合どうすれば上手くいくか、といった最適な行動をコンピュータが学んでいく手法です。

＜参考＞・神崎洋治（2018).『シンギュラリティ (やさしく知りたい先端科学シリーズ3)』株式会社創元社.

・韮原祐介(2018).『いちばんやさしい機械学習プロジェクトの教本』株式会社インプレス.

・有賀康顕, 中山心太, 西林孝(2018).『仕事ではじめる機械学習』株式会社オライリー・ジャパン.

・自動運転の特許評価でグーグルがトヨタ逆転

つっちー

AI（人工知能）って「なにそれ美味しいの？」ってレベルだった僕が、AIエンジニアを目指してステップを踏んだり踏まれたりしている記事を書いてます。よかったら読んでみてください（実話）。

「歩く負債」と言われた僕がゼロからAIエンジニアになる為のステップを実践してみた！

ABOUT THE AUTHOR

この記事をかいた人 / つっちー

小中と囲碁に熱中していた僕は囲碁AIがプロ棋士に勝利したニュースに衝撃を受け、興奮を抑え切れず会社を辞める。プログラミング未経験からAIエンジニアになるべく独学して運良くAI開発会社に拾われた後約1ヶ月で実力不足で左遷され今はAIZINE編集員に。「だけど私なりますよ、AI（機械学習）エンジニアに！！」

いつもニコニコしてると言われ、現に生まれて初めてのあだ名は「ニコニコマン」。子供時代は笑いすぎで自然と腹筋がシックスパックに。笑った顔と苦しい顔をよく勘違いされるのが悩み。就寝前の瞑想が日課。

一言で言うと「強化学習」とは・・・

今回お話するのはここ！！

強化学習は赤ちゃんが経験を積んで歩けるようになっていくイメージ

強化学習を支える3つの概念、「環境」「行動」「報酬」

まとめ

この記事を読んだ人におすすめ

コメントをどうぞ