ビギナー向け生成AIのキホン講座 #1

はじめに
株式会社TechWorker 古野 光太朗です。
弊社では生成AIの導入支援を行っており、今回の記事の内容は、さくらインターネット様の社内向け生成AI勉強会にて私が講演した内容を記事化し、一部新たに更新・追記したものです。この記事を読むことで、生成AIビギナーの方も基本的な知識が身につけられます。
全2回に分けて解説をしており、第1回目では、現在に至るまでのAIの歴史から、生成AIを支える技術の全貌を大まかに捉えられる内容となっています。第2回目では、実際に生成AIを使うにあたって知っておくべき情報をまとめて解説する予定です!
それでは、まずは生成AIの勢いがどのくらいすごいのか、そして、どのような種類があるのかから見ていきましょう!
生成AIの躍進
ChatGPTの登場
まず、生成AIが一般の方からも注目されるようになった大きなきっかけは、言うまでもなくChatGPTの登場です。
ChatGPTは、2022年11月にOpenAI社からリリースされ、チャット形式でAIと自然に対話できるユーザー体験は瞬く間に広がり、わずか5日でユーザ数100万人を突破しました。
次の図を見ていただくとわかる通り、これは世界的に見ても圧倒的な速度であり、2024年4月時点では、ChatGPTユーザ数は全世界1億8050万人になったといわれています。
※出典:https://www.reuters.com/technology/chatgpt-traffic-slips-again-third-month-row-2023-09-07/
生成AIの種類
次にChatGPT以外に、どのような生成AIのサービスがあるのかを見ていきましょう。
生成AIとは、テキスト、画像、動画などのコンテンツを作成できるAIの総称です。生成AIには「モデル」という概念があり、テキストを生成できるChatGPTやClaude(クロード)、画像や動画を生成できるDALL-E3(ダリ・スリー)やMidjourney(ミッドジャーニー)など、モデルの異なる様々なサービスが存在します。
生成AIモデルによって精度や特徴が異なり、生成物にはその違いが現れます。代表的な生成AIモデルは、海外のスタートアップやメガテック企業を中心に、日々開発が進められています。
また、多くのサービスでは自然言語を使った指示により、テキストや画像などを生成することが可能となっています。この生成AIから質の高い出力を得るための指示を書くことを、プロンプトエンジニアリングと呼びます。
AIの歴史
それでは次に、これまでAIがどういう歴史を歩み、今の生成AIの躍進に至ったのかをかんたんに振り返ってみましょう。
第1次AIブーム
第1次AIブームは、1950年代から始まりました。
実は、1956年のダートマス会議ではじめて「Artificial Intelligence (人工知能)」、つまり「AI」という言葉が使われたのです。初期のAIは単純なゲームや問題解決には成功しましたが、技術的制約やコンピュータの性能の限界により進展が鈍化し、1970年代半ばには「AIの冬」と呼ばれる低迷期に突入します。
第2次AIブーム
1980年代の第2次AIブームは、エキスパートシステムの商業的成功によって牽引されました。
エキスパートシステムとは、医療や金融など特定の分野の専門知識を模倣し、意思決定をサポートするものでした。しかし、エキスパートシステム自体が高価であることや、性能的な限界が明らかになるにつれ、投資と関心が再び減少し、1990年代初頭には再び低迷期に入ります。
第3次AIブーム
そして、2010年代中盤以降から、インターネットに接続するデバイスの普及やGPUの活用が進み、いよいよ第3次AIブームが始まります。
このブームは、機械学習の一種であるディープラーニングの飛躍的な進化によって加速します。ディープラーニングを用いて、画像やテキスト、音楽などのコンテンツを生成する「生成AI」が実現されるのです。このブームは現在も続いていますが、ブームの広がりと比例するように、プライバシー侵害の懸念や倫理的問題など、多くの課題も指摘されています。
この点についてはまた後ほど触れることにして、次からはここまでに登場した機械学習、ディープラーニング、生成AIが、AIという技術の中でどういう立ち位置なのかを見ていきましょう。
AIの包含関係
「Artificial Intelligence (人工知能)」は、人間の持つ知能をコンピュータで実現しようとする技術の総称ですが、ここまでに登場した「機械学習」「ディープラーニング」「生成AI」とAIは、次のような包含関係があります。
※ 機械学習は、マシンラーニングを略してMLとも呼ばれます。
※ 深層学習は、ディープラーニングを略してDLとも呼ばれます。
機械学習とは、コンピュータがデータを使って学習し、新しいデータに対する予測や分類を行う技術を指します。例えば、たくさんの猫の画像を与え、そこから共通点や特徴を学習し、新しく与えられた画像が猫か否かを予測する場合などには、機械学習が用いられます。
機械学習に包含される深層学習は、機械学習モデルの1つです。
機械学習モデルには、数値の予測に使われる線形回帰、分類を行うロジスティック回帰など様々なモデルが存在しますが、深層学習ではニューラルネットワークを多層化する手法で、より高度な学習を実現しています。
※ なお、機械学習モデルのパラメータを最適化するのが「アルゴリズム」の役割です。
そして、生成AIは深層学習を応用して、テキスト、画像、音声などを生成する技術を指しています。
次からはそれぞれをもう少し詳しく見ていきましょう。
AI(人工知能)とは
AIは前述の通り、人間の持つ知能をコンピュータで実現しようとする技術の総称ですが、大きく分けると汎用人工知能と特化型人工知能の2つのカテゴリに分類することができます。汎用人工知能とは、人間と同等の知能水準を持ち、人間が行うような様々なタスクや問題を解決できるAIを指します。一方で、現在広く使われているのは特化型人工知能と呼ばれる、特定のタスクに特化した設計のAIで、具体的には顔認識や言語翻訳などが挙げられます。
機械学習(マシンラーニング・ML)とは
機械学習は前述の通り、コンピュータがデータを使って学習し、新しいデータに対する予測や分類を行う技術を指します。機械学習モデルには様々な種類がありますが、大きく教師あり学習と教師なし学習に分類されます。
まず、教師あり学習は、ラベル付きデータを使用してモデルを訓練する方法です。先程例に挙げた猫かどうかを判断するケースの場合は、たくさんの猫の画像を正解データ、猫でないものを不正解データとして与えることで、より精度の高い予測をすることができます。このラベルを付与する作業を「アノテーション」と呼びます。
次に、教師なし学習は、正解・不正解(正常・異常)などのラベルがないデータを使ってモデルを訓練する手法です。一見するだけではわからないデータの構造やパターンを発見できる可能性があります。
例えば、似た属性を持つ顧客をグルーピング(クラスタリング)したり、異常データがまだない工場の製造レーンで、ひとまず教師なし学習を行い、期待を下回る結果を異常とみなす「しきい値」を設定するなどの使い方が考えられます。
そして、大量のデータが必要な上記の2つとは異なる学習スタイルである強化学習では、予め「報酬」と「負の報酬」を定義します(負の報酬は必須ではありませんが、あれば精度が向上します)。特定の環境やルールの中で報酬を獲得するために試行錯誤することで、よりよい結果を得られるような学習方法です。
報酬とはゲームにおけるスコアやアイテムの獲得で、負の報酬とはゲームオーバーやライフゲージの減少などが考えられます。例えば、プロ棋士を破った囲碁AIには、強化学習が重要な役割を果たしています。他にもお掃除ロボットが最適なルートを判断する場合にも、各部屋の環境の中で、ゴミの吸い取った量を報酬として訓練するなどが考えられます。
深層学習(ディープラーニング・DL)とは
深層学習では、人間の脳の神経細胞である「ニューロン」を模倣した「ニューラルネットワーク」を多層化しており、これにより複雑な問題を処理します。
画像認識、音声認識、自然言語処理など、従来のコンピュータでは難しかった高度なタスクをこなすせるようになり、生成AIが実現されました。
ニューラルネットワーク自体は昔から存在した機械学習の要素技術の1つですが、なぜまた今注目され、生成AIをここまで発展させたのでしょうか?
次はそのあたりをもう少し詳しく見ていきましょう。
生成AIを支える技術
ニューラルネットワーク
まずニューラルネットワークについて、少し詳しく見ていきましょう。
前述のとおり、ニューラルネットワークは、人間の脳の神経細胞であるニューロンを模倣して作られた機械学習の要素技術の1つです。ニューラルネットワークは、入力層、中間層(隠れ層)、出力層という複数の層で構成されています。中間層の数に決まりはなく、複数ある場合もあり、深層学習では2層以上の中間層を持ちます。
入力層は外から与えられるデータ(画像、テキストなど)を受け取る最初の層です。例えば、画像なら画像のもつピクセル値(ピクセルが持つ色情報)が入力層に与えられます。中間層では、入力層から受け取った情報を複雑に処理し、特徴を抽出します。出力層は、中間層で処理された情報を基に、最終的な結果を出力します。
上記の画像はニューラルネットワークを使用して手書きの入力から文字を特定する一例です。ニューラルネットワークは、入力層で受け取った手書き文字を、中間層で複雑に処理し、どの文字を表しているかを予想して出力します。
中間層の処理をかんたんに説明すると、画像やテキストなどのデータが数値として入力層に入り、各層に存在するニューロンに信号として伝達されていきます。その際に、各信号に重みと呼ばれる数値をかけ、総和を求めてから、活性化関数と呼ばれる関数を適用し、また次のニューロンに渡される…というプロセスを経て、最終的には出力層にたどり着きます。重みが大きいほど最終的な出力結果への影響も大きくなるため、学習の過程で重みは更新されていきます。
Transoformer
では、現在のような生成AIブームが到来したのには、どのような技術的発展があったのでしょうか。
それは2017年にGoogle Brainの研究者を中心としたチームが発表したAttention Is All You Needという論文がきっかけでした。その論文の中で、トランスフォーマーと呼ばれる深層学習モデルが発表されました。Self-Attentionメカニズムという革新的な仕組みを導入し、それまで難しかった長文の自然言語処理の精度を飛躍的に向上させたのです。さらにこのSelf-Attentionは並列処理との相性がよく、GPUなどのプロセッサーにより高速に学習することが可能になり、複雑な処理もこなせるようになりました。
このトランスフォーマーは、現在のChatGPT、Stable Diffusion、Microsoft Copilotに至る、重要な要素技術となりました。
おしまい
いかがだったでしょうか?
専門的な内容を可能な限り噛み砕いて解説させていただきましたが、もし物足りないと感じた場合は、ぜひChatGPTやGeminiなどの生成AIに質問をして、さらに踏み込んで調べてみてくださいね!
次回は生成AIを使うにあたって、知っておくべき情報をまとめて解説いたしますので、ぜひお楽しみに!
TechWorkerについて
株式会社TechWorkerは、 生成AIを導入したけど"なぜか社内で活用されていない"を解決するために生成AIソリューションを法人向けに提供しております。具体的には、生成AIの適用可能な用途の特定、適切な生成AI手段の選定、ビジネス要件に合わせたカスタマイズ、そして従業員が新しい技術を効果的に利用できるようにするためのトレーニングを実施しています。
社内の生成AI人材育成をお考えの場合は、ぜひ株式会社TechWorkerにご相談ください!
記事協力
さくらインターネット株式会社 社長室
イノベーション共創グループ スタートアップチーム
新発田 大地