【わかりやすく図解】生成AIとは?AIエンジニアが仕組みを解説!
これまで人間がおこなってきたクリエイティブな仕事も、生成AIの登場により格段と楽になりました。
そんな生成AIが急速に発展する中、その仕組みや従来のAIとの違いについて理解を深めぬままでは、ひょっとしたら時代の流れに乗り遅れてしまうことも。
そこで本記事では、図解を用いて生成AIの基本概念や可能性を分かりやすく解説しますので、視覚的に理解しやすい記事となっています。
生成AIとは

生成AIとは、文章、動画、音声、画像、さまざまな形式の成果物を生成できるAIおよびそのサービスのことを言います。
ここ数年で一気に世の中へ普及した生成AIですが、実は大規模言語モデル(LLM)の研究成果は2017~2018年ごろにすでに出ていました。
本節では生成AIの概要を、より詳しく解説していこうと思います。
生成AIにできること
生成AIは、多岐にわたる分野でその能力を発揮します。
“生成”と聞けば何となく「生み出すこと」にのみ特化したような印象を受けますが、実際にできることは以下のように多いのです。
- 文章の要約
- 言語の翻訳
- 音声の文字起こし
- 論理的解釈、思考
- 写真を動かす
生成AIによってこれまで人間が担ってきた作業の多くを代替(または拡張)することが可能となったため、作業効率や生産性が格段と上がったという声も多くあります。
生成AIの種類
生成AIには主に以下の4種類があります。
- テキスト生成AI
- 画像生成AI
- 動画生成AI
- 音声生成AI
テキスト生成AIは、文脈整合性の取れた自然な文章を自動で作り出してくれるため、記事や報告書の作成時に役に立ちます。小説などの創作物の生成も可能です。
画像生成AIは非常にクオリティの高いビジュアルやデザインを自動で描いてくれるため、クリエイティブな作業がぐっとラクになります。しかし、この技術に各国の法整備が追いついていないので、あくまで使用はアイディエーションのレベルに留めておくことが望ましいでしょう。
動画生成AIは、映像コンテンツ作成してくれるAIで、こちらも画像生成同様にハイクオリティなものを作ることが可能です。マーケティングやエンタメの現場でも注目されています。しかし、有効な学習用のデータ数がテキストや画像に比べ少ないため、まだまだ技術的課題は残されていそうです。
最後に、音声生成AIですが、これは人間のような自然な声を合成してくれるものや音楽を生成するものがあります。音声アシスタントやナレーション用途で、すでに企業がビジネスに応用しています。NHKのニュース報道番組では、音声生成AIがナレーションを読み上げるという試みもあるほどです。
生成AIと従来のAIの違い
生成AIと従来型のAIとの主な違いは、その目的と機能にあります。
従来のAIは、データの分類や予測、ルールに基づく処理など、特定のタスクを正確かつ効率的に実行することを目的として設計されています。
一方、生成AIは、テキスト・画像・音声といった新しいコンテンツを自ら生み出す能力を備えており、より創造的な用途に対応しています。従来型のAIが主にラベル付きデータや明確なアルゴリズムに依存するのに対し、生成AIは大規模なデータセットとディープラーニング技術を活用することで、柔軟かつ多様な応答が可能になります。
このような特性から、生成AIはクリエイティブ分野や対話型のアプリケーションなど、これまでのAIでは対応が難しかった領域での活用が広がっています。
生成AIを使う方法
さて、そんな便利な生成AIを使う方法についてですが、昨今はさまざまな方法でその技術アセットにアクセスすることが可能となっています。
本節では3つの方法について解説していきます。
公式アプリで生成AIを使う
この方法は、ユーザーにとって最も手軽かつ直感的な方法です。
有名な公式アプリで言えば、ChatGPT・Claude・Grokなどのテキスト生成AIがイメージつきやすいかもしれません。
これら公式アプリはPCまたはスマホからログインすることで、簡単に使うことができます。また、UI(ユーザーインターフェース)も洗練されており、非常に扱いやすいのが何よりの特徴です。
ただし、日常的に主要機能を使うためには月額サブスクリプションの課金が必要なため、注意が必要です。
APIで生成AIを使う
API(Application Programming Interface)とは、異なるソフトウェア間で機能やデータを共有するための仕組みのことを指します。
生成AIをAPI経由で使用すると、開発者にとっては柔軟性の高いカスタマイズが可能となります。
基本的にはどの生成AIも、APIを通じて基本機能を使うことができ、さらには従量課金(使った量に応じて課金)を採用しているところがほとんどなので、APIは「使いたい時に使いたい分だけ」といった運用が可能になります。
ただし、主にAPIはサービス開発などに使われることが目的のものなので、サードパーティアプリを作る予定がなければ、基本的には公式アプリを使うことになるでしょう。
サードパーティサービスで生成AIを使う
生成AIを使う方法3つ目は、「サードパーティサービスを使う」です。
サードパーティとは直訳すると「当事者ではない第三者」となり、今回の場合で言うと「生成AIの技術を活用したタスク特化型アプリおよびサービス」のことを指します。
基本、何かに特化したサービス設計がなされているので、“記事を書くことに特化したサービス”・“議事録をまとめることに特化したサービス”などのように、特定目的のユーザーにとって最適化された仕様であることが多いのです。
つまり、余計な機能がなくて便利なサービスということになります。
もし、お仕事で生成AIを活用したい時には、もしかしたら、汎用的な公式アプリではなくサードパーティサービスの方が適しているかもしれません。
生成AIが使われているサードパーティサービス事例5選

生成AIはがここまで普及した背景には、単純にその技術の魅力だけではなく、いわゆる「サードパーティサービス」の普及があると言われています。
実際、デスクワーカーの中には「ChatGPTを使ったことはほとんどない、むしろサードパーティサービスをメインに使っている」という人もいるくらいです。
ここからは、そんな便利なサードパーティサービスについての具体事例をご紹介してまいります。
GenSpark(AIエージェント)
GenSparkは、生成AIを搭載したAIエージェントプラットフォームです。主な機能は、「スライド作成」「表作成・処理」「情報リサーチ機能」「ドライブ機能」などがあります。
例えば、テーマややりたいことをAIチャットへ投げかけるだけで、プロのコンサルタントが作ったようなプレゼンテーションスライドを作成することができます。また、この機能にはファクトチェック機能も付与されているため、AI特有のハルシネーションによる余計な業務コストも心配が少ないのが特徴です。
GenSparkは、業種や業務内容に応じた柔軟な導入が可能で、業務効率化と顧客満足度の両立を支援するソリューションとして注目されています。
PLAUD NOTE(議事録AIデバイス)
PLAUD NOTE(プラウドノート)は、生成AIを活用して議事録作成を自動化すことができるツールです。会議中の発言内容をリアルタイムで記録し、自動で要約・整理を行うことで、情報の共有がスムーズに行えるよう設計されています。
多言語対応も特徴の一つで、112か国語に対応した文字起こし機能を搭載。グローバルな会議や多国籍チームでの活用にも対応しています。
セキュリティ面では、データの暗号化やアクセス制限といった対策が導入されており、企業の機密情報も安全に扱うことが可能です。
ただし、ローカルLLM(クラウドではなくデバイスで動くモデル)を採用していないため、インターネット環境下でないと動かないため、使用時には注意が必要です。
ZenDesk(AIチャットボット)
Zendeskは、チャットボットに特化した生成AIサードパーティアプリです。Webサイト・SNS・メールなど多様なチャネルに対応しています。
企業ごとのニーズに合わせた柔軟なカスタマイズにも対応しており、ブランドイメージに沿ったコミュニケーション設計が可能となっているのが特徴です。
さらに、顧客データの分析機能も搭載しており、問い合わせの傾向を把握しながら、サービス改善や運用最適化に活用できます。
支払いはドル建てのカード払いが基本なので、為替の影響を受けやすい点には留意しておくといいでしょう。
Perplexity(AI検索プラットフォーム)
Perplexityは、ユーザーが直感的に情報を検索・取得できる環境を提供してくれるAI検索エンジンです。
従来のキーワードベースの検索とは異なり、複雑な質問やあいまいなリクエストにも高い精度で応答できるのが特徴です。情報ソースにリアルタイムでアクセスし、関連性の高い内容を素早く整理・提示できるため、ビジネス・教育・研究など幅広い分野で活用が進んでいます。
生成AIのAPI公開が始まる前後からいち早く技術を取り入れ、そのスピード感で瞬く間に大量のユーザー数を獲得したのが印象深いです。
生成AIの使用については、OpenAIのGPT‑4系モデルや自社開発のSonar(MetaのLlamaをベースにファインチューニング)といった複数のLLMを切り替えて活用しています。
POPLOG(記事作成AI)
POPLOGは、ユーザーが高品質な記事を迅速に生成できるSaaS・Webアプリケーションです。
従来の手動によるコンテンツ作成と比較して、時間と労力を大幅に削減し、SEOに最適化された文章を半自動的に作成することが可能です。
このサービスは、Leograph株式会社とCOUNTER株式会社の共同開発・運営により2024年初頭に始ま離ました。(参考: PR TIMESのCOUNTER株式会社のプレスリリース)
多様な業界や用途に対応が可能で、ビジネスブログ、ニュース記事、技術文書など幅広い分野で活用されています。また、ユーザーのニーズに応じたカスタマイズ機能(ファインチューニング機能)を備えており、独自性の高いコンテンツ制作をすることも可能です。
さらに、POPLOGはインタビューライティングに特化した記事生成をすることも可能で、多様なニーズに応えます。
生成AIの仕組みをわかりやすく解説
生成AIがいかに情報を受け取り、いかにレスポンスを返すのか。気になる方も多いのではないかと思います。
しかし、Webで「生成AI 仕組み」と検索をしても、概要だけが表示されて詳しい解説をしている記事はあまり見当たらないですよね。
本節では生成AIの仕組みについて、図解とともにわかりやすく解説していきたいかと思います。
生成AIができるまでの流れ【図解】
まず、多種多様な生成AIを網羅的に理解することは難しいので、ここでは「画像生成AI」を扱うこととします。
画像生成AIは、今世の中にある生成AIの進化を後押ししたような存在で、ある意味では生成AIを理解するのに最も適しているものだと筆者は考えます。

まず、画像生成AIモデルを作るためにはモデルを学習させなければなりません。
この際に登場する二つの重要な役割が「鑑定器」と「生成器」です。それぞれの役割は以下のとおりです。
- 鑑定器:
- 実際の画像の特徴量を把握する
- 生成器に描き方を教える
- 生成器:
- 初期はノイズがかった画像だけ描く
- 鑑定器から描き方を教わる
この二つが相互に干渉し合うことで、最終的に“実際の画像に近い何か”を描く能力を持つAIモデルが出来上がるのです。

そして、人間が生成器に「〇〇の画像を描いて」とリクエストを送ると、生成器はリクエストから推論される“最も確からしいもの”を生成し、レスポンスとして返します。
この生成(機構)を鍛えるためのAI学習工程こそが、「Generative AI(ジェネレーティブAI、生成的人工知能)」と呼称される所以です。
画像分類との違い

ここで、一つ疑問に思うのが「画像“生成”」と「画像“分類”」って何が違うのか、ということ。
タスクとしては生み出すことと仕分けることで全く違うのですが、どちらも画像をデータとして学習されたAIモデルであることには変わりません。しかし、その仕組みが実際にどうなっているのかまでをわかる人は多くないでしょう。
画像分類のAIモデルの学習を一言でわかりやすく表現するなら、「先生に配られた“問題集”の答えを当てる優等生」です。正解はあらかじめ用意されています。
入力に必要なものは画像だけで良くて、「これは何の画像か」を当てるためにひたすら問題を解くだけで良いのです。
画像生成は「視界をクリアにしていく」

一方、画像生成の場合は「何も見ずに“それっぽい絵”を書き、先生を騙す作家」という表現が適切のように思います。
実は、この“何かしらの物体を認識していくプロセス”は、人間が視覚を用いて認識していくものと非常に近いと言われています。
まとめ
今後の企業・個人は生成AIを使うべきだという言説はいくらでもあるものの、じゃあその仕組みについて知っておくべきだという話はあまり聞きません。
筆者としましては、最低限「自身が扱うテクノロジー」については知っておかないと最大限に活用ができないのではないかと考えております。
ぜひ、この記事を参考に生成AIについてより深く知っていただければ幸いと思います。
この記事の著者

児玉慶一
執行役員/ AI・ITエンジニア
愛称: ケーイチ
1999年2月生まれ。大学へ現役進学後数ヶ月で通信キャリアの営業代理店を経験。営業商材をもとに100名規模の学生団体を構築。個人事業主として2018年〜2020年2月まで活動したのち、2020年4月に広告営業事業を営む株式会社TOYを創業。同時期にITの可能性を感じプログラミングを始め、現在はITエンジニアとして活動中。2021年にLeograph株式会社に参画し、AI研究開発やWebアプリ開発などを手掛ける。 「Don't repeat yourself(重複作業をなくそう)」「Garbage in, Garbage out(無意味なデータは、無意味な結果をもたらす)」をモットーにエンジニア業務をこなす。
【得意領域】
業務効率化AIモデル開発
事業課題、戦略工程からシステム開発
Webマーケティング戦略からSaaS開発