生成AI

生成AIは4種類もある!代表サービス12選の料金を徹底比較して使い分けよう!【2025年最新版】

この記事へ辿り着いた方の多くは、「生成AIを使いたいけどどれを選べばいいかわからない」「使っているけど使いこなせていない」「もっと生成AIの種類を知りたい」など、とにかく生成AIについて深くご興味のある方だと推察します。

その注目される理由はなんと言っても便利な技術で“時間短縮・業務効率”につながる魅力にあるでしょう。

しかし、近年の生成AIは急速に進化し、専門家でも最新情報にキャッチアップするのに苦戦している場合もあります。

そこで、今回は日々の業務で生成AIを使い倒している筆者が、生成AIの種類一覧と代表的なサービスを多数ご紹介しますので、今後のご利用の際の参考にしていただければ幸いです。

生成AIの種類一覧

生成AIのサービスが多すぎて混乱してしまいそうになりますが、実はできることの大分類で言えば「生成AIは4種類しかない」んです。

その特性を組み合わせたり、UIにこだわったり、サードパーティアプリが生まれたりして大量のサービスが生まれているわけです。しかし基本的には4種類しかないと考えて差し支えありません。

本節ではその4種類の生成AIについて概要をご紹介したいと思います。

テキスト生成AI

テキスト生成AIは、人間の言語表現を模倣して多種多様な文章を自動的に生成する最も基本的な生成AIの技術です。ニュース記事の要約やマーケティングコンテンツの生成、CSの自動応答など、幅広い用途で活用されています。

その特性として、便利なポイントは文脈を理解し適切なトーンやスタイルで文章を構築することが可能な点です。

これまではニュース記事の全体を読み込むことで、その文章のテーマを解釈した上でキーワードを抽出、そこから文脈理解を含めた要約を人間が行わなければなりませんでした。この面倒な作業を機械的に処理することができるようになったため、テキスト生成AIは業務範囲で非常に役立っています。

また、言語の翻訳にも非常に高精度で対応できるため、いわゆる言語の壁がなくなったとも言われています。

画像生成AI

画像生成AIは、その文字通り画像を生成することができるAIです。テキストプロンプトから推測される画像を作成することができます。

このAIは、出始めの頃はあまり精度が良くなかったのですが、最近は格段とハイクオリティな画像生成が可能になってきていて、パッと見では本物の画像と見分けがつかないレベルのものまで作ることができます。

また、最近は単純なテキストからの生成だけでなく、物体やカラーコードの指定、論理的処理などを組み合わせた画像生成AIサービスも台頭してきました(マルチモーダル)。そのため、広告デザインやウェブコンテンツの制作、ゲームや映画のビジュアル開発など、さまざまなクリエイティブ分野で広く利用されています。

しかし、そのクオリティの高さがアダとなってか倫理的に問題があるとされる分野にまで手を伸ばしつつあるのも事実です。このあたりについては「生成AIを使う際の注意点」にて後述します。

音声生成AI

生成AIはテキストや画像だけでなく“音声”も生成することができます。ここで言う音声とは人間の肉声のみならずオーディオ全般、つまり音楽の生成も指します。

音声生成AIの活用範囲は、音声アシスタント・ナレーション・オーディオブック・BGMの作成などに使われており、こちらも同様に幅広い業務で役に立っているようです。

テキスト生成AIの文脈理解と文章生成と組み合わせると、もはや人間と会話しているのと遜色ないレベルの音声生成が可能になります。

また、音楽生成のレベルも非常に高く、一部では批判の声も上がるほどです。これも倫理的・法的解釈が難しいため、もし音楽の生成AIを商用利用したい場合は「あくまでアイディエーションに留める」といった利用方法が推奨されます。

動画生成AI

これまで紹介した生成AIよりも一際高次元な処理を要する、動画生成AIもご紹介します。

動画生成AIも他の生成AIと同様にテキストプロンプトを受け取って動画を生成します。実際にYouTubeなどで動画生成AIについて検索をしてみてください。そのレベル感に圧倒されるかと思います。

かなり精度の高い動画を作ることができますが、難点は「長編動画の生成」にはまだ至っていない点です。

というのも、生成AIを作るためには超膨大な量のデータを集めなければなりません。そのデータの容量が大きければ大きいほど、AIの学習コストは飛躍的に上がってしまいます。また、モデルのリアルタイム推論も時間とコストがかかってしまいます。

そんな難点を抱える動画生成AIは、他の生成AIに比べてまだコストの削減に苦戦しているのが現状です。しかし、それも時間が解決すると言われているのも事実です。

一般利用が盛んになった際には、映画やテレビ番組の制作、広告映像の作成、教育用ビデオの生成、などの幅広い分野で活用されていくようになるでしょう。

実際にマクドナルド社の広告動画にはAIで生成されたものが使用されたり、NBA(アメリカのプロバスケリーグ)の最も試聴されるファイナルシリーズでAI生成された動画が流れるなどの商用利用事例もちらほらとあります。

生成AIを使い分けるポイント

ここまで4種類の生成AIについて解説しましたが、実際には世の中に大量の生成AIサービスが存在します。サードパーティアプリまで含めればその数は数万件にも上る可能性すらあります。

そんな中、実際に利用するにはいくつかの使い分けポイントがあると便利ですよね。

本節では3つのポイントをご紹介します。

業務効率化できるかどうか

生成AIを選ぶ際にまず考えたいのは、「業務効率化につながるか?」という点です。やはりここまで生成AIが普及したのは現場での業務利用で重宝されるようになったからでしょう。

その判断には、今の業務プロセスを細かく分解し、どの部分をAIが担えるのかを見極める必要があります。例えば、データ入力や定型レポート作成など、繰り返しが多い作業は生成AIとの相性が良く、人のリソースを高付加価値な業務へ振り分けることが可能です。

数時間の手作業が生成AIの導入によって「どれだけ短縮できるのか」「ミスの発生率がどれだけ下がるのか」といった定量的な効果を見積もることもできるはずです。

最終的に、その判断基準を持って業務効率化へ繋げられるかが判明します。

コストパフォーマンス

コストパフォーマンスも生成AIを使う際の判断基準としては持ち合わせておきたいものです。しかし、導入コストだけを見て「高い・安い」と判断するのは早計です。

見るべきはそのサービスが「どれだけ価値を生み出せるか」という費用対効果の部分です。月額数ドルで済むものもあれば、プランによっては月額数万円以上に登るものもありますが、場合によっては人一人を雇うよりも安く済む可能性すらあります。

また、APIの使用の際は従量課金プランが主流ですので、自身が使用すべきものとお財布事情のバランスよく考えておくと良いでしょう。

サービスの得意分野を見つける

生成AIはどれも万能というわけではなく、それぞれに「得意な土俵」があります。UIデザインが得意だというものや、プログラムコーディングが得意というもの、課題解決が得意だというものもあります。

また、最近ではAIエージェントという名で複数のタスクを横断してこなしてくれるサービスも出てきていますが、個別タスクだけで考えれば1種類の生成AIを使った方が精度が高くなることもあります。

このように、AIの得意分野と自社(自身)の活用目的を丁寧にマッチングさせることが、無駄のない選定につながります。

生成AIを使う際の注意点

さて、非常に便利な技術で魅力のある生成AIですが、便利すぎるがゆえに時代の流れと我々の考えがマッチしていない現象が起きています。

それが「法的リスク」と「倫理的問題」です。

時代とともにアップデートされていくこの二つの考えは、得てしてテクノロジーに翻弄されてきました。この生成AI時代も例外ではありません。

どんなリスクがあるのか、また注意すべきはどんなことか、本節で触れておきたいと思います。

ハルシネーションに注意

ハルシネーションとは、生成AIが事実と異なる情報や誤った内容を生成してしまう現象を指します。元々は精神医学から派生した言葉で、コンピュータービジョン(画像認識)が台頭してきた2000年代に「コンピューターの画像誤認識現象は幻覚のようだ」というアナロジーで定着していった言葉です。

つまり、生成AIが“嘘をつくことがある”ということです。

厄介なのが、生成AIの返すもの(とりわけテキスト生成AIのレスポンス)は体裁の整ったものが多いために、その内容が事実・真実とは乖離したものであっても人間の目には判断がつきづらい点です。

この問題は、特に信頼性が求められるビジネスや医療分野において重大なリスクとなります。

例えばリーガルチェックが面倒だからといって契約書を生成AIに要約させたが、でたらめなチェックが帰ってくる現象。はたまた、SEO担当者が記事を書く時間を短縮しようとして生成AIに書かせたが、事実と違う内容を出稿してしまい検索エンジンにスパム判定を受けてしまう事案。

これらは全てハルシネーションを起こした生成AIをしっかりと検閲していないユーザーの責任です。しっかりと生成AIの成果物と事実・真実との照らし合わせを行う癖をつけておくのがベターです。

ディープフェイクに注意

「ディープフェイク」とは、生成AIを活用して偽造された画像、音声、動画を生成することを言います。

生成AIの成果物は良くも悪くもクオリティが高いため、しばしば悪用される危険性をはらんでいます。

例えばとある有名人の顔と瓜二つの画像を生成し、それにモーションをつけ、音声生成AIでその人の音声をチューニングすれば…まるで有名人の喋っている風景を撮影したかのような映像が生成できてしまいます。

注意したいのが、これをプライベートな環境で行う分には今の所法的なリスクはありません。しかし、SNSなどで面白がって投稿をしてしまったり、またそれによって被害を被る人が出てきた場合は話が違います。

著作権を侵害することがあれば著作権法の各種違反にあたったり、他人の名誉を毀損する事があれば刑法第230条の違反になってしまいます。

生成AIは便利ですが、こういったリスクがあることも承知の上で扱うことを肝に銘じておきましょう。

生成AIの代表サービス12選

ここまで生成AIの概要とその注視すべきポイントを解説してきました。

既に利用している方にとっては新しい発見を、まだ生成AIを利用した事がない方にとっては判断材料になればと思い、本節では代表的な生成AIサービスを12個ご紹介したいと思います。

料金表とサービスの特徴をまとめていますので、ぜひ参考にしていただければ幸いです。

ChatGPT(マルチモーダル)

ChatGPTはOpenAI社が提供するサービスで、テキスト・画像・音声・コード・データなどを 1 つのチャット画面で扱える汎用型AI です。

生成AI時代の火付け役と言っても過言ではないChatGPTは、各競合他社が追いつこうとしても幾度となく引き離すような、生成AIサービスのトップランナーです。

コンテキストウィンドウ(文脈理解の許容範囲)も広く、応答速度もそこそこ速い、仮想サーバー内でのPythonプログラム実行など、このサービスひとつでデスクワーカーの業務の多くをサポートできるような便利な生成AIです。

プラン料金 (USD)API公開
Free$0あり(OpenAI API)
Plus$20/月
Pro$200/月
Team$30/ユーザー/月

Grok(マルチモーダル)

GrokはX(旧 Twitter)の有料プランに標準搭載されている生成AIで、関連会社のxAIが開発および運営をしています。Grok単体で機能するアプリケーションも存在しています。

Xとシームレスに連携させる事ができるので、最新のXトレンドを反映させたテキスト処理などが可能です。他の生成AIにはないプラットフォーマーならではの魅力があります。

その性能は他のサービスと負けず劣らずで、推論モデルの問題解決能力はトップティアに位置していると言っても過言ではないでしょう。

プラン料金 (USD/JPY)API公開
X Premium¥918/月あり(xAI API)
Premium+¥ 6,080/月
SuperGrok Heavy$300/月

Gemini(マルチモーダル)

Geminiは、生成AIの生みの親(または先祖)と言っても過言ではないGoogleの技術者たちが開発した生成AIです。かつてはBardという名称でした。

その特徴は大きく分けて二つあります。

一つは生成AIサービス最大級の100万トークンを超える長文理解可能なコンテキストウィンドウの広さです。普通、これだけの長い文章をインプットにしようとすると、とてつもなくメモリ容量が逼迫されてしまいます。しかし、Geminiは反応速度も速いため、業界でもトップクラスのサービスと言ってもいいでしょう。

さらにもう一つの特徴は、Google Cloud系サービスとのAPI連携が標準で連携されており、表計算はスプレッドシート、ドキュメントはG-Docs、スケジュール管理はG-Calendarなどさまざまな便利アプリを活用する事ができる点でしょう。

Geminiは、Xと同じくプラットフォーマーとしての威厳を見せつつあるようです。

プラン料金 (USD)API公開
Free$0あり(Google AI Studio / Vertex AI)
AI Pro$19.99/月
AI Ultra$249.99/月

Claude(テキスト生成)

Anthropicが開発・運営するClaudeは、レスポンスの倫理観に安定がありつつも、クオリティの高い成果物を提供してくれる優秀な生成AIです。

Claude 4シリーズはHTML/CSSコーディングで業界トップレベルの質、JavaScript出力の質の高さも引けをとりません。また、アーティファクトと呼ばれるその場でインタラクティブにUI表示(マークダウン編集も可能)をすることができるので、わざわざ自分のPC環境を構築しなくてもいい点が便利です。

このことから、UIデザインや資料デザインはClaudeにするという人も少なくありません。

ひとつ欠点があるとすれば、上記の3つまでとは違ってマルチモーダルではないという点です。しかし、逆にタスクをテキスト生成に絞れるということで、Claudeのファンも多いようです。

プラン料金 (USD)API公開
Free$0あり(Anthropic API)
Pro$20/月
Max$100 ~ $200/月
Team$30/ユーザー/月

DALL•E(画像生成)

DALL•E3はかつて一般公開されていた画像生成AIモデル、およびサービスです。現在はChatGPTのUIに統合され、チャット画面からシームレスに画像生成を指示する事ができるようになりました。

しかし、現在もAPIでの呼び出しが可能です。

また、最近は推論モデルと呼ばれる「AIが論理的思考をループすることで最適解を見つける」というモデルとの統合(o1, o3, o4系)により、さらに文脈理解の強い画像生成をする事ができるようになりました。

プラン/品質料金 (USD)API公開
Standard 1024×1024$0.04/画像あり(OpenAI API)
HD 1024×1024$0.08/画像
ChatGPT内利用ChatGPT料金

Midjourney(画像生成)

Midjourneyはアート性の高い写真風・イラスト風表現に秀でていて、Stable Diffusionとともに画像生成ブームを押し上げ・下支えした生成AIです。

Discordを活用したコミュニティ運営が特徴で、元々Discordでのみ動くサービスでした。しかし2024年からは公式ウェブサイトからも利用可能になり、より多くのユーザーが利用するようになりました。

また、ファインチューニング(独自のデータで生成AIの挙動を制御すること)によって、自身の好みのスタイルで画像を生成させることも可能です。

プラン料金 (USD)API公開
Basic$10/月公式API未公開
Standard$30/月
Pro$60/月
Mega$120/月

Stable Diffusion(画像生成)

Stable Diffusionは他のサービスとは違いオープンソースモデルで、ローカルCPUでの推論・ファインチューニング・ControlNetなど拡張性が高いのが特徴です。

ステップ数やネガティブプロンプトを細かく指定でき、プライバシー要件の厳しい企業でもオンプレ環境で運用できます。

しかし、その難点はメモリの負荷が大きすぎて、家庭の一般的なPCでは動作しにくいところ(遅い)です。

そこでStableDiffusionをWebアプリケーションとして使えるようにしたところで、月額サブスクリプションのサービスが始まりました。

プラン料金API公開
Basic (stablediffusionapi)$27/月
Standard$47/月
Premium$147/月

Suno AI(音声生成)

Sunoは歌詞とスタイル指定で、フル楽曲を生成する事ができる音楽に特化した生成AIです。

サービス開始当初からそのクオリティが高く、音楽好き界隈では人気の生成AIとなっています。

stems書き出しにも対応しており、Sunoで生成した音楽を元に楽曲制作をしているプロもいるとかいないとか…噂もあるほどにその精度が高いです。

今後、音楽生成AIと音楽レーベルは戦い合うことになると一部では予想もされています。

プラン料金 (USD)API公開
Basic$0(50クレジット/日)あり(Suno API)
Pro$8/月
Premier$24/月

Udio(音声生成)

UdioもSuno AIと同様に音楽に特化した音声生成AIです。

特徴は、伴奏・メロディ・ボーカルを別レイヤーで編集でき、Remix機能で既存の楽曲を再解釈可能な点にあります。

現状はWeb利用のみですが、今後はAPI公開も期待されているようです。

プラン料金 (USD)API公開
Free$0(10クレジット/日)なし
Standard$10/月
Pro$30/月

ElevenLabs(音声生成)

ElevenLabsは日本ではあまり馴染みのない生成AIですが、このAIもまた精度の高い音声生成をしてくれます。

音声クローンを作成する事ができ、自身の喋り方を真似たAI botを作成する事ができます。

最近では、この生成AIを使って作成した音声クローンを活用し、YouTubeやTwitchなどで自動でコメントを読み上げるバーチャルストリーマーが流行りつつあります。

プラン料金 (USD)API公開
Free$0(10k文字/月)あり
Starter$5/月
Creator$22/月
Pro$99/月
Scale$330/月
Business$1,320/月
Enterpriseカスタム価格

Sora(動画生成)

Soraは、テキストから最長60 秒のシネマティック映像を生成する事ができるモデルです。開発・運営はOpenAIで、ChatGPTのUIからアクセスする事が可能です。

他にも、テキストプロンプト次第ではGIF風のアニメーションや、アニメーションエフェクトのみを作成することもできます。

高度な物理シミュレーションと3D一貫性を保ったカメラワークが特徴で、シーンごとの脚本に沿った動画生成も自動化。

現在はAPI公開はありませんが、このモデルのAPI公開がされれば、クリエイティブのあり方が根本から変わりそうな雰囲気すら感じさせます。

プラン料金 (USD)API公開
ChatGPT Plus内利用Plus $20/月に含む
Pro内利用Pro $200/月に含む

Runway Gen(動画生成)

Runway Genはテキスト/画像/動画入力に対してマルチモーダル編集が可能で、グリーンスクリーン・モーショントラッキングなどポストプロダクション機能を統合した動画生成AIです。

Developer APIでは JSON Promptでフレームごとにスタイルを制御する高度なアニメーション生成が行えます。

プラン料金 (USD)API公開
Standard$15/月あり
Pro$35/月
Unlimited$95/月
Enterpriseカスタム価格

まとめ

本記事では、生成AIの4種類(テキスト、画像、音声、動画)と、それぞれに対応する代表的な12のサービスを詳細に比較・検討しました。

生成AIを活用すると、ベタに業務効率が10倍、下手すれば百倍も登ることだってあり得ます。

この時代に生成AIAIを活用しない手は無いでしょう。

この記事の著者

児玉慶一(ケーイチ)

児玉慶一

執行役員/ AI・ITエンジニア

SNS Xアカウント

愛称: ケーイチ
1999年2月生まれ。大学へ現役進学後数ヶ月で通信キャリアの営業代理店を経験。営業商材をもとに100名規模の学生団体を構築。個人事業主として2018年〜2020年2月まで活動したのち、2020年4月に広告営業事業を営む株式会社TOYを創業。同時期にITの可能性を感じプログラミングを始め、現在はITエンジニアとして活動中。2021年にLeograph株式会社に参画し、AI研究開発やWebアプリ開発などを手掛ける。 「Don't repeat yourself(重複作業をなくそう)」「Garbage in, Garbage out(無意味なデータは、無意味な結果をもたらす)」をモットーにエンジニア業務をこなす。
【得意領域】
業務効率化AIモデル開発
事業課題、戦略工程からシステム開発
Webマーケティング戦略からSaaS開発