2024年10月22日、Stability AIが待望の新バージョン「Stable Diffusion 3.5」を発表しました。
「Large」「Large Turbo」の2つのモデルが即日リリースされ、続いて10月29日に「Medium」モデルもリリースされました。
本記事では、これら3つのモデルの特徴や実力について詳しく解説していきます。
Stable Diffusion 3.5とは
Stable Diffusion 3.5は、AI画像生成における高いカスタマイズ性とパフォーマンスを誇る新モデルです。
優れたカスタマイズ性
Stable Diffusion 3.5は、優れたカスタマイズ機能と使いやすい操作性を両立しており、クリエイターのさまざまな要望に柔軟に応えることができます。
モデルを簡単にファインチューニングでき、カスタマイズされたワークフローに基づくアプリケーションの構築ができます。
ファインチューニングとは、AIの分野において、既存の学習済みモデルを特定の作業やデータセットに最適化するために、調整する技術です。
効率的なパフォーマンス
Stable Diffusion 3.5は、一般的なハードウェアでの使用を考慮して設計されています。
とくにMediumモデルは、テキストエンコーダーを省いたVRAM使用量が9.9GBと効率的で、多くの一般消費者向けGPUに対応しています。
Largeモデル、Large Turboモデルでも、一般的に使われている消費者向けハードウェアに高負荷をかけずに動作するよう設計されています。
これにより、専門的な制作環境がなくても、高品質な画像生成が可能となっています。
また、プロンプト順守率と美的クオリティにおいても、従来モデルを超える性能を発揮しています。
多様な画像生成
Stable Diffusion 3.5は、驚くべき多様性を持つ画像生成が可能です。
3D画像や写真、絵画、線画など、多彩なスタイルや美しさを表現することが可能です。
特筆すべきは、広範な指示を必要とせずに、特定の人物に限らず、多様な肌の色や特徴を持つ画像を生成できる点です。
多彩なビジュアル表現に柔軟に対応できるため、クリエイターは従来以上に自由な発想で作品制作に取り組めるようになります。
3つのモデルの特徴
Stable Diffusion 3.5には3つのモデルがあります。
Stable Diffusion 3.5 Large
Stable Diffusion 3.5 Largeは、このバージョンのフラッグシップモデルとして位置づけられています。
80億のパラメータを持つこの基本モデルは、Stable Diffusionファミリーの中で最も強力な性能を誇ります。
1メガピクセルの解像度での画像生成に対応しており、プロフェッショナルな使用事例に最適な設計となっています。
Stable Diffusion 3.5 Large Turbo
Stable Diffusion 3.5 Large Turboは、Largeモデルの蒸留版(最適化版)として開発されました。
わずか4ステップという短時間で高品質な画像を生成できる点が最大の特徴です。
Largeモデルと比較してはるかに高速な処理が可能です。
Stable Diffusion 3.5 Medium
Stable Diffusion 3.5 Mediumは、26億のパラメータを持つモデルとして設計されています。
0.25〜2メガピクセルまでの解像度に対応し、一般的なハードウェアにおいても、スムーズな動作をする設計となっています。
各モデルのユースケース
Stable Diffusion 3.5は、ユーザーの目的や用途に応じて最適なモデルを選択することができます。
Largeモデルは高解像度の画像を生成できる機能を備えており、商用利用やビジネス現場での利用に適しています。
Large Turboモデルは高品質の画像を高速で生成したい場合に最適です。
Mediumモデルは個人ユーザーが使いやすいように開発されており、効率的な高いパフォーマンスを求める場合に最適です。
Stable Diffusion 3.5 の利用料金とライセンス
最後に、利用料金や商用利用の条件について紹介します。
利用料金について
Stable Diffusion 3.5は、ローカルの環境であれば無料で使用できます。
ただし、Hugging Face、Stability AI API、Replicate、DeepInfra、ComfyUIなどのプラットフォームを通じて利用する際は、各サービスの料金体系に応じた費用が発生する場合があります。
商用利用の条件
非営利目的での利用は、個人および組織を問わず完全無料となっています。
これには科学研究目的での利用も含まれ、教育機関や研究機関での活用も可能です。
商用利用に関しては、年間の収益が100万ドルに満たない中小企業やスタートアップ企業、クリエイターについては、無料で利用することができます。
年間の収益が100万ドルを超える企業については、別途エンタープライズライセンスの取得が必要となります。
このような段階的なライセンス構造により、企業規模に応じた適切な利用環境が整備されています。
Stable Diffusion 3.5は、高品質な画像生成能力と使いやすさを兼ね備えた画期的なモデルとして注目を集めています。
まとめ
3つのモデルの特徴を理解し、目的や用途に応じて適切に使い分けることで、クリエイティブワークの効率と品質を大きく向上させることが期待できます。
商用利用も含めた柔軟なライセンス体系と合わせて、これからのAI時代におけるクリエイティブの可能性を広げる強力なツールとして、ぜひ活用を検討してみてください。
コメント