2024年8月1日、画像生成AI業界に新たなモデル「FLUX.1(フラックス.1)」が発表されました。
今回は、そんなFLUX.1の概要、モデルの詳細、使用感などをまとめてご紹介します。
FLUX.1とは
Black Forest Labs(BFL)が今回リリースしたのが、テキストから画像を生成する120億パラメータのモデル「FLUX.1」です。
FLUX.1は、最高性能の[pro]、オープンウェイトで非商用利用向けの[dev]、最速で個人利用に適した[schnell]の3つのバリエーションモデルで提供されています。
画像生成AIモデルStable Diffusionで知られる開発者たちが設立したBFLによるFLUX.1は、高品質な画像生成能力と多様な出力が特徴の最新画像生成モデルとなります。
Black Forest Labsについて
Black Forest Labs(BFL)は、元Stable Diffusionの開発者メンバーが新たに立ち上げたAI会社です。
同社は、Robin Rombach氏、Patrick Esser氏、Andreas Blattmann氏などによって2024年に設立され、3100万ドルの資金調達に成功するなど、今注目を集めているようです。
ごめん、知りませんでした・・・
FLUX.1の3つのバリエーションモデル
BFLは、利用者のさまざまなニーズに対応するため、異なる3つのバリエーションモデルを提供しています。
FLUX.1[pro]
APIを通じて提供されている、商用可能な最高性能モデルです。
生成する画像1枚あたり0.05ドル※(約8円)が必要です。※参照:https://docs.bfl.ml/pricing/
Replicateで[pro]を利用する場合
fal.aiで[pro]を利用する場合
FLUX.1[dev]
[dev]は[pro]と同等の品質を持つオープンウェイトモデルです。
基本的に商用不可となっているようですが、どうしても商用利用したい場合はBFLへの問い合わせが必要とのこと。
GitHubリポジトリで[dev]を利用する場合
Replicateで[dev]を利用する場合
fal.aiで[dev]を利用する場合
FLUX.1[schnell]
[schnell]は、Apache 2.0ライセンスで提供される最速かつ軽量なモデルです。
Apacheとは、個人利用から商用利用まで幅広い用途を認め、自由に使用できることを意味します。
Apacheソフトウェア財団が定めた利用規約で、無償での利用、改変、複製、再配布など幅広い権利が許可されています。
GitHubリポジトリで[schnell]を利用する場合
Replicateで[schnell]を利用する場合
fal.aiで[schnell]を利用する場合
FLUX.1の使用とMidjourneyとの比較
今回はFLUX.1をパートナー企業のfal.aiを通して使用することにしました。
GitHub経由でインストールしなくていいし、そもそも私の環境ではメモリ不足でうまく動作しない可能性が99%あるためです。
また、もう一つのパートナー企業であるReplicateからだと、Githubにサインインしないと使用できないため、とりあえず試したい人はfal.aiがおすすめです。
fal.aiにアクセスする
FLUX.1を無料で使用するには、[dev]または[schnell]のどちらかにアクセスしてください。
アクセスしたら次のような画面になりますので、プロンプトを入力して、下にある『Run』をクリックします。(画像サイズやStepsなどはお好みで変えてください)
プロンプトはこちらを使用します。
portrait of an model with pink hair, She is surrounded by delicate flowers in the fog-laden countryside at dawn. The style should be ethereal and dreamy, with soft lighting creating gentle shadows on her face. Her expression reflects mystery and elegance, adding to the overall surrealistic atmosphere.
次のような出力結果になりました。
ちなみに同じプロンプトでMidjourneyで出力すると、次のような結果になります。
こう見るとFLUX.1もきれいなんですが、Midjourneyには負けてしまいますね。
次は、水彩画のイラストスタイルで、文字を入力してやってみました。
プロンプトはこちらを使用します。
A cute ghost dressed in Halloween , holding out an open cauldron of candy with the words “BOO OR TREAT”. Decorated with autumn dots and glitter gems elements on a white background, in the style of a sticker illustration, as a vector art, like a hyper realistic watercolor painting, isolated on a black background, with hyper detailed, high resolution.
FLUX.1による出力結果です。
こちらがMidjourneyによる出力結果です。
文字の入力はどちらも完璧です!またイラストスタイルにすると、結果に差がないように感じました。
ただよく見てみると、プロンプトに忠実なのはFLUX.1です。
「「BOO OR TREAT」と書かれたお菓子の入った大鍋を差し出すハロウィン姿のかわいいお化け」というプロンプトですが、Midjourneyの方は服に書かれてしまっています。
ベンチマークの結果は、FLUX.1が優勢
以下は、BFLが公開しているベンチマークの結果です。
図1
図2
図1、図2を見てみると、FLUX.1の3つのバリエーションモデルは、Midjourney‐V6.0よりも性能が上回っていることがわかります。
(あくまでもV6.0の話であり、V6.1ではMidjourneyが上回っている可能性もある)
まとめ
今回は、FLUX.1の概要、モデルの詳細、使用感などを紹介しました。
現在、FLUX.1[dev]とFLUX.1[schnell]は、各デモページで試すことができます。ただし、あくまでお試しなので、今後はComfyUIやGoogle Colaboratoryなどを使ってFLUX.1を実装する手間が発生します。
Google Colabの場合、Proプランで料金が月額1,179円です。
MidjourneyのBasicプランだと1,472円なので、比較すると293円の差がありますね。
Midjourneyの方がちょっと高いですが、実装の手間や画像の品質を考えるとMidjourneyでいいのでは?と、そう思ってしまう筆者なのでした・・・
コメント