GPT-4o(オムニ)の性能とベンチマーク調査!活用例も紹介

OpenAIのGPT4oとは AI
この記事は約8分で読めます。

本記事では、5月13日に発表されたばかりのOpenAIの最新AI言語モデル「GPT-4o」について、その性能や特徴、活用法などをわかりやすく解説します。

GPT-4oは、従来の言語モデルをベンチマークとした場合、その性能を大きく上回るものとなっています。画像認識や対話の強化など、テキスト以外の分野にも応用できる包括的なモデルです。AIの進化を実感できる内容となっていますので、ぜひ最後までご覧ください。

スポンサーリンク
スポンサーリンク

GPT-4oとは

GPT-4oは、”omni(オムニ)”という意味を持つ”o”が付けられたOpenAIの最新のAI言語モデルです。

オムニは、”すべて”や”全体”を表しています。これは、従来のテキストに基づく会話だけでなく、画像認識や言葉を使った対話の強化など、テキスト以外の対話手法も含むという意味が”o”に込められています。

GPT-4oでは、前のバージョンであるGPT-4 Turboよりも速く、コスト効率(API)も安いという特性を持っています。そして、ChatGPTの全てのユーザーが(無料でも有料でも)この新モデルを利用することができます。

GPT-4oの価格(API)

GPT-4oのAPI料金は、GPT-4 Turboの半額程度です。

入力トークンは5ドル(778円)、出力トークンは15ドル(2,335円)です。どちらも、100万トークンあたりの料金となっています。

他のモデルの料金に関しては、下の図を参照ください。

引用:Artificial Analysisより

GPT-4oの性能

この画像は、さまざまな言語モデルの文章評価におけるパフォーマンスをスコア化して比較したものです。

引用:Hello GPT-4oより

評価項目としては、MMLU(多目的タスク)、GPQA(一般言語能力)、MATH(数学)、HumanEval(コード評価)、MGSM(科学論文理解)、DROP(読解力)を使用しています。
グラフから分かる主な点は以下のとおりです。

  • GPT-4oは、ほとんどの評価項目で最高スコアを示しており、とくにMATHで優れたパフォーマンスを発揮しています。
  • 直近リリースのGPT-4T(gpt-4-turbo-2024–04–09)と比べても、GPT-4oの方が高い能力を持っていることがわかります。
  • 他の有力モデルであるClaudeやGeminiも一定の能力はありますが、GPT-4oに及ばない結果を示している項目があります。
  • ただし、MGSMに関してはClaudeがトップスコアを示し、DROPに関してはLlama3がGPT-4oを抜いています。

総じて、GPT-4oは現状での言語AIモデルとして最も高い汎用能力を持つことが確認できますが、一部のタスクでは他モデルに分があるようです。

しかし、これはあくまでもOpenAIが出している比較表なので、良く見せている可能性があります。そのため、Artificial Analysisという第三者機関によるベンチマークも紹介します。

能力比較

このグラフは、大規模言語モデルの一般的な能力、知識、コーディング能力を比較したものです。

引用:Artificial Analysisより

GPT-4oはすべてのベンチマークでトップの結果を示していることがわかります。

テキストの記憶範囲

このグラフは、コンテキストウィンドウのサイズを比較したものです。コンテキストウィンドウとは、モデルが過去の会話やテキストを記憶できる範囲のことです。

引用:Artificial Analysisより

グラフの棒の長さがコンテキストウィンドウのサイズを表しており、数値はトークンの数を示しています。トークンとは、文章を構成する最小単位であり、単語や句読点などが含まれます。

グラフを見ると、Gemini 1.5 FlashとGemini 1.5 Proは、コンテキストウィンドウが100万トークンと最も大きいことがわかります。一方、GPT-4oは128,000トークンと小さいです。(まあGemini 1.5と比べるとという話です)

コンテキストウィンドウが大きいほど、モデルは過去の会話やテキストをより多く記憶することができ、より自然で一貫性のある会話や文章生成が可能になります。

しかし、コンテキストウィンドウが大きいモデルは、計算資源を多く必要とするため、処理速度が遅くなる傾向があります。

ところがビックリ!Gemini1.5Proはそんなことないんですよ!かなり高速で、大量の情報を処理して、素早く回答を生成することができます。これは、たくさんのデータと高度なアルゴリズムによって訓練されているからです。さすがのGoogleさんですねーw

1秒間に生成できるトークンの数

このグラフは、スループットを比較したものです。スループットとは、モデルが1秒間に生成できるトークンの数のことです。

引用:Artificial Analysisより

グラフの棒の長さがスループットを表しており、数値は1秒あたりのトークン数を示しています。

グラフを見ると、Gemini 1.5 Flashが152トークン/秒と最もスループットが高く、GPT-4oは84トークン/秒となっています。

GPT-4oは、5位に位置しておりスループットが低いことがわかります。しかし、GPT-4oはスループットが低くても、他のモデルよりも優れた性能を発揮することが多く、とくに複雑なタスクや高度な推論が必要な場合にその能力を発揮します。

API送信から受信するまでの秒数

このグラフは、レイテンシーを比較したものです。レイテンシーとは、APIリクエストを送信してから最初のトークンを受信するまでの時間のことです。

引用:Artificial Analysisより

グラフの棒の長さがレイテンシーを表しており、数値は秒単位で示されています。

グラフを見ると、GPT-4oのレイテンシーは0.39秒と、他のモデルと比較してやや高いことがわかります。

とはいえGPT-4oのレイテンシーは、他の大規模言語モデルのレイテンシーと比較して、それほど大きくはありません。

100トークンの合計応答時間

このグラフは、100トークンの応答を生成するまでの合計応答時間を比較したものです。

引用:Artificial Analysisより

グラフの棒の長さが合計応答時間を表しており、数値は秒単位で示されています。

グラフを見ると、GPT-4oの合計応答時間は1.7秒と、他のモデルと比較してかなり速いことがわかります。一方、最も遅いモデルはGPT-4 Turboで、合計応答時間は5.5秒となっており、速度差は3倍以上あります。これは、GPT-4oが非常に効率的なモデルであることを示しています。

ただし、モデルのパラメータのサイズや価格と速度の間には、必ずしも相関関係があるとは限らないことに注意が必要です。

GPT-4oの活用例

最後に、3つの活用例を紹介いたします。

リアルタイム翻訳

GPT-4oの音声アシスタント機能は、リアルタイム翻訳機能を備えています。これにより、旅行者や多言語環境におけるコミュニケーションが大幅に改善されます。

OpenAIによるGPT-4oデモでは、イタリア語と英語のリアルタイム翻訳機能が紹介され、その潜在能力が示されました。

GPT-4oは既存の翻訳アプリや言語学習プラットフォームにとって脅威となる可能性があり、「Duolingo」の株価がGPT-4oの発表後に下落したことからもその影響の大きさがうかがえます。

コードの開発

まずはこちら!

ノートに手書きの文章と、その写真からポモドーロアプリを開発したという方です。

HTML、CSS、JSはGPT-4oに書き出してもらい、うまく作成できたことがわかります。

続いても、コードの書き出しを行った方の投稿です。

コメント欄では、コーダが不要になるのではないかという議論が巻き起こっていました。

確かに、簡単な手書き文字で、数分でしっかりとしたアプリを作成できるので、中間レベルのコーダくらいは不要になると言われるのは仕方がないかもしれません・・・

漫画の作成

今回のOpenAIのプレゼンテーションでは、画像生成の一貫性が向上したことが挙げられました。

今までの画像生成AI(DALL-E 3やStable Diffusionなど)は、「同じキャラクター」を一貫して生成することが最も難しい課題でした。

しかし、GPT-4oはこれを克服し、同じキャラクターを使って漫画の作成ができるのです。

以下は、キャラクター「サリー」を生成し、さまざまなプロンプトを入力すると、まったく同じサリーが別の状況で一貫して描画されていく様子です。プロンプトは「微笑む郵便配達員」から始まり、「家の前で手紙を持つ」、「犬に追われ歩道を走る」、「枝につまずき立ち上がろうとする」など、シーンを変えながらも同一キャラクターが描かれていくのがわかります。

次は「Geary」というロボットの画像を生成する指示です。各セットでは、Gearyの見た目や行動を説明しています。

「フリスビーで遊ぶGeary」と指示を出したことで、ジャンプしてフリスビーをキャッチしようとするGearyの画像を生成しています。

これまでは同じキャラクターを生成するのに時間と労力が必要でしたが、GPT-4oにより容易であることがわかります。

AIによる漫画の作成が加速するかもしれません。

まとめ

本記事では、OpenAIが開発した最新のAI言語モデルGPT-4oについて解説しました。

GPT-4oの性能は、数学やコード評価、科学論文理解などの評価項目で、これまでの言語モデルをベンチマークとする高いスコアを示し、現状で最も汎用能力が高い言語モデルの一つと言えます。

また、リアルタイム翻訳やコード開発、漫画の作成など、AIの進化を実感できるパフォーマンスを発揮する一方で、既存のモデルをベンチマークとした際の優位性が確認できる内容でした。

コメント