GPT-4o（オムニ）の性能とベンチマーク調査！活用例も紹介

本記事では、5月13日に発表されたばかりのOpenAIの最新AI言語モデル「GPT-4o」について、その性能や特徴、活用法などをわかりやすく解説します。

GPT-4oは、従来の言語モデルをベンチマークとした場合、その性能を大きく上回るものとなっています。画像認識や対話の強化など、テキスト以外の分野にも応用できる包括的なモデルです。AIの進化を実感できる内容となっていますので、ぜひ最後までご覧ください。

GPT-4oとは
GPT-4oの価格（API）
GPT-4oの性能
GPT-4oの活用例
まとめ

GPT-4oとは

GPT-4oは、”omni（オムニ）”という意味を持つ”o”が付けられたOpenAIの最新のAI言語モデルです。

オムニは、”すべて”や”全体”を表しています。これは、従来のテキストに基づく会話だけでなく、画像認識や言葉を使った対話の強化など、テキスト以外の対話手法も含むという意味が”o”に込められています。

GPT-4oでは、前のバージョンであるGPT-4 Turboよりも速く、コスト効率（API）も安いという特性を持っています。そして、ChatGPTの全てのユーザーが（無料でも有料でも）この新モデルを利用することができます。

GPT-4oの価格（API）

GPT-4oのAPI料金は、GPT-4 Turboの半額程度です。

入力トークンは5ドル（778円）、出力トークンは15ドル（2,335円）です。どちらも、100万トークンあたりの料金となっています。

他のモデルの料金に関しては、下の図を参照ください。

GPT-4oの性能

この画像は、さまざまな言語モデルの文章評価におけるパフォーマンスをスコア化して比較したものです。

評価項目としては、MMLU(多目的タスク)、GPQA(一般言語能力)、MATH(数学)、HumanEval(コード評価)、MGSM(科学論文理解)、DROP(読解力)を使用しています。
グラフから分かる主な点は以下のとおりです。

GPT-4oは、ほとんどの評価項目で最高スコアを示しており、とくにMATHで優れたパフォーマンスを発揮しています。
直近リリースのGPT-4T(gpt-4-turbo-2024–04–09)と比べても、GPT-4oの方が高い能力を持っていることがわかります。
他の有力モデルであるClaudeやGeminiも一定の能力はありますが、GPT-4oに及ばない結果を示している項目があります。
ただし、MGSMに関してはClaudeがトップスコアを示し、DROPに関してはLlama3がGPT-4oを抜いています。

総じて、GPT-4oは現状での言語AIモデルとして最も高い汎用能力を持つことが確認できますが、一部のタスクでは他モデルに分があるようです。

しかし、これはあくまでもOpenAIが出している比較表なので、良く見せている可能性があります。そのため、Artificial Analysisという第三者機関によるベンチマークも紹介します。

能力比較

このグラフは、大規模言語モデルの一般的な能力、知識、コーディング能力を比較したものです。

GPT-4oはすべてのベンチマークでトップの結果を示していることがわかります。

テキストの記憶範囲

このグラフは、コンテキストウィンドウのサイズを比較したものです。コンテキストウィンドウとは、モデルが過去の会話やテキストを記憶できる範囲のことです。

グラフの棒の長さがコンテキストウィンドウのサイズを表しており、数値はトークンの数を示しています。トークンとは、文章を構成する最小単位であり、単語や句読点などが含まれます。

グラフを見ると、Gemini 1.5 FlashとGemini 1.5 Proは、コンテキストウィンドウが100万トークンと最も大きいことがわかります。一方、GPT-4oは128,000トークンと小さいです。（まあGemini 1.5と比べるとという話です）

コンテキストウィンドウが大きいほど、モデルは過去の会話やテキストをより多く記憶することができ、より自然で一貫性のある会話や文章生成が可能になります。

しかし、コンテキストウィンドウが大きいモデルは、計算資源を多く必要とするため、処理速度が遅くなる傾向があります。

ところがビックリ！Gemini1.5Proはそんなことないんですよ！かなり高速で、大量の情報を処理して、素早く回答を生成することができます。これは、たくさんのデータと高度なアルゴリズムによって訓練されているからです。さすがのGoogleさんですねーｗ

1秒間に生成できるトークンの数

このグラフは、スループットを比較したものです。スループットとは、モデルが1秒間に生成できるトークンの数のことです。

グラフの棒の長さがスループットを表しており、数値は1秒あたりのトークン数を示しています。

グラフを見ると、Gemini 1.5 Flashが152トークン/秒と最もスループットが高く、GPT-4oは84トークン/秒となっています。

GPT-4oは、5位に位置しておりスループットが低いことがわかります。しかし、GPT-4oはスループットが低くても、他のモデルよりも優れた性能を発揮することが多く、とくに複雑なタスクや高度な推論が必要な場合にその能力を発揮します。

API送信から受信するまでの秒数

このグラフは、レイテンシーを比較したものです。レイテンシーとは、APIリクエストを送信してから最初のトークンを受信するまでの時間のことです。

グラフの棒の長さがレイテンシーを表しており、数値は秒単位で示されています。

グラフを見ると、GPT-4oのレイテンシーは0.39秒と、他のモデルと比較してやや高いことがわかります。

とはいえGPT-4oのレイテンシーは、他の大規模言語モデルのレイテンシーと比較して、それほど大きくはありません。

100トークンの合計応答時間

このグラフは、100トークンの応答を生成するまでの合計応答時間を比較したものです。

グラフの棒の長さが合計応答時間を表しており、数値は秒単位で示されています。

グラフを見ると、GPT-4oの合計応答時間は1.7秒と、他のモデルと比較してかなり速いことがわかります。一方、最も遅いモデルはGPT-4 Turboで、合計応答時間は5.5秒となっており、速度差は3倍以上あります。これは、GPT-4oが非常に効率的なモデルであることを示しています。

ただし、モデルのパラメータのサイズや価格と速度の間には、必ずしも相関関係があるとは限らないことに注意が必要です。

GPT-4oの活用例

最後に、3つの活用例を紹介いたします。

リアルタイム翻訳

GPT-4oの音声アシスタント機能は、リアルタイム翻訳機能を備えています。これにより、旅行者や多言語環境におけるコミュニケーションが大幅に改善されます。

OpenAIによるGPT-4oデモでは、イタリア語と英語のリアルタイム翻訳機能が紹介され、その潜在能力が示されました。

GPT-4oは既存の翻訳アプリや言語学習プラットフォームにとって脅威となる可能性があり、「Duolingo」の株価がGPT-4oの発表後に下落したことからもその影響の大きさがうかがえます。

コードの開発

まずはこちら！

ノートに手書きの文章と、その写真からポモドーロアプリを開発したという方です。

HTML、CSS、JSはGPT-4oに書き出してもらい、うまく作成できたことがわかります。

続いても、コードの書き出しを行った方の投稿です。

GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。

ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。

つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い#GPT4o pic.twitter.com/3XHMFg3yye
— kmizu (@kmizu) May 14, 2024

コメント欄では、コーダが不要になるのではないかという議論が巻き起こっていました。

確かに、簡単な手書き文字で、数分でしっかりとしたアプリを作成できるので、中間レベルのコーダくらいは不要になると言われるのは仕方がないかもしれません・・・

漫画の作成

今回のOpenAIのプレゼンテーションでは、画像生成の一貫性が向上したことが挙げられました。

今までの画像生成AI（DALL-E 3やStable Diffusionなど）は、「同じキャラクター」を一貫して生成することが最も難しい課題でした。

しかし、GPT-4oはこれを克服し、同じキャラクターを使って漫画の作成ができるのです。

以下は、キャラクター「サリー」を生成し、さまざまなプロンプトを入力すると、まったく同じサリーが別の状況で一貫して描画されていく様子です。プロンプトは「微笑む郵便配達員」から始まり、「家の前で手紙を持つ」、「犬に追われ歩道を走る」、「枝につまずき立ち上がろうとする」など、シーンを変えながらも同一キャラクターが描かれていくのがわかります。