この記事の途中に、以下の記事の引用を含んでいます。
METR’s time-horizon of coding tasks does not mean what you think it means
AIの「どのくらい先までできる?」指標は、なぜ曲解されるのか
いまや人工知能がソフトウェア開発の最前線を席巻しつつありますが、その能力をどう測るかという問いは尽きることがありません。
本記事は、「METRの“タスク時間地平”(task time horizon)」というAI能力の指標が、しばしば世間の理解と乖離して受け止められている問題点に焦点を当てています。
結論から言えば、AIが「2時間41分のタスクを50%の確率でこなせる」と言った時、それは表面的な数値以上に多くの事情を孕んでいる、という話になるのです。
そもそもMETRの「時間地平」指標とは?記事の主な指摘
記事によれば、「Measuring AI Ability to Complete Long Tasks」という論文で用いられている“50%-task-completion time horizon”とは、
“This is the time humans typically take to complete tasks that AI models can complete with 50% success rate.”
(これは、AIが50%の成功率でこなせるタスクに対して、人間が通常かかる作業時間を表している)
と定義されています。
この指標を元に、例えば GPT-5.1-Codex-Max という最新モデルの「50%成功率でこなせるタスク」は2時間41分、「80%成功率」だとわずか31分とされます。
しかし、記事ではこうした数字が「AIはまだ簡単なタスクしかできない」といった誤解を招いていると指摘します。
さらに、METRの方法論をそのまま人間の専門家に当てはめても、
“if we use this methodology against human experts hired by METR, we can “conclude” that humans can do only 1.5 hour tasks at 50% success rate.”
(同じ方法論で専門の人間を評価しても、“人間は1.5時間のタスクですら、50%の成功確率でしかこなせない”という結論になってしまう)
と述べ、評価手法そのものに人間・AI双方で偏りが存在することも示しています。
また、
“However, conditioning on success biases towards shorter task length ratings, thereby underestimating model performance.”
(成功に限定して評価することでタスク時間が短めに出る、人間・AIともに実力を実際より低めに見積もってしまう)
ともあり、数値そのものより「比較」や「推移」を重視するべき、という趣旨も語られています。
数字のマジック、指標の意味――評価指標と現実のズレ
ではなぜ、こうした誤解が生まれてしまうのでしょう?
ポイントは、METRの「時間地平」指標が単なる“生タスクの最大長”でも“AIの実務能力の限界”でもないことです。
METRが取る手法は、人間もAIも、対象タスクの「成功」例のみを主観的にカウントし、その平均値を「基準」としています。
しかしこの運用には大きな限界がいくつかあります。
- 高難度タスクが割り当てられても、人間側は専門性の不足ややる気の問題などで失敗率が上がる
- 実際の「達成率」が必ずしも本人の技量だけで決まるとは限らない
- AIモデルは特定の種類のタスクに極端に強かったり弱かったりとばらつきが大きい
- 人間の場合は、「報酬」「退屈」「未知タスクへの挫折」など、統計上うまく管理できない要素も多い
こうした現実があるからこそ、
“Human time horizon … in practice it’s much lower, at around 1.5 hours (which would imply that the best models will surpass humans in under 7 months). As discussed above, we think this is artificially low, given that many human failures seemed to be artifacts of our incentive scheme.”
(人間の時間地平も1.5時間という驚くほど低い値しか出なかったが、人間が途中で諦めたりスキル不足だったりする“失敗”が多数計上されたためであり、この数値は実態を反映していない可能性が高い)
とMETR自体も述べています。
要するに、この「2時間41分」や「1.5時間」という数字は、
「どこまで難しい仕事ができるか」という絶対的な指針ではありません。
どちらかというと、「測定条件下でのAI・人間の存在割合の平均値」であって、現場感覚とはズレて当然です。
AIは“単純タスク”しかできない?リアル現場との乖離
一方で、最新AIモデルが既に「人間の上級開発者でも数週間かかるようなゲームを“一発で”作り上げた!」といった事例報告が相次いでいるのも事実です。
このギャップに対し、多くの人は「どうせ学習データにそのまま入ってただけだろ?」と懐疑的な見方をします。
記事では、
“Some people tend to dismiss these reports using “it must be in the training data” argument … But we also have serious programmers reporting on serious tasks taken on by LLMs”
(“どうせトレーニングデータに入ってただけ”という批判が絶えないが、実際には熟練プログラマーたちからもAIがかなり高度なタスクを遂行している実例が続出している)
とも触れており、「ベンチマーク指標」が現場の肌感や実力全体を充分に捉えきれていない可能性を指摘しています。
例えば、オープンソースの自動化ツール作成や、API連携構築、さらには新規サービスのモックアップ開発まで、
AIを“エージェント”として利用するケースは既にプロ開発環境で現実に行われています。
このような現場報告とベンチマーク評価とのズレは、
指標の設計自体や、コンテキスト選び、評価の粒度など、あらゆる面で“数字主義”の落とし穴を物語っています。
私なりに考える「AI評価指標」の意義と落とし穴
「AIの能力評価」とは、何を、誰の視点で、どのタイミングで測るかによって意味合いが大きく異なります。
METRが用いる「時間地平」は相対比較や成長率、すなわち「今のAIがどれだけ進化してきているか」をざっくり見るには合理的な設計です。
しかし、
– 長時間タスクほど失敗率が飛躍的に増える構図になっている
– 人間とAIを一律に比較することの難しさ
– モデルにも“得手不得手”な領域がある
– 現実の開発では、部分的な失敗や、リトライ、工夫の余地が多い
という諸事情も加味しなくてはなりません。
あくまで「タスク時間地平」指標は、ひとつの大まかな尺度に過ぎず、
例えばAIの“人間越え”や“実務投入判断”といった意思決定には直接使えません。
また「数ヶ月で人間並みに追い抜く」といった線形・指数的な予測も、
現実世界では思わぬ落とし穴(未解決の難所、環境依存のタスク、極端な設計変更など)で狂いがちです。
以下のような事例が参考になります:
- AIが今まで解けないとされていたアルゴリズム問題を、正解にたどり着くまで100回以上やり直して解いた例
- API仕様の変更をAIエージェントが検出し、自律的にドキュメントを検索して実装修正した例
- 新しいOS環境やミドルウェアへの適応に、AIが躓く様子と、その根本解析
つまり指標だけで「本質的な能力上限」を決めつけるリスクをよく認識しておく必要があります。
「AI能力値」はナビの目安――鵜呑みにせず、本質を見る
今回の記事から得られる最大の示唆は、「能力の測定値」はあくまで“ひとつの目安”であり、
本質的なブレイクスルーや実務応用への適合性まで担保するものではない、という点に尽きます。
私たちがAIと人間の能力を比較しようとする時、
– 測定値の前提や条件を正しく理解する
– 指標の絶対値だけで一喜一憂せず、成果や現場の応用事例と照らして考える
– 「予想外の進化」や「想定外の失敗」にも柔軟に対応できる目線を持つ
ことがとても大切です。
まだ世の中には“ベンチマーク至上主義”な空気がありますが、今後は評価尺度自体を複数用意し、
現場の多様な視点をもっと反映した議論が求められるのではないでしょうか。
「AIは何ができるのか?」という問いに対し、数字だけに頼ることなく、指標の背後にある本質を読み解く姿勢――
これこそが、今後AI時代を生き抜くための最大のヒントになるに違いありません。
categories:[technology]

コメント