スリ飯屋MaLankaのフリーエンジニアな日々

このブログでは、フリーランスエンジニアとしての実体験から、フリーランスエンジニアに関するノウハウ、ブログや沖縄移住、スリランカの最新情報について発信します。

【衝撃研究】AIコーディング、実は19%遅くなっていた?METR調査が示したエンジニアの「速く感じる罠」

※提携先広告(リンク、バナー等)やAI生成文を含む場合があります
  • METR RCT調査で、AI使用時に開発者は実測19%遅くなっていた一方、本人は20%速くなったと感じていた
  • 事前期待+24% vs 事後感覚+20% vs 実測-19%=最大43ポイントの知覚ギャップ。AI活用の最大の落とし穴
  • ただしMETRは2026年2月にサンプルバイアスを認めて実験設計を修正中。「使うな」ではなく「測れ」が本質
AI使うと開発めっちゃ速くなるって聞くけど、本当?実際どのくらい速くなるの?
Cursor / Claude Code 活用歴のある現役フリーランスエンジニア年目の立場で言うと、結論は「速くなる領域と、実は遅くなる領域の両方がある」です。

こんにちは、現役フリーランスエンジニアのmah(MaLanka)です。

2025年7月に公開されたMETR(Model Evaluation & Threat Research)のRCT調査が、世界のエンジニア界隈で衝撃を走らせました。

内容をひと言で言うと、「AIコーディングツールを使うと開発者は19%遅くなるが、本人は20%速くなったと感じていた」 という結果です。

「AIで生産性が爆上がり」という熱狂の中で出てきた、冷や水を浴びせる研究結果です。ただし読み方には注意点もあるので、落ち着いて整理します!

この記事では、METR調査の具体的な結果・なぜ遅くなるのか・日本のAI活用度の実態・METRが2026年2月に認めたサンプルバイアス問題・そして筆者自身の実感までを整理します。

ぜひ参考にしてみてください。

【衝撃研究】AIコーディング、実は19%遅くなっていた?METR調査が示したエンジニアの「速く感じる罠」

METR調査の衝撃的な結果:最大43ポイントの知覚ギャップ

まずは核心の数字から見ていきましょう。METRが2025年7月に公開したRCT(ランダム化比較試験)調査で明らかになった結果は次の3つです。

タイミング AI使用時の生産性(本人の認識)
事前予想 +24%速くなる と予測
事後感覚 +20%速くなった と感じた
実測結果 -19%遅くなっていた

事前期待と実測の差は43ポイント、事後感覚と実測の差は39ポイントに達します。海外の解説記事では「期待と実測の知覚ギャップ」として話題になりました。

これはただの誤差ではなく、体感と実測が真逆というレベルの結果です。「自分は速くなっている」という感覚がほぼ全く当てにならないことが示唆されています!

METR調査の設計──RCTの詳細

「たまたまのブレでは?」と疑う人向けに、調査設計の厳密さを確認しておきます。

対象と規模

  • 対象開発者: シニアOSS開発者 16人
  • 対象リポジトリ: GitHubスター 22,000+ / コード行数1,000,000+ の大規模OSS(各開発者が長年コミットしてきた自分のリポジトリ)
  • 対象issue: 実際のバグ修正・機能追加・リファクタなど 246件

実験方法

各issueに対して AIあり/AIなし をランダムに割り当て、作業完了時間を実測します。AIありの場合は開発者の裁量で任意のツールを選択可能で、主に Cursor Pro + Claude 3.5/3.7 Sonnet(当時のフロンティアモデル)が使用されました。

重要なのは、"普段触っている自分のコードベース"で"普段やっている作業"を"最先端AIで"やっても、結果として遅くなったという点です。使い慣れていないリポジトリでの試験とは違います!

なぜ遅くなるのか?METRが挙げた要因

「実測19%遅い」の内訳として、METRは次の時間消費を報告しています。

  • AI生成のレビュー・クリーンアップ: 時間全体の 約9%
  • AI生成結果の待機: 時間全体の 約4%
  • プロンプトの設計・書き直し: 時間全体の相当量
  • 認知負荷・コンテキストスイッチの増大: 定性的に報告

AIありの状態では、直接コードを書く時間は確かに減っている ものの、代わりに「プロンプトを考える/AI出力を読む/修正する/待つ」という新しい工程が加わります。この追加工程が、手で書く時間の削減分を上回ってしまった というのが結論です。

「書く時間が減った=速くなった」とは限らない

この点が、感覚と実測のズレを生むポイントです。コードを書く時間は体感しやすいですが、レビューや待機の時間は「仕事している感」として記憶に残りにくいのです。

「速く感じる罠」の心理学

なぜ本人は +20% 速くなったと錯覚したのか。METRや解説記事が指摘している仮説を整理します。

仮説1:書く時間の短縮は強く記憶に残る

手で書くコードが減ると、「サクサク進んだ」という主観が強く残ります。一方、AI出力のレビュー・クリーンアップは"能動的に仕事している"という感覚が薄く、時間を使っている実感が弱いのです。

仮説2:AI生成の瞬間の"進んでいる感"

Cursor / Claude Code が一気にコードを生成する瞬間は、視覚的に「進んでいる」という強いフィードバックになります。この快感が、生産性の評価を底上げします。

仮説3:事前期待が事後評価に影響する

「AIを使うと速くなるはず」という期待が強いほど、「速くなった」という評価が出やすくなる認知バイアスです(確証バイアスの一種)。METRでも、事前予想(+24%)と事後感覚(+20%)がほぼ揃っている点は、この仮説と整合的です。

体感は極めて信頼できない指標です。「自分は速くなった」と言えるには、実測データが要るという話になります!

日本のAI活用度データ(Offers 2025年4月調査)

METRは米国のOSS開発者が対象の調査ですが、日本のAIコーディングツール活用状況も合わせて見ておきましょう。

Offers「AIコーディングエージェント活用度調査(2025年4月版)」によると、日本のエンジニアのAI採用率は次のような実態です。

採用率

  • AIコーディングエージェントの採用率: 63.4%
  • 毎日使用: 41.8%
  • たまに使用: 21.6%

ツール別シェア

ツール シェア
GitHub Copilot 60.1%
Cursor 20.7%
Claude Code 15.4%
v0 14.9%
Devin 10%超

開発フェーズ別の活用度

  • フロントエンド開発・バックエンド開発: 50%以上
  • デザイン・テスト: 約33%
  • 要件定義・計画: 25%
  • デプロイ・運用: 10%未満

年代別の使用頻度

  • 20〜40代: 平均して週6回使用
  • 50代以上: 25.9%が「使用していない」
「採用率63.4%」はかなり高い数字に見えますが、「深く使いこなしている層」は実ははるかに少ないのが実態です!

「深く使う」層は実際に1〜2割しかいない

採用率が6割を超えていても、毎日使う層は4割程度、さらにその中で「開発フローの中核に組み込んで、タスク設計から任せ切るレベル」まで来ている人となると、現場感では1〜2割程度と推定されます。

これはRemotersの担当者にヒアリングした際にも同じ肌感覚が共有されました。「AIコーディングエージェントを導入している」と「AIエージェントで実際に成果が変わっている」は別物です。

www.malanka.org

METRの結果は"浅い活用層"のものかもしれない

METRの実験対象は16人。主にCursor Proを使っていますが、全員が使い熟練しきっているわけではない 可能性があります。Cursorを導入して日が浅い開発者の場合、プロンプト設計や出力レビューにコストがかかりすぎて遅くなるのは自然な結果とも言えます。

つまりMETRの19%遅くなる結果は、「AI活用の初期〜中期フェーズ」の実態を反映している可能性があるということです。

METR自身が認めたサンプルバイアス問題

ここが今回の記事で最も重要なポイントです。

METRは2026年2月に実験設計のアップデートを公開し、自らサンプルバイアスの問題を認めています

何が問題だったのか

当初の調査では、招待した開発者のうち 30〜50%が「AI無しでは参加したくない」と辞退した ことが判明しました。

つまり研究に残ったのは、「AIが無くても普段と変わらず仕事ができる開発者」に偏っていたということです。言い換えれば、「AIがないと困る開発者」は最初から研究対象から抜けていた、という選択バイアスです。

これが示唆すること

  • METRの「19%遅くなる」結果は、「AIを必ずしも必要としない層」の特性を反映している可能性
  • AIに強く依存している開発者や、AIで大きく生産性が変わる開発者は含まれていない
  • したがって、全エンジニアに一般化できる結果ではない

METR自身も実験設計を見直し中で、今後新しいデータが出てくる予定です。

衝撃的な結果だからといって鵜呑みにするのではなく、「どんな条件で出たデータか」を確認して使うのが重要ですね!

筆者のAI活用実感──速くなる領域と遅くなる領域

独自パートとして、筆者自身の活用実感を共有します。

AI活用の現状

  • 使用ツール: Cursor / Claude Code / GitHub Copilot を併用
  • 活用フェーズ: 要件整理・設計検討・実装・テスト作成・レビュー補助
  • 活用歴: 日常業務の中核として使い始めて1年以上

"速くなる"と感じる領域

  • 新規機能のスケルトン生成(パターンが定まっている箇所)
  • テストコード生成
  • リファクタリング提案の初期案
  • ドキュメント・コメント生成
  • 見慣れないライブラリAPIの使い方調査

"実は遅いかもしれない"と感じる領域

  • 複雑なビジネスロジックの新規実装(AI出力をフルに書き直すことが多い)
  • 既存コードの深い理解が必要なデバッグ(文脈をプロンプトに載せるコストが大きい)
  • 設計の意思決定(最終判断は人間が要るので、AI出力はあくまで参考)

この「領域ごとに速い/遅いが分かれる」という肌感は、METRの全体平均"-19%"とも矛盾しないと感じています。平均するとマイナス、ただし領域を選べばプラス、という構造です。

"任せる範囲"の見極めが鍵

AIを"何でも任せるツール"として扱うと、METRの結果通り遅くなりがちです。「この種類のタスクはAIに任せる、このタスクは自分で書く」を分けられる人だけが、実質的に速くなる実感を持てます!

「速く感じる」で終わらせない──実効速度を測る3つの方法

METRが示したのは、「自分では速く感じる」は信用ならないということです。では実効速度をどう測るか。現実的な方法を3つ紹介します。

方法1:タスクごとの時間計測をつける

  • GitHubのPRごとに「AIあり/なし」「所要時間」を記録する
  • 週次で集計して、カテゴリ別に平均を出す
  • 個人でも1〜2ヶ月続ければ傾向が見える

方法2:同じタイプのタスクを意図的に両方でやる

  • 同じリポジトリの似たissueを、交互にAIあり/なしで取り組む
  • 事前予想と実測を記録するとMETRと同じ分析ができる

方法3:チームの場合は"Four Keys"等の客観指標を使う

  • デプロイ頻度・変更リードタイム・変更失敗率・平均修復時間
  • AIツール導入前後で比較すると、個人の主観より客観的な変化が見える

「AI使うと速くなる」神話に振り回されない視点

ここまで書いてきた内容を踏まえて、最後に冷静な視点を添えておきます。

METRも完璧な調査ではない

19%遅いという数字は強烈ですが、METR自身がサンプルバイアスを認めていることを忘れないほうがいいです。単独の調査で結論を出すのではなく、複数のデータを並べて自分なりの仮説を持つ姿勢が必要です。

ただし"速く感じる"は実験以前の認知バイアス

一方で、「自分では速く感じる」という主観が信用ならないことは、METR以前から認知科学で知られている事実でもあります。プラセボ効果・確証バイアス・時間知覚の歪みなど、人間は自分の生産性を過大評価する傾向があります。

「使うな」ではなく「測れ」が本質

この議論の着地点は、AIツールを使うなという話ではなく、実効速度を計測する習慣を持てという話だと考えています。

  • 採用率63.4%の時代に「使わない」は現実的ではない
  • ただし「使って満足する」だけではMETRの罠にハマる
  • 計測→改善のループを回せる人だけが、AI活用で本当に速くなる
AI活用の差別化は、「使っているか」ではなく「実効速度を測り続けているか」に移っていくと思います。業界の熱狂に振り回されず、自分の数字で判断するのが結局一番強いです!

よくある質問(FAQ)

Q1. METR調査の信頼性はどのくらい?

1つの重要な研究として参考にするレベルと捉えるのが妥当です。RCTという厳密な手法を使っていますが、対象16人・サンプルバイアス認定済みという限界もあります。複数の調査を並べて判断するのがおすすめです。

Q2. 結局AIコーディングツールは使うべき?

使うべき、ただし測りながら使うべきです。Offers調査の採用率63.4%が示すように、使わない選択肢は現実的ではありません。一方で「使って満足する」と知覚ギャップの罠にハマります。

Q3. 初心者と上級者で結果は違う?

十分に違う可能性があります。METRの対象はシニアOSS開発者16人で、彼らは既存コードベースに精通していました。初心者がゼロから新規実装する場合はAIで大きく速くなる可能性があります。逆に、既存コードへの深い理解が必要な作業は、上級者でも遅くなりやすい傾向です。

Q4. AIを深く使うコツは?

「任せる範囲を定義する」 のが第一歩です。新規スケルトン・テスト・ドキュメント等はAI向き、複雑なビジネスロジックやデバッグは自分で書くなど、タスクごとに切り分けます。そのうえで実効時間を測り、切り分けを継続的に更新するのがコツです。

Q5. METRの続報はいつ出る?

2026年2月のアップデートで実験設計を見直し中です。新しい結果は今後随時公開される予定なので、METRの公式ブログをチェックするのがおすすめです。

まとめ:数字で会話するエンジニアになろう

METR調査が示した核心は次の通りです。

  • AI使用時に開発者は実測19%遅くなったが、本人は20%速くなったと感じていた
  • 最大43ポイントの知覚ギャップ(事前期待+24% vs 実測-19%)が存在する
  • ただしMETR自身がサンプルバイアスを認めて実験設計を修正中
  • 日本のAI採用率は63.4%(Offers 2025/4)だが、深く使う層は1〜2割程度と推定

ここから言える実務上の示唆は2つです。

  1. 「使う/使わない」の議論はもう古い。採用率6割の時代、使うのは前提
  2. 差別化は「実効速度を測れるか」。AI活用の次のレベルは計測と改善ループ

2026年はAIコーディングツールの"使う時代"から"測る時代"へのシフトが起きているのかもしれません。METR調査はその流れを決定づけた1本と言えそうです。

AI活用の深度がフリーランス単価にも影響している現在の市場動向は、別記事で詳しく整理しているので興味があればどうぞ。

www.malanka.org

AI時代の新職能「FDE」についても、関連する文脈で解説しています。

www.malanka.org

おすすめ関連記事

フリーランスエンジニアのAI活用・需要動向に関する記事はこちらへどうぞ。

参考にした一次情報・ソースは以下の通りです(2026年4月取得)。