はじめに:AIはどうやって「賢く」なるのでしょうか

ChatGPTやClaudeのようなAIに、ふと「君ってどうやってこんなに賢くなったの?」と聞きたくなる瞬間はありませんか。
私はあります。文章を書いてもらうと、ときどき「人間が書いたんじゃないの?」と疑いたくなるくらい自然なものが返ってきます。逆に、ちょっとしたタスクで信じられないくらい単純なミスをすることもあります。
この差は、いったいどこから来るのでしょうか。
実は、AIが賢くなる鍵は意外とシンプルなところにあります。それは「どんなデータで勉強したか」です。
人間でも同じですよね。同じ時間勉強しても、何の本を読むかでぜんぜん違う知識が身につきます。AIも同じで、何のテキストを学習させるかが性能を大きく左右します。
ただ、ここに大きな問題があります。世の中のテキストは、ほぼ無限と言っていいほどあるんです。インターネット上の文章、論文、本、ブログ、SNS、コードリポジトリ……。全部学ばせるのは現実的ではありません。だから「どれを選んで学ばせるか」が、めちゃくちゃ重要になります。
これまで、データの選び方には主に2つの流派がありました。
ひとつは「品質スコア型」。たとえばFineWeb-Eduというデータセットは「教育的に質が高いか」を分類器で判定して、上位だけを選びます。Wikipedia的な、お行儀のいい文章が選ばれやすい方法です。
もうひとつは「埋め込みベクトル類似度型」。これは「やらせたいタスクに似ている文章はどれ?」という観点で選びます。BETRと呼ばれる手法が代表例です。
どちらもなるほど、という発想です。でも、よく考えると2つともテキストの外側しか見ていないんですよね。テキスト自体や、AIが最終的に出すベクトル(数字のかたまり)だけを見て判断している。
そんななか、2026年に登場したNAG(Neuron-Activated Graph)という新しい手法は、まったく違う発想で攻めてきました。
NAGは、テキストを入力したときにAIの頭の中でどのニューロンが反応するかを見て、データを選びます。つまり、テキストの外見ではなく、AIの内側の反応を頼りに「効くデータ」を見つける方法です。
論文のタイトルを直訳すると「ニューロン活性グラフによる目的志向の事前学習データ選択」となります。ちょっと難しそうな名前ですが、やっていることはシンプルで、しかも結果が驚くべきものでした。
ランダム選択と比べて、平均で4.9%性能が向上。HellaSwagというベンチマークでは、最強クラスの既存手法FineWeb-Eduより5.3%も良いスコアを出しています(60.6% vs 55.3%)。さらに面白いのは、NAGが選んだニューロンは全体のたった0.12%しかないのに、それを無効化すると性能が23.5%も崩壊するという発見です。
この記事では、NAGがいったい何をやっているのか、何がそんなにすごいのか、そしてこの研究が示す「AIのこれから」について、初学者の方にもわかるように丁寧に紐解いていきます。
特に注目したいのは2つのポイントです。
ひとつめは「AIの中身を見る研究」と「AIに何を学ばせるか」の研究が、いま融合し始めているという話。もうひとつは、この発想がAIエージェント(あなたの代わりに調べ物をしたり、コードを書いたり、メールを送ったりするAI)の進化にも、おそらく大きな影響を与えるだろうという話です。
技術の進歩は、ときどき静かに、でも決定的に世界を変えます。NAGは、その「静かな決定的瞬間」のひとつかもしれません。
それでは、NAGの正体を覗きに行ってみましょう。
NAGの正体:AIの「頭の中」を覗いてデータを選ぶ

NAGの仕組みを理解するために、まず「ニューロン」というものから始めましょう。
ニューロンとは、もともとは脳の神経細胞のことです。私たちの脳には約860億個のニューロンがあって、何かを考えたり感じたりするとき、特定のニューロンが電気信号を出して反応します。
AIの世界でも、同じ言葉を借りて「ニューロン」と呼ばれる仕組みがあります。これは脳の神経細胞そのものではなく、それを真似て作った「数値を出す小さな部品」のことです。
たとえばGPT-4クラスの大規模なAIモデルには、数百億個のニューロンが詰まっています。あなたが何か文章を入力すると、その数百億個のうち、ある特定のニューロンたちが「強く反応」します。別の文章を入れたら、また別のニューロンたちが反応します。
この「どのニューロンが、どれくらい強く反応したか」というパターンが、NAGの主役です。
例えるなら、AIの「指紋」のようなもの
私たち一人ひとりの指には、固有の指紋があります。同じように、AIに文章を読ませると、その文章ごとに固有のニューロン反応パターンが生まれます。NAGはこれを指紋のように扱うのです。
論文ではこのパターンをグラフ(ノードとエッジでできた図)として表現するので、Neuron-Activated Graph(ニューロン活性化グラフ)と名付けられています。
NAGがやっていることを3ステップで
NAGの手順は、ものすごく単純化すると次の3つです。
- 目標を決める:たとえば「数学が得意なAIを作りたい」と決めます。そのために、お手本となる数学問題のテキストを少しだけ用意します。
- 指紋を取る:そのお手本テキストをAIに読ませて、ニューロンの反応パターンを記録します。これが「数学の指紋」です。
- 似た指紋を持つデータを選ぶ:候補となる大量のテキストを順番にAIに読ませて、それぞれの指紋を取ります。そして「数学の指紋」と最もよく似ている指紋を持つテキストを上位に選びます。
これだけです。「お手本に似た反応をするデータを優先する」という、言われてみれば当たり前の発想なんですが、これまで誰もちゃんとやっていませんでした。

なぜ従来手法と決定的に違うのか
ここで、最初に紹介した既存手法と並べてみましょう。
| 手法 | 何を見る? | わかりやすく言うと |
|---|---|---|
| FineWeb-Edu | テキスト分類器のスコア | 「お行儀のよさ」で選ぶ |
| BETR | 埋め込みベクトル類似度 | 「最終出力の似てるさ」で選ぶ |
| NAG | ニューロン活性パターン | 「AIの頭の中の反応パターン」で選ぶ |
FineWeb-Eduは、本棚の前に立って「教育的に良さそうな本」を選ぶイメージです。Wikipedia的な信頼性の高い本が選ばれます。でも「数学が得意になりたい」のに「百科事典として上等な本」を選んでも、数学が解けるようにはなりません。
BETRはもう少し賢くて、「数学の本に似た本」を選びます。ただし、本の表紙やあらすじだけ見て判断しているような感じです。表面的には似ていても、中身が違うことがあります。
NAGは違います。お手本の本をAIに実際に読ませてみて、AIの脳がどう反応するかを記録します。そして候補の本もAIに読ませて、反応パターンが似ているかで判断します。
人間でいうと、本のレコメンドを誰かに頼むときに、「あらすじが似ている本」を選ぶより、「読んだときの心の動き方が似ている本」を選んでもらう方が、自分にぴったりの一冊に出会える確率が高い、という感覚に近いです。
up_projという「高次元に展開する層」が効く理由
少しだけ専門的な話になりますが、面白いのでお付き合いください。
AIの内部にはいろいろな層(レイヤー)があります。なかでもFFN(フィードフォワードネットワーク)と呼ばれる層に、特徴的な部品があります。
up_proj、down_proj、k_projといった名前がついていますが、英語のプロジェクト(projection、投影)の頭文字です。要するに、入力された情報を別の空間に「投影し直す」役割を持っています。
論文によると、up_proj(情報を一旦高次元の空間に展開する部分)でニューロン活性を観察するのが、最も効果的だったそうです。down_projやk_projよりも性能が良い。
なぜでしょうか。
直感的なイメージで言うと、こうなります。情報がギュッと圧縮された状態だと、複数の意味が混ざり合って区別がつきにくいんです。でも一度高次元に展開してあげると、それぞれの意味が別々の方向に分かれて、はっきり見える。
絵の具で例えるなら、いろんな色がパレットに混ざって茶色っぽくなった状態より、紙の上に色ごとに塗り分けた状態の方が、何色がどれくらい使われているか見えやすい、というイメージです。タスクに固有のシグナルは、高次元に展開された空間でこそ分離して見えるわけですね。
追加の学習が必要ない、という大事な実用性
NAGには、もうひとつ重要な特徴があります。それは「追加学習が必要ない(training-free)」という点です。
普通、AIに新しいことをさせようとすると、改めて学習させる必要があります。これには莫大な計算資源とお金がかかります。
NAGは違います。すでにある任意のAIモデルに、新しい学習なしでそのまま適用できます。Qwen3のような既存のオープンソースモデルを使うだけで、「データの指紋を取る」ことができるんです。
論文では、Qwen3-0.6B(比較的小さなモデル)から取り出したNAGでも、すべてのベースラインを上回る性能を出したことが報告されています。データ選択用のモデルが、学習対象のモデルより大きい必要はないということです。
これは実用上、とても大きな意味を持ちます。「データを選ぶためだけに巨大な計算をする」必要がなく、手元のリソースで気軽に試せるからです。
ここまでで、NAGの基本的な仕組みがイメージできたでしょうか。次のセクションでは、NAGが叩き出した「驚きの数字」を見ていきましょう。0.12%と23.5%という、ちょっと信じがたい数字の意味です。
何がそんなにすごいの?:たった0.12%のニューロンが性能の23.5%を支える

ここからは、NAG論文で報告された数字を見ていきます。数字といっても難しい話ではなく、一つひとつにちゃんと「驚きどころ」があります。
数字1:ランダム選択比+4.9%、HellaSwagで+5.3%
まず基本性能の話から。
NAGはランダムにデータを選んだ場合と比べて、6つのベンチマーク(AIの能力を測る試験のようなもの)の平均で+4.9%の改善を達成しました。
「+4.9%なんて、たいしたことなくない?」と思うかもしれません。
でも実は、AIの性能を1%上げるのも、最近では相当な努力が必要なんです。学習データを2倍に増やしても1%上がらないことすらあります。それを、データの選び方を工夫するだけで5%近く上げる、というのはかなりインパクトのある結果です。
特にHellaSwagというベンチマーク(常識的な続きを予測する難しめのテスト)では、最強クラスの既存手法FineWeb-Edu比で+5.3%(60.6% vs 55.3%)でした。
これはBETRと比較しても+1%平均で上回る結果でした。データ選択の最先端を、追加学習なしで超えてしまった。これだけでも「お、これは本物かもしれない」と感じる結果です。
数字2:0.12%のニューロンを無効化で23.5%崩壊
ここからが本当に面白いところです。
NAGは「タスクに効くニューロン」を選びます。実際に選ばれるのは、AIモデル全体のニューロンのうちたった0.12%です。1万個のニューロンがあったら、12個くらいだけが選ばれる、というレベルの少なさです。
研究者たちは「もしこの0.12%が本当にタスクに効いているなら、それを無効化すればAIの性能はガクッと落ちるはず」と考えて、実験してみました。
結果は、性能が60.6%から37.1%へ、つまり23.5%も崩壊しました。
「いやそれくらい無効化したら下がって当然じゃない?」と思うかもしれません。だから対照実験として、同じ数だけランダムにニューロンを無効化した場合も比較しています。
そっちは性能の変化がたった-0.2%でした。ほとんど何も変わらないんです。
つまり、ランダムに同じ数のニューロンを潰しても影響はほぼゼロ。でもNAGが選んだ0.12%を潰すと壊滅的な影響が出る。これが意味するのは、性能は限られた少数のニューロンに集中して支えられているということです。
論文ではこれを「機能的バックボーン(functional backbone)」と呼んでいます。バックボーンとは「背骨」という意味です。AIの背骨のように、少数のニューロンが性能の屋台骨を支えている。NAGはその背骨を見つける手法だった、ということです。
数字3:「より厳しく絞るほど性能が上がる」という驚きの逆転現象
普通、データを減らせば性能は落ちます。たくさん勉強した方が成績が上がるのは当たり前ですよね。
ところがNAGでは、ランキング上位に絞り込むほど性能が上がるという、逆転現象が起きました。具体的には60.5%から62.3%に向上しています。
これはランダムに選んだ場合や、BETRで選んだ場合では起きません。「絞り込めば絞り込むほど良くなる」のはNAGだけの現象です。
何を意味するのか。
それは、NAGが本当に効くデータを上位に正しく並べているということです。並べ方が正確だからこそ、上位だけ取り出してもいいデータだけが残り、むしろ性能が上がる。
逆に言うと、ランキングが正確でなければこの現象は起きません。「上位に効くデータと効かないデータが混ざっている」なら、絞り込めば効くデータも一緒に捨ててしまうので、性能は落ちます。
NAGの絞り込めば上がる、というのは、ランキングの精度の高さを示す強い証拠なんです。
これは実用面でも大きな意味があります。学習データを大量に集めるのには莫大なコストがかかりますが、正しく10%を選ぶだけで全体より良い結果が出るなら、コストは10分の1で済みます。「もっと多くのデータ」ではなく「より正しい少量のデータ」が未来のAI開発のキーワードになりそうです。
数字4:最終層だけだと-4.1%=タスクに効くシグナルは全層に分散
もう一つ、見逃せない実験結果があります。
NAGは本来、AIモデルの全部の層でニューロン活性を見ます。ところが「最終層だけに限定したらどうなるか?」という実験もされました。
結果は、平均で-4.1%性能が下がるでした。
これも何気にすごい発見です。
なぜなら、これまでのデータ選択手法(特にBETRなど)は、ほとんど最終層のベクトル(埋め込みベクトル)だけを使っていたんです。「最終出力に近い層が、いちばん意味的にまとまっているはず」という前提で。
でも実際には、タスクに効くシグナルは全層にわたって分散していることが、NAGの実験で示されました。最終層だけ見ていては見逃してしまう情報が、層の途中にたくさん埋め込まれている。
これは解釈性研究の結果とも一致します。Sparse Autoencoderの研究では、AIの中間層に複雑な概念が分散して保存されていることが知られています LessWrong: Sparse Autoencoders。NAGの発見は、この知見を「データ選択」という実用的な文脈で裏付けたとも言えます。
数字5:マルチターゲットでも+1.1%、+4.1%
最後に、応用範囲の広さを示す数字を。
NAGは「ひとつのタスクに効くデータ選択」だけでなく、複数のタスクを同時に強化したい場合(マルチターゲット設定)でも効果がありました。2つのベースラインに対して、それぞれ+1.1%、+4.1%上回っています。
これは実用上、すごく現実的な意味を持ちます。AIに「数学だけ」「コーディングだけ」を得意にさせたいことは少なくて、たいていは「数学もコーディングも論理推論も」全部やってほしいわけです。NAGはそういうマルチターゲット要件にも応えられる。
数字をまとめると
ここまで見てきた数字を整理すると、こうなります。
- +4.9%:ランダム選択比、6ベンチマーク平均の改善
- +5.3%:HellaSwagでの最強既存手法比改善
- 0.12%:選ばれたニューロンの割合
- -23.5%:その0.12%を無効化したときの性能崩壊
- -0.2%:同数をランダムに無効化したときの性能変化
- +1.8%:上位絞り込みによる性能向上(60.5%→62.3%)
- -4.1%:最終層だけに限定したときの性能低下
これらの数字から見えてくるのは、NAGが「タスクに効く少数の核」を正確に見つけられているという事実です。当てずっぽうで選んでいるわけではなく、本当の意味で「効くもの」と「効かないもの」を見分けている。
しかも追加学習なしで、既存のオープンソースモデルから抽出できる。実用性の高さも申し分ありません。
ただ、ここまで読んで「結局これってデータ選択の手法じゃないの?」と思われたかもしれません。次のセクションでは、NAGが単独の手法を超えて、AI研究全体の大きな流れの中でどんな位置にあるのかを見ていきましょう。私が個人的に「これは時代の転換点かもしれない」と感じている話です。
これからの技術の流れ:『内側を見るAI』の時代へ

NAG単独でも十分に面白い研究なんですが、私が本当に注目しているのは、NAGがAI研究のもっと大きな流れの一部だということです。
このセクションでは、NAGの周りで進んでいる関連研究を見ながら、AIの未来がどう変わりそうかを考えていきます。
3つの研究系統が、ニューロン活性で結びつく
まず、いま動いている3つの大きな研究系統を整理しましょう。
| 系統 | 何を解こうとしている? | わかりやすく言うと |
|---|---|---|
| データ選択 | どの学習データが効くのか | AIに何を食べさせるか |
| 解釈性 | ニューロンが何を表しているのか | AIの頭の中を読み解く |
| 帰属(attribution) | どの入力・データが結果に効いたか | AIの判断の犯人探し |
これまで、これら3つはそれぞれ別の研究室で別々に進んできました。データ選択は「もっと効率的にAIを訓練する」、解釈性は「AIの中身を理解する」、帰属は「AIの判断を説明する」――異なる目的を持っていたからです。
でも、いま面白いことが起きています。3つすべてが「ニューロン活性」という同じ言葉を使い始めたんです。
NAGはデータ選択の側から、SIEVEは解釈性の側から、影響関数は帰属の側から、それぞれ「ニューロンの活性パターンをどう使うか」を探っています。同じ材料を、違う角度から扱っているんです。
解釈性側の最先端:SIEVEという「検証する解釈性」
解釈性側の代表として、SIEVEという研究を紹介します。
SIEVEは、ニューロンが何を表しているかを検証可能な形で確かめるフレームワークです。名前は「Select-Hypothesize-Verify(選択・仮説化・検証)」の頭文字です。
何をやっているかというと、こんなことです。
- Select:あるニューロンが特に強く反応するサンプル(写真や文章)を集めます。
- Hypothesize:そのサンプルを見て「このニューロンは”犬”を表してるんじゃないか?」のような仮説を立てます。
- Verify:ここが新しいところで、Stable Diffusionなどの生成AIで「犬」の画像を新しく作って、そのニューロンが本当に活性化するか確かめます。
3つめのステップが画期的です。これまでの解釈性研究は、観察データの上で「このニューロンはきっとこの概念を表している」と推測するだけでした。SIEVEはそれを「生成して試す」ことで、反事実的に検証します。実際に生成された画像で活性化率(Activation Rate)が大きく上がる結果が報告されています(CLIP-Dissect約55.16%に対し、SIEVE約85.73%)。
これは科学の方法に近い発想です。仮説を立てて、実験で確かめる。観察と仮説だけで止まらず、ちゃんと検証まで持っていく。
NAGとSIEVEは、まさに裏表の関係にあります。NAGが「このニューロン群はタスクに効く」と言うとき、SIEVEは「そのニューロン群は本当に何を表しているのか?」と問います。両者を組み合わせれば、データ選択の信頼性を検証できる。
帰属側の最先端:失敗の原因データを特定する技術
帰属の側でも面白い研究が進んでいます。たとえばProbe-Based Data Attributionという研究は、AIが学習中に望ましくない振る舞いを覚えてしまったとき、どの学習データがその原因だったかを特定する技術を提案しています。
この研究の凄いところは、原因データを除去するだけで有害な振る舞いを63%減らせたという結果です。しかも勾配ベースの手法やLLM-Judgeよりコストが10分の1で済むそうです。
NAGが「データを選ぶ前」に効くデータを見つける技術だとしたら、これは「学習が終わった後に問題のあったデータを見つける技術」です。両者を組み合わせれば、学習データの自動メンテナンスが現実になります。
別の研究Representation Gradient Tracing(RepT)も、似た方向性で進んでいます。AIの内部表現の勾配を追跡することで、望ましくない振る舞いの責任を学習データに帰属させる。
Sparse Autoencoderと「ニューロン解釈」の進化
もうひとつ、無視できないのがSparse Autoencoder(SAE)の研究です。
これは、AIの内部に詰まっている「人間には読めない表現」を、人間が理解しやすい少数の特徴に分解する技術です。GoogleのDeepMindやAnthropic、IBMなどが盛んに研究していて、Anthropicは公式ブログで「単一意味ニューロン(monosemantic neurons)」の発見について発表しています。
SAEを使うと、たとえば「これは”犬”の概念を表すニューロン群」「これは”皮肉”の概念を表すニューロン群」のように、意味のかたまりごとにAIの中身を整理できるようになります。
そして、SAEで取り出した特徴に基づいて、AIの内部表現を直接書き換えることもできるようになりました。「このAIをもっと丁寧に応答させたい」と思ったら、丁寧さに対応する特徴を強くする。これを「アクティベーションステアリング(activation steering)」と呼びます。
NAG、SIEVE、SAE、影響関数。これらは出発点が違いますが、行き着く先は同じです。「AIの内部表現を、研究の対象から研究の道具に変える」という方向性。
閉ループAI開発フローの未来
これらが融合すると何が起きるか。私が想像しているのは、こんな閉ループAI開発フローです。
- 学習前:NAGで「タスクに効くデータ」を選ぶ
- 学習中:影響関数で「各バッチがどう効いたか」を追跡
- 学習後:SIEVE/SAEで「内部の機能」を検証
- デプロイ後:問題が出たら帰属技術で「原因データ」を特定→除去・修正→再学習
これは、これまでの「データを集める→巨大なモデルで殴る→出てきた結果を祈る」という荒削りな開発スタイルから、「データとモデル内部を行き来しながら精密に育てる」スタイルへの移行を意味します。
Andrej Karpathyという研究者が「Software 2.0」という言葉を使って、コードではなくデータでプログラムする時代を描きましたが、そのさらに先が見え始めています。
データだけでもなく、内部表現も含めて開発する時代。Software 2.5、いや3.0と呼ぶべきかもしれません。
検証可能性が安全性につながる
このトレンドには、もう一つ重要な側面があります。それは安全性と透明性です。
「なぜこのAIはそう判断したのか」「なぜこの学習データが効いたのか」――これらの問いに答えられるAIは、医療や法律、金融など説明責任が必要な分野で本当に使いものになります。
ブラックボックスのまま「とにかく賢いAI」を作っても、社会実装には限界があります。NAGや関連研究が指し示す「内側を見るAI」のトレンドは、性能だけでなく信頼性のためにも、避けて通れない道です。
EUのAI法など、AI規制も進んでいます。「説明可能性」が法的に求められる場面が増えていく中で、こうした技術はビジネス上の競争力にも直結していきます。
課題:本当に因果なのか、相関なのか
ただ、楽観的な話ばかりではありません。
参考文献の中にあるNAG仮説の再点検レポートが指摘するように、NAGが選ぶニューロンが「真の因果因子なのか、それとも相関を拾った代理特徴なのか」は、まだ十分に検証されていません。
メカニスティック解釈性(mechanistic interpretability)の研究では、見かけの説明と実際の機能が簡単にずれることが知られています。NAGの選んだニューロンが「効くように見える」だけで、実は別のニューロンの働きを覗き見ているかもしれません。
これを確かめるには、相関だけでなく介入実験(ニューロンを抑制・増幅したときに予測どおり出力が変わるか)が必要です。NAGの研究は、この方向への扉を開けただけで、検証はこれから先のテーマです。
ただ、検証可能であること自体が、NAGの強みでもあります。ブラックボックスな埋め込み類似度と違って、何が選ばれているかを明示的に見られるからこそ、批判的な検証ができる。これは大きな前進です。
ここまで「研究の流れ」を見てきました。次は、いよいよ実用の話です。NAGの考え方が、いまホットなAIエージェント(自律的にタスクをこなすAI)にどう活きるのか。私が一番ワクワクしている部分を、次のセクションでお話しします。
AIエージェントへの応用:ツール選びから自己改善まで

ここまでNAGそのものや、研究の大きな流れを見てきました。ここから先は私が一番ワクワクしている話です。
NAGの発想は、論文では「事前学習データ選択」の文脈で語られています。でも、その本質は「目標に対して、どの要素が効くかを内部の活性パターンで判定する」というものです。
この発想、AIエージェントが抱えている多くの課題に、そのまま応用できると思いませんか?
AIエージェントとは、ChatGPTのような対話型AIから一歩進んで、自分で計画を立て、ツールを使い、複数ステップのタスクを完遂してくれるAIのことです。Claude Code、Cursor、Devin、AutoGPTなど、いま急速に進化している分野です。
NAGの考え方をエージェントに転用すると、いくつもの実用的なシナリオが浮かびます。順番に見ていきましょう。
応用1:ツール選択の最適化
AIエージェントは、たくさんの「道具」を持っています。Web検索、コード実行、ファイル操作、API呼び出し、データベース問い合わせ、画像生成――これらの中から、その瞬間のタスクに合ったものを選んで使う必要があります。
現在のエージェントは、「どのツールを使うか」をプロンプトとLLMの判断に委ねています。LLMがツールの説明を読んで、「これかな」と判断する仕組みです。
これがけっこう間違えるんですよね。説明が似ているツールを混同したり、最適でない選択をしたり。
ここでNAGの考え方を持ち込むとどうなるか。
各ツールが過去にうまく使われたタスクのニューロン指紋を記録しておきます。新しいタスクが来たら、その入力でニューロンの指紋を取り、各ツールの「うまくいった指紋」と照合する。指紋が似ているツールから優先的に試すわけです。
これは、ベクトル検索によるToolFormerのアプローチを、全層のニューロン活性で精度を上げた版と言えます。前のセクションで見たように、最終層だけでは情報が足りないことがNAGで示されているので、全層を見るアプローチは確実に有効になるはずです。
応用2:メモリ・コンテキスト選択(強化版RAG)
AIエージェントは、過去の会話やドキュメントを記憶しておいて、必要なときに引き出します。これをRAG(Retrieval-Augmented Generation)と呼びます。
現在のRAGは、ほとんどが「埋め込みベクトル類似度」で関連文書を引いています。質問のベクトルと、保存されている文書ベクトルがどれくらい似ているか、で判定する仕組みです。
しかし、NAGの実験で「最終層だけだと-4.1%」という結果が出ました。これはRAGにとっても示唆的です。現在のRAGは最終層相当のベクトルだけを使っているので、本当は活かせるはずの情報を取り逃しているかもしれません。
NAG的なRAG(仮にN-RAGと呼びましょうか)では、全層のニューロン活性パターンで類似度を測ります。そうすると、表面的な単語の一致や意味の近さだけでなく、「読んだときに同じような認知プロセスを引き起こす文書」を引き出せるようになります。
これは、人間が記憶を引き出すときの感覚に近いかもしれません。私たちが何かを思い出すとき、単語が似てるから思い出すというより、「似た感覚を呼び起こす」から思い出すんですよね。AIのメモリも、その方向に進化していく可能性があります。
応用3:スキル・プロンプトのルーティング
最近のエージェント環境(Claude Codeなど)では、複数の「スキル」や「サブエージェント」を呼び出して使い分けます。Claude Codeでいえば、/loop、/review、/security-reviewのようなスラッシュコマンドが、それぞれ専門スキルです。
「いま私が言いたいのは、どのスキルを呼ぶべきか?」、これも結局、マッチング問題です。
NAGの考え方は、ここでも応用できます。各スキルの「代表的なクエリ群」のニューロン指紋を記録しておく。ユーザーの新しいクエリが来たら、その指紋と各スキルの代表指紋を比較する。一番近いスキルを推薦する、という設計です。
これは現在のキーワードマッチングや簡易LLM分類より、確実に賢くなります。ユーザーの言い回しが多少崩れても、内部の意図を捉えられるからです。
応用4:エージェントの自己反省と改善
ここが、私が一番面白いと思っている応用です。
エージェントは時々失敗します。バグを直そうとして別の場所を壊したり、間違った情報をもとに判断したり。
失敗したとき、エージェントは「なぜ失敗したのか」を反省できると、次から賢くなれます。でも従来のアプローチでは、反省は「LLMに『何が悪かった?』と聞く」程度のもので、雑な印象論にとどまりがちでした。
ここに、データ帰属の研究(Probe-Based Data Attribution、RepT)の知見を組み合わせると、失敗の原因となった具体的な過去経験・学習データ・記憶を特定できるようになります。
たとえば「このタスクで失敗したのは、過去にXというドキュメントを参照したのが原因だった」とエージェント自身が突き止められる。突き止めたら、そのドキュメントを記憶から除外したり、注意マークを付けたりして、二度と同じミスをしないようにする。
これは、エージェントが自分でデータをクリーニングして自分を改善する未来です。Probe-Based Data Attributionの論文で、有害な振る舞いを63%減らせた、というのは衝撃的な数字でした。これがエージェントの内側に入ると、自律的な品質管理が始まります。
応用5:アクティベーションステアリングで「気分」を切り替えるエージェント
前のセクションでも触れたアクティベーションステアリング。これは「AIの内部表現を直接いじって、振る舞いを変える」技術です。
NAGとの組み合わせを考えると、面白いことができます。
NAGで「専門家モードに対応するニューロン群」「創造モードに対応するニューロン群」「慎重モードに対応するニューロン群」を特定しておく。エージェントは現在のタスクに応じて、対応するニューロン群を活性化させて「気分を切り替える」。
たとえば法律相談中は「慎重モード」、ブレストの場面では「創造モード」、コードレビューでは「専門家モード」のように、プロンプトで指示するのではなく、内部表現を物理的に変えることで振る舞いを切り替える。
これはプロンプトエンジニアリングの限界を超える、新しい操作レイヤーです。プロンプトは「言葉でお願いする」のに対して、ステアリングは「直接スイッチを押す」ようなものです。スイッチの方が確実だし、副作用も少ない。
応用6:マルチエージェントの編成最適化
複数のエージェントが協力するシーン。たとえばClaude CodeのチームモードやAutoGenのようなマルチエージェントフレームワークでは、誰がどのサブタスクを担当するかが性能を左右します。
NAGの発想は、エージェント編成にも使えます。
各エージェントの「得意領域のニューロン指紋」を取っておく。新しいタスクが来たら、タスクの指紋と各エージェントの得意指紋を比較して、最も適した担当者を選ぶ。
さらに、指紋の差を使って分業も設計できます。似た指紋同士は冗長なので、わざと異なる指紋のエージェントを組ませて多様性を確保する戦略です。これは人間のチーム編成にも通じる発想ですよね。
応用7:ハルシネーション(誤った生成)の予兆検知
これは少し未来的な話ですが、エージェントが自分のニューロン活性パターンをモニタリングしていれば、「いまの自分は危険な状態かも」と気づける可能性があります。
たとえば、過去に誤った回答をしたときの活性パターンを覚えておいて、現在の活性がそれに似てきたら警告を出す、というアプローチです。「自分の自信が低い」を内部状態から検出する。
これは「自己認識のあるエージェント」への第一歩かもしれません。
応用がもたらす「設計可能なエージェント」
ここまで7つの応用シナリオを見てきました。共通しているのは、これまで「ブラックボックスのLLM任せ」だった部分に、精密な制御の手段が増えるということです。
| 制御対象 | 従来の方法 | NAG的な方法 |
|---|---|---|
| ツール選択 | LLMの判断+プロンプト | ニューロン指紋マッチング |
| メモリ検索 | 埋め込みベクトル類似度 | 全層活性パターン類似度 |
| スキル呼び出し | キーワード/LLM分類 | 内部状態でのルーティング |
| 失敗からの学習 | 印象論的な反省 | 帰属による原因データ特定 |
| 振る舞い制御 | プロンプト工夫 | アクティベーションステアリング |
| マルチエージェント | ロール割り当て | 指紋類似度に基づく編成 |
| 自己評価 | LLMの自信スコア | 内部状態モニタリング |
エージェントが設計可能で検証可能になる――これがNAG的トレンドの核心だと、私は感じています。
ただし、当然ながら、すべては「内部表現を信頼できる範囲で読める」という前提に立っています。前のセクションで触れたように、NAGが捉えているのが本当に因果なのか相関なのかは、まだ未解決の問題です。応用を進めるには、検証技術もセットで進化させる必要があります。
それでもこの方向性は、AIエージェントの「次のフェーズ」を形作る可能性が高いと思います。ChatGPT登場が「対話AIの一般化」のフェーズだったとすれば、NAG的な技術群が支えるのは「精密に設計可能で説明可能なAIエージェント」のフェーズです。
最後のセクションで、ここまでの話を整理しつつ、私たちがこの未来にどう向き合うかを考えてみます。
限界と、それでも私たちが期待すること

ここまで、NAG論文を中心に、技術の現在地と未来の可能性を見てきました。
最後に、この研究の限界と、それでも私が「この方向性に期待していい」と思う理由をお話しして、締めくくりたいと思います。
NAGの限界:因果なのか、相関なのか
正直に言うと、NAGには未解決の課題がいくつもあります。
最大の問いは「NAGが選んでいるニューロンは、本当にタスクに効く”原因”なのか?それとも、たまたま相関していただけなのか?」というものです。
参考にしたNAG仮説の再点検レポートでは、3段階の検証が必要だと指摘されています。
- 相関段階:ニューロン活性とタスク性能が一緒に動くか
- top-k一致段階:選ばれるニューロンが安定しているか
- 介入段階:そのニューロンを抑制/増幅したとき、予測どおり出力が変わるか
NAGが現在クリアしているのは、主に1と2です。3の介入段階の検証はこれからの課題です。論文では「無効化すると23.5%崩壊する」という結果はあるんですが、これだけで「真の因果因子」と言い切れるかというと、まだ慎重さが必要です。
メカニスティック解釈性の研究では、見かけの説明と実際の機能が簡単にずれることが繰り返し報告されています Open Problems in Mechanistic Interpretability。NAGの選んだニューロンは、「真の因果」ではなく、その近くにある「便利な代理特徴」かもしれません。
それでも期待してよい3つの理由
それでもなお、私はこの方向性に強い期待を持っています。理由は3つあります。
理由1:検証可能性が組み込まれている
NAGの最大の強みは、何を選んでいるかが目に見えることです。ブラックボックスな埋め込みベクトルだけでデータを選ぶ手法と違って、NAGは「このニューロン群を見ています」と明示できます。
明示できれば、検証もできる。批判もできる。改善もできる。科学の方法に乗せられる技術だということです。
これは、AI研究全体が「ベンチマークを上げるゲーム」から「理解を深める研究」へとシフトしていく流れの中で、極めて重要な性質です。
理由2:複数の研究が同じ方向を向いている
セクション4で見たように、NAGだけが孤立して進んでいるわけではありません。SIEVE、SAE、影響関数、RepT、Probe-Based Data Attribution――多くの独立した研究が、同じ方向を向いているんです。
具体的には、こういう方向です。
- 内部表現を観察対象から、研究の道具へ
- ベクトル類似度から、構造化された機能単位へ
- ブラックボックスから、検証可能な仮説へ
複数の研究グループが、別々の文脈から同じ方向に進んでいるとき、その方向はだいたい正しいことが多いです。物理学でも、量子力学が複数の科学者から同時多発的に提案されたように、収束点は本物のことが多いんですね。
理由3:実用への接続が見えている
理論研究だけだと、「面白いけど、実用にはまだ遠い」という結論になりがちです。
ところがNAGは、追加学習なしで既存のオープンソースモデルから抽出できる実用性を持っています。Qwen3-0.6Bという比較的小さなモデルからでも有効なNAGが取れる、という結果は、すでに今日の現場で試せることを意味します。
そしてセクション5で見たように、AIエージェントへの応用シナリオも豊富です。データ選択にとどまらず、ツール選択、メモリ検索、スキルルーティング、自己改善、ステアリング、マルチエージェント編成――どれも「明日からの実装課題」になり得ます。
私たちにとっての意味
NAGの話は、専門家にとっては「データ選択の新手法」かもしれません。でも、もう少し広く眺めると、この研究はAIと人間の関係そのものに関わってくると思います。
これまでのAI開発は、「とりあえず大きなモデルを巨大なデータで殴って、出てきた賢さを祈る」という荒削りなものでした。出てきたAIがなぜ賢いのかは、開発者にもよく分からない。間違えたとしても、なぜ間違えたのかは解明できない。
これは、AIを社会の重要な場所(医療、法律、金融、教育)に置くには、ちょっと心もとない状況でした。
NAGや関連研究が指し示す未来は、違います。「なぜそのデータが効いたのか」「なぜそのAIがそう判断したのか」を説明できるAIです。間違えたらどう直せばいいかが分かる。改善のサイクルを回せる。
これは性能の話というより、AIに対する信頼の話です。
ちょっと振り返って、最初の頃に書いた言い方を思い出してみてください。
これまでのAIは「どのデータを食べさせたら賢くなるか」を、外見だけ見て選んでいました。NAGは初めて、AIの頭の中を覗いて「このデータを食べたら、頭のここが反応する」ことを確かめながらデータを選ぶようになりました。
頭の中を覗けるようになったということは、ただデータを選ぶだけではありません。AIに何を覚えさせるか、何を忘れさせるか、どう振る舞わせるかを、精密に決められるようになる、ということです。
これがエージェントに応用されると、ツール選びが賢くなり、メモリ検索が深くなり、失敗から学べるようになり、自分の状態を把握できるようになる。AIが、より「設計可能なパートナー」に近づいていきます。
静かな決定的瞬間
最初の問いに戻りましょう。「AIってどうやって賢くなるのでしょうか?」
その答えは、これまで「いっぱいデータを食べさせる」でした。これからは、「自分の頭の中を見ながら、効くデータを選んで食べる」になっていきそうです。そして食べた後も、「なぜ効いたのか、効かなかったのか」を内側から確かめながら、賢くなっていく。
NAG論文は、その新しい時代の入り口にある研究のひとつだと思います。派手な話題ではないかもしれませんが、こういう「静かに、でも決定的な瞬間」こそが、技術の歴史を作っていきます。
私たちにできることは、こういう研究の動きを追いかけ続けて、自分の関わるAIシステムや日々の使い方に少しずつ取り入れていくことです。すぐに全部が変わるわけではありませんが、5年後、10年後にAIエージェントを評価するとき、「この時代の研究があったから今があるんだな」と思える日が来るはずです。
NAGが何を選んでいるのか、その選択は本当に正しいのか、これからもっといろんな研究者が確かめていくでしょう。私たちは、その答えが出てくるのを楽しみにしながら、自分の仕事に少しずつ応用していければと思います。
最後まで読んでくださり、ありがとうございました。AIの「頭の中」を覗く時代は、もう始まっています。一緒に、その先を見ていきましょう。
調査手法について
こちらの記事はグラフAIリサーチプラットフォームのSnorbeを使って作られています。Snorbeは研究開発・新規事業向けの調査テーマに応じた幅広い項目のオートリサーチや、ナレッジグラフの構築、構造化レポートの生成ができるAIリサーチツールです。

Screenshot
調査したいテーマを入力するだけで、AIが深堀りすべき観点や広げるべき調査項目をレコメンドしながら、自動でリサーチを進めます。収集した情報はナレッジグラフとして蓄積され、未調査領域(ホワイトスペース)を可視化しながら調査の網羅性を高めていけます。
また、観点マトリクスを30秒・構造化レポートを10分で自動生成する機能があり、出典付きのレポートをMarkdown/PDF形式でエクスポートできます。調査の元データも保存されるため、ファクトチェックや社内共有も容易です。
ご利用をご希望の方は、こちらよりお申し込みください。
また、グラフAIを活用した社内ナレッジ管理や、研究開発・新規事業のリサーチ支援、セルフホスト導入のご相談も受け付けています。お困りの方はお気軽にご連絡ください。
市場調査やデスクリサーチの生成AIエージェントを作っています 仲間探し中 / Founder of AI Desk Research Agent @deskrex , https://deskrex.ai


コメント