What is Neuronpedia?
複雑なAIモデルの内部で何が起こっているかを理解することは、今日、この分野における最も重要な課題の1つです。モデルがより大きく、より高性能になるにつれて、「ブラックボックス」の中を覗き込むことは、安全性、アラインメント、そしてAI科学の進歩にとって不可欠になります。Neuronpediaは、メカニズム的解釈可能性の研究を加速するために特別に設計されたオープンソースプラットフォームであり、ブレークスルーを達成するために必要なデータ、ツール、および共同作業環境を提供します。視覚化、ツール、スケーリング、ホスティングといったインフラストラクチャは私たちが担当しますので、研究に専念できます。
主な機能
🔍 膨大なデータセットの探索: ニューロンの活性化、特徴の説明(Sparse Autoencoders - SAEsによって生成されたものなど)、およびさまざまなモデルにわたる関連メタデータを含む、4テラバイトを超える事前計算されたデータにアクセスして分析します。このプラットフォームは、プローブ、潜在変数/特徴、コンセプト、カスタムベクトルなど、多様な解釈可能性の手法をサポートしています。
🧭 モデルの挙動の操作: 推論中に活性化を修正することで、モデルの内部を直接操作できます。特定された潜在変数/特徴またはカスタムベクトルを使用して、インストラクト(チャット)モデルおよび推論モデルでモデルの出力を制御します。温度、強度、シードなどのステアリングパラメータを微調整して、制御された実験を行います。
🔎 高度な検索機能: 5,000万を超える潜在変数、特徴、およびベクトルを効率的に検索します。自然言語の説明を使用して意味的に検索したり、推論を介してモデルでカスタムテキストプロンプトを実行して、最も強く活性化する内部コンポーネントを特定します。
🔬 ニューラルコンポーネントの検査: 個々のプローブ、潜在変数、または特徴を詳細に調べます。上位の活性化データセットの例を調べ、出力ロジットへの影響を分析し、活性化密度を視覚化し、インターフェース内で直接ライブ推論テストを実行します。共有可能なリストを作成したり、コラボレーションのためにダッシュボードを埋め込んだりします。
💻 包括的なAPIとライブラリ: Neuronpediaの機能を研究ワークフローに直接統合します。十分に文書化されたAPI(OpenAPI仕様を含む)と便利なPython/TypeScriptライブラリを介して、データ探索、ステアリング、検索など、すべてのプラットフォーム機能にプログラムでアクセスできます。
🌐 オープンソース基盤: 透明性の高いコミュニティ主導のプラットフォームを基盤として構築します。Neuronpediaのコアコードベースと広範なデータセットはGitHubで入手でき、研究コミュニティによる貢献、検証、および拡張を奨励しています。
ユースケース
モデル内のコンセプトのマッピング: Llama 3.1のようなモデルが「楽観主義」や「Pythonコード」のような抽象的な概念をどのように表現するかを研究しているとします。NeuronpediaのSearch機能を使用して、セマンティックな説明や関連するテキストプロンプトで、潜在的に関連する特徴/潜在変数を特定できます。次に、Inspectツールを使用して、上位の活性化とその下流への影響を分析し、それらがターゲットの概念を一貫してエンコードしているかどうかを検証します。
因果介入の検証: 特定の安全上の懸念(有害なコンテンツの生成など)を表すと思われる特徴を特定した後、Steer機能を使用できます。関連するプロンプトでの推論中にこの特徴の活性化を積極的に抑制または増幅することにより、モデルの挙動におけるその因果的役割に関する仮説をテストし、関連するリスクを軽減する方法を開発できる可能性があります。
アーキテクチャ間の比較分析: 異なるモデル(Gemma-2とGPT2-Smallなど)が類似の情報をどのように表現するかを研究しますか?ExploreツールとInspectツールを使用して、両方のモデルの同等のレイヤーまたはコンセプトにわたって、活性化または学習された特徴(SAEなど)を閲覧および比較し、アーキテクチャの違いと表現戦略を明らかにします。
結論
Neuronpediaは、AI解釈可能性コミュニティの基礎となるリソースとして機能します。大規模なデータセット、強力なインタラクティブツール、およびオープンソースフレームワーク内のプログラムによるアクセスを提供することにより、ニューラルネットワークの理解における参入障壁を大幅に下げ、進捗を加速することを目指しています。既存のモデルを探索している場合でも、新しい解釈可能性の手法を開発している場合でも、モデル制御を実験している場合でも、Neuronpediaはお客様の作業をサポートするためのインフラストラクチャを提供します。





