What is TOON?
TOON は、大規模言語モデル(LLM)への大量データ入力のコスト削減と信頼性向上を目的として特別に設計された、簡潔でスキーマ対応のデータシリアライゼーション形式です。標準的な JSON データモデルへの完全な忠実性を維持しつつ、TOON はトークン数を劇的に削減する人間が読みやすい構文を採用しており、LLM パイプラインに構造化データを効率的に渡すための理想的な変換レイヤーとなっています。
コンテキストウィンドウの限界に迫るような大規模なデータセット、設定オブジェクト、または均一な配列を扱っている場合、TOON は、API コストを削減し、モデルがデータを確実に解析できるようにする強力なメカニズムを提供します。
主な特長
TOON は、JSON の構造的整合性と軽量フォーマットのトークン効率を両立させるように設計されており、LLM での利用に非常に効果的な明示的なガードレールを活用しています。
💸 **大幅なトークン削減:** フォーマット済み JSON と比較して、特にオブジェクトの大規模で均一な配列を扱う場合、通常 30~60% のトークン削減を達成します。この削減は、運用コストの低減に直結し、固定されたコンテキストウィンドウ内により多くのデータを収めることを可能にします。
🤿 **LLM に優しいガードレールと検証機能:** CSV のような生データ形式とは異なり、TOON には、配列の長さ(例: items[3])やフィールドヘッダー({sku,qty,price})といった明示的な構造メタデータが含まれています。これらの明示的なガードレールにより、モデルは構造を確実に追跡でき、解析エラーを減らし、データ取得タスクの精度を向上させます。
🧺 **効率的な表形式配列:** TOON の「真骨頂」は、その表形式配列フォーマットにあります。これは、オブジェクトの構造と CSV の効率性を兼ね備えています。ヘッダーでキーを一度だけ宣言することで、その後のデータをシンプルなカンマ区切りまたはタブ区切りの行としてストリーミングできます。この最小限の構文により、標準 JSON をトークン効率の悪いものにしている冗長な句読点(中括弧、角括弧、ほとんどの引用符)が不要になります。
🔗 **ネストされたデータのためのオプションのキーフォールディング:** オプションのキーフォールディングを使用することで、深くネストされたオブジェクトを効率的に管理できます。この機能は、単一キーのラッパーチェーンをドット区切りのパス(例: data.metadata.items)に折りたたみ、元の構造を犠牲にすることなく、インデントのオーバーヘッドとトークン数をさらに削減します。
ユースケース
TOON は、プログラム的なデータ構造(JSON)と LLM インタラクションレイヤー間の重要な最適化レイヤーとして機能します。
**コスト効率の良いデータ分析と要約:** 大量の構造化されたログ、金融取引、またはユーザーイベントデータを要約やパターン認識のために LLM に供給する際、入力を TOON 形式でエンコードすることで、プロンプト入力のコストを劇的に削減できます。例えば、10万行の均一なイベントログを JSON ではなく TOON でエンコードすると、トークン使用量を 20% 以上削減でき、1ドルあたりの処理データ量を増やすことができます。
**信頼性の高い出力生成と関数呼び出し:** 構造化された出力タスクの成功率を向上させます。モデルに TOON 形式で応答を生成するよう指示することで、明示的な配列の長さとフィールドヘッダーを強力なヒントとして活用できます。これにより、LLM がフィールドを省略したり、項目数を誤ってカウントしたりする傾向が減少し、生成されたデータが有効で、TOON SDK を使用して JSON に簡単に再解析できることを保証します。
**既存の JSON パイプラインのモダナイズ:** バックエンドが内部通信に JSON を使用し、LLM サービスにデータを供給している場合、API 送信直前に TOON TypeScript SDK または CLI を使用してデータを自動的にエンコードし、受信時に応答をデコードします。これにより、コアデータモデルを書き換えたり、JSON 標準から切り替えたりすることなく、即座に測定可能なコスト削減を実現できます。
独自の利点: ベンチマークによる効率性と精度
TOON は単なるコンパクトな形式ではありません。LLM の理解とトークン効率に特化して最適化されており、一般的なモデル全体で優れた性能を発揮します。
| 指標 | TOON の性能 | vs. フォーマット済み JSON | 分析 |
|---|---|---|---|
| トークン効率(平均) | 2,744 トークン | 39.6% トークン削減 | API コストを大幅に削減し、利用可能なコンテキストウィンドウサイズを拡大します。 |
| 検索精度(平均) | 73.9% | 4.2% 精度向上 | 明示的な構造(長さとフィールド)により、LLM はデータをより確実に解析でき、理解度向上と検索エラー削減につながります。 |
| 効率性ランキング | 26.9(1,000トークンあたりの精度) | 最高位 | TOON は、多様なデータ構造において、モデルの精度とトークンコストの最適なバランスを提供します。 |
Gemini、Claude、GPT などのモデルを用いた直接比較ベンチマークにおいて、TOON は、その独自の構文が最も効率的かつ堅牢な方法でモデルに情報を提供することを一貫して示しています。
他の形式を使用すべきケース
TOON は構造化データに優れていますが、効率を最大化するためにはその限界を理解することが重要です。
- 深くネストされたデータまたは均一性の低いデータ: データが多くのネストレベルを持ち、均一な配列がほとんどまたは全くない場合(例: 複雑な設定ファイル)、標準的なコンパクト JSON の方が使用するトークンが少ない可能性があります。
- 純粋な表形式データ: ネストがなく、構造メタデータの要件もないフラットなテーブルの場合、CSV が最もトークン効率の良い形式ですが、TOON は重要な構造と検証を提供するためにわずか 5~10% のオーバーヘッドを追加するにすぎません。
- レイテンシーが重要なローカルモデル: 一部のレイテンシーが重要な環境(特にローカルモデルや量子化モデル)では、コンパクト JSON のシンプルさが、Time-To-First-Token(TTFT)の高速化につながる可能性があります。マイクロレイテンシーが絶対的な優先事項である場合は、常に実際のデプロイメントでベンチマークを実施してください。
まとめ
TOON は、LLM データ入力における永続的な課題、すなわち高額なトークンコストと一貫性のない解析に対し、専門的で検証可能なソリューションを提供します。JSON をこの簡潔でスキーマ対応の形式に変換することで、運用効率とデータ検索精度の両面で、即座に測定可能なメリットが得られます。





