What is TOON?
TOON 是一種緊湊、具備結構綱要意識的資料序列化格式,專為降低大型語言模型 (LLM) 大量資料輸入的成本並提升其可靠性而設計。TOON 在完全忠實於標準 JSON 資料模型的同時,採用一種可讀性高的語法,能大幅減少權杖計數,使其成為將結構化資料高效傳輸至 LLM 管線的理想轉譯層。
如果您正在處理龐大的資料集、設定物件或統一陣列,且這些內容已逼近您的上下文視窗極限,TOON 提供了一種強大的機制,能有效降低 API 成本,並確保您的資料能被模型可靠地解析。
主要特色
TOON 的設計旨在提供 JSON 的結構完整性,同時具備輕量級格式的權杖效率,運用對 LLM 消耗極其有效的明確防護措施。
💸 大幅減少權杖用量:相較於格式化的 JSON,可實現 30-60% 的典型權杖節省,尤其在處理大型、統一的物件陣列時更為顯著。這種減少直接轉化為更低的營運成本,並能在固定的上下文視窗中容納更多資料。
🤿 LLM 友善的防護措施與驗證:不同於 CSV 等原始格式,TOON 包含明確的結構化中繼資料,例如陣列長度 (例:items[3]) 和欄位標頭 (例:{sku,qty,price})。這些明確的防護措施讓模型能可靠地追蹤結構,減少解析錯誤並提升資料檢索任務的準確性。
🧺 高效的表格陣列:TOON 的「優勢」在於其表格陣列格式,它結合了物件的結構和 CSV 的效率。透過在標頭中只宣告一次鍵值,您可以將後續資料以簡單的逗號或 Tab 分隔列的形式串流。這種簡潔語法移除了使標準 JSON 權杖成本高昂的冗餘標點符號 (大括號、方括號和大部分引號)。
🔗 巢狀資料的選擇性鍵值摺疊:透過選擇性鍵值摺疊,有效管理深度巢狀物件。此功能將單一鍵值包裝鏈摺疊成點路徑 (例:data.metadata.items),以進一步減少縮排開銷和權杖計數,同時不犧牲原始結構。
使用情境
TOON 在您的程式化資料結構 (JSON) 和您的 LLM 互動層之間,扮演著關鍵的優化層角色。
成本效益高的資料分析與摘要:當您將大量結構化日誌、金融交易或使用者事件資料餵給 LLM 進行摘要或模式識別時,將輸入編碼為 TOON 可以大幅降低提示輸入的成本。例如,將十萬行統一事件日誌以 TOON 編碼而非 JSON,可以減少超過 20% 的權杖使用量,讓您能以相同的成本處理更多資料。
可靠的輸出生成與函式呼叫:提高結構化輸出任務的成功率。透過指示模型以 TOON 格式生成回應,您可以利用明確的陣列長度和欄位標頭,這些都可作為強有力的提示。這減少了 LLM 遺漏欄位或計數錯誤項目的傾向,確保生成的資料保持有效,並且易於使用 TOON SDK 解析回 JSON。
現代化現有的 JSON 管線:如果您的後端使用 JSON 進行內部通訊,但將資料傳送至 LLM 服務,可使用 TOON TypeScript SDK 或 CLI 在 API 提交前自動編碼資料,並在收到回應時解碼。這提供了立即可衡量到的成本節省,而無需您重寫核心資料模型或放棄 JSON 標準。
獨特優勢:經過基準測試的效率與準確性
TOON 不僅是一種緊湊的格式;它更是專為 LLM 理解和權杖效率而優化,在常見模型中展現卓越性能。
| 指標 | TOON 性能表現 | 相較於格式化 JSON | 洞察 |
|---|---|---|---|
| 權杖效率 (平均) | 2,744 個權杖 | 減少 39.6% 的權杖 | 顯著降低 API 成本並增加可用的上下文視窗大小。 |
| 檢索準確性 (平均) | 73.9% | 提升 4.2% 的準確性 | 明確的結構 (長度與欄位) 有助於 LLM 更可靠地解析資料,從而提高理解力並減少檢索錯誤。 |
| 效率排名 | 26.9 (每千個權杖的準確性) | 最高排名 | TOON 在多樣化的資料結構中,實現了模型準確性和權杖成本的最佳平衡。 |
在 Gemini、Claude 和 GPT 等模型的直接對比基準測試中,TOON 持續證明其獨特的語法能夠以最有效率且最穩健的方式將資訊傳達給模型。
何時選用其他格式
儘管 TOON 在結構化資料方面表現出色,但了解其限制對於最大化效率至關重要:
- 深度巢狀或高度非統一的資料:如果您的資料具有許多巢狀層級且幾乎沒有統一陣列 (例如:複雜的設定檔),標準的緊湊 JSON 可能會使用較少的權杖。
- 純粹的表格資料:對於沒有巢狀結構或結構化中繼資料需求的平面表格,CSV 仍然是最具權杖效率的格式,儘管 TOON 僅增加 5-10% 的極小開銷,以提供關鍵的結構和驗證功能。
- 延遲敏感的本地模型:在某些延遲敏感的環境中 (特別是本地或量化模型),緊湊 JSON 的簡潔性可能帶來更快的首次權杖時間 (Time-To-First-Token, TTFT)。如果微延遲是您的絕對優先考量,請務必針對您的實際部署進行基準測試。
結論
TOON 為 LLM 資料輸入的長期挑戰——高權杖成本和不一致的解析——提供了一個專業且可驗證的解決方案。透過將您的 JSON 轉換為這種緊湊、具備結構綱要意識的格式,您將立即在營運效率和資料檢索準確性方面獲得顯著且可衡量的效益。





