De ce TOON depășește alte formate

LLM
Benchmark-uri
CÂRPĂ

Dacă construiți aplicații LLM, în special sisteme Retrieval-Augmented Generation (RAG) sau agenți care consumă seturi de date mari, probabil că luptați într-un război constant pe două fronturi: costul jetonului și limitele ferestrelor de context.

De ani de zile, JSON a fost lingua franca implicită a schimbului de date. Este lizibil de om (în mare parte) și omniprezent. Dar când inserați o matrice JSON de 500 de rânduri într-un prompt, ardeți mii de jetoane pe nume de câmpuri repetate ("id":, "name":, "email":) care au valoare semantică zero pentru rândul specific.

Introdu TOON. Este un format conceput special pentru a rezolva problema raportului semnal-zgomot în intrările LLM. M-am scufundat în cele mai recente criterii de referință, iar rezultatele sunt uimitoare: TOON nu înseamnă doar economisirea spațiului; de fapt, ajută modele precum GPT-5-nano și Gemini-2.5-flash să înțeleagă datele mai bine.

Să dezvăluim de ce TOON îi învinge pe cei grei (JSON, CSV, YAML, XML) și să ne uităm la numerele brute.

Capcana verbezității: JSON vs. TOON

Cel mai mare inamic al eficienței token-ului este repetarea structurii. Să ne uităm la un set de date standard Time-Series Analytics. În JSON, fiecare punct de date poartă bagajul schemei sale.

JSON (Standard) Jetoane utilizate în benchmark: 22.250

Este mult spațiu irosit. Acum, uită-te la echivalentul TOON. TOON definește schema o dată în antet și apoi trece la un aspect dens, în stil CSV pentru valori.

TOON Jetoane utilizate în benchmark: 9.120

Rezultatul: O **reducere masivă de 59,0% a utilizării token-ului.

Prin eliminarea tastelor repetate, TOON vă permite să încadrați mai mult istoric în fereastra de context a modelului. Dar, în mod esențial, spre deosebire de CSV, menține conștientizarea tipului și structura explicită prin definiția antetului metrics[5]{...}.

De ce să nu folosiți doar CSV?

Acesta este cel mai frecvent contraargument. „Dacă doriți date plate, utilizați doar CSV.”

Problema este că datele din lumea reală sunt rareori perfect plate. CSV se descompune complet în momentul în care aveți structuri imbricate, liste în obiecte sau descrieri complexe care conțin virgule și ghilimele.

În benchmark-uri, în special în Mixed-Structure Track (care include comenzile de comerț electronic și jurnalele de evenimente), CSV a fost exclus în întregime deoarece nu putea reprezenta datele fără aplatizare cu pierderi.

TOON se descurcă cu grație. Permite obiecte imbricate în timp ce optimizează matricele. Într-un test de 100 de depozite GitHub (care conțin descrieri de text mixte și metadate), decalajul de eficiență a fost clar:

  • JSON: 15.145 de jetoane
  • TOON: 8.745 de jetoane (42,3% economii)

Chiar și împotriva JSON Compact (minimificat), TOON a făcut economii cu aproape 24% mai multe. Când plătiți per milion de jetoane, acesta este rentabilitatea investiției imediată.

Acuratețe: Câștigătorul surpriză

Iată partea care m-a surprins. De obicei, atunci când comprimați datele, pierdeți claritatea. Te-ai aștepta ca LLM să se lupte să analizeze un format mai dens. Benchmark-urile arată contrariul.

Pe parcursul a 209 întrebări de recuperare a datelor testate pe modele precum Claude Haiku, Gemini Flash și GPT-5-nano, TOON a obținut o precizie de regăsire de 73,9%, comparativ cu 69,7% din JSON standard.

De ce? Probabil se reduce la Încărcare cognitivă (sau echivalentul LLM).

  1. ** Mai puțin zgomot:** Modelul nu trebuie să se ocupe de mii de jetoane repetate „cheie”. Valorile relevante sunt mai apropiate între ele în mecanismul atenției.
  1. Metadate explicite: anteturile TOON includ în mod explicit numărul ([N]) și numele câmpurilor.
  1. Conștientizarea structurii: în testele care au întrebat despre structura setului de date (de exemplu, „Câte rânduri sunt?”), TOON a atins 88% acuratețe, în timp ce JSON și XML au rămas în urmă. Numărarea explicită din antetul TOON (repositories[100]) acționează ca un indiciu care împiedică modelul să fie nevoit să „numere” token-urile manual, la care LLM-urile sunt notoriu rău.

Oboseala XML și YAML

Ar trebui să menționăm pe scurt ceilalți concurenți.

XML este cel mai mare învins aici. Este detaliat, greu de citit și costisitor de procesat. În benchmark-uri, XML a folosit în mod constant cele mai multe jetoane (peste 5.000 pentru un set uniform de înregistrare a angajaților pe care TOON îl reprezenta în ~2.700) și a avut cea mai scăzută precizie (67,1%).

YAML are performanțe mai bune decât XML, dar încă suferă de umflarea simbolurilor în comparație cu TOON. În timp ce YAML este excelent pentru fișierele de configurare umană, natura sa sensibilă la spații albe și repetarea tastelor îl fac suboptim pentru contextul de date cu volum mare. În testul „Comenzi de comerț electronic”, YAML a folosit cu ~14% mai multe jetoane decât TOON.

Când să comutați?

Datele sunt destul de concludente. Daca ai de-a face cu:

  1. Liste de obiecte: jurnalele, istoriile tranzacțiilor, rezultatele căutării sau cataloagele de produse.
  1. Rag Pipelines: Unde preluați bucăți de date dintr-o bază de date pentru a le alimenta într-un prompt.
  1. API-uri cu volum mare: unde lățimea de bandă și latența contează.

TOON oferă un scenariu „cel mai bun din ambele lumi”. Obțineți densitatea CSV cu integritatea structurală a JSON.

În benchmark-uri, GPT-5-nano a obținut o uimitoare precizie de 90,9% pe datele formatate TOON. Acest lucru sugerează că modelele mai noi și mai inteligente devin din ce în ce mai pricepute la analiza acestor formate optimizate, ceea ce înseamnă că „penalizarea de lizibilitate” a depărtării de JSON este efectiv zero pentru mașină.

Dacă încă formatați contextul RAG ca JSON.stringify(data, null, 2), plătiți efectiv o „taxă de lizibilitate” pentru fiecare apel API. Ar putea fi timpul să schimbați formatele.