Por qué TOON supera a otros formatos
Si está creando aplicaciones LLM, específicamente sistemas o agentes de generación aumentada de recuperación (RAG) que consumen grandes conjuntos de datos, es probable que esté librando una guerra constante en dos frentes: costo del token y límites de ventana de contexto.
Durante años, JSON ha sido la lengua franca predeterminada para el intercambio de datos. Es legible por humanos (en su mayoría) y ubicuo. Pero cuando pega una matriz JSON de 500 filas en un mensaje, está quemando miles de tokens en nombres de campos repetidos ("id":, "name":, "email":`) que tienen un valor semántico cero para la fila específica.
Introduzca TOON. Es un formato diseñado específicamente para resolver el problema de la relación señal-ruido en las entradas LLM. He estado sumergiéndome en los últimos puntos de referencia y los resultados son sorprendentes: TOON no solo ahorra espacio; en realidad, está ayudando a modelos como GPT-5-nano y Gemini-2.5-flash a comprender mejor los datos.
Analicemos por qué TOON está superando a los pesos pesados (JSON, CSV, YAML, XML) y observemos los números brutos.
La trampa de la verbosidad: JSON versus TOON
El mayor enemigo de la eficiencia de los tokens es la repetición de estructuras. Veamos un conjunto de datos estándar de análisis de series temporales. En JSON, cada punto de datos lleva el equipaje de su esquema.
JSON (Estándar) Tokens utilizados en el benchmark: 22,250
Eso es mucho espacio desperdiciado. Ahora, mira el equivalente de TOON. TOON define el esquema una vez en el encabezado y luego cambia a un diseño denso de estilo CSV para los valores.
DIBUJOS Tokens utilizados en el benchmark: 9,120
El resultado: Una enorme reducción del 59,0% en el uso de tokens.
Al eliminar las claves repetidas, TOON le permite incluir más historial en la ventana contextual del modelo. Pero lo más importante es que, a diferencia de CSV, mantiene el conocimiento de tipos y la estructura explícita a través de la definición del encabezado metrics[5]{...}.
¿Por qué no utilizar simplemente CSV?
Este es el contraargumento más común. "Si quieres datos planos, utiliza CSV".
El problema es que los datos del mundo real rara vez son perfectamente planos. CSV se descompone por completo en el momento en que se anidan estructuras, listas dentro de objetos o descripciones complejas que contienen comas y comillas.
En los puntos de referencia, específicamente el Seguimiento de estructura mixta (que incluye pedidos de comercio electrónico y registros de eventos), el CSV se excluyó por completo porque no podía representar los datos sin un aplanamiento con pérdidas.
TOON maneja esto con gracia. Permite objetos anidados mientras optimiza las matrices. En una prueba de 100 repositorios de GitHub (que contienen descripciones de texto y metadatos mixtos), la brecha de eficiencia fue clara:
- JSON: 15,145 tokens
- TOON: 8.745 tokens (42,3% de ahorro)
Incluso frente a JSON Compact (minimizado), TOON obtuvo casi un 24 % más de ahorro. Cuando paga por millón de tokens, el retorno de la inversión es inmediato.
Precisión: el ganador sorpresa
Aquí está la parte que me sorprendió. Por lo general, cuando comprimes datos, pierdes claridad. Es de esperar que el LLM tenga dificultades para analizar un formato más denso. Los puntos de referencia muestran lo contrario.
En 209 preguntas de recuperación de datos probadas en modelos como Claude Haiku, Gemini Flash y GPT-5-nano, TOON logró una precisión de recuperación del 73,9 %, en comparación con el 69,7 % del JSON estándar.
¿Por qué? Probablemente todo se reduzca a Carga cognitiva (o el equivalente de LLM).
- Menos ruido: El modelo no tiene que prestar atención a miles de tokens "clave" que se repiten. Los valores relevantes están más juntos en el mecanismo de atención.
- Metadatos explícitos: Los encabezados TOON incluyen el recuento (
[N]) y los nombres de los campos de forma explícita.
- Conocimiento de la estructura: En las pruebas que preguntaban sobre la estructura del conjunto de datos (por ejemplo, "¿Cuántas filas hay?"), TOON alcanzó un 88% de precisión, mientras que JSON y XML se quedaron atrás. El recuento explícito en el encabezado TOON ("repositorios[100]") actúa como una pista que evita que el modelo tenga que "contar" tokens manualmente, algo en lo que los LLM son notoriamente malos.
La fatiga de XML y YAML
Debemos mencionar brevemente a los otros contendientes.
XML es el gran perdedor aquí. Es detallado, difícil de leer y costoso de procesar. En los puntos de referencia, XML utilizó consistentemente la mayor cantidad de tokens (más de 5000 para un conjunto de registros uniformes de empleados que TOON representó ~2700) y tuvo la precisión más baja (67,1%).
YAML funciona mejor que XML pero aún sufre de hinchazón de tokens en comparación con TOON. Si bien YAML es excelente para archivos de configuración humana, su naturaleza sensible a los espacios en blanco y su repetición de claves lo hacen subóptimo para contextos de datos de gran volumen. En la prueba de "pedidos de comercio electrónico", YAML utilizó ~14 % más tokens que TOON.
¿Cuándo cambiar?
Los datos son bastante concluyentes. Si se trata de:
- Listas de Objetos: Registros, historiales de transacciones, resultados de búsqueda o catálogos de productos.
- RAG Pipelines: donde se recuperan fragmentos de datos de una base de datos para introducirlos en un mensaje.
- API de gran volumen: Donde el ancho de banda y la latencia son importantes.
TOON ofrece un escenario con "lo mejor de ambos mundos". Obtienes la densidad de CSV con la integridad estructural de JSON.
En las pruebas comparativas, GPT-5-nano logró una asombrosa precisión del 90,9 % en datos formateados TOON. Esto sugiere que los modelos más nuevos e inteligentes se están volviendo cada vez más expertos en analizar estos formatos optimizados, lo que significa que la "penalización de legibilidad" de alejarse de JSON es efectivamente cero para la máquina.
Si todavía está formateando su contexto RAG como JSON.stringify(data, null, 2), efectivamente está pagando un "impuesto de legibilidad" en cada llamada a la API. Quizás haya llegado el momento de cambiar de formato.