TOON (Token-Oriented Object Notation) is a data serialization format designed specifically for LLM prompts to be highly efficient. It dramatically reduces token usage by 30-60% compared to JSON while remaining structured and human-readable. By using a tabular format for arrays and minimal syntax for objects, TOON makes your data cheaper and faster to process with AI models.

What's the difference between TOON and JSON?

The key difference is token efficiency. JSON is verbose, with brackets, quotes, and commas that consume tokens. TOON is a more compact syntax designed for LLMs, representing arrays as tables with headers and using minimal punctuation. This efficiency directly translates to significant cost savings on your LLM API bills, especially for large or repeated datasets.

How much can I save with TOON?

You can typically expect to save 30-60% on LLM tokens compared to using JSON. For large datasets or frequent API calls, this translates directly into significant cost savings. Data with repeated structures, like API responses or database results, often sees savings at the higher end of this range (40-60%).

Is TOON compatible with all LLMs?

Yes. TOON is a simple text format that works flawlessly with all major large language models, including those from OpenAI (GPT-4), Anthropic (Claude), Google (Gemini), and Meta (LLaMA). Since any LLM can process plain text, they can all be instructed to understand and parse the TOON format with a simple instruction in your prompt.

Can I convert TOON back to JSON?

Absolutely. TOON is fully and losslessly reversible. Our converter tool supports bidirectional conversion, meaning you can convert TOON back to the exact original JSON structure without any data loss. This allows you to use TOON for efficiency and then convert back to JSON for compatibility with other tools.

What types of data work best with TOON?

TOON can represent any valid JSON data, but it delivers the highest token savings (40-60%) on uniform tabular data. This includes database query results, API responses with lists of objects, analytics data, or product catalogs. While TOON fully supports nested objects and arrays, the token reduction is most dramatic with flatter, more repetitive data structures.

Is my data safe when using this converter?

100% safe. All conversion from JSON to TOON (and back) happens locally in your browser. Your data is never sent to any server, never stored, and never seen by us. The converter even works offline once the page has loaded, guaranteeing your information remains private.

Yes, completely free. Both this TOON converter and the underlying TOON format specification are open and free to use without any limits, file size restrictions, or premium features. It's an open-source effort to make working with LLMs more efficient for everyone.

Por qué TOON supera a otros formatos

LLM

Puntos de referencia

TRAPO

Si está creando aplicaciones LLM, específicamente sistemas o agentes de generación aumentada de recuperación (RAG) que consumen grandes conjuntos de datos, es probable que esté librando una guerra constante en dos frentes: costo del token y límites de ventana de contexto.

Durante años, JSON ha sido la lengua franca predeterminada para el intercambio de datos. Es legible por humanos (en su mayoría) y ubicuo. Pero cuando pega una matriz JSON de 500 filas en un mensaje, está quemando miles de tokens en nombres de campos repetidos ("id":, "name":, "email":`) que tienen un valor semántico cero para la fila específica.

Introduzca TOON. Es un formato diseñado específicamente para resolver el problema de la relación señal-ruido en las entradas LLM. He estado sumergiéndome en los últimos puntos de referencia y los resultados son sorprendentes: TOON no solo ahorra espacio; en realidad, está ayudando a modelos como GPT-5-nano y Gemini-2.5-flash a comprender mejor los datos.

Analicemos por qué TOON está superando a los pesos pesados (JSON, CSV, YAML, XML) y observemos los números brutos.

La trampa de la verbosidad: JSON versus TOON

El mayor enemigo de la eficiencia de los tokens es la repetición de estructuras. Veamos un conjunto de datos estándar de análisis de series temporales. En JSON, cada punto de datos lleva el equipaje de su esquema.

JSON (Estándar) Tokens utilizados en el benchmark: 22,250

Eso es mucho espacio desperdiciado. Ahora, mira el equivalente de TOON. TOON define el esquema una vez en el encabezado y luego cambia a un diseño denso de estilo CSV para los valores.

DIBUJOS Tokens utilizados en el benchmark: 9,120

El resultado: Una enorme reducción del 59,0% en el uso de tokens.

Al eliminar las claves repetidas, TOON le permite incluir más historial en la ventana contextual del modelo. Pero lo más importante es que, a diferencia de CSV, mantiene el conocimiento de tipos y la estructura explícita a través de la definición del encabezado metrics[5]{...}.

¿Por qué no utilizar simplemente CSV?

Este es el contraargumento más común. "Si quieres datos planos, utiliza CSV".

El problema es que los datos del mundo real rara vez son perfectamente planos. CSV se descompone por completo en el momento en que se anidan estructuras, listas dentro de objetos o descripciones complejas que contienen comas y comillas.

En los puntos de referencia, específicamente el Seguimiento de estructura mixta (que incluye pedidos de comercio electrónico y registros de eventos), el CSV se excluyó por completo porque no podía representar los datos sin un aplanamiento con pérdidas.

TOON maneja esto con gracia. Permite objetos anidados mientras optimiza las matrices. En una prueba de 100 repositorios de GitHub (que contienen descripciones de texto y metadatos mixtos), la brecha de eficiencia fue clara:

JSON: 15,145 tokens

TOON: 8.745 tokens (42,3% de ahorro)

Incluso frente a JSON Compact (minimizado), TOON obtuvo casi un 24 % más de ahorro. Cuando paga por millón de tokens, el retorno de la inversión es inmediato.

Precisión: el ganador sorpresa

Aquí está la parte que me sorprendió. Por lo general, cuando comprimes datos, pierdes claridad. Es de esperar que el LLM tenga dificultades para analizar un formato más denso. Los puntos de referencia muestran lo contrario.

En 209 preguntas de recuperación de datos probadas en modelos como Claude Haiku, Gemini Flash y GPT-5-nano, TOON logró una precisión de recuperación del 73,9 %, en comparación con el 69,7 % del JSON estándar.

¿Por qué? Probablemente todo se reduzca a Carga cognitiva (o el equivalente de LLM).

Menos ruido: El modelo no tiene que prestar atención a miles de tokens "clave" que se repiten. Los valores relevantes están más juntos en el mecanismo de atención.

Metadatos explícitos: Los encabezados TOON incluyen el recuento ([N]) y los nombres de los campos de forma explícita.

Conocimiento de la estructura: En las pruebas que preguntaban sobre la estructura del conjunto de datos (por ejemplo, "¿Cuántas filas hay?"), TOON alcanzó un 88% de precisión, mientras que JSON y XML se quedaron atrás. El recuento explícito en el encabezado TOON ("repositorios[100]") actúa como una pista que evita que el modelo tenga que "contar" tokens manualmente, algo en lo que los LLM son notoriamente malos.

La fatiga de XML y YAML

Debemos mencionar brevemente a los otros contendientes.

XML es el gran perdedor aquí. Es detallado, difícil de leer y costoso de procesar. En los puntos de referencia, XML utilizó consistentemente la mayor cantidad de tokens (más de 5000 para un conjunto de registros uniformes de empleados que TOON representó ~2700) y tuvo la precisión más baja (67,1%).

YAML funciona mejor que XML pero aún sufre de hinchazón de tokens en comparación con TOON. Si bien YAML es excelente para archivos de configuración humana, su naturaleza sensible a los espacios en blanco y su repetición de claves lo hacen subóptimo para contextos de datos de gran volumen. En la prueba de "pedidos de comercio electrónico", YAML utilizó ~14 % más tokens que TOON.

¿Cuándo cambiar?

Los datos son bastante concluyentes. Si se trata de:

Listas de Objetos: Registros, historiales de transacciones, resultados de búsqueda o catálogos de productos.

RAG Pipelines: donde se recuperan fragmentos de datos de una base de datos para introducirlos en un mensaje.

API de gran volumen: Donde el ancho de banda y la latencia son importantes.

TOON ofrece un escenario con "lo mejor de ambos mundos". Obtienes la densidad de CSV con la integridad estructural de JSON.

En las pruebas comparativas, GPT-5-nano logró una asombrosa precisión del 90,9 % en datos formateados TOON. Esto sugiere que los modelos más nuevos e inteligentes se están volviendo cada vez más expertos en analizar estos formatos optimizados, lo que significa que la "penalización de legibilidad" de alejarse de JSON es efectivamente cero para la máquina.

Si todavía está formateando su contexto RAG como JSON.stringify(data, null, 2), efectivamente está pagando un "impuesto de legibilidad" en cada llamada a la API. Quizás haya llegado el momento de cambiar de formato.