TOON (Token-Oriented Object Notation) is a data serialization format designed specifically for LLM prompts to be highly efficient. It dramatically reduces token usage by 30-60% compared to JSON while remaining structured and human-readable. By using a tabular format for arrays and minimal syntax for objects, TOON makes your data cheaper and faster to process with AI models.

What's the difference between TOON and JSON?

The key difference is token efficiency. JSON is verbose, with brackets, quotes, and commas that consume tokens. TOON is a more compact syntax designed for LLMs, representing arrays as tables with headers and using minimal punctuation. This efficiency directly translates to significant cost savings on your LLM API bills, especially for large or repeated datasets.

How much can I save with TOON?

You can typically expect to save 30-60% on LLM tokens compared to using JSON. For large datasets or frequent API calls, this translates directly into significant cost savings. Data with repeated structures, like API responses or database results, often sees savings at the higher end of this range (40-60%).

Is TOON compatible with all LLMs?

Yes. TOON is a simple text format that works flawlessly with all major large language models, including those from OpenAI (GPT-4), Anthropic (Claude), Google (Gemini), and Meta (LLaMA). Since any LLM can process plain text, they can all be instructed to understand and parse the TOON format with a simple instruction in your prompt.

Can I convert TOON back to JSON?

Absolutely. TOON is fully and losslessly reversible. Our converter tool supports bidirectional conversion, meaning you can convert TOON back to the exact original JSON structure without any data loss. This allows you to use TOON for efficiency and then convert back to JSON for compatibility with other tools.

What types of data work best with TOON?

TOON can represent any valid JSON data, but it delivers the highest token savings (40-60%) on uniform tabular data. This includes database query results, API responses with lists of objects, analytics data, or product catalogs. While TOON fully supports nested objects and arrays, the token reduction is most dramatic with flatter, more repetitive data structures.

Is my data safe when using this converter?

100% safe. All conversion from JSON to TOON (and back) happens locally in your browser. Your data is never sent to any server, never stored, and never seen by us. The converter even works offline once the page has loaded, guaranteeing your information remains private.

Yes, completely free. Both this TOON converter and the underlying TOON format specification are open and free to use without any limits, file size restrictions, or premium features. It's an open-source effort to make working with LLMs more efficient for everyone.

Por que TOON supera outros formatos

LLM

Referências

pano

Se você estiver criando aplicativos LLM, especificamente sistemas ou agentes de geração aumentada de recuperação (RAG) que consomem grandes conjuntos de dados, provavelmente estará travando uma guerra constante em duas frentes: custo de token e limites de janela de contexto.

Durante anos, JSON foi a língua franca padrão para intercâmbio de dados. É legível por humanos (principalmente) e onipresente. Mas quando você cola uma matriz JSON de 500 linhas em um prompt, você está queimando milhares de tokens em nomes de campos repetidos ("id":, "name":, "email":) que carregam valor semântico zero para a linha específica.

Digite TOON. É um formato projetado especificamente para resolver o problema da relação sinal-ruído em entradas LLM. Tenho mergulhado nos benchmarks mais recentes e os resultados são surpreendentes: TOON não está apenas economizando espaço; na verdade, está ajudando modelos como GPT-5-nano e Gemini-2.5-flash a entender melhor os dados.

Vamos analisar por que o TOON está vencendo os pesos pesados (JSON, CSV, YAML, XML) e observar os números brutos.

A armadilha da verbosidade: JSON vs.

O maior inimigo da eficiência do token é a repetição da estrutura. Vejamos um conjunto de dados padrão do Time-Series Analytics. No JSON, cada ponto de dados carrega a bagagem de seu esquema.

JSON (padrão) Tokens usados no benchmark: 22.250

Isso é muito espaço desperdiçado. Agora, veja o equivalente TOON. TOON define o esquema uma vez no cabeçalho e depois muda para um layout denso no estilo CSV para os valores.

TOON Tokens usados no benchmark: 9.120

O resultado: Uma enorme redução de 59,0% no uso de tokens.

Ao eliminar as chaves repetidas, o TOON permite inserir mais histórico na janela de contexto do modelo. Mas, crucialmente, ao contrário do CSV, ele mantém o reconhecimento de tipo e a estrutura explícita por meio da definição de cabeçalho metrics[5]{...}.

Por que não usar apenas CSV?

Este é o contra-argumento mais comum. "Se você quiser dados simples, basta usar CSV."

O problema é que os dados do mundo real raramente são perfeitamente planos. O CSV se decompõe completamente no momento em que você tem estruturas aninhadas, listas dentro de objetos ou descrições complexas contendo vírgulas e aspas.

Nos benchmarks, especificamente no Track de estrutura mista (que inclui pedidos de comércio eletrônico e logs de eventos), o CSV foi totalmente excluído porque não conseguia representar os dados sem nivelamento com perdas.

TOON lida com isso com elegância. Ele permite objetos aninhados enquanto otimiza os arrays. Em um teste de 100 repositórios GitHub (que contêm descrições de texto e metadados mistos), a lacuna de eficiência ficou clara:

JSON: 15.145 tokens

TOON: 8.745 tokens (economia de 42,3%)

Mesmo em relação ao JSON Compact (minificado), o TOON ainda conseguiu quase 24% mais economia. Quando você paga por milhão de tokens, isso representa um ROI imediato.

Precisão: o vencedor surpresa

Aqui está a parte que me surpreendeu. Normalmente, ao compactar dados, você perde clareza. Você esperaria que o LLM tivesse dificuldade para analisar um formato mais denso. Os benchmarks mostram o oposto.

Em 209 questões de recuperação de dados testadas em modelos como Claude Haiku, Gemini Flash e GPT-5-nano, o TOON alcançou uma precisão de recuperação de 73,9%, em comparação com os 69,7% do JSON padrão.

Por que? Provavelmente se resume a Carga Cognitiva (ou equivalente LLM).

Menos ruído: O modelo não precisa atender milhares de tokens "chave" repetidos. Os valores relevantes estão mais próximos no mecanismo de atenção.

Metadados explícitos: Os cabeçalhos TOON incluem a contagem ([N]) e os nomes dos campos explicitamente.

Conscientização da estrutura: Em testes perguntando sobre a estrutura do conjunto de dados (por exemplo, "Quantas linhas existem?"), o TOON atingiu 88% de precisão, enquanto JSON e XML ficaram para trás. A contagem explícita no cabeçalho TOON (repositories[100]) atua como uma dica que evita que o modelo tenha que "contar" os tokens manualmente, algo no qual os LLMs são notoriamente ruins.

A fadiga de XML e YAML

Devemos mencionar brevemente os outros concorrentes.

XML é o grande perdedor aqui. É prolixo, difícil de ler e caro para processar. Nos benchmarks, o XML usou consistentemente o maior número de tokens (mais de 5.000 para um conjunto uniforme de registros de funcionários que o TOON representou em aproximadamente 2.700) e teve a menor precisão (67,1%).

YAML tem melhor desempenho que XML, mas ainda sofre com o inchaço de tokens em comparação com TOON. Embora o YAML seja ótimo para arquivos de configuração humana, sua natureza sensível a espaços em branco e a repetição de chaves o tornam abaixo do ideal para contextos de dados de alto volume. No teste de “pedidos de comércio eletrônico”, o YAML usou cerca de 14% mais tokens do que o TOON.

Quando mudar?

Os dados são bastante conclusivos. Se você está lidando com:

Listas de objetos: registros, históricos de transações, resultados de pesquisa ou catálogos de produtos.

RAG Pipelines: onde você recupera blocos de dados de um banco de dados para alimentar um prompt.

APIs de alto volume: Onde a largura de banda e a latência são importantes.

TOON oferece um cenário do “melhor dos dois mundos”. Você obtém a densidade do CSV com a integridade estrutural do JSON.

Nos benchmarks, GPT-5-nano alcançou uma impressionante precisão de 90,9% em dados formatados em TOON. Isso sugere que modelos mais novos e mais inteligentes estão se tornando cada vez mais adeptos da análise desses formatos otimizados, o que significa que a “penalidade de legibilidade” de se afastar do JSON é efetivamente zero para a máquina.

Se você ainda estiver formatando seu contexto RAG como JSON.stringify(data, null, 2), estará efetivamente pagando uma "imposto de legibilidade" em cada chamada de API. Talvez seja hora de mudar de formato.