Por que TOON supera outros formatos
Se você estiver criando aplicativos LLM, especificamente sistemas ou agentes de geração aumentada de recuperação (RAG) que consomem grandes conjuntos de dados, provavelmente estará travando uma guerra constante em duas frentes: custo de token e limites de janela de contexto.
Durante anos, JSON foi a língua franca padrão para intercâmbio de dados. É legível por humanos (principalmente) e onipresente. Mas quando você cola uma matriz JSON de 500 linhas em um prompt, você está queimando milhares de tokens em nomes de campos repetidos ("id":, "name":, "email":) que carregam valor semântico zero para a linha específica.
Digite TOON. É um formato projetado especificamente para resolver o problema da relação sinal-ruído em entradas LLM. Tenho mergulhado nos benchmarks mais recentes e os resultados são surpreendentes: TOON não está apenas economizando espaço; na verdade, está ajudando modelos como GPT-5-nano e Gemini-2.5-flash a entender melhor os dados.
Vamos analisar por que o TOON está vencendo os pesos pesados (JSON, CSV, YAML, XML) e observar os números brutos.
A armadilha da verbosidade: JSON vs.
O maior inimigo da eficiência do token é a repetição da estrutura. Vejamos um conjunto de dados padrão do Time-Series Analytics. No JSON, cada ponto de dados carrega a bagagem de seu esquema.
JSON (padrão) Tokens usados no benchmark: 22.250
Isso é muito espaço desperdiçado. Agora, veja o equivalente TOON. TOON define o esquema uma vez no cabeçalho e depois muda para um layout denso no estilo CSV para os valores.
TOON Tokens usados no benchmark: 9.120
O resultado: Uma enorme redução de 59,0% no uso de tokens.
Ao eliminar as chaves repetidas, o TOON permite inserir mais histórico na janela de contexto do modelo. Mas, crucialmente, ao contrário do CSV, ele mantém o reconhecimento de tipo e a estrutura explícita por meio da definição de cabeçalho metrics[5]{...}.
Por que não usar apenas CSV?
Este é o contra-argumento mais comum. "Se você quiser dados simples, basta usar CSV."
O problema é que os dados do mundo real raramente são perfeitamente planos. O CSV se decompõe completamente no momento em que você tem estruturas aninhadas, listas dentro de objetos ou descrições complexas contendo vírgulas e aspas.
Nos benchmarks, especificamente no Track de estrutura mista (que inclui pedidos de comércio eletrônico e logs de eventos), o CSV foi totalmente excluído porque não conseguia representar os dados sem nivelamento com perdas.
TOON lida com isso com elegância. Ele permite objetos aninhados enquanto otimiza os arrays. Em um teste de 100 repositórios GitHub (que contêm descrições de texto e metadados mistos), a lacuna de eficiência ficou clara:
- JSON: 15.145 tokens
- TOON: 8.745 tokens (economia de 42,3%)
Mesmo em relação ao JSON Compact (minificado), o TOON ainda conseguiu quase 24% mais economia. Quando você paga por milhão de tokens, isso representa um ROI imediato.
Precisão: o vencedor surpresa
Aqui está a parte que me surpreendeu. Normalmente, ao compactar dados, você perde clareza. Você esperaria que o LLM tivesse dificuldade para analisar um formato mais denso. Os benchmarks mostram o oposto.
Em 209 questões de recuperação de dados testadas em modelos como Claude Haiku, Gemini Flash e GPT-5-nano, o TOON alcançou uma precisão de recuperação de 73,9%, em comparação com os 69,7% do JSON padrão.
Por que? Provavelmente se resume a Carga Cognitiva (ou equivalente LLM).
- Menos ruído: O modelo não precisa atender milhares de tokens
"chave"repetidos. Os valores relevantes estão mais próximos no mecanismo de atenção.
- Metadados explícitos: Os cabeçalhos TOON incluem a contagem (
[N]) e os nomes dos campos explicitamente.
- Conscientização da estrutura: Em testes perguntando sobre a estrutura do conjunto de dados (por exemplo, "Quantas linhas existem?"), o TOON atingiu 88% de precisão, enquanto JSON e XML ficaram para trás. A contagem explícita no cabeçalho TOON (
repositories[100]) atua como uma dica que evita que o modelo tenha que "contar" os tokens manualmente, algo no qual os LLMs são notoriamente ruins.
A fadiga de XML e YAML
Devemos mencionar brevemente os outros concorrentes.
XML é o grande perdedor aqui. É prolixo, difícil de ler e caro para processar. Nos benchmarks, o XML usou consistentemente o maior número de tokens (mais de 5.000 para um conjunto uniforme de registros de funcionários que o TOON representou em aproximadamente 2.700) e teve a menor precisão (67,1%).
YAML tem melhor desempenho que XML, mas ainda sofre com o inchaço de tokens em comparação com TOON. Embora o YAML seja ótimo para arquivos de configuração humana, sua natureza sensível a espaços em branco e a repetição de chaves o tornam abaixo do ideal para contextos de dados de alto volume. No teste de “pedidos de comércio eletrônico”, o YAML usou cerca de 14% mais tokens do que o TOON.
Quando mudar?
Os dados são bastante conclusivos. Se você está lidando com:
- Listas de objetos: registros, históricos de transações, resultados de pesquisa ou catálogos de produtos.
- RAG Pipelines: onde você recupera blocos de dados de um banco de dados para alimentar um prompt.
- APIs de alto volume: Onde a largura de banda e a latência são importantes.
TOON oferece um cenário do “melhor dos dois mundos”. Você obtém a densidade do CSV com a integridade estrutural do JSON.
Nos benchmarks, GPT-5-nano alcançou uma impressionante precisão de 90,9% em dados formatados em TOON. Isso sugere que modelos mais novos e mais inteligentes estão se tornando cada vez mais adeptos da análise desses formatos otimizados, o que significa que a “penalidade de legibilidade” de se afastar do JSON é efetivamente zero para a máquina.
Se você ainda estiver formatando seu contexto RAG como JSON.stringify(data, null, 2), estará efetivamente pagando uma "imposto de legibilidade" em cada chamada de API. Talvez seja hora de mudar de formato.