TOON (Token-Oriented Object Notation) is a data serialization format designed specifically for LLM prompts to be highly efficient. It dramatically reduces token usage by 30-60% compared to JSON while remaining structured and human-readable. By using a tabular format for arrays and minimal syntax for objects, TOON makes your data cheaper and faster to process with AI models.

What's the difference between TOON and JSON?

The key difference is token efficiency. JSON is verbose, with brackets, quotes, and commas that consume tokens. TOON is a more compact syntax designed for LLMs, representing arrays as tables with headers and using minimal punctuation. This efficiency directly translates to significant cost savings on your LLM API bills, especially for large or repeated datasets.

How much can I save with TOON?

You can typically expect to save 30-60% on LLM tokens compared to using JSON. For large datasets or frequent API calls, this translates directly into significant cost savings. Data with repeated structures, like API responses or database results, often sees savings at the higher end of this range (40-60%).

Is TOON compatible with all LLMs?

Yes. TOON is a simple text format that works flawlessly with all major large language models, including those from OpenAI (GPT-4), Anthropic (Claude), Google (Gemini), and Meta (LLaMA). Since any LLM can process plain text, they can all be instructed to understand and parse the TOON format with a simple instruction in your prompt.

Can I convert TOON back to JSON?

Absolutely. TOON is fully and losslessly reversible. Our converter tool supports bidirectional conversion, meaning you can convert TOON back to the exact original JSON structure without any data loss. This allows you to use TOON for efficiency and then convert back to JSON for compatibility with other tools.

What types of data work best with TOON?

TOON can represent any valid JSON data, but it delivers the highest token savings (40-60%) on uniform tabular data. This includes database query results, API responses with lists of objects, analytics data, or product catalogs. While TOON fully supports nested objects and arrays, the token reduction is most dramatic with flatter, more repetitive data structures.

Is my data safe when using this converter?

100% safe. All conversion from JSON to TOON (and back) happens locally in your browser. Your data is never sent to any server, never stored, and never seen by us. The converter even works offline once the page has loaded, guaranteeing your information remains private.

Yes, completely free. Both this TOON converter and the underlying TOON format specification are open and free to use without any limits, file size restrictions, or premium features. It's an open-source effort to make working with LLMs more efficient for everyone.

Почему TOON превосходит другие форматы

Магистр права

Тесты

ТРЯПКА

Если вы создаете приложения LLM, в частности системы или агенты с расширенной генерацией данных (RAG), которые потребляют большие наборы данных, вы, вероятно, ведете постоянную войну на двух фронтах: стоимость токена и ограничения контекстного окна.

В течение многих лет JSON был языком обмена данными по умолчанию. Он удобен для чтения человеком (в основном) и вездесущ. Но когда вы вставляете в приглашение массив JSON из 500 строк, вы сжигаете тысячи токенов в повторяющихся именах полей («id»:, "name":, "email":`), которые несут нулевое семантическое значение для конкретной строки.

Введите TOON. Этот формат разработан специально для решения проблемы соотношения сигнал/шум на входах LLM. Я изучал последние тесты, и результаты поразительны: TOON не просто экономит место; на самом деле это помогает таким моделям, как GPT-5-nano и Gemini-2.5-flash, лучше понимать данные.

Давайте разберемся, почему TOON побеждает тяжеловесов (JSON, CSV, YAML, XML) и посмотрим на чистые цифры.

Ловушка многословия: JSON против TOON

Самый большой враг эффективности токена — повторение структуры. Давайте посмотрим на стандартный набор данных Time-Series Analytics. В JSON каждая точка данных несет в себе багаж своей схемы.

JSON (стандартный) Токены, использованные в тесте: 22,250

Это много пустого пространства. Теперь взгляните на эквивалент TOON. TOON определяет схему один раз в заголовке, а затем переключается на плотный формат значений в стиле CSV.

Мультфильм Токены, использованные в тесте: 9,120

Результат: Массовое сокращение использования токенов на 59,0 %.

Удалив повторяющиеся ключи, TOON позволяет вам вместить больше истории в контекстное окно модели. Но что особенно важно, в отличие от CSV, он поддерживает понимание типа и явную структуру через определение заголовка metrics[5]{...}.

Почему бы просто не использовать CSV?

Это самый распространенный контраргумент. «Если вам нужны плоские данные, просто используйте CSV».

Проблема в том, что реальные данные редко бывают идеально однородными. CSV полностью разваливается в тот момент, когда у вас есть вложенные структуры, списки внутри объектов или сложные описания, содержащие запятые и кавычки.

В тестах, в частности в режиме Смешанная структура (который включает заказы электронной коммерции и журналы событий), CSV был полностью исключен, поскольку он не мог представлять данные без выравнивания с потерями.

TOON справляется с этим изящно. Он позволяет использовать вложенные объекты при оптимизации массивов. В тесте 100 репозиториев GitHub (которые содержат смешанные текстовые описания и метаданные) разрыв в эффективности был очевиден:

JSON: 15 145 токенов

TOON: 8745 токенов (экономия 42,3%)

Даже по сравнению с JSON Compact (минифицированным) TOON все равно добился почти на 24 % большей экономии. Когда вы платите за миллион токенов, это немедленная окупаемость инвестиций.

Точность: неожиданный победитель

Вот та часть, которая меня удивила. Обычно при сжатии данных теряется четкость. Можно было бы ожидать, что LLM будет с трудом анализировать более плотный формат. Тесты показывают обратное.

По 209 вопросам поиска данных, протестированным на таких моделях, как Claude Haiku, Gemini Flash и GPT-5-nano, TOON достиг точности 73,9% по сравнению со стандартным JSON 69,7%.

Почему? Скорее всего, все сводится к Когнитивной нагрузке (или ее эквиваленту LLM).

Меньше шума: модели не нужно обрабатывать тысячи повторяющихся «ключевых» токенов. Соответствующие ценности находятся ближе друг к другу в механизме внимания.

Явные метаданные: Заголовки TOON явно включают счетчик ([N]) и имена полей.

Осведомленность о структуре. В тестах, в которых задавался вопрос о структуре набора данных (например, «Сколько строк?»), TOON достиг точности 88 %, тогда как JSON и XML отставали. Явный счетчик в заголовке TOON (repositories[100]) действует как подсказка, которая не позволяет модели «подсчитывать» токены вручную, с чем LLM, как известно, плохо справляются.

Усталость от XML и YAML

Отдельно стоит упомянуть остальных претендентов.

XML здесь сильно проигрывает. Он многословен, труден для чтения и требует больших затрат на обработку. В тестах XML последовательно использовал наибольшее количество токенов (более 5000 для единого набора записей сотрудников, который TOON представлял примерно в 2700) и имел самую низкую точность (67,1%).

YAML работает лучше, чем XML, но по-прежнему страдает от раздувания токенов по сравнению с TOON. Хотя YAML отлично подходит для файлов конфигурации, созданных человеком, его чувствительный к пробелам характер и повторение ключей делают его неоптимальным для контекста больших объемов данных. В тесте «Заказы электронной коммерции» YAML использовал примерно на 14% больше токенов, чем TOON.

Когда переключаться?

Данные достаточно убедительны. Если вы имеете дело с:

Списки объектов: журналы, истории транзакций, результаты поиска или каталоги продуктов.

Конвейеры RAG: где вы извлекаете фрагменты данных из БД для подачи в командную строку.

API для больших объемов трафика: там, где важны пропускная способность и задержка.

TOON предлагает сценарий «лучшего из обоих миров». Вы получаете плотность CSV со структурной целостностью JSON.

В тестах GPT-5-nano достиг ошеломляющей точности 90,9% при обработке данных в формате TOON. Это говорит о том, что новые, более умные модели становятся все более способными анализировать эти оптимизированные форматы, а это означает, что «штраф за читаемость» при отказе от JSON фактически равен нулю для машины.

Если вы по-прежнему форматируете свой контекст RAG как JSON.stringify(data, null, 2), вы фактически платите «налог на читаемость» за каждый отдельный вызов API. Возможно, пришло время сменить формат.