TOON (Token-Oriented Object Notation) is a data serialization format designed specifically for LLM prompts to be highly efficient. It dramatically reduces token usage by 30-60% compared to JSON while remaining structured and human-readable. By using a tabular format for arrays and minimal syntax for objects, TOON makes your data cheaper and faster to process with AI models.

What's the difference between TOON and JSON?

The key difference is token efficiency. JSON is verbose, with brackets, quotes, and commas that consume tokens. TOON is a more compact syntax designed for LLMs, representing arrays as tables with headers and using minimal punctuation. This efficiency directly translates to significant cost savings on your LLM API bills, especially for large or repeated datasets.

How much can I save with TOON?

You can typically expect to save 30-60% on LLM tokens compared to using JSON. For large datasets or frequent API calls, this translates directly into significant cost savings. Data with repeated structures, like API responses or database results, often sees savings at the higher end of this range (40-60%).

Is TOON compatible with all LLMs?

Yes. TOON is a simple text format that works flawlessly with all major large language models, including those from OpenAI (GPT-4), Anthropic (Claude), Google (Gemini), and Meta (LLaMA). Since any LLM can process plain text, they can all be instructed to understand and parse the TOON format with a simple instruction in your prompt.

Can I convert TOON back to JSON?

Absolutely. TOON is fully and losslessly reversible. Our converter tool supports bidirectional conversion, meaning you can convert TOON back to the exact original JSON structure without any data loss. This allows you to use TOON for efficiency and then convert back to JSON for compatibility with other tools.

What types of data work best with TOON?

TOON can represent any valid JSON data, but it delivers the highest token savings (40-60%) on uniform tabular data. This includes database query results, API responses with lists of objects, analytics data, or product catalogs. While TOON fully supports nested objects and arrays, the token reduction is most dramatic with flatter, more repetitive data structures.

Is my data safe when using this converter?

100% safe. All conversion from JSON to TOON (and back) happens locally in your browser. Your data is never sent to any server, never stored, and never seen by us. The converter even works offline once the page has loaded, guaranteeing your information remains private.

Yes, completely free. Both this TOON converter and the underlying TOON format specification are open and free to use without any limits, file size restrictions, or premium features. It's an open-source effort to make working with LLMs more efficient for everyone.

Чому TOON перевершує інші формати

магістр права

Еталонні показники

ганчірка

Якщо ви розробляєте програми LLM, зокрема системи RAG або Retrieval-Augmented Generation (RAG) або агенти, які споживають великі набори даних, ви, ймовірно, ведете постійну війну на двох фронтах: вартість маркерів і обмеження вікон контексту.

Протягом багатьох років JSON був лінгва франка обміну даними за замовчуванням. Він зрозумілий людині (в основному) і всюдисущий. Але коли ви вставляєте 500-рядковий масив JSON у підказку, ви записуєте тисячі маркерів у повторювані імена полів ("id":, "name":, "email":), які несуть нульове семантичне значення для певного рядка.

Введіть TOON. Це формат, розроблений спеціально для вирішення проблеми співвідношення сигнал/шум у входах LLM. Я занурився в останні тести, і результати вражають: TOON не просто економить простір; це насправді допомагає таким моделям, як GPT-5-nano та Gemini-2.5-flash краще розуміти дані.

Давайте розберемося, чому TOON перемагає важковаговиків (JSON, CSV, YAML, XML) і поглянемо на вихідні цифри.

Пастка багатослівності: JSON проти TOON

Найбільшим ворогом ефективності токенів є повторення структури. Давайте розглянемо стандартний набір даних Time-Series Analytics. У JSON кожна окрема точка даних несе багаж своєї схеми.

JSON (стандартний) Токени, використані в тесті: 22 250

Це багато втраченого місця. Тепер подивіться на еквівалент TOON. TOON визначає схему один раз у заголовку, а потім перемикається на щільний макет у стилі CSV для значень.

ТУН Токени, використані в тесті: 9 120

Результат: Значне зменшення на 59,0% використання токенів.

Усунувши ключі, що повторюються, TOON дозволяє вмістити більше історії в контекстне вікно моделі. Але найголовніше, на відміну від CSV, він підтримує типи та явну структуру через визначення заголовка metrics[5]{...}.

Чому б просто не використати CSV?

Це найпоширеніший контраргумент. «Якщо вам потрібні плоскі дані, просто використовуйте CSV».

Проблема полягає в тому, що реальні дані рідко бувають ідеально плоскими. CSV повністю руйнується, коли у вас є вкладені структури, списки в об’єктах або складні описи, що містять коми та лапки.

У контрольних тестах, зокрема Track Mixed-Structure Track (який включає замовлення електронної комерції та журнали подій), CSV було повністю виключено, оскільки він не міг представити дані без зведення з втратами.

TOON справляється з цим витончено. Це дозволяє створювати вкладені об’єкти, одночасно оптимізуючи масиви. Під час тестування 100 репозиторіїв GitHub (які містять змішані текстові описи та метадані) розрив ефективності був очевидним:

JSON: 15 145 токенів

TOON: 8745 жетонів (42,3% економії)

Навіть порівняно з JSON Compact (зменшеним), TOON все одно вичавив майже на 24% більше економії. Коли ви платите за мільйон жетонів, це миттєва рентабельність інвестицій.

Точність: несподіваний переможець

Ось та частина, яка мене здивувала. Зазвичай, коли ви стискаєте дані, ви втрачаєте чіткість. Можна очікувати, що LLM буде важко розібрати більш щільний формат. Бенчмарки показують протилежне.

Серед 209 запитань щодо пошуку даних, протестованих на таких моделях, як Claude Haiku, Gemini Flash і GPT-5-nano, TOON досяг 73,9% точності пошуку порівняно зі стандартним JSON 69,7%.

чому Ймовірно, це зводиться до когнітивного навантаження (або еквівалента LLM).

Менше шуму: моделі не потрібно звертати увагу на тисячі повторюваних маркерів «ключ». Релевантні значення знаходяться ближче одне до одного в механізмі уваги.

Явні метадані: Заголовки TOON включають кількість ([N]) і назви полів явно.

Знання структури: У тестах, які запитували про структуру набору даних (наприклад, «Скільки там рядків?»), TOON досяг 88% точності, тоді як JSON і XML відставали. Явний підрахунок у заголовку TOON (repositories[100]) діє як підказка, яка заважає моделі «підраховувати» токени вручну, що LLM, як відомо, погано вміє.

Втома XML і YAML

Треба коротко згадати й інших претендентів.

XML тут сильно програє. Він багатослівний, його важко читати та дорого обробляти. У контрольних тестах XML постійно використовував найбільше маркерів (понад 5000 для уніфікованого набору записів про співробітників, який TOON представляв у ~2700) і мав найнижчу точність (67,1%).

YAML працює краще, ніж XML, але все ще страждає від роздуття маркерів порівняно з TOON. Хоча YAML чудово підходить для конфігураційних файлів людини, його чутливість до пробілів і повторення ключів роблять його неоптимальним для контексту даних великого обсягу. У тесті «Замовлення електронної комерції» YAML використав ~14% більше токенів, ніж TOON.

Коли переходити?

Дані досить переконливі. Якщо ви маєте справу з:

Списки об’єктів: Журнали, історії транзакцій, результати пошуку або каталоги продуктів.

Конвеєри RAG: Де ви отримуєте фрагменти даних із БД для передачі в підказку.

Високооб’ємні API: де пропускна здатність і затримка мають значення.

TOON пропонує сценарій «найкраще з обох світів». Ви отримуєте щільність CSV зі структурною цілісністю JSON.

У тестах GPT-5-nano досяг приголомшливої точності 90,9% на даних у форматі TOON. Це свідчить про те, що нові, розумніші моделі стають дедалі вправнішими в розборі цих оптимізованих форматів, а це означає, що «пошкодження читабельності» від переходу від JSON фактично дорівнює нулю для машини.

Якщо ви все ще форматуєте свій RAG-контекст як JSON.stringify(data, null, 2), ви фактично платите «податок на читабельність» за кожен окремий виклик API. Можливо, настав час змінити формат.