Чому TOON перевершує інші формати

магістр права
Еталонні показники
ганчірка

Якщо ви розробляєте програми LLM, зокрема системи RAG або Retrieval-Augmented Generation (RAG) або агенти, які споживають великі набори даних, ви, ймовірно, ведете постійну війну на двох фронтах: вартість маркерів і обмеження вікон контексту.

Протягом багатьох років JSON був лінгва франка обміну даними за замовчуванням. Він зрозумілий людині (в основному) і всюдисущий. Але коли ви вставляєте 500-рядковий масив JSON у підказку, ви записуєте тисячі маркерів у повторювані імена полів ("id":, "name":, "email":), які несуть нульове семантичне значення для певного рядка.

Введіть TOON. Це формат, розроблений спеціально для вирішення проблеми співвідношення сигнал/шум у входах LLM. Я занурився в останні тести, і результати вражають: TOON не просто економить простір; це насправді допомагає таким моделям, як GPT-5-nano та Gemini-2.5-flash краще розуміти дані.

Давайте розберемося, чому TOON перемагає важковаговиків (JSON, CSV, YAML, XML) і поглянемо на вихідні цифри.

Пастка багатослівності: JSON проти TOON

Найбільшим ворогом ефективності токенів є повторення структури. Давайте розглянемо стандартний набір даних Time-Series Analytics. У JSON кожна окрема точка даних несе багаж своєї схеми.

JSON (стандартний) Токени, використані в тесті: 22 250

Це багато втраченого місця. Тепер подивіться на еквівалент TOON. TOON визначає схему один раз у заголовку, а потім перемикається на щільний макет у стилі CSV для значень.

ТУН Токени, використані в тесті: 9 120

Результат: Значне зменшення на 59,0% використання токенів.

Усунувши ключі, що повторюються, TOON дозволяє вмістити більше історії в контекстне вікно моделі. Але найголовніше, на відміну від CSV, він підтримує типи та явну структуру через визначення заголовка metrics[5]{...}.

Чому б просто не використати CSV?

Це найпоширеніший контраргумент. «Якщо вам потрібні плоскі дані, просто використовуйте CSV».

Проблема полягає в тому, що реальні дані рідко бувають ідеально плоскими. CSV повністю руйнується, коли у вас є вкладені структури, списки в об’єктах або складні описи, що містять коми та лапки.

У контрольних тестах, зокрема Track Mixed-Structure Track (який включає замовлення електронної комерції та журнали подій), CSV було повністю виключено, оскільки він не міг представити дані без зведення з втратами.

TOON справляється з цим витончено. Це дозволяє створювати вкладені об’єкти, одночасно оптимізуючи масиви. Під час тестування 100 репозиторіїв GitHub (які містять змішані текстові описи та метадані) розрив ефективності був очевидним:

  • JSON: 15 145 токенів
  • TOON: 8745 жетонів (42,3% економії)

Навіть порівняно з JSON Compact (зменшеним), TOON все одно вичавив майже на 24% більше економії. Коли ви платите за мільйон жетонів, це миттєва рентабельність інвестицій.

Точність: несподіваний переможець

Ось та частина, яка мене здивувала. Зазвичай, коли ви стискаєте дані, ви втрачаєте чіткість. Можна очікувати, що LLM буде важко розібрати більш щільний формат. Бенчмарки показують протилежне.

Серед 209 запитань щодо пошуку даних, протестованих на таких моделях, як Claude Haiku, Gemini Flash і GPT-5-nano, TOON досяг 73,9% точності пошуку порівняно зі стандартним JSON 69,7%.

чому Ймовірно, це зводиться до когнітивного навантаження (або еквівалента LLM).

  1. Менше шуму: моделі не потрібно звертати увагу на тисячі повторюваних маркерів «ключ». Релевантні значення знаходяться ближче одне до одного в механізмі уваги.
  1. Явні метадані: Заголовки TOON включають кількість ([N]) і назви полів явно.
  1. Знання структури: У тестах, які запитували про структуру набору даних (наприклад, «Скільки там рядків?»), TOON досяг 88% точності, тоді як JSON і XML відставали. Явний підрахунок у заголовку TOON (repositories[100]) діє як підказка, яка заважає моделі «підраховувати» токени вручну, що LLM, як відомо, погано вміє.

Втома XML і YAML

Треба коротко згадати й інших претендентів.

XML тут сильно програє. Він багатослівний, його важко читати та дорого обробляти. У контрольних тестах XML постійно використовував найбільше маркерів (понад 5000 для уніфікованого набору записів про співробітників, який TOON представляв у ~2700) і мав найнижчу точність (67,1%).

YAML працює краще, ніж XML, але все ще страждає від роздуття маркерів порівняно з TOON. Хоча YAML чудово підходить для конфігураційних файлів людини, його чутливість до пробілів і повторення ключів роблять його неоптимальним для контексту даних великого обсягу. У тесті «Замовлення електронної комерції» YAML використав ~14% більше токенів, ніж TOON.

Коли переходити?

Дані досить переконливі. Якщо ви маєте справу з:

  1. Списки об’єктів: Журнали, історії транзакцій, результати пошуку або каталоги продуктів.
  1. Конвеєри RAG: Де ви отримуєте фрагменти даних із БД для передачі в підказку.
  1. Високооб’ємні API: де пропускна здатність і затримка мають значення.

TOON пропонує сценарій «найкраще з обох світів». Ви отримуєте щільність CSV зі структурною цілісністю JSON.

У тестах GPT-5-nano досяг приголомшливої ​​точності 90,9% на даних у форматі TOON. Це свідчить про те, що нові, розумніші моделі стають дедалі вправнішими в розборі цих оптимізованих форматів, а це означає, що «пошкодження читабельності» від переходу від JSON фактично дорівнює нулю для машини.

Якщо ви все ще форматуєте свій RAG-контекст як JSON.stringify(data, null, 2), ви фактично платите «податок на читабельність» за кожен окремий виклик API. Можливо, настав час змінити формат.