چرا TOON از سایر فرمت ها بهتر عمل می کند؟

LLM
معیارها
RAG

اگر شما در حال ساخت برنامه های LLM، به ویژه سیستم های بازیابی-افزوده (RAG) یا عواملی هستید که مجموعه داده های بزرگی را مصرف می کنند، احتمالاً در حال جنگ دائمی در دو جبهه هستید: هزینه رمز و محدودیت پنجره زمینه*.

برای سال‌ها، JSON زبان پیش‌فرض مبادله داده‌ها بوده است. برای انسان قابل خواندن (بیشتر) و در همه جا است. اما هنگامی که یک آرایه JSON 500 ردیفی را در یک درخواست جای‌گذاری می‌کنید، هزاران نشانه را روی نام‌های فیلد تکراری ("id":، "نام":، "email":) می‌ سوزانید که دارای ارزش معنایی صفر برای ردیف خاص هستند.

TOON را وارد کنید. این فرمتی است که به طور خاص برای حل مشکل نسبت سیگنال به نویز در ورودی های LLM طراحی شده است. من در حال بررسی آخرین معیارها هستم و نتایج شگفت‌آور است: TOON فقط در فضا صرفه‌جویی نمی‌کند. این در واقع به مدل هایی مانند GPT-5-nano و Gemini-2.5-flash کمک می کند تا داده ها را بهتر درک کنند.

بیایید توضیح دهیم که چرا TOON در حال شکست دادن وزنه‌های سنگین (JSON، CSV، YAML، XML) است و به اعداد خام نگاه می‌کنیم.

دام پرگویی: JSON در مقابل TOON

بزرگترین دشمن کارایی توکن، تکرار ساختار است. بیایید به یک مجموعه داده استاندارد Time-Series Analytics نگاهی بیندازیم. در JSON، هر نقطه داده، بار طرحواره خود را حمل می کند.

JSON (استاندارد) توکن های استفاده شده در بنچمارک: 22250

این مقدار زیادی فضای تلف شده است. اکنون به معادل TOON نگاه کنید. TOON طرح واره را یک بار در هدر تعریف می کند و سپس به یک طرح بندی متراکم به سبک CSV برای مقادیر تغییر می کند.

تون توکن های استفاده شده در بنچمارک: 9120

نتیجه: کاهش عظیم 59.0٪ در استفاده از توکن.

با حذف کلیدهای تکراری، TOON به شما امکان می دهد تاریخچه بیشتری را در پنجره زمینه مدل قرار دهید. اما بسیار مهم است، برخلاف CSV، آگاهی از نوع و ساختار صریح را از طریق تعریف هدر «متریکس[5]{...}» حفظ می‌کند.

چرا فقط از CSV استفاده نمی کنید؟

این رایج ترین استدلال متقابل است. "اگر داده های مسطح می خواهید، فقط از CSV استفاده کنید."

مشکل این است که داده های دنیای واقعی به ندرت کاملاً مسطح هستند. CSV در لحظه ای که ساختارهای تودرتو، لیست های درون اشیاء، یا توضیحات پیچیده حاوی کاما و نقل قول دارید، به طور کامل تجزیه می شود.

در معیارها، به‌ویژه تراک ساختار ترکیبی (که شامل سفارش‌های تجارت الکترونیک و گزارش رویدادها می‌شود)، CSV کاملاً حذف شد زیرا نمی‌توانست داده‌ها را بدون مسطح کردن با اتلاف نشان دهد.

TOON با ظرافت به این موضوع رسیدگی می کند. ضمن بهینه سازی آرایه ها، اشیاء تودرتو را امکان پذیر می کند. در آزمایشی از 100 مخزن GitHub (که حاوی توضیحات متنی ترکیبی و متادیتا هستند)، شکاف کارایی واضح بود:

  • JSON: 15145 توکن
  • TOON: 8745 توکن (42.3% پس انداز)

حتی در مقابل JSON Compact (کوچک شده)، TOON همچنان نزدیک به 24 درصد پس انداز بیشتری را کاهش داد. وقتی به ازای هر میلیون توکن پرداخت می‌کنید، این ROI فوری است.

دقت: برنده سورپرایز

این قسمتی است که من را شگفت زده کرد. معمولاً وقتی داده ها را فشرده می کنید، وضوح را از دست می دهید. شما انتظار دارید که LLM برای تجزیه یک قالب متراکم تر تلاش کند. معیارها خلاف این را نشان می دهند.

در بین 209 سؤال بازیابی داده که روی مدل‌هایی مانند کلود هایکو، جمینی فلش و GPT-5-nano آزمایش شده‌اند، TOON به دقت بازیابی 73.9% در مقایسه با JSON استاندارد 69.7% دست یافت.

چرا؟ احتمالاً به ** بار شناختی ** (یا معادل LLM) می رسد.

  1. صدای کمتر: مدل نیازی به استفاده از هزاران توکن «کلیدی» تکراری ندارد. مقادیر مربوطه در مکانیسم توجه به هم نزدیکتر هستند.
  1. فراداده صریح: سرصفحه های TOON شامل تعداد ([N]) و نام فیلدها به صراحت است.
  1. آگاهی از ساختار: در تست هایی که در مورد ساختار مجموعه داده می پرسند (به عنوان مثال، "چند ردیف وجود دارد؟")، TOON دقت 88٪ را به دست آورد، در حالی که JSON و XML عقب مانده بودند. شمارش صریح در هدر TOON («مخزن‌ها[100]») به‌عنوان اشاره‌ای عمل می‌کند که مدل را از «شمارش» نشانه‌ها به‌صورت دستی، که LLM‌ها در آن بد معروف هستند، باز می‌دارد.

خستگی XML و YAML

باید به اختصار به سایر مدعیان اشاره کنیم.

XML بازنده سنگین اینجاست. پرمخاطب است، خواندن آن دشوار است و پردازش آن پرهزینه است. در معیارها، XML به طور مداوم از بیشترین توکن ها استفاده می کرد (بیش از 5000 برای یک مجموعه رکورد یکنواخت کارمند که TOON در حدود 2700 نشان می داد) و کمترین دقت (67.1٪) را داشت.

YAML عملکرد بهتری نسبت به XML دارد اما همچنان در مقایسه با TOON از نفخ توکن رنج می برد. در حالی که YAML برای فایل های پیکربندی انسانی عالی است، ماهیت حساس به فضای خالی و تکرار کلید آن را برای زمینه داده های با حجم بالا بهینه نمی کند. در تست "سفارشات تجارت الکترونیک"، YAML 14٪ بیشتر از TOON توکن استفاده کرد.

چه زمانی باید تعویض شود؟

داده ها نسبتاً قطعی است. اگر با:

  1. لیست اشیاء: سیاههها، تاریخچه تراکنشها، نتایج جستجو یا کاتالوگ محصولات.
  1. خطوط لوله RAG: جایی که تکه هایی از داده ها را از یک DB بازیابی می کنید تا به یک اعلان وارد شوید.
  1. APIهای با حجم بالا: جایی که پهنای باند و تأخیر مهم هستند.

TOON سناریوی "بهترین هر دو جهان" را ارائه می دهد. چگالی CSV را با یکپارچگی ساختاری JSON دریافت می کنید.

در معیارها، GPT-5-nano به دقت خیره کننده 90.9% روی داده های فرمت شده TOON دست یافت. این نشان می‌دهد که مدل‌های جدیدتر و هوشمندتر به طور فزاینده‌ای در تجزیه این قالب‌های بهینه‌شده مهارت پیدا می‌کنند، به این معنی که «جریمه خوانایی» دور شدن از JSON برای دستگاه به طور موثر صفر است.

اگر همچنان متن RAG خود را به‌عنوان «JSON.stringify(data, null, 2)» قالب‌بندی می‌کنید، در واقع برای هر تماس API یک «مالیات خوانایی» می‌پردازید. شاید زمان تغییر فرمت فرا رسیده باشد.