TOON (Token-Oriented Object Notation) is a data serialization format designed specifically for LLM prompts to be highly efficient. It dramatically reduces token usage by 30-60% compared to JSON while remaining structured and human-readable. By using a tabular format for arrays and minimal syntax for objects, TOON makes your data cheaper and faster to process with AI models.

What's the difference between TOON and JSON?

The key difference is token efficiency. JSON is verbose, with brackets, quotes, and commas that consume tokens. TOON is a more compact syntax designed for LLMs, representing arrays as tables with headers and using minimal punctuation. This efficiency directly translates to significant cost savings on your LLM API bills, especially for large or repeated datasets.

How much can I save with TOON?

You can typically expect to save 30-60% on LLM tokens compared to using JSON. For large datasets or frequent API calls, this translates directly into significant cost savings. Data with repeated structures, like API responses or database results, often sees savings at the higher end of this range (40-60%).

Is TOON compatible with all LLMs?

Yes. TOON is a simple text format that works flawlessly with all major large language models, including those from OpenAI (GPT-4), Anthropic (Claude), Google (Gemini), and Meta (LLaMA). Since any LLM can process plain text, they can all be instructed to understand and parse the TOON format with a simple instruction in your prompt.

Can I convert TOON back to JSON?

Absolutely. TOON is fully and losslessly reversible. Our converter tool supports bidirectional conversion, meaning you can convert TOON back to the exact original JSON structure without any data loss. This allows you to use TOON for efficiency and then convert back to JSON for compatibility with other tools.

What types of data work best with TOON?

TOON can represent any valid JSON data, but it delivers the highest token savings (40-60%) on uniform tabular data. This includes database query results, API responses with lists of objects, analytics data, or product catalogs. While TOON fully supports nested objects and arrays, the token reduction is most dramatic with flatter, more repetitive data structures.

Is my data safe when using this converter?

100% safe. All conversion from JSON to TOON (and back) happens locally in your browser. Your data is never sent to any server, never stored, and never seen by us. The converter even works offline once the page has loaded, guaranteeing your information remains private.

Yes, completely free. Both this TOON converter and the underlying TOON format specification are open and free to use without any limits, file size restrictions, or premium features. It's an open-source effort to make working with LLMs more efficient for everyone.

چرا TOON از سایر فرمت ها بهتر عمل می کند؟

LLM

معیارها

RAG

اگر شما در حال ساخت برنامه های LLM، به ویژه سیستم های بازیابی-افزوده (RAG) یا عواملی هستید که مجموعه داده های بزرگی را مصرف می کنند، احتمالاً در حال جنگ دائمی در دو جبهه هستید: هزینه رمز و محدودیت پنجره زمینه*.

برای سال‌ها، JSON زبان پیش‌فرض مبادله داده‌ها بوده است. برای انسان قابل خواندن (بیشتر) و در همه جا است. اما هنگامی که یک آرایه JSON 500 ردیفی را در یک درخواست جای‌گذاری می‌کنید، هزاران نشانه را روی نام‌های فیلد تکراری ("id":، "نام":، "email":) می‌ سوزانید که دارای ارزش معنایی صفر برای ردیف خاص هستند.

TOON را وارد کنید. این فرمتی است که به طور خاص برای حل مشکل نسبت سیگنال به نویز در ورودی های LLM طراحی شده است. من در حال بررسی آخرین معیارها هستم و نتایج شگفت‌آور است: TOON فقط در فضا صرفه‌جویی نمی‌کند. این در واقع به مدل هایی مانند GPT-5-nano و Gemini-2.5-flash کمک می کند تا داده ها را بهتر درک کنند.

بیایید توضیح دهیم که چرا TOON در حال شکست دادن وزنه‌های سنگین (JSON، CSV، YAML، XML) است و به اعداد خام نگاه می‌کنیم.

دام پرگویی: JSON در مقابل TOON

بزرگترین دشمن کارایی توکن، تکرار ساختار است. بیایید به یک مجموعه داده استاندارد Time-Series Analytics نگاهی بیندازیم. در JSON، هر نقطه داده، بار طرحواره خود را حمل می کند.

JSON (استاندارد) توکن های استفاده شده در بنچمارک: 22250

این مقدار زیادی فضای تلف شده است. اکنون به معادل TOON نگاه کنید. TOON طرح واره را یک بار در هدر تعریف می کند و سپس به یک طرح بندی متراکم به سبک CSV برای مقادیر تغییر می کند.

تون توکن های استفاده شده در بنچمارک: 9120

نتیجه: کاهش عظیم 59.0٪ در استفاده از توکن.

با حذف کلیدهای تکراری، TOON به شما امکان می دهد تاریخچه بیشتری را در پنجره زمینه مدل قرار دهید. اما بسیار مهم است، برخلاف CSV، آگاهی از نوع و ساختار صریح را از طریق تعریف هدر «متریکس[5]{...}» حفظ می‌کند.

چرا فقط از CSV استفاده نمی کنید؟

این رایج ترین استدلال متقابل است. "اگر داده های مسطح می خواهید، فقط از CSV استفاده کنید."

مشکل این است که داده های دنیای واقعی به ندرت کاملاً مسطح هستند. CSV در لحظه ای که ساختارهای تودرتو، لیست های درون اشیاء، یا توضیحات پیچیده حاوی کاما و نقل قول دارید، به طور کامل تجزیه می شود.

در معیارها، به‌ویژه تراک ساختار ترکیبی (که شامل سفارش‌های تجارت الکترونیک و گزارش رویدادها می‌شود)، CSV کاملاً حذف شد زیرا نمی‌توانست داده‌ها را بدون مسطح کردن با اتلاف نشان دهد.

TOON با ظرافت به این موضوع رسیدگی می کند. ضمن بهینه سازی آرایه ها، اشیاء تودرتو را امکان پذیر می کند. در آزمایشی از 100 مخزن GitHub (که حاوی توضیحات متنی ترکیبی و متادیتا هستند)، شکاف کارایی واضح بود:

JSON: 15145 توکن

TOON: 8745 توکن (42.3% پس انداز)

حتی در مقابل JSON Compact (کوچک شده)، TOON همچنان نزدیک به 24 درصد پس انداز بیشتری را کاهش داد. وقتی به ازای هر میلیون توکن پرداخت می‌کنید، این ROI فوری است.

دقت: برنده سورپرایز

این قسمتی است که من را شگفت زده کرد. معمولاً وقتی داده ها را فشرده می کنید، وضوح را از دست می دهید. شما انتظار دارید که LLM برای تجزیه یک قالب متراکم تر تلاش کند. معیارها خلاف این را نشان می دهند.

در بین 209 سؤال بازیابی داده که روی مدل‌هایی مانند کلود هایکو، جمینی فلش و GPT-5-nano آزمایش شده‌اند، TOON به دقت بازیابی 73.9% در مقایسه با JSON استاندارد 69.7% دست یافت.

چرا؟ احتمالاً به ** بار شناختی ** (یا معادل LLM) می رسد.

صدای کمتر: مدل نیازی به استفاده از هزاران توکن «کلیدی» تکراری ندارد. مقادیر مربوطه در مکانیسم توجه به هم نزدیکتر هستند.

فراداده صریح: سرصفحه های TOON شامل تعداد ([N]) و نام فیلدها به صراحت است.

آگاهی از ساختار: در تست هایی که در مورد ساختار مجموعه داده می پرسند (به عنوان مثال، "چند ردیف وجود دارد؟")، TOON دقت 88٪ را به دست آورد، در حالی که JSON و XML عقب مانده بودند. شمارش صریح در هدر TOON («مخزن‌ها[100]») به‌عنوان اشاره‌ای عمل می‌کند که مدل را از «شمارش» نشانه‌ها به‌صورت دستی، که LLM‌ها در آن بد معروف هستند، باز می‌دارد.

خستگی XML و YAML

باید به اختصار به سایر مدعیان اشاره کنیم.

XML بازنده سنگین اینجاست. پرمخاطب است، خواندن آن دشوار است و پردازش آن پرهزینه است. در معیارها، XML به طور مداوم از بیشترین توکن ها استفاده می کرد (بیش از 5000 برای یک مجموعه رکورد یکنواخت کارمند که TOON در حدود 2700 نشان می داد) و کمترین دقت (67.1٪) را داشت.

YAML عملکرد بهتری نسبت به XML دارد اما همچنان در مقایسه با TOON از نفخ توکن رنج می برد. در حالی که YAML برای فایل های پیکربندی انسانی عالی است، ماهیت حساس به فضای خالی و تکرار کلید آن را برای زمینه داده های با حجم بالا بهینه نمی کند. در تست "سفارشات تجارت الکترونیک"، YAML 14٪ بیشتر از TOON توکن استفاده کرد.

چه زمانی باید تعویض شود؟

داده ها نسبتاً قطعی است. اگر با:

لیست اشیاء: سیاههها، تاریخچه تراکنشها، نتایج جستجو یا کاتالوگ محصولات.

خطوط لوله RAG: جایی که تکه هایی از داده ها را از یک DB بازیابی می کنید تا به یک اعلان وارد شوید.

APIهای با حجم بالا: جایی که پهنای باند و تأخیر مهم هستند.

TOON سناریوی "بهترین هر دو جهان" را ارائه می دهد. چگالی CSV را با یکپارچگی ساختاری JSON دریافت می کنید.

در معیارها، GPT-5-nano به دقت خیره کننده 90.9% روی داده های فرمت شده TOON دست یافت. این نشان می‌دهد که مدل‌های جدیدتر و هوشمندتر به طور فزاینده‌ای در تجزیه این قالب‌های بهینه‌شده مهارت پیدا می‌کنند، به این معنی که «جریمه خوانایی» دور شدن از JSON برای دستگاه به طور موثر صفر است.

اگر همچنان متن RAG خود را به‌عنوان «JSON.stringify(data, null, 2)» قالب‌بندی می‌کنید، در واقع برای هر تماس API یک «مالیات خوانایی» می‌پردازید. شاید زمان تغییر فرمت فرا رسیده باشد.