TOON (Token-Oriented Object Notation) is a data serialization format designed specifically for LLM prompts to be highly efficient. It dramatically reduces token usage by 30-60% compared to JSON while remaining structured and human-readable. By using a tabular format for arrays and minimal syntax for objects, TOON makes your data cheaper and faster to process with AI models.

What's the difference between TOON and JSON?

The key difference is token efficiency. JSON is verbose, with brackets, quotes, and commas that consume tokens. TOON is a more compact syntax designed for LLMs, representing arrays as tables with headers and using minimal punctuation. This efficiency directly translates to significant cost savings on your LLM API bills, especially for large or repeated datasets.

How much can I save with TOON?

You can typically expect to save 30-60% on LLM tokens compared to using JSON. For large datasets or frequent API calls, this translates directly into significant cost savings. Data with repeated structures, like API responses or database results, often sees savings at the higher end of this range (40-60%).

Is TOON compatible with all LLMs?

Yes. TOON is a simple text format that works flawlessly with all major large language models, including those from OpenAI (GPT-4), Anthropic (Claude), Google (Gemini), and Meta (LLaMA). Since any LLM can process plain text, they can all be instructed to understand and parse the TOON format with a simple instruction in your prompt.

Can I convert TOON back to JSON?

Absolutely. TOON is fully and losslessly reversible. Our converter tool supports bidirectional conversion, meaning you can convert TOON back to the exact original JSON structure without any data loss. This allows you to use TOON for efficiency and then convert back to JSON for compatibility with other tools.

What types of data work best with TOON?

TOON can represent any valid JSON data, but it delivers the highest token savings (40-60%) on uniform tabular data. This includes database query results, API responses with lists of objects, analytics data, or product catalogs. While TOON fully supports nested objects and arrays, the token reduction is most dramatic with flatter, more repetitive data structures.

Is my data safe when using this converter?

100% safe. All conversion from JSON to TOON (and back) happens locally in your browser. Your data is never sent to any server, never stored, and never seen by us. The converter even works offline once the page has loaded, guaranteeing your information remains private.

Yes, completely free. Both this TOON converter and the underlying TOON format specification are open and free to use without any limits, file size restrictions, or premium features. It's an open-source effort to make working with LLMs more efficient for everyone.

ٹون نے دوسرے فارمیٹس کو کیوں بہتر بنایا

ایل ایل ایم

بینچ مارک

رگ

اگر آپ ایل ایل ایم کی ایپلی کیشنز بنا رہے ہیں ، خاص طور پر بازیافت سے متعلق جنریشن (آر اے جی) سسٹم یا ایجنٹ جو بڑے ڈیٹاسیٹس کا استعمال کرتے ہیں تو ، آپ ممکنہ طور پر دو محاذوں پر مستقل جنگ لڑ رہے ہیں: ** ٹوکن لاگت ** اور ** سیاق و سباق کی ونڈو کی حدود **۔

برسوں سے ، JSON ڈیٹا انٹرچینج کا پہلے سے طے شدہ زبان فرانکا رہا ہے۔ یہ انسانی پڑھنے کے قابل (زیادہ تر) اور ہر جگہ ہے۔ لیکن جب آپ ایک 500-صف JSON سرنی کو کسی اشارے پر چسپاں کرتے ہیں تو ، آپ بار بار فیلڈ کے ناموں (" ID ": ، " نام ": ، " ای میل ":) پر ہزاروں ٹوکن جلا رہے ہیں جو مخصوص صف کے لئے صفر کی معنوی قیمت رکھتے ہیں۔

درج کریں ** ٹون **۔ یہ ایک ایسا فارمیٹ ہے جو خاص طور پر ایل ایل ایم ان پٹ میں سگنل سے شور کے تناسب کے مسئلے کو حل کرنے کے لئے ڈیزائن کیا گیا ہے۔ میں تازہ ترین بینچ مارک میں غوطہ لگا رہا ہوں ، اور نتائج حیران کن ہیں: ٹون صرف جگہ کی بچت نہیں کررہا ہے۔ یہ دراصل GPT-5-NANO اور جیمنی -2.5-فلیش جیسے ماڈلز کی مدد کر رہا ہے ڈیٹا _ بیٹر_ کو سمجھتا ہے۔

آئیے یہ توڑ دیتے ہیں کہ ٹون ہیوی وائٹس (JSON ، CSV ، YAML ، XML) کو کیوں پیٹ رہا ہے اور خام نمبروں کو دیکھ رہا ہے۔

وربوسیٹی ٹریپ: JSON بمقابلہ ٹون

ٹوکن کی کارکردگی کا سب سے بڑا دشمن ڈھانچہ کی تکرار ہے۔ آئیے ایک معیاری ٹائم سیریز تجزیاتی ڈیٹاسیٹ کو دیکھیں۔ JSON میں ، ہر ایک ڈیٹا پوائنٹ اس کے اسکیما کا سامان رکھتا ہے۔

** JSON (معیاری) ** _ ٹوکنز بینچ مارک میں استعمال کیا جاتا ہے: 22،250_

یہ بہت ضائع شدہ جگہ ہے۔ اب ، ** ٹون ** مساوی دیکھیں۔ ٹون نے ایک بار ہیڈر میں اسکیما کی وضاحت کی اور پھر اقدار کے لئے گھنے ، CSV طرز کی ترتیب میں سوئچ کیا۔

** ٹون ** _ ٹوکنز بینچ مارک میں استعمال کیا جاتا ہے: 9،120_

** نتیجہ: ** بڑے پیمانے پر ** 59.0 ٪ کمی ** ٹوکن استعمال میں۔

بار بار کی چابیاں چھین کر ، ٹون آپ کو ماڈل کے سیاق و سباق کی ونڈو میں مزید تاریخ کو فٹ کرنے کی اجازت دیتا ہے۔ لیکن اہم طور پر ، CSV کے برعکس ، یہ ہیڈر تعریف میٹرکس [5] {...} کے ذریعہ قسم کی آگاہی اور واضح ڈھانچے کو برقرار رکھتا ہے۔

کیوں نہ صرف CSV استعمال کریں؟

یہ سب سے عام انسداد دلیل ہے۔ "اگر آپ فلیٹ ڈیٹا چاہتے ہیں تو ، صرف CSV استعمال کریں۔"

مسئلہ یہ ہے کہ حقیقی دنیا کا ڈیٹا شاذ و نادر ہی بالکل فلیٹ ہوتا ہے۔ CSV اس لمحے کو مکمل طور پر توڑ دیتا ہے جب آپ نے گھوںسلا ڈھانچے ، اشیاء کے اندر فہرستیں ، یا پیچیدہ وضاحتیں جس میں کوما اور قیمت درج کیے جاتے ہیں۔

بینچ مارک میں ، خاص طور پر ** مخلوط ڈھانچے کی ٹریک ** (جس میں ای کامرس آرڈرز اور ایونٹ کے نوشتہ شامل ہیں) ، سی ایس وی کو مکمل طور پر خارج کردیا گیا تھا کیونکہ وہ بغیر کسی نقصان کے اعداد و شمار کی نمائندگی نہیں کرسکتا ہے۔

ٹون اس کو خوبصورتی سے سنبھالتا ہے۔ یہ صفوں کو بہتر بنانے کے دوران گھونسلے والی اشیاء کی اجازت دیتا ہے۔ 100 گٹ ہب ذخیروں (جس میں مخلوط متن کی تفصیل اور میٹا ڈیٹا پر مشتمل ہے) کے ٹیسٹ میں ، کارکردگی کا فرق واضح تھا:

** JSON: ** 15،145 ٹوکن

** ٹون: ** 8،745 ٹوکن (** 42.3 ٪ بچت **)

یہاں تک کہ ** JSON کمپیکٹ ** (منڈی) کے خلاف بھی ، ٹون نے ابھی بھی تقریبا 24 24 ٪ مزید بچت کو نچوڑ لیا۔ جب آپ فی ملین ٹوکن کی ادائیگی کر رہے ہیں تو ، یہ فوری طور پر آر اوآئ ہے۔

درستگی: حیرت انگیز فاتح

یہ وہ حصہ ہے جس نے مجھے حیرت میں ڈال دیا۔ عام طور پر ، جب آپ ڈیٹا کو کمپریس کرتے ہیں تو ، آپ وضاحت کھو دیتے ہیں۔ آپ توقع کریں گے کہ ایل ایل ایم ڈینسر فارمیٹ کی تجزیہ کرنے کے لئے جدوجہد کرے گا۔ بینچ مارک اس کے برعکس دکھاتے ہیں۔

معیاری JSON کے ** 69.7 ٪ ** کے مقابلے میں ، کلاڈ ہائیکو ، جیمنی فلیش ، اور جی پی ٹی -5-نانو جیسے ماڈلز پر 209 اعداد و شمار کی بازیافت کے سوالات کا تجربہ کیا گیا۔

کیوں؟ یہ ممکنہ طور پر ** علمی بوجھ ** (یا ایل ایل ایم مساوی) پر آتا ہے۔

** کم شور: ** ماڈل کو ہزاروں دہرانے والے " کلید " ٹوکن میں شرکت کرنے کی ضرورت نہیں ہے۔ متعلقہ اقدار توجہ کے طریقہ کار میں ایک ساتھ قریب ہیں۔

** واضح میٹا ڈیٹا: ** ٹون ہیڈروں میں گنتی ([n]) اور فیلڈ کے نام واضح طور پر شامل ہیں۔

** ڈھانچے کی آگاہی: ** ٹیسٹوں میں ڈیٹاسیٹ ڈھانچے کے بارے میں پوچھتے ہوئے (جیسے ، "کتنی قطاریں ہیں؟") ، ٹون نے ** 88 ٪ درستگی ** کو نشانہ بنایا ، جبکہ JSON اور XML پیچھے رہ گئے۔ ٹون ہیڈر میں واضح گنتی (ذخیرے [100]) ایک اشارے کے طور پر کام کرتی ہے جو ماڈل کو دستی طور پر "گنتی" کرنے سے روکتی ہے ، جس میں ایل ایل ایم بدنام زمانہ خراب ہیں۔

XML اور YAML تھکاوٹ

ہمیں مختصر طور پر دوسرے دعویداروں کا ذکر کرنا چاہئے۔

** XML ** یہاں بھاری ہاری ہے۔ یہ فعل ہے ، پڑھنا مشکل ہے ، اور اس پر عملدرآمد کرنا مہنگا ہے۔ بینچ مارک میں ، XML نے مستقل طور پر سب سے زیادہ ٹوکن استعمال کیے (یکساں ملازم ریکارڈ سیٹ کے لئے 5،000 سے زیادہ کا استعمال کیا جس کی نمائندگی ٹون نے ~ 2،700 میں کی تھی) اور اس میں سب سے کم درستگی (67.1 ٪) تھی۔

** یامل ** XML سے بہتر کارکردگی کا مظاہرہ کرتا ہے لیکن پھر بھی ٹون کے مقابلے میں ٹوکن بلوٹ کا شکار ہے۔ اگرچہ یامل انسانی تشکیل فائلوں کے لئے بہت اچھا ہے ، لیکن اس کی وائٹ اسپیس حساس نوعیت اور کلیدی تکرار اس کو اعلی حجم کے اعداد و شمار کے سیاق و سباق کے ل sub سب سے اہم بناتی ہے۔ "ای کامرس آرڈرز" ٹیسٹ میں ، یامل نے ٹون کے مقابلے میں ~ 14 ٪ زیادہ ٹوکن استعمال کیے۔

کب سوئچ کریں؟

ڈیٹا کافی حتمی ہے۔ اگر آپ اس سے نمٹ رہے ہیں:

** اشیاء کی فہرستیں: ** لاگ ، لین دین کی تاریخ ، تلاش کے نتائج ، یا مصنوع کی کیٹلاگ۔

** اعلی حجم APIs: ** جہاں بینڈوتھ اور لیٹینسی معاملہ ہے۔

ٹون "دونوں جہانوں کا بہترین" منظر پیش کرتا ہے۔ آپ کو JSON کی ساختی سالمیت کے ساتھ CSV کی کثافت مل جاتی ہے۔

بینچ مارک میں ، ** جی پی ٹی -5-نانو ** نے ٹون فارمیٹڈ ڈیٹا پر حیرت انگیز ** 90.9 ٪ درستگی ** حاصل کیا۔ اس سے پتہ چلتا ہے کہ نئے ، ہوشیار ماڈل ان بہتر شکلوں کو پارس کرنے میں تیزی سے ماہر بن رہے ہیں ، یعنی JSON سے دور ہونے کا "پڑھنے کی سزا" مشین کے لئے مؤثر طریقے سے صفر ہے۔

اگر آپ ابھی بھی اپنے چیتھڑے کے سیاق و سباق کو json.stringify (ڈیٹا ، NULL ، 2) `کی شکل دے رہے ہیں تو ، آپ ہر ایک API کال پر مؤثر طریقے سے" پڑھنے کے قابل ٹیکس "کی ادائیگی کر رہے ہیں۔ فارمیٹس کو تبدیل کرنے کا وقت ہوسکتا ہے۔