क्यों TOON अन्य प्रारूपों से बेहतर प्रदर्शन करता है
यदि आप एलएलएम एप्लिकेशन बना रहे हैं, विशेष रूप से रिट्रीवल-ऑगमेंटेड जेनरेशन (आरएजी) सिस्टम या एजेंट जो बड़े डेटासेट का उपभोग करते हैं, तो आप संभवतः दो मोर्चों पर लगातार युद्ध लड़ रहे हैं: टोकन लागत और संदर्भ विंडो सीमाएं।
वर्षों से, JSON डेटा इंटरचेंज की डिफ़ॉल्ट भाषा रही है। यह मानव-पठनीय (ज्यादातर) और सर्वव्यापी है। लेकिन जब आप 500-पंक्ति JSON सरणी को प्रॉम्प्ट में पेस्ट करते हैं, तो आप दोहराए गए फ़ील्ड नामों (आईडी':`, नाम':, ``ईमेल':) पर हजारों टोकन जला रहे हैं जो विशिष्ट पंक्ति के लिए शून्य अर्थपूर्ण मान रखते हैं।
टून दर्ज करें। यह एलएलएम इनपुट में सिग्नल-टू-शोर अनुपात समस्या को हल करने के लिए विशेष रूप से डिज़ाइन किया गया एक प्रारूप है। मैं नवीनतम बेंचमार्क में गोता लगा रहा हूं, और परिणाम चौंकाने वाले हैं: TOON सिर्फ जगह नहीं बचा रहा है; यह वास्तव में GPT-5-नैनो और जेमिनी-2.5-फ्लैश जैसे मॉडलों को डेटा को बेहतर ढंग से समझने में मदद कर रहा है।
आइए जानें कि क्यों TOON दिग्गजों (JSON, CSV, YAML, XML) को मात दे रहा है और वास्तविक आंकड़ों पर नजर डालें।
वर्बोसिटी ट्रैप: JSON बनाम TOON
टोकन दक्षता का सबसे बड़ा दुश्मन संरचना पुनरावृत्ति है। आइए एक मानक टाइम-सीरीज़ एनालिटिक्स डेटासेट देखें। JSON में, प्रत्येक डेटा बिंदु अपने स्कीमा का भार वहन करता है।
JSON (मानक) बेंचमार्क में प्रयुक्त टोकन: 22,250
यह बहुत सारा स्थान बर्बाद हुआ है। अब, टून समकक्ष को देखें। TOON एक बार हेडर में स्कीमा को परिभाषित करता है और फिर मानों के लिए सघन, CSV-शैली लेआउट पर स्विच करता है।
तून बेंचमार्क में प्रयुक्त टोकन: 9,120
परिणाम: टोकन उपयोग में भारी 59.0% की कमी।
बार-बार दोहराई जाने वाली कुंजियों को हटाकर, TOON आपको मॉडल की संदर्भ विंडो में अधिक इतिहास फिट करने की अनुमति देता है। लेकिन महत्वपूर्ण बात यह है कि सीएसवी के विपरीत, यह हेडर परिभाषा मेट्रिक्स[5]{...} के माध्यम से प्रकार की जागरूकता और स्पष्ट संरचना को बनाए रखता है।
सीएसवी का उपयोग क्यों न करें?
यह सबसे आम प्रतिवाद है. "यदि आप फ्लैट डेटा चाहते हैं, तो बस सीएसवी का उपयोग करें।"
समस्या यह है कि वास्तविक दुनिया का डेटा शायद ही कभी पूरी तरह से सपाट होता है। जैसे ही आपके पास नेस्टेड संरचनाएं, ऑब्जेक्ट के भीतर सूचियां, या अल्पविराम और उद्धरण वाले जटिल विवरण होते हैं तो सीएसवी पूरी तरह से टूट जाता है।
बेंचमार्क में, विशेष रूप से मिक्स्ड-स्ट्रक्चर ट्रैक (जिसमें ई-कॉमर्स ऑर्डर और इवेंट लॉग शामिल हैं), सीएसवी को पूरी तरह से बाहर रखा गया था क्योंकि यह हानिपूर्ण फ़्लैटनिंग के बिना डेटा का प्रतिनिधित्व नहीं कर सकता था।
TOON इसे शालीनता से संभालता है। यह सरणियों को अनुकूलित करते हुए नेस्टेड वस्तुओं की अनुमति देता है। 100 GitHub रिपॉजिटरी (जिसमें मिश्रित पाठ विवरण और मेटाडेटा शामिल हैं) के परीक्षण में, दक्षता अंतर स्पष्ट था:
- JSON: 15,145 टोकन
- टून: 8,745 टोकन (42.3% बचत)
यहां तक कि JSON कॉम्पैक्ट (मिनीफ़ाइड) के विरुद्ध भी, TOON ने अभी भी लगभग 24% अधिक बचत निकाली। जब आप प्रति मिलियन टोकन का भुगतान कर रहे हैं, तो यह तत्काल आरओआई है।
सटीकता: आश्चर्य विजेता
यहाँ वह हिस्सा है जिसने मुझे आश्चर्यचकित कर दिया। आमतौर पर, जब आप डेटा को संपीड़ित करते हैं, तो आप स्पष्टता खो देते हैं। आप उम्मीद करेंगे कि एलएलएम को सघन प्रारूप को पार्स करने में संघर्ष करना पड़ेगा। बेंचमार्क इसके विपरीत दिखाते हैं।
क्लाउड हाइकु, जेमिनी फ्लैश और जीपीटी-5-नैनो जैसे मॉडलों पर परीक्षण किए गए 209 डेटा पुनर्प्राप्ति प्रश्नों में, TOON ने मानक JSON के 69.7% की तुलना में 73.9% पुनर्प्राप्ति सटीकता हासिल की।
क्यों? यह संभवतः संज्ञानात्मक भार (या एलएलएम समकक्ष) तक आ जाता है।
- कम शोर: मॉडल को हजारों दोहराए जाने वाले ``कुंजी'' टोकन पर ध्यान देने की आवश्यकता नहीं है। ध्यान तंत्र में प्रासंगिक मूल्य एक-दूसरे के करीब होते हैं।
- स्पष्ट मेटाडेटा: TOON हेडर में गिनती (
[N]) और फ़ील्ड नाम स्पष्ट रूप से शामिल होते हैं।
- संरचना जागरूकता: डेटासेट संरचना के बारे में पूछने वाले परीक्षणों में (उदाहरण के लिए, "कितनी पंक्तियाँ हैं?"), TOON ने 88% सटीकता हासिल की, जबकि JSON और XML पीछे रह गए। TOON हेडर (
रिपॉजिटरी [100]) में स्पष्ट गिनती एक संकेत के रूप में कार्य करती है जो मॉडल को मैन्युअल रूप से टोकन की "गिनती" करने से रोकती है, जिसमें एलएलएम बेहद खराब हैं।
XML और YAML थकान
हमें अन्य दावेदारों का संक्षेप में उल्लेख करना चाहिए।
XML यहाँ भारी हारा हुआ है। यह शब्दाडंबरपूर्ण है, पढ़ना कठिन है और प्रक्रिया करना महंगा है। बेंचमार्क में, XML ने लगातार सबसे अधिक टोकन का उपयोग किया (एकसमान कर्मचारी रिकॉर्ड सेट के लिए 5,000 से अधिक जिसे TOON ने ~2,700 में दर्शाया) और इसकी सटीकता सबसे कम (67.1%) थी।
YAML XML से बेहतर प्रदर्शन करता है लेकिन फिर भी TOON की तुलना में टोकन ब्लोट से पीड़ित है। जबकि YAML मानव कॉन्फ़िगरेशन फ़ाइलों के लिए बहुत अच्छा है, इसकी व्हाइटस्पेस-संवेदनशील प्रकृति और कुंजी पुनरावृत्ति इसे उच्च-मात्रा डेटा संदर्भ के लिए उप-इष्टतम बनाती है। "ई-कॉमर्स ऑर्डर" परीक्षण में, YAML ने TOON की तुलना में ~14% अधिक टोकन का उपयोग किया।
कब स्विच करना है?
डेटा काफी निर्णायक है. यदि आप इससे निपट रहे हैं:
- वस्तुओं की सूची: लॉग, लेनदेन इतिहास, खोज परिणाम, या उत्पाद कैटलॉग।
- आरएजी पाइपलाइन: जहां आप एक प्रॉम्प्ट में फीड करने के लिए डीबी से डेटा का बड़ा हिस्सा पुनर्प्राप्त करते हैं।
- हाई-वॉल्यूम एपीआई: जहां बैंडविड्थ और विलंबता मायने रखती है।
TOON "दोनों दुनियाओं में सर्वश्रेष्ठ" परिदृश्य पेश करता है। आपको JSON की संरचनात्मक अखंडता के साथ CSV का घनत्व मिलता है।
बेंचमार्क में, GPT-5-नैनो ने TOON स्वरूपित डेटा पर आश्चर्यजनक 90.9% सटीकता हासिल की। इससे पता चलता है कि नए, स्मार्ट मॉडल इन अनुकूलित प्रारूपों को पार्स करने में तेजी से कुशल हो रहे हैं, जिसका अर्थ है कि मशीन के लिए JSON से दूर जाने का "पठनीयता दंड" प्रभावी रूप से शून्य है।
यदि आप अभी भी अपने RAG संदर्भ को JSON.stringify(data, null, 2) के रूप में स्वरूपित कर रहे हैं, तो आप प्रभावी रूप से प्रत्येक API कॉल पर "पठनीयता कर" का भुगतान कर रहे हैं। यह प्रारूप बदलने का समय हो सकता है।