TOON इतर फॉरमॅटला का मागे टाकते
जर तुम्ही LLM ॲप्लिकेशन्स तयार करत असाल, विशेषत: Retrieval-Augmented Generation (RAG) सिस्टीम किंवा एजंट जे मोठ्या डेटासेटचा वापर करतात, तर तुम्ही कदाचित दोन आघाड्यांवर सतत युद्ध करत असाल: टोकन कॉस्ट आणि कॉन्टेक्स्ट विंडो मर्यादा.
अनेक वर्षांपासून, JSON ही डेटा इंटरचेंजची डीफॉल्ट लिंग्वा फ्रँका आहे. हे मानवी वाचनीय (बहुतेक) आणि सर्वव्यापी आहे. परंतु जेव्हा तुम्ही 500-पंक्ती JSON ॲरे एका प्रॉम्प्टमध्ये पेस्ट करता, तेव्हा तुम्ही विशिष्ट पंक्तीसाठी शून्य अर्थपूर्ण मूल्य असलेल्या फील्ड नावांवर ("id":, "name":, "email":) हजारो टोकन बर्न करता.
TOON प्रविष्ट करा. हे LLM इनपुटमधील सिग्नल-टू-आवाज गुणोत्तर समस्येचे निराकरण करण्यासाठी विशेषतः डिझाइन केलेले स्वरूप आहे. मी नवीनतम बेंचमार्कमध्ये डुबकी मारत आहे, आणि परिणाम आश्चर्यकारक आहेत: TOON फक्त जागा वाचवत नाही; हे GPT-5-नॅनो आणि जेमिनी-2.5-फ्लॅश सारख्या मॉडेलना डेटा _अधिक चांगल्या प्रकारे समजण्यास मदत करत आहे.
TOON हेवीवेट्स (JSON, CSV, YAML, XML) का पराभूत करत आहे ते समजून घेऊ आणि रॉ नंबर पाहू.
व्हर्बोसिटी ट्रॅप: JSON विरुद्ध. TOON
टोकन कार्यक्षमतेचा सर्वात मोठा शत्रू म्हणजे रचना पुनरावृत्ती. चला मानक वेळ-मालिका विश्लेषण डेटासेट पाहू. JSON मध्ये, प्रत्येक डेटा पॉइंट त्याच्या स्कीमाचे सामान घेऊन जातो.
JSON (मानक) बेंचमार्कमध्ये वापरलेले टोकन: 22,250_
म्हणजे खूप जागा वाया जाते. आता, TOON समतुल्य पहा. TOON हेडरमध्ये एकदा स्कीमा परिभाषित करते आणि नंतर मूल्यांसाठी दाट, CSV-शैली लेआउटवर स्विच करते.
टून बेंचमार्कमध्ये वापरलेले टोकन: 9,120_
परिणाम: टोकन वापरात 59.0% घट.
पुनरावृत्ती केलेल्या कळा काढून टाकून, TOON तुम्हाला मॉडेलच्या संदर्भ विंडोमध्ये अधिक इतिहास बसवण्याची अनुमती देते. परंतु महत्त्वपूर्णपणे, CSV च्या विपरीत, ते शीर्षलेख व्याख्या मेट्रिक्स[5]{...} द्वारे प्रकार जागरूकता आणि स्पष्ट रचना राखते.
फक्त CSV का वापरत नाही?
हा सर्वात सामान्य प्रतिवाद आहे. "तुम्हाला फ्लॅट डेटा हवा असल्यास, फक्त CSV वापरा."
समस्या अशी आहे की वास्तविक-जगातील डेटा क्वचितच पूर्णपणे सपाट असतो. तुमच्याकडे नेस्टेड स्ट्रक्चर्स, ऑब्जेक्टमधील याद्या किंवा स्वल्पविराम आणि अवतरण असलेली जटिल वर्णने असतात त्या क्षणी CSV पूर्णपणे खंडित होते.
बेंचमार्कमध्ये, विशेषत: मिश्र-संरचना ट्रॅक (ज्यामध्ये ई-कॉमर्स ऑर्डर आणि इव्हेंट लॉग समाविष्ट आहेत), CSV पूर्णपणे वगळण्यात आले कारण ते हानीकारक फ्लॅटनिंगशिवाय डेटाचे प्रतिनिधित्व करू शकत नाही.
TOON हे छानपणे हाताळते. हे ॲरे ऑप्टिमाइझ करताना नेस्टेड ऑब्जेक्ट्ससाठी परवानगी देते. 100 GitHub रेपॉजिटरीजच्या चाचणीमध्ये (ज्यात मिश्रित मजकूर वर्णन आणि मेटाडेटा आहे), कार्यक्षमता अंतर स्पष्ट होते:
- JSON: १५,१४५ टोकन
- टून: ८,७४५ टोकन (४२.३% बचत)
JSON कॉम्पॅक्ट (मिनिफाइड) विरुद्धही, TOON ने अजूनही जवळपास 24% अधिक बचत कमी केली आहे. जेव्हा तुम्ही प्रति दशलक्ष टोकन भरता, तेव्हा ते तात्काळ ROI असते.
अचूकता: आश्चर्यचकित विजेता
मला आश्चर्य वाटणारा भाग येथे आहे. सहसा, जेव्हा तुम्ही डेटा संकुचित करता तेव्हा तुम्ही स्पष्टता गमावता. LLM ला अधिक घनतेचे स्वरूप पार्स करण्यासाठी संघर्ष करावा लागेल अशी तुमची अपेक्षा आहे. बेंचमार्क उलट दर्शवतात.
क्लॉड हायकू, जेमिनी फ्लॅश आणि GPT-5-नॅनो सारख्या मॉडेल्सवर चाचणी केलेल्या 209 डेटा पुनर्प्राप्ती प्रश्नांवर, TOON ने मानक JSON च्या 69.7% च्या तुलनेत 73.9% पुनर्प्राप्ती अचूकता प्राप्त केली.
का? हे बहुधा कॉग्निटिव्ह लोड (किंवा LLM समतुल्य) पर्यंत खाली येते.
- कमी आवाज: मॉडेलला हजारो पुनरावृत्ती होणाऱ्या
"की"टोकन्सची आवश्यकता नाही. लक्ष देण्याच्या यंत्रणेमध्ये संबंधित मूल्ये एकमेकांच्या जवळ आहेत.
- स्पष्ट मेटाडेटा: TOON शीर्षलेखांमध्ये संख्या (
[N]) आणि फील्डची नावे स्पष्टपणे समाविष्ट आहेत.
- संरचना जागरूकता: डेटासेट संरचनेबद्दल विचारणा-या चाचण्यांमध्ये (उदा. "किती पंक्ती आहेत?"), TOON ने 88% अचूकता मारली, तर JSON आणि XML मागे राहिले. TOON शीर्षलेख (
रेपॉजिटरीज[100]) मधील स्पष्ट संख्या एक इशारा म्हणून कार्य करते जे मॉडेलला टोकन्स मॅन्युअली "गणना" करण्यापासून प्रतिबंधित करते, ज्यात LLM खूप वाईट आहेत.
XML आणि YAML थकवा
आपण इतर स्पर्धकांचा थोडक्यात उल्लेख केला पाहिजे.
XML येथे खूप नुकसान आहे. हे शब्दशः, वाचण्यास कठीण आणि प्रक्रिया करणे महाग आहे. बेंचमार्कमध्ये, XML ने सातत्याने सर्वाधिक टोकन वापरले (एकसमान कर्मचारी रेकॉर्ड सेटसाठी 5,000 पेक्षा जास्त जे TOON ने ~2,700 मध्ये प्रतिनिधित्व केले) आणि सर्वात कमी अचूकता (67.1%) होती.
YAML XML पेक्षा चांगले कार्य करते परंतु तरीही TOON च्या तुलनेत टोकन ब्लॉटचा त्रास होतो. मानवी कॉन्फिगरेशन फायलींसाठी YAML उत्कृष्ट आहे, परंतु त्याचे व्हाइटस्पेस-संवेदनशील स्वरूप आणि की पुनरावृत्ती उच्च-व्हॉल्यूम डेटा संदर्भासाठी ते उप-सॉप्टिमल बनवते. "ई-कॉमर्स ऑर्डर" चाचणीमध्ये, YAML ने TOON पेक्षा ~14% जास्त टोकन वापरले.
कधी स्विच करायचे?
डेटा बऱ्यापैकी निर्णायक आहे. आपण व्यवहार करत असल्यास:
- वस्तूंच्या सूची: नोंदी, व्यवहार इतिहास, शोध परिणाम किंवा उत्पादन कॅटलॉग.
- RAG पाइपलाइन: जिथे तुम्ही प्रॉम्प्टमध्ये फीड करण्यासाठी DB मधून डेटाचे भाग पुनर्प्राप्त करता.
- उच्च व्हॉल्यूम API: जिथे बँडविड्थ आणि लेटन्सी महत्त्वाची आहे.
TOON "दोन्ही जगातील सर्वोत्कृष्ट" परिस्थिती ऑफर करते. तुम्हाला JSON च्या स्ट्रक्चरल अखंडतेसह CSV ची घनता मिळते.
बेंचमार्कमध्ये, GPT-5-nano ने TOON फॉरमॅट केलेल्या डेटावर 90.9% अचूकता मिळवली. हे सूचित करते की नवीन, हुशार मॉडेल्स हे ऑप्टिमाइझ केलेले स्वरूप पार्स करण्यात अधिकाधिक पारंगत होत आहेत, याचा अर्थ मशीनसाठी JSON पासून दूर जाण्याचा "वाचनीयता दंड" प्रभावीपणे शून्य आहे.
तुम्ही अजूनही तुमचा RAG संदर्भ JSON.stringify(data, null, 2) म्हणून फॉरमॅट करत असल्यास, तुम्ही प्रत्येक API कॉलवर प्रभावीपणे "वाचनीयता कर" भरत आहात. फॉरमॅट स्विच करण्याची ही वेळ असू शकते.