શા માટે TOON અન્ય ફોર્મેટને આઉટપરફોર્મ કરે છે
જો તમે LLM એપ્લીકેશન બનાવી રહ્યા હોવ, ખાસ કરીને રીટ્રીવલ-ઓગમેન્ટેડ જનરેશન (RAG) સિસ્ટમ્સ અથવા એજન્ટો કે જે મોટા ડેટાસેટ્સનો ઉપયોગ કરે છે, તો તમે સંભવિતપણે બે મોરચે સતત યુદ્ધ લડી રહ્યા છો: ટોકન ખર્ચ અને સંદર્ભ વિન્ડો મર્યાદા.
વર્ષોથી, JSON એ ડેટા ઇન્ટરચેન્જની ડિફોલ્ટ ભાષા છે. તે માનવ-વાંચી શકાય તેવું (મોટે ભાગે) અને સર્વવ્યાપી છે. પરંતુ જ્યારે તમે 500-પંક્તિ JSON એરેને પ્રોમ્પ્ટમાં પેસ્ટ કરો છો, ત્યારે તમે પુનરાવર્તિત ફીલ્ડ નામો ("id":, "નામ":, "ઇમેઇલ":) પર હજારો ટોકન્સ બર્ન કરી રહ્યાં છો જે ચોક્કસ પંક્તિ માટે શૂન્ય અર્થપૂર્ણ મૂલ્ય ધરાવે છે.
TOON દાખલ કરો. તે LLM ઇનપુટ્સમાં સિગ્નલ-ટુ-નોઈઝ રેશિયો સમસ્યાને ઉકેલવા માટે ખાસ રચાયેલ ફોર્મેટ છે. હું નવીનતમ બેન્ચમાર્ક્સમાં ડાઇવિંગ કરી રહ્યો છું, અને પરિણામો ચોંકાવનારા છે: TOON એ માત્ર જગ્યા બચાવવા નથી; તે ખરેખર GPT-5-nano અને Gemini-2.5-flash જેવા મોડલ્સને ડેટાને વધુ સારી રીતે સમજવામાં મદદ કરે છે.
ચાલો તોડીએ કે શા માટે TOON હેવીવેઈટ્સ (JSON, CSV, YAML, XML) ને હરાવી રહ્યું છે અને કાચા નંબરો જોઈએ.
વર્બોસિટી ટ્રેપ: JSON વિ. ટૂન
ટોકન કાર્યક્ષમતાનો સૌથી મોટો દુશ્મન બંધારણનું પુનરાવર્તન છે. ચાલો પ્રમાણભૂત સમય-શ્રેણી એનાલિટિક્સ ડેટાસેટ જોઈએ. JSON માં, દરેક એક ડેટા પોઈન્ટ તેની સ્કીમાનો સામાન વહન કરે છે.
JSON (સ્ટાન્ડર્ડ) બેન્ચમાર્કમાં ઉપયોગમાં લેવાતા ટોકન્સ: 22,250_
તે ઘણી બધી જગ્યા વેડફાય છે. હવે, TOON સમકક્ષ જુઓ. TOON હેડરમાં એકવાર સ્કીમાને વ્યાખ્યાયિત કરે છે અને પછી મૂલ્યો માટે ગાઢ, CSV-શૈલી લેઆઉટ પર સ્વિચ કરે છે.
ટૂન બેન્ચમાર્કમાં ઉપયોગમાં લેવાતા ટોકન્સ: 9,120_
પરિણામ: ટોકન વપરાશમાં જંગી 59.0% ઘટાડો.
પુનરાવર્તિત કીને દૂર કરીને, TOON તમને મોડેલની સંદર્ભ વિંડોમાં વધુ ઇતિહાસ ફિટ કરવાની મંજૂરી આપે છે. પરંતુ નિર્ણાયક રીતે, CSVથી વિપરીત, તે હેડર વ્યાખ્યા મેટ્રિક્સ[5]{...} દ્વારા પ્રકારની જાગૃતિ અને સ્પષ્ટ માળખું જાળવી રાખે છે.
ફક્ત CSV નો ઉપયોગ કેમ ન કરવો?
આ સૌથી સામાન્ય પ્રતિ-દલીલ છે. "જો તમને ફ્લેટ ડેટા જોઈતો હોય, તો ફક્ત CSV નો ઉપયોગ કરો."
સમસ્યા એ છે કે વાસ્તવિક દુનિયાનો ડેટા ભાગ્યે જ સંપૂર્ણ રીતે સપાટ હોય છે. જ્યારે તમે નેસ્ટેડ સ્ટ્રક્ચર્સ, ઑબ્જેક્ટમાં સૂચિઓ અથવા અલ્પવિરામ અને અવતરણ ધરાવતા જટિલ વર્ણનો ધરાવો છો ત્યારે CSV સંપૂર્ણપણે તૂટી જાય છે.
બેન્ચમાર્કમાં, ખાસ કરીને મિક્સ્ડ-સ્ટ્રક્ચર ટ્રૅક (જેમાં ઈ-કૉમર્સ ઑર્ડર્સ અને ઇવેન્ટ લૉગ્સનો સમાવેશ થાય છે), CSVને સંપૂર્ણપણે બાકાત રાખવામાં આવ્યું હતું કારણ કે તે નુકસાનકારક ફ્લૅટનિંગ વિના ડેટાનું પ્રતિનિધિત્વ કરી શકતું નથી.
ટૂન આને સુંદર રીતે સંભાળે છે. એરેને ઑપ્ટિમાઇઝ કરતી વખતે તે નેસ્ટેડ ઑબ્જેક્ટ્સ માટે પરવાનગી આપે છે. 100 GitHub રિપોઝીટરીઝ (જેમાં મિશ્ર ટેક્સ્ટ વર્ણન અને મેટાડેટા છે) ના પરીક્ષણમાં કાર્યક્ષમતામાં તફાવત સ્પષ્ટ હતો:
- JSON: 15,145 ટોકન્સ
- ટૂન: 8,745 ટોકન્સ (42.3% બચત)
JSON કોમ્પેક્ટ (મિનિફાઇડ) ની સામે પણ, TOON એ હજુ પણ લગભગ 24% વધુ બચત કરી છે. જ્યારે તમે પ્રતિ મિલિયન ટોકન્સ ચૂકવતા હોવ, ત્યારે તે તાત્કાલિક ROI છે.
ચોકસાઈ: આશ્ચર્યજનક વિજેતા
અહીં તે ભાગ છે જેણે મને આશ્ચર્યચકિત કર્યું. સામાન્ય રીતે, જ્યારે તમે ડેટાને સંકુચિત કરો છો, ત્યારે તમે સ્પષ્ટતા ગુમાવો છો. તમે LLM ને ગાઢ ફોર્મેટનું વિશ્લેષણ કરવા માટે સંઘર્ષ કરવાની અપેક્ષા રાખશો. બેન્ચમાર્ક વિપરીત દર્શાવે છે.
ક્લાઉડ હાઈકુ, જેમિની ફ્લેશ અને GPT-5-નેનો જેવા મોડલ્સ પર પરીક્ષણ કરાયેલા 209 ડેટા પુનઃપ્રાપ્તિ પ્રશ્નોમાં, TOON એ પ્રમાણભૂત JSON ની 69.7% ની સરખામણીમાં 73.9% પુનઃપ્રાપ્તિ ચોકસાઈ હાંસલ કરી છે.
શા માટે? તે સંભવતઃ કોગ્નિટિવ લોડ (અથવા LLM સમકક્ષ) સુધી નીચે આવે છે.
- ઓછો ઘોંઘાટ: મોડેલને હજારો પુનરાવર્તિત
"કી"ટોકન્સમાં હાજરી આપવાની જરૂર નથી. ધ્યાન પદ્ધતિમાં સંબંધિત મૂલ્યો એકબીજાની નજીક છે.
- સ્પષ્ટ મેટાડેટા: ટૂન હેડરોમાં ગણતરી (
[N]) અને ફીલ્ડના નામ સ્પષ્ટપણે સામેલ છે.
- સ્ટ્રક્ચર અવેરનેસ: ડેટાસેટ સ્ટ્રક્ચર (દા.ત., "કેટલી પંક્તિઓ છે?") વિશે પૂછતા પરીક્ષણોમાં, TOON એ 88% ચોકસાઈ ફટકારી, જ્યારે JSON અને XML પાછળ રહી ગયા. TOON હેડરમાં સ્પષ્ટ ગણતરી (
repositories[100]) એક સંકેત તરીકે કાર્ય કરે છે જે મોડેલને ટોકન્સને મેન્યુઅલી "ગણતરી" કરતા અટકાવે છે, જે LLMs ખૂબ જ ખરાબ છે.
XML અને YAML થાક
આપણે સંક્ષિપ્તમાં અન્ય દાવેદારોનો ઉલ્લેખ કરવો જોઈએ.
XML એ અહીં ભારે હાર છે. તે વર્બોઝ છે, વાંચવું મુશ્કેલ છે અને પ્રક્રિયા કરવા માટે ખર્ચાળ છે. બેન્ચમાર્ક્સમાં, XML એ સતત સૌથી વધુ ટોકન્સનો ઉપયોગ કર્યો (5,000 થી વધુ એક સમાન કર્મચારી રેકોર્ડ સેટ જે TOON ~2,700 માં રજૂ કરે છે) અને સૌથી ઓછી ચોકસાઈ (67.1%) ધરાવે છે.
YAML XML કરતાં વધુ સારું પ્રદર્શન કરે છે પરંતુ તેમ છતાં TOON ની સરખામણીમાં ટોકન બ્લોટથી પીડાય છે. જ્યારે YAML માનવ રૂપરેખાંકન ફાઇલો માટે ઉત્તમ છે, તેની વ્હાઇટસ્પેસ-સંવેદનશીલ પ્રકૃતિ અને કી પુનરાવર્તન તેને ઉચ્ચ-વોલ્યુમ ડેટા સંદર્ભ માટે સબઓપ્ટિમલ બનાવે છે. "ઈ-કોમર્સ ઓર્ડર્સ" પરીક્ષણમાં, YAML એ TOON કરતાં ~14% વધુ ટોકન્સનો ઉપયોગ કર્યો.
ક્યારે સ્વિચ કરવું?
ડેટા એકદમ નિર્ણાયક છે. જો તમે આની સાથે વ્યવહાર કરો છો:
- ઑબ્જેક્ટ્સની સૂચિ: લૉગ્સ, ટ્રાન્ઝેક્શન ઇતિહાસ, શોધ પરિણામો અથવા ઉત્પાદન કેટલોગ.
- RAG પાઇપલાઇન્સ: જ્યાં તમે પ્રોમ્પ્ટમાં ફીડ કરવા માટે DBમાંથી ડેટાના હિસ્સાને પુનઃપ્રાપ્ત કરો છો.
- ઉચ્ચ-વોલ્યુમ API: જ્યાં બેન્ડવિડ્થ અને લેટન્સી મહત્વની છે.
TOON "બંને વિશ્વમાં શ્રેષ્ઠ" દૃશ્ય પ્રદાન કરે છે. તમે JSON ની માળખાકીય અખંડિતતા સાથે CSV ની ઘનતા મેળવો છો.
બેન્ચમાર્ક્સમાં, GPT-5-nano એ TOON ફોર્મેટ કરેલા ડેટા પર આશ્ચર્યજનક 90.9% ચોકસાઈ હાંસલ કરી છે. આ સૂચવે છે કે નવા, સ્માર્ટ મૉડલ્સ આ ઑપ્ટિમાઇઝ્ડ ફોર્મેટ્સને પાર્સ કરવામાં વધુને વધુ પારંગત બની રહ્યા છે, એટલે કે JSONથી દૂર જવાની "વાંચી શકાય તેવો દંડ" મશીન માટે અસરકારક રીતે શૂન્ય છે.
જો તમે હજુ પણ તમારા RAG સંદર્ભને JSON.stringify(data, null, 2) તરીકે ફોર્મેટ કરી રહ્યાં છો, તો તમે દરેક એક API કૉલ પર અસરકારક રીતે "વાંચવાની ક્ષમતા કર" ચૂકવી રહ્યાં છો. ફોર્મેટ્સ સ્વિચ કરવાનો સમય આવી શકે છે.