എന്തുകൊണ്ടാണ് TOON മറ്റ് ഫോർമാറ്റുകളെ മറികടക്കുന്നത്

എൽഎൽഎം
ബെഞ്ച്മാർക്കുകൾ
RAG

നിങ്ങൾ LLM ആപ്ലിക്കേഷനുകൾ നിർമ്മിക്കുകയാണെങ്കിൽ, പ്രത്യേകമായി വീണ്ടെടുക്കൽ-ഓഗ്മെൻ്റഡ് ജനറേഷൻ (RAG) സിസ്റ്റങ്ങൾ അല്ലെങ്കിൽ വലിയ ഡാറ്റാസെറ്റുകൾ ഉപയോഗിക്കുന്ന ഏജൻ്റുമാർ, നിങ്ങൾ രണ്ട് മുന്നണികളിൽ നിരന്തരമായ യുദ്ധം ചെയ്യുകയാണ്: ടോക്കൺ ചെലവ്, സന്ദർഭ വിൻഡോ പരിധികൾ.

വർഷങ്ങളായി, ഡാറ്റാ കൈമാറ്റത്തിൻ്റെ ഡിഫോൾട്ട് ഭാഷയാണ് JSON. ഇത് മനുഷ്യർക്ക് വായിക്കാവുന്നതും (മിക്കവാറും) സർവ്വവ്യാപിയുമാണ്. എന്നാൽ നിങ്ങൾ ഒരു പ്രോംപ്റ്റിലേക്ക് 500-വരി JSON അറേ ഒട്ടിക്കുമ്പോൾ, നിർദ്ദിഷ്ട വരിയിൽ പൂജ്യം സെമാൻ്റിക് മൂല്യം വഹിക്കുന്ന ആവർത്തിച്ചുള്ള ഫീൽഡ് നാമങ്ങളിൽ ("id":, "name":, "email":) ആയിരക്കണക്കിന് ടോക്കണുകൾ നിങ്ങൾ കത്തിക്കുന്നു.

TOON നൽകുക. LLM ഇൻപുട്ടുകളിലെ സിഗ്നൽ-ടു-നോയിസ് അനുപാത പ്രശ്നം പരിഹരിക്കാൻ പ്രത്യേകം രൂപകൽപ്പന ചെയ്ത ഒരു ഫോർമാറ്റാണിത്. ഞാൻ ഏറ്റവും പുതിയ ബെഞ്ച്‌മാർക്കുകളിലേക്ക് ഊളിയിടുകയാണ്, ഫലങ്ങൾ ഞെട്ടിപ്പിക്കുന്നതാണ്: TOON സ്ഥലം ലാഭിക്കുക മാത്രമല്ല; ഇത് യഥാർത്ഥത്തിൽ GPT-5-nano, Gemini-2.5-flash പോലുള്ള മോഡലുകളെ ഡാറ്റ മനസ്സിലാക്കാൻ സഹായിക്കുന്നു.

എന്തുകൊണ്ടാണ് TOON ഹെവിവെയ്‌റ്റുകളെ (JSON, CSV, YAML, XML) തോൽപ്പിക്കുന്നത് എന്ന് നമുക്ക് വേർതിരിച്ച് റോ നമ്പറുകൾ നോക്കാം.

ദി വെർബോസിറ്റി ട്രാപ്പ്: JSON വേഴ്സസ്. ടൂൺ

ടോക്കൺ കാര്യക്ഷമതയുടെ ഏറ്റവും വലിയ ശത്രു ഘടന ആവർത്തനമാണ്. ഒരു സ്റ്റാൻഡേർഡ് ടൈം-സീരീസ് അനലിറ്റിക്സ് ഡാറ്റാസെറ്റ് നോക്കാം. JSON-ൽ, ഓരോ ഡാറ്റാ പോയിൻ്റും അതിൻ്റെ സ്കീമയുടെ ബാഗേജ് വഹിക്കുന്നു.

JSON (സ്റ്റാൻഡേർഡ്) ബെഞ്ച്മാർക്കിൽ ഉപയോഗിച്ച ടോക്കണുകൾ: 22,250_

അത് ധാരാളം പാഴായ സ്ഥലമാണ്. ഇപ്പോൾ, ടൂൺ തുല്യമായത് നോക്കുക. TOON തലക്കെട്ടിൽ ഒരിക്കൽ സ്കീമ നിർവചിക്കുന്നു, തുടർന്ന് മൂല്യങ്ങൾക്കായി സാന്ദ്രമായ, CSV-ശൈലി ലേഔട്ടിലേക്ക് മാറുന്നു.

ടൂൺ ബെഞ്ച്മാർക്കിൽ ഉപയോഗിക്കുന്ന ടോക്കണുകൾ: 9,120_

ഫലം: ടോക്കൺ ഉപയോഗത്തിൽ വൻ 59.0% കുറവ്.

ആവർത്തിച്ചുള്ള കീകൾ നീക്കം ചെയ്യുന്നതിലൂടെ, മോഡലിൻ്റെ സന്ദർഭ വിൻഡോയിൽ കൂടുതൽ ചരിത്രം ഉൾക്കൊള്ളിക്കാൻ TOON നിങ്ങളെ അനുവദിക്കുന്നു. എന്നാൽ നിർണായകമായി, CSV-യിൽ നിന്ന് വ്യത്യസ്തമായി, തലക്കെട്ട് നിർവചനം മെട്രിക്സ്[5]{...} വഴി തരം അവബോധവും വ്യക്തമായ ഘടനയും ഇത് നിലനിർത്തുന്നു.

എന്തുകൊണ്ട് വെറുതെ CSV ഉപയോഗിക്കരുത്?

ഇതാണ് ഏറ്റവും സാധാരണമായ എതിർവാദം. "നിങ്ങൾക്ക് ഫ്ലാറ്റ് ഡാറ്റ വേണമെങ്കിൽ, CSV ഉപയോഗിക്കുക."

യഥാർത്ഥ ലോക ഡാറ്റ അപൂർവ്വമായി തികച്ചും പരന്നതാണ് എന്നതാണ് പ്രശ്നം. നിങ്ങൾക്ക് നെസ്റ്റഡ് ഘടനകൾ, ഒബ്‌ജക്‌റ്റുകൾക്കുള്ളിലെ ലിസ്റ്റുകൾ അല്ലെങ്കിൽ കോമകളും ഉദ്ധരണികളും അടങ്ങിയ സങ്കീർണ്ണമായ വിവരണങ്ങൾ ഉള്ള നിമിഷം തന്നെ CSV പൂർണ്ണമായും തകരുന്നു.

ബെഞ്ച്മാർക്കുകളിൽ, പ്രത്യേകമായി മിക്‌സഡ്-സ്ട്രക്ചർ ട്രാക്ക് (ഇ-കൊമേഴ്‌സ് ഓർഡറുകളും ഇവൻ്റ് ലോഗുകളും ഉൾപ്പെടുന്നു), CSV പൂർണ്ണമായി ഒഴിവാക്കപ്പെട്ടു, കാരണം അത് നഷ്‌ടമായ പരന്നതില്ലാതെ ഡാറ്റയെ പ്രതിനിധീകരിക്കാൻ കഴിയില്ല.

TOON ഇത് ഭംഗിയായി കൈകാര്യം ചെയ്യുന്നു. അറേകൾ ഒപ്റ്റിമൈസ് ചെയ്യുമ്പോൾ നെസ്റ്റഡ് ഒബ്‌ജക്‌റ്റുകൾക്ക് ഇത് അനുവദിക്കുന്നു. 100 GitHub റിപ്പോസിറ്ററികളുടെ (മിക്സഡ് ടെക്സ്റ്റ് വിവരണങ്ങളും മെറ്റാഡാറ്റയും അടങ്ങിയ) ഒരു പരിശോധനയിൽ, കാര്യക്ഷമത വിടവ് വ്യക്തമായിരുന്നു:

  • JSON: 15,145 ടോക്കണുകൾ
  • ടൂൺ: 8,745 ടോക്കണുകൾ (42.3% സേവിംഗ്സ്)

JSON കോംപാക്റ്റ് (മിനിഫൈഡ്) എന്നതിനെതിരെ പോലും, TOON ഇപ്പോഴും ഏകദേശം 24% കൂടുതൽ സമ്പാദ്യം പുറത്തെടുത്തു. നിങ്ങൾ ഓരോ ദശലക്ഷത്തിനും ടോക്കണുകൾ അടയ്ക്കുമ്പോൾ, അത് ഉടനടി ROI ആണ്.

കൃത്യത: സർപ്രൈസ് വിജയി

എന്നെ അത്ഭുതപ്പെടുത്തിയ ഭാഗം ഇതാ. സാധാരണയായി, നിങ്ങൾ ഡാറ്റ കംപ്രസ് ചെയ്യുമ്പോൾ, നിങ്ങൾക്ക് വ്യക്തത നഷ്ടപ്പെടും. സാന്ദ്രമായ ഒരു ഫോർമാറ്റ് പാഴ്‌സ് ചെയ്യാൻ LLM പാടുപെടുമെന്ന് നിങ്ങൾ പ്രതീക്ഷിക്കും. മാനദണ്ഡങ്ങൾ വിപരീതമായി കാണിക്കുന്നു.

Claude Haiku, Gemini Flash, GPT-5-nano തുടങ്ങിയ മോഡലുകളിൽ പരീക്ഷിച്ച 209 ഡാറ്റാ വീണ്ടെടുക്കൽ ചോദ്യങ്ങൾ, സ്റ്റാൻഡേർഡ് JSON-ൻ്റെ 69.7%-നെ അപേക്ഷിച്ച് TOON 73.9% വീണ്ടെടുക്കൽ കൃത്യത നേടി.

എന്തുകൊണ്ട്? ഇത് കോഗ്നിറ്റീവ് ലോഡ് (അല്ലെങ്കിൽ LLM തത്തുല്യം) വരെയാകാം.

  1. കുറവ് ശബ്‌ദം: ആയിരക്കണക്കിന് ആവർത്തിക്കുന്ന `"കീ" ടോക്കണുകളിൽ മോഡലിന് പങ്കെടുക്കേണ്ടതില്ല. ശ്രദ്ധാ സംവിധാനത്തിൽ പ്രസക്തമായ മൂല്യങ്ങൾ പരസ്പരം അടുത്തിരിക്കുന്നു.
  1. വ്യക്തമായ മെറ്റാഡാറ്റ: TOON തലക്കെട്ടുകളിൽ എണ്ണവും ([N]) ഫീൽഡ് നാമങ്ങളും വ്യക്തമായി ഉൾപ്പെടുന്നു.
  1. ഘടനാ അവബോധം: ഡാറ്റാസെറ്റ് ഘടനയെക്കുറിച്ച് ചോദിക്കുന്ന ടെസ്റ്റുകളിൽ (ഉദാ. "എത്ര വരികളുണ്ട്?"), TOON 88% കൃത്യത അടിച്ചു, അതേസമയം JSON, XML എന്നിവ പിന്നിലായി. TOON ശീർഷകത്തിലെ (റിപ്പോസിറ്ററികൾ[100]) വ്യക്തമായ എണ്ണം, LLM-കൾ വളരെ മോശമായ ടോക്കണുകൾ സ്വമേധയാ "എണ്ണുന്നതിൽ" നിന്ന് മോഡലിനെ തടയുന്ന ഒരു സൂചനയായി പ്രവർത്തിക്കുന്നു.

XML, YAML ക്ഷീണം

മറ്റ് മത്സരാർത്ഥികളെ നമുക്ക് ചുരുക്കമായി സൂചിപ്പിക്കണം.

XML ആണ് ഇവിടെ കനത്ത നഷ്ടം. ഇത് വാചാലവും വായിക്കാൻ ബുദ്ധിമുട്ടുള്ളതും പ്രോസസ്സ് ചെയ്യാൻ ചെലവേറിയതുമാണ്. ബെഞ്ച്മാർക്കുകളിൽ, XML സ്ഥിരമായി ഏറ്റവും കൂടുതൽ ടോക്കണുകൾ ഉപയോഗിച്ചു (ടൂൺ ~2,700-ൽ പ്രതിനിധീകരിക്കുന്ന ഒരു യൂണിഫോം ജീവനക്കാരുടെ റെക്കോർഡിന് 5,000-ത്തിലധികം) കൂടാതെ ഏറ്റവും കുറഞ്ഞ കൃത്യത (67.1%) ഉണ്ടായിരുന്നു.

YAML XML-നേക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു, എന്നാൽ TOON-നെ അപേക്ഷിച്ച് ഇപ്പോഴും ടോക്കൺ ബ്ലാറ്റ് അനുഭവപ്പെടുന്നു. ഹ്യൂമൻ കോൺഫിഗറേഷൻ ഫയലുകൾക്ക് YAML മികച്ചതാണെങ്കിലും, അതിൻ്റെ വൈറ്റ്‌സ്‌പേസ് സെൻസിറ്റീവ് സ്വഭാവവും കീ ആവർത്തനവും ഉയർന്ന വോളിയം ഡാറ്റാ സന്ദർഭത്തിന് ഉപയുക്തമാക്കുന്നു. "ഇ-കൊമേഴ്‌സ് ഓർഡറുകൾ" ടെസ്റ്റിൽ, YAML TOON നേക്കാൾ ~14% കൂടുതൽ ടോക്കണുകൾ ഉപയോഗിച്ചു.

എപ്പോഴാണ് മാറേണ്ടത്?

ഡാറ്റ തികച്ചും നിർണായകമാണ്. നിങ്ങൾ കൈകാര്യം ചെയ്യുകയാണെങ്കിൽ:

  1. ** ഒബ്‌ജക്‌റ്റുകളുടെ പട്ടിക:** ലോഗുകൾ, ഇടപാട് ചരിത്രങ്ങൾ, തിരയൽ ഫലങ്ങൾ അല്ലെങ്കിൽ ഉൽപ്പന്ന കാറ്റലോഗുകൾ.
  1. RAG പൈപ്പ് ലൈനുകൾ: ഒരു പ്രോംപ്റ്റിലേക്ക് ഫീഡ് ചെയ്യുന്നതിനായി നിങ്ങൾ ഒരു DB-യിൽ നിന്ന് ഡാറ്റയുടെ ഭാഗങ്ങൾ വീണ്ടെടുക്കുന്നിടത്ത്.
  1. ഉയർന്ന വോളിയം API-കൾ: ബാൻഡ്‌വിഡ്ത്തും ലേറ്റൻസിയും പ്രധാനം.

TOON "രണ്ട് ലോകങ്ങളിലെയും മികച്ച" സാഹചര്യം വാഗ്ദാനം ചെയ്യുന്നു. JSON-ൻ്റെ ഘടനാപരമായ സമഗ്രത ഉപയോഗിച്ച് നിങ്ങൾക്ക് CSV യുടെ സാന്ദ്രത ലഭിക്കും.

ബെഞ്ച്മാർക്കുകളിൽ, TOON ഫോർമാറ്റ് ചെയ്ത ഡാറ്റയിൽ GPT-5-nano അതിശയിപ്പിക്കുന്ന 90.9% കൃത്യത നേടി. പുതിയതും മികച്ചതുമായ മോഡലുകൾ ഈ ഒപ്റ്റിമൈസ് ചെയ്ത ഫോർമാറ്റുകൾ പാഴ്‌സ് ചെയ്യുന്നതിൽ കൂടുതൽ വൈദഗ്ധ്യമുള്ളവരായി മാറുന്നുവെന്ന് ഇത് സൂചിപ്പിക്കുന്നു, അതായത് JSON-ൽ നിന്ന് അകന്നുപോകുന്നതിൻ്റെ "വായനക്ഷമത പിഴ" യന്ത്രത്തിന് ഫലത്തിൽ പൂജ്യമാണ്.

നിങ്ങൾ ഇപ്പോഴും നിങ്ങളുടെ RAG സന്ദർഭം JSON.stringify(data, null, 2) ആയി ഫോർമാറ്റ് ചെയ്യുന്നുണ്ടെങ്കിൽ, ഓരോ API കോളിനും നിങ്ങൾ ഫലപ്രദമായി ഒരു "റീഡബിലിറ്റി ടാക്സ്" അടയ്‌ക്കുന്നു. ഫോർമാറ്റുകൾ മാറാനുള്ള സമയമായിരിക്കാം.