ఎందుకు TOON ఇతర ఫార్మాట్‌లను అధిగమించింది

LLM
బెంచ్‌మార్క్‌లు
RAG

మీరు LLM అప్లికేషన్‌లను రూపొందిస్తున్నట్లయితే, ప్రత్యేకంగా రిట్రీవల్-ఆగ్మెంటెడ్ జనరేషన్ (RAG) సిస్టమ్‌లు లేదా పెద్ద డేటాసెట్‌లను వినియోగించే ఏజెంట్‌లు, మీరు రెండు రంగాలలో స్థిరంగా పోరాడుతూ ఉండవచ్చు: టోకెన్ ధర మరియు సందర్భ విండో పరిమితులు.

కొన్నేళ్లుగా, JSON అనేది డేటా ఇంటర్‌చేంజ్ యొక్క డిఫాల్ట్ భాషగా ఉంది. ఇది మానవులు చదవగలిగేది (ఎక్కువగా) మరియు సర్వవ్యాప్తి చెందుతుంది. కానీ మీరు 500-వరుసల JSON శ్రేణిని ప్రాంప్ట్‌లో అతికించినప్పుడు, నిర్దిష్ట అడ్డు వరుసకు సున్నా అర్థ విలువను కలిగి ఉండే పునరావృత ఫీల్డ్ పేర్లపై ("id":, "name":, "email":) వేలకొద్దీ టోకెన్‌లను మీరు బర్న్ చేస్తున్నారు.

TOONని నమోదు చేయండి. ఇది LLM ఇన్‌పుట్‌లలో సిగ్నల్-టు-నాయిస్ రేషియో సమస్యను పరిష్కరించడానికి ప్రత్యేకంగా రూపొందించబడిన ఫార్మాట్. నేను తాజా బెంచ్‌మార్క్‌లను పరిశీలిస్తున్నాను మరియు ఫలితాలు ఆశ్చర్యకరంగా ఉన్నాయి: TOON కేవలం స్థలాన్ని ఆదా చేయడం మాత్రమే కాదు; ఇది వాస్తవానికి GPT-5-nano మరియు Gemini-2.5-flash వంటి మోడళ్లకు డేటాను బెటర్ అర్థం చేసుకోవడంలో సహాయపడుతుంది.

TOON హెవీవెయిట్‌లను (JSON, CSV, YAML, XML) ఎందుకు ఓడించిందో విడదీసి, ముడి సంఖ్యలను చూద్దాం.

ది వెర్బోసిటీ ట్రాప్: JSON వర్సెస్ టూన్

టోకెన్ సామర్థ్యం యొక్క అతిపెద్ద శత్రువు నిర్మాణం పునరావృతం. ప్రామాణిక టైమ్-సిరీస్ అనలిటిక్స్ డేటాసెట్‌ను చూద్దాం. JSONలో, ప్రతి ఒక్క డేటా పాయింట్ దాని స్కీమా యొక్క బ్యాగేజీని కలిగి ఉంటుంది.

JSON (ప్రామాణికం) బెంచ్‌మార్క్‌లో ఉపయోగించిన టోకెన్‌లు: 22,250

అది చాలా ఖాళీ స్థలం. ఇప్పుడు, TOON సమానమైనది చూడండి. TOON హెడర్‌లో ఒకసారి స్కీమాను నిర్వచిస్తుంది మరియు విలువల కోసం దట్టమైన, CSV-శైలి లేఅవుట్‌కి మారుతుంది.

టూన్ బెంచ్‌మార్క్‌లో ఉపయోగించిన టోకెన్‌లు: 9,120

ఫలితం: టోకెన్ వినియోగంలో భారీ 59.0% తగ్గింపు.

పునరావృతమయ్యే కీలను తీసివేయడం ద్వారా, మోడల్ యొక్క సందర్భ విండోలో మరింత చరిత్రను అమర్చడానికి TOON మిమ్మల్ని అనుమతిస్తుంది. కానీ ముఖ్యంగా, CSV వలె కాకుండా, ఇది హెడర్ నిర్వచనం కొలమానాలు[5]{...} ద్వారా రకం అవగాహన మరియు స్పష్టమైన నిర్మాణాన్ని నిర్వహిస్తుంది.

కేవలం CSVని ఎందుకు ఉపయోగించకూడదు?

ఇది సర్వసాధారణమైన ప్రతివాదం. "మీకు ఫ్లాట్ డేటా కావాలంటే, CSVని ఉపయోగించండి."

సమస్య ఏమిటంటే నిజ-ప్రపంచ డేటా చాలా అరుదుగా సంపూర్ణంగా ఉంటుంది. మీరు సమూహ నిర్మాణాలు, వస్తువులలోని జాబితాలు లేదా కామాలు మరియు కోట్‌లను కలిగి ఉన్న సంక్లిష్ట వివరణలను కలిగి ఉన్న క్షణంలో CSV పూర్తిగా విచ్ఛిన్నమవుతుంది.

బెంచ్‌మార్క్‌లలో, ప్రత్యేకంగా మిక్స్డ్-స్ట్రక్చర్ ట్రాక్ (ఇ-కామర్స్ ఆర్డర్‌లు మరియు ఈవెంట్ లాగ్‌లను కలిగి ఉంటుంది), CSV పూర్తిగా మినహాయించబడింది ఎందుకంటే ఇది నష్టపోయే చదును లేకుండా డేటాను సూచించదు.

TOON దీన్ని సునాయాసంగా నిర్వహిస్తుంది. ఇది శ్రేణులను ఆప్టిమైజ్ చేస్తున్నప్పుడు సమూహ వస్తువులను అనుమతిస్తుంది. 100 GitHub రిపోజిటరీల పరీక్షలో (మిశ్రమ వచన వివరణలు మరియు మెటాడేటాను కలిగి ఉంటుంది), సమర్థత అంతరం స్పష్టంగా ఉంది:

  • JSON: 15,145 టోకెన్లు
  • టూన్: 8,745 టోకెన్‌లు (42.3% పొదుపులు)

JSON కాంపాక్ట్ (కనిష్టీకరించబడింది)కి వ్యతిరేకంగా కూడా, TOON ఇప్పటికీ దాదాపు 24% ఎక్కువ పొదుపులను పొందింది. మీరు ప్రతి మిలియన్ టోకెన్‌లకు చెల్లిస్తున్నప్పుడు, అది తక్షణ ROI.

ఖచ్చితత్వం: ఆశ్చర్యకరమైన విజేత

నన్ను ఆశ్చర్యపరిచిన భాగం ఇక్కడ ఉంది. సాధారణంగా, మీరు డేటాను కుదించినప్పుడు, మీరు స్పష్టతను కోల్పోతారు. దట్టమైన ఆకృతిని అన్వయించడానికి LLM కష్టపడుతుందని మీరు ఆశించవచ్చు. బెంచ్‌మార్క్‌లు వ్యతిరేకతను చూపుతాయి.

Claude Haiku, Gemini Flash మరియు GPT-5-nano వంటి మోడల్‌లలో 209 డేటా పునరుద్ధరణ ప్రశ్నలు పరీక్షించబడ్డాయి, TOON ప్రామాణిక JSON యొక్క **69.7%**తో పోలిస్తే 73.9% పునరుద్ధరణ ఖచ్చితత్వాన్ని సాధించింది.

ఎందుకు? ఇది కాగ్నిటివ్ లోడ్ (లేదా LLM సమానమైనది)కి తగ్గుతుంది.

  1. తక్కువ నాయిస్: పునరావృతమయ్యే వేలాది `"కీ" టోకెన్‌లకు మోడల్ హాజరు కానవసరం లేదు. అటెన్షన్ మెకానిజంలో సంబంధిత విలువలు దగ్గరగా ఉంటాయి.
  1. స్పష్టమైన మెటాడేటా: TOON హెడర్‌లలో కౌంట్ ([N]) మరియు ఫీల్డ్ పేర్లు స్పష్టంగా ఉంటాయి.
  1. స్ట్రక్చర్ అవేర్‌నెస్: డేటాసెట్ స్ట్రక్చర్ గురించి అడిగే టెస్ట్‌లలో (ఉదా., "ఎన్ని అడ్డు వరుసలు ఉన్నాయి?"), TOON 88% ఖచ్చితత్వంని కొట్టింది, అయితే JSON మరియు XML వెనుకబడి ఉన్నాయి. TOON హెడర్‌లోని స్పష్టమైన గణన (రిపోజిటరీలు[100]) సూచనగా పని చేస్తుంది, ఇది మోడల్ టోకెన్‌లను మాన్యువల్‌గా "లెక్కించకుండా" నిరోధిస్తుంది, వీటిలో LLMలు చాలా చెడ్డవి.

XML మరియు YAML అలసట

మేము ఇతర పోటీదారుల గురించి క్లుప్తంగా ప్రస్తావించాలి.

XML ఇక్కడ భారీగా నష్టపోయింది. ఇది వెర్బోస్, చదవడం కష్టం మరియు ప్రాసెస్ చేయడం ఖరీదైనది. బెంచ్‌మార్క్‌లలో, XML స్థిరంగా అత్యధిక టోకెన్‌లను ఉపయోగించింది (టూన్ ~2,700లో ప్రాతినిధ్యం వహించే ఏకరీతి ఉద్యోగుల రికార్డు కోసం 5,000 కంటే ఎక్కువ) మరియు అత్యల్ప ఖచ్చితత్వాన్ని (67.1%) కలిగి ఉంది.

YAML XML కంటే మెరుగ్గా పని చేస్తుంది, అయితే TOONతో పోలిస్తే ఇప్పటికీ టోకెన్ బ్లోట్‌తో బాధపడుతోంది. మానవ కాన్ఫిగరేషన్ ఫైల్‌లకు YAML గొప్పది అయితే, దాని వైట్‌స్పేస్-సెన్సిటివ్ స్వభావం మరియు కీ పునరావృతం అధిక-వాల్యూమ్ డేటా సందర్భానికి ఉపయోగకరం. "E-కామర్స్ ఆర్డర్‌లు" పరీక్షలో, YAML TOON కంటే ~14% ఎక్కువ టోకెన్‌లను ఉపయోగించింది.

ఎప్పుడు మారాలి?

డేటా చాలా నిశ్చయాత్మకమైనది. మీరు వ్యవహరిస్తున్నట్లయితే:

  1. ఆబ్జెక్ట్‌ల జాబితాలు: లాగ్‌లు, లావాదేవీ చరిత్రలు, శోధన ఫలితాలు లేదా ఉత్పత్తి కేటలాగ్‌లు.
  1. RAG పైప్‌లైన్‌లు: మీరు ప్రాంప్ట్‌లోకి ఫీడ్ చేయడానికి DB నుండి డేటా భాగాలను తిరిగి పొందడం.
  1. అధిక-వాల్యూమ్ APIలు: బ్యాండ్‌విడ్త్ మరియు జాప్యం ముఖ్యమైనవి.

TOON "బెస్ట్ ఆఫ్ బోథ్ వరల్డ్స్" దృష్టాంతాన్ని అందిస్తుంది. JSON యొక్క నిర్మాణ సమగ్రతతో మీరు CSV సాంద్రతను పొందుతారు.

బెంచ్‌మార్క్‌లలో, GPT-5-nano TOON ఫార్మాట్ చేసిన డేటాపై అద్భుతమైన 90.9% ఖచ్చితత్వాన్ని సాధించింది. ఈ ఆప్టిమైజ్ చేసిన ఫార్మాట్‌లను అన్వయించడంలో కొత్త, తెలివిగల మోడల్‌లు బాగా ప్రవీణులుగా మారుతున్నాయని ఇది సూచిస్తుంది, అంటే JSON నుండి దూరంగా వెళ్లడం వల్ల "రీడబిలిటీ పెనాల్టీ" మెషీన్‌కు సున్నాగా ఉంటుంది.

మీరు ఇప్పటికీ మీ RAG సందర్భాన్ని JSON.stringify(డేటా, శూన్య, 2)గా ఫార్మాట్ చేస్తుంటే, మీరు ప్రతి ఒక్క API కాల్‌పై సమర్థవంతంగా "రీడబిలిటీ పన్ను"ని చెల్లిస్తున్నారు. ఇది ఫార్మాట్‌లను మార్చడానికి సమయం కావచ్చు.