ఎందుకు TOON ఇతర ఫార్మాట్లను అధిగమించింది
మీరు LLM అప్లికేషన్లను రూపొందిస్తున్నట్లయితే, ప్రత్యేకంగా రిట్రీవల్-ఆగ్మెంటెడ్ జనరేషన్ (RAG) సిస్టమ్లు లేదా పెద్ద డేటాసెట్లను వినియోగించే ఏజెంట్లు, మీరు రెండు రంగాలలో స్థిరంగా పోరాడుతూ ఉండవచ్చు: టోకెన్ ధర మరియు సందర్భ విండో పరిమితులు.
కొన్నేళ్లుగా, JSON అనేది డేటా ఇంటర్చేంజ్ యొక్క డిఫాల్ట్ భాషగా ఉంది. ఇది మానవులు చదవగలిగేది (ఎక్కువగా) మరియు సర్వవ్యాప్తి చెందుతుంది. కానీ మీరు 500-వరుసల JSON శ్రేణిని ప్రాంప్ట్లో అతికించినప్పుడు, నిర్దిష్ట అడ్డు వరుసకు సున్నా అర్థ విలువను కలిగి ఉండే పునరావృత ఫీల్డ్ పేర్లపై ("id":, "name":, "email":) వేలకొద్దీ టోకెన్లను మీరు బర్న్ చేస్తున్నారు.
TOONని నమోదు చేయండి. ఇది LLM ఇన్పుట్లలో సిగ్నల్-టు-నాయిస్ రేషియో సమస్యను పరిష్కరించడానికి ప్రత్యేకంగా రూపొందించబడిన ఫార్మాట్. నేను తాజా బెంచ్మార్క్లను పరిశీలిస్తున్నాను మరియు ఫలితాలు ఆశ్చర్యకరంగా ఉన్నాయి: TOON కేవలం స్థలాన్ని ఆదా చేయడం మాత్రమే కాదు; ఇది వాస్తవానికి GPT-5-nano మరియు Gemini-2.5-flash వంటి మోడళ్లకు డేటాను బెటర్ అర్థం చేసుకోవడంలో సహాయపడుతుంది.
TOON హెవీవెయిట్లను (JSON, CSV, YAML, XML) ఎందుకు ఓడించిందో విడదీసి, ముడి సంఖ్యలను చూద్దాం.
ది వెర్బోసిటీ ట్రాప్: JSON వర్సెస్ టూన్
టోకెన్ సామర్థ్యం యొక్క అతిపెద్ద శత్రువు నిర్మాణం పునరావృతం. ప్రామాణిక టైమ్-సిరీస్ అనలిటిక్స్ డేటాసెట్ను చూద్దాం. JSONలో, ప్రతి ఒక్క డేటా పాయింట్ దాని స్కీమా యొక్క బ్యాగేజీని కలిగి ఉంటుంది.
JSON (ప్రామాణికం) బెంచ్మార్క్లో ఉపయోగించిన టోకెన్లు: 22,250
అది చాలా ఖాళీ స్థలం. ఇప్పుడు, TOON సమానమైనది చూడండి. TOON హెడర్లో ఒకసారి స్కీమాను నిర్వచిస్తుంది మరియు విలువల కోసం దట్టమైన, CSV-శైలి లేఅవుట్కి మారుతుంది.
టూన్ బెంచ్మార్క్లో ఉపయోగించిన టోకెన్లు: 9,120
ఫలితం: టోకెన్ వినియోగంలో భారీ 59.0% తగ్గింపు.
పునరావృతమయ్యే కీలను తీసివేయడం ద్వారా, మోడల్ యొక్క సందర్భ విండోలో మరింత చరిత్రను అమర్చడానికి TOON మిమ్మల్ని అనుమతిస్తుంది. కానీ ముఖ్యంగా, CSV వలె కాకుండా, ఇది హెడర్ నిర్వచనం కొలమానాలు[5]{...} ద్వారా రకం అవగాహన మరియు స్పష్టమైన నిర్మాణాన్ని నిర్వహిస్తుంది.
కేవలం CSVని ఎందుకు ఉపయోగించకూడదు?
ఇది సర్వసాధారణమైన ప్రతివాదం. "మీకు ఫ్లాట్ డేటా కావాలంటే, CSVని ఉపయోగించండి."
సమస్య ఏమిటంటే నిజ-ప్రపంచ డేటా చాలా అరుదుగా సంపూర్ణంగా ఉంటుంది. మీరు సమూహ నిర్మాణాలు, వస్తువులలోని జాబితాలు లేదా కామాలు మరియు కోట్లను కలిగి ఉన్న సంక్లిష్ట వివరణలను కలిగి ఉన్న క్షణంలో CSV పూర్తిగా విచ్ఛిన్నమవుతుంది.
బెంచ్మార్క్లలో, ప్రత్యేకంగా మిక్స్డ్-స్ట్రక్చర్ ట్రాక్ (ఇ-కామర్స్ ఆర్డర్లు మరియు ఈవెంట్ లాగ్లను కలిగి ఉంటుంది), CSV పూర్తిగా మినహాయించబడింది ఎందుకంటే ఇది నష్టపోయే చదును లేకుండా డేటాను సూచించదు.
TOON దీన్ని సునాయాసంగా నిర్వహిస్తుంది. ఇది శ్రేణులను ఆప్టిమైజ్ చేస్తున్నప్పుడు సమూహ వస్తువులను అనుమతిస్తుంది. 100 GitHub రిపోజిటరీల పరీక్షలో (మిశ్రమ వచన వివరణలు మరియు మెటాడేటాను కలిగి ఉంటుంది), సమర్థత అంతరం స్పష్టంగా ఉంది:
- JSON: 15,145 టోకెన్లు
- టూన్: 8,745 టోకెన్లు (42.3% పొదుపులు)
JSON కాంపాక్ట్ (కనిష్టీకరించబడింది)కి వ్యతిరేకంగా కూడా, TOON ఇప్పటికీ దాదాపు 24% ఎక్కువ పొదుపులను పొందింది. మీరు ప్రతి మిలియన్ టోకెన్లకు చెల్లిస్తున్నప్పుడు, అది తక్షణ ROI.
ఖచ్చితత్వం: ఆశ్చర్యకరమైన విజేత
నన్ను ఆశ్చర్యపరిచిన భాగం ఇక్కడ ఉంది. సాధారణంగా, మీరు డేటాను కుదించినప్పుడు, మీరు స్పష్టతను కోల్పోతారు. దట్టమైన ఆకృతిని అన్వయించడానికి LLM కష్టపడుతుందని మీరు ఆశించవచ్చు. బెంచ్మార్క్లు వ్యతిరేకతను చూపుతాయి.
Claude Haiku, Gemini Flash మరియు GPT-5-nano వంటి మోడల్లలో 209 డేటా పునరుద్ధరణ ప్రశ్నలు పరీక్షించబడ్డాయి, TOON ప్రామాణిక JSON యొక్క **69.7%**తో పోలిస్తే 73.9% పునరుద్ధరణ ఖచ్చితత్వాన్ని సాధించింది.
ఎందుకు? ఇది కాగ్నిటివ్ లోడ్ (లేదా LLM సమానమైనది)కి తగ్గుతుంది.
- తక్కువ నాయిస్: పునరావృతమయ్యే వేలాది `"కీ" టోకెన్లకు మోడల్ హాజరు కానవసరం లేదు. అటెన్షన్ మెకానిజంలో సంబంధిత విలువలు దగ్గరగా ఉంటాయి.
- స్పష్టమైన మెటాడేటా: TOON హెడర్లలో కౌంట్ (
[N]) మరియు ఫీల్డ్ పేర్లు స్పష్టంగా ఉంటాయి.
- స్ట్రక్చర్ అవేర్నెస్: డేటాసెట్ స్ట్రక్చర్ గురించి అడిగే టెస్ట్లలో (ఉదా., "ఎన్ని అడ్డు వరుసలు ఉన్నాయి?"), TOON 88% ఖచ్చితత్వంని కొట్టింది, అయితే JSON మరియు XML వెనుకబడి ఉన్నాయి. TOON హెడర్లోని స్పష్టమైన గణన (
రిపోజిటరీలు[100]) సూచనగా పని చేస్తుంది, ఇది మోడల్ టోకెన్లను మాన్యువల్గా "లెక్కించకుండా" నిరోధిస్తుంది, వీటిలో LLMలు చాలా చెడ్డవి.
XML మరియు YAML అలసట
మేము ఇతర పోటీదారుల గురించి క్లుప్తంగా ప్రస్తావించాలి.
XML ఇక్కడ భారీగా నష్టపోయింది. ఇది వెర్బోస్, చదవడం కష్టం మరియు ప్రాసెస్ చేయడం ఖరీదైనది. బెంచ్మార్క్లలో, XML స్థిరంగా అత్యధిక టోకెన్లను ఉపయోగించింది (టూన్ ~2,700లో ప్రాతినిధ్యం వహించే ఏకరీతి ఉద్యోగుల రికార్డు కోసం 5,000 కంటే ఎక్కువ) మరియు అత్యల్ప ఖచ్చితత్వాన్ని (67.1%) కలిగి ఉంది.
YAML XML కంటే మెరుగ్గా పని చేస్తుంది, అయితే TOONతో పోలిస్తే ఇప్పటికీ టోకెన్ బ్లోట్తో బాధపడుతోంది. మానవ కాన్ఫిగరేషన్ ఫైల్లకు YAML గొప్పది అయితే, దాని వైట్స్పేస్-సెన్సిటివ్ స్వభావం మరియు కీ పునరావృతం అధిక-వాల్యూమ్ డేటా సందర్భానికి ఉపయోగకరం. "E-కామర్స్ ఆర్డర్లు" పరీక్షలో, YAML TOON కంటే ~14% ఎక్కువ టోకెన్లను ఉపయోగించింది.
ఎప్పుడు మారాలి?
డేటా చాలా నిశ్చయాత్మకమైనది. మీరు వ్యవహరిస్తున్నట్లయితే:
- ఆబ్జెక్ట్ల జాబితాలు: లాగ్లు, లావాదేవీ చరిత్రలు, శోధన ఫలితాలు లేదా ఉత్పత్తి కేటలాగ్లు.
- RAG పైప్లైన్లు: మీరు ప్రాంప్ట్లోకి ఫీడ్ చేయడానికి DB నుండి డేటా భాగాలను తిరిగి పొందడం.
- అధిక-వాల్యూమ్ APIలు: బ్యాండ్విడ్త్ మరియు జాప్యం ముఖ్యమైనవి.
TOON "బెస్ట్ ఆఫ్ బోథ్ వరల్డ్స్" దృష్టాంతాన్ని అందిస్తుంది. JSON యొక్క నిర్మాణ సమగ్రతతో మీరు CSV సాంద్రతను పొందుతారు.
బెంచ్మార్క్లలో, GPT-5-nano TOON ఫార్మాట్ చేసిన డేటాపై అద్భుతమైన 90.9% ఖచ్చితత్వాన్ని సాధించింది. ఈ ఆప్టిమైజ్ చేసిన ఫార్మాట్లను అన్వయించడంలో కొత్త, తెలివిగల మోడల్లు బాగా ప్రవీణులుగా మారుతున్నాయని ఇది సూచిస్తుంది, అంటే JSON నుండి దూరంగా వెళ్లడం వల్ల "రీడబిలిటీ పెనాల్టీ" మెషీన్కు సున్నాగా ఉంటుంది.
మీరు ఇప్పటికీ మీ RAG సందర్భాన్ని JSON.stringify(డేటా, శూన్య, 2)గా ఫార్మాట్ చేస్తుంటే, మీరు ప్రతి ఒక్క API కాల్పై సమర్థవంతంగా "రీడబిలిటీ పన్ను"ని చెల్లిస్తున్నారు. ఇది ఫార్మాట్లను మార్చడానికి సమయం కావచ్చు.