LLMలతో TOONని ఎలా ఉపయోగించాలి
మీరు ఎప్పుడైనా ChatGPT లేదా Claudeలో పెద్ద JSON శ్రేణిని అతికించి ఉంటే, మీరు సందర్భ విండోను మూసివేసే బాధను అనుభవించి ఉండవచ్చు. వెబ్ APIలకు JSON అద్భుతమైనది, కానీ పెద్ద భాషా నమూనాల (LLMలు) కోసం ఇది చాలా వృధాగా ఉంటుంది. ప్రతి ఒక్క రికార్డ్ కోసం "id":, "name": మరియు "timestamp": వంటి ఫీల్డ్ పేర్లను పునరావృతం చేయడం అనవసరం కాదు; ఇది నిజమైన డబ్బు మరియు విలువైన సందర్భ స్థలాన్ని ఖర్చు చేసే టోకెన్ల ద్వారా కాలిపోతుంది.
ఇక్కడే TOON (టేబుల్ ఆబ్జెక్ట్ నోటేషన్) ప్రకాశిస్తుంది. ఇది కేవలం డేటా ఫార్మాట్ కాదు; ఇది LLM పరస్పర చర్యలను ఆప్టిమైజ్ చేయడానికి ఒక వ్యూహం. JSON యొక్క సింటాక్స్ పన్నును తీసివేయడం ద్వారా మరియు స్పష్టమైన నిర్మాణ శీర్షికలను జోడించడం ద్వారా, TOON మీ మోడల్లకు మరింత డేటాను పంపడానికి మరియు బదులుగా మరింత విశ్వసనీయమైన నిర్మాణాత్మక అవుట్పుట్లను పొందడానికి మిమ్మల్ని అనుమతిస్తుంది.
టూన్ యొక్క టోకెన్ ఎకనామిక్స్
ఫార్మాట్లను మార్చడంలో ఎందుకు ఇబ్బంది పడతారు? గణితం సులభం. ప్రామాణిక JSON వస్తువుల శ్రేణిలో, ప్రతి అడ్డు వరుసకు స్కీమా పునరావృతమవుతుంది. మీరు 50 మంది వినియోగదారుల జాబితాను కలిగి ఉంటే, మీరు ఫీల్డ్ పేర్లకు 50 సార్లు చెల్లిస్తున్నారు.
TOON హెడర్లో స్కీమాను ఒకసారి ప్రకటించడం ద్వారా ఈ రిడెండెన్సీని తొలగిస్తుంది. డేటా దట్టమైన, స్ట్రీమ్-లైన్డ్ ఫార్మాట్లో అనుసరిస్తుంది. ఆచరణలో, ఇది సాధారణంగా ఫార్మాట్ చేయబడిన JSONతో పోలిస్తే ఏకరీతి శ్రేణుల కోసం టోకెన్ వినియోగంలో **30-60% తగ్గింపుకు దారితీస్తుంది. మీరు భారీ కాంటెక్స్ట్ విండోస్ లేదా అధిక-వాల్యూమ్ API కాల్లతో వ్యవహరిస్తున్నప్పుడు, ఆ సామర్థ్యం నేరుగా తక్కువ బిల్లులు మరియు తక్కువ జాప్యానికి అనువదిస్తుంది.
డేటాను పంపుతోంది: "చూపండి, చెప్పవద్దు" నియమం
డేటాను విశ్లేషించడానికి మీకు LLM అవసరమైనప్పుడు, మీ ప్రాంప్ట్ వ్యూహం కీలకం. బిగినర్స్ తరచుగా డేటా ఆకృతిని వివరిస్తూ పొడవైన పేరాగ్రాఫ్లను వ్రాస్తారు. TOONతో, మీరు దీన్ని చేయవలసిన అవసరం లేదు.
LLMలు ప్యాటర్న్-మ్యాచింగ్ ఇంజిన్లు. వారు TOONని అకారణంగా అర్థం చేసుకున్నారు, ఎందుకంటే ఇది YAML మరియు CSV-ఫార్మాట్ల యొక్క హైబ్రిడ్ వలె కనిపిస్తుంది - శిక్షణ సమయంలో వారు బిలియన్ల సార్లు చూసారు.
డేటాను పంపడానికి, దానిని కంచెతో కూడిన కోడ్ బ్లాక్లో చుట్టండి. మీరు దీన్ని టూన్ అని లేబుల్ చేయవచ్చు, కానీ మోడల్ యొక్క సింటాక్స్ హైలైటర్ అధికారికంగా మద్దతు ఇవ్వకపోయినా, మోడల్ నిర్మాణాన్ని వెంటనే అర్థం చేసుకుంటుంది.
ఇన్పుట్ ఉదాహరణ
స్కీమాను వివరించడానికి బదులుగా, బ్లాక్ను అందించండి:
హెడర్ యూజర్స్[3]{id,name,role,lastLogin} మోడల్కి తెలుసుకోవలసిన ప్రతి విషయాన్ని తెలియజేస్తుంది: ఎంటిటీ రకం, కౌంట్ (3 అడ్డు వరుసలు) మరియు ఫీల్డ్ల క్రమం. ఇండెంటేషన్ సోపానక్రమాన్ని నిర్వహిస్తుంది. ఈ "స్వీయ-డాక్యుమెంటింగ్" స్వభావం సింటాక్స్ పార్సింగ్ సూచనల కంటే అసలు లాజిక్ టాస్క్పై దృష్టి పెట్టడానికి మీ ప్రాంప్ట్ను ఖాళీ చేస్తుంది.
వినియోగదారు కార్యాచరణ లాగ్ ఇక్కడ ఉంది. డేటా TOON ఆకృతిలో ఉంది (2-స్పేస్ ఇండెంట్, స్పష్టమైన శీర్షికలు).
వినియోగదారులు[3]{id,name,role,lastLogin}:
1,ఆలిస్,అడ్మిన్,2025-01-15T10:30:00Z
2,బాబ్,యూజర్,2025-01-14T15:22:00Z
3,చార్లీ,యూజర్,2025-01-13T09:45:00Z
విధి: లాగ్లను విశ్లేషించండి మరియు గత 24 గంటల్లో ఏ వినియోగదారులు లాగిన్ చేయలేదని గుర్తించండి.
నమ్మదగిన అవుట్పుట్ను ఉత్పత్తి చేస్తోంది
read డేటాకు LLMని పొందడం సులభం; చెల్లుబాటు అయ్యే నిర్మాణాత్మక డేటాను generate చేయడం కష్టం. మోడల్లు JSONని భ్రాంతికి గురిచేయడం, కత్తిరించడం లేదా బ్రేస్లను మూసివేయడం మర్చిపోవడం వంటివి ఇష్టపడతారు.
TOON దాని హెడర్ సింటాక్స్ ద్వారా భద్రత యొక్క పొరను జోడిస్తుంది, ప్రత్యేకంగా [N] కౌంట్. మీరు TOON అవుట్పుట్ చేయమని మోడల్ని అడిగినప్పుడు, అది డేటాను రూపొందించే ముందు ఒక నిర్మాణానికి కట్టుబడి ఉండమని మీరు అడుగుతున్నారు.
జనరేషన్ కోసం ప్రాంప్టింగ్
ఉత్తమ ఫలితాలను పొందడానికి, మీరు ఆశించే హెడర్ ఆకృతిని అందించండి మరియు అడ్డు వరుసలను పూరించడానికి మోడల్ను సూచించండి.
[N]ని లెక్కించమని మోడల్ని అడగడం ద్వారా, మోడల్ అవుట్పుట్ పరిమాణాన్ని ప్లాన్ చేయాల్సిన "చైన్ ఆఫ్ థాట్" ప్రక్రియను మీరు బలవంతం చేస్తారు. ఈ చిన్న అవరోధం మోడల్ను జాబితా ద్వారా సగానికి తగ్గించే సంభావ్యతను గణనీయంగా తగ్గిస్తుంది.
విధి: "వినియోగదారు" పాత్రతో క్రియాశీల వినియోగదారుల జాబితాను తిరిగి ఇవ్వండి.
ఫార్మాట్: TOON ఉపయోగించండి. మీరు రూపొందించే వరుసల ఖచ్చితమైన సంఖ్యతో సరిపోలడానికి హెడర్లో [N] విలువను సెట్ చేయండి.
ఆశించిన ఆకృతి:
వినియోగదారులు[N]{id,name,role,lastLogin}:
కఠినమైన మోడ్తో ధృవీకరిస్తోంది
మీరు LLM నుండి ప్రతిస్పందనను స్వీకరించినప్పుడు, మీరు దానిని విశ్వసించకూడదు. ఇక్కడే TOON లైబ్రరీ యొక్క కఠినమైన మోడ్ ఉత్పత్తి అనువర్తనాల కోసం ఒక సూపర్ పవర్ అవుతుంది.
మీరు టైప్స్క్రిప్ట్ లైబ్రరీని ఉపయోగిస్తుంటే, స్ట్రిక్ట్ మోడ్తో డీకోడింగ్ చేయడం వలన ఉత్పత్తి చేయబడిన అడ్డు వరుసలు హెడర్ కౌంట్తో సరిపోలుతున్నాయని ధృవీకరిస్తుంది:
ఇది మీ అప్లికేషన్లో దిగువన ఉన్న చెడు డేటాను కనుగొనకుండా, "లేజీ" మోడల్ అవుట్పుట్లను లేదా నెట్వర్క్ ట్రంక్లను వెంటనే ప్రోగ్రామాటిక్గా క్యాచ్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది.
'@toon-format/toon' నుండి {డీకోడ్ }ని దిగుమతి చేయండి;
ప్రయత్నించండి {
// మోడల్ [5] అని చెప్పినప్పటికీ 4 అడ్డు వరుసలను అందించినట్లయితే, ఇది లోపాన్ని విసురుతుంది.
కాన్స్ట్ డేటా = డీకోడ్(మోడల్ అవుట్పుట్, {స్ట్రిక్ట్: ట్రూ});
console.log('చెల్లుబాటు అయ్యే డేటా స్వీకరించబడింది:', డేటా);
} క్యాచ్ (లోపం) {
console.error('మోడల్ హాలూసినేషన్ లేదా ట్రంకేషన్ కనుగొనబడింది:', error.message);
}
అధునాతన ఆప్టిమైజేషన్: ట్యాబ్ ట్రిక్
మీరు ఆప్టిమైజేషన్తో నిమగ్నమై ఉంటే (మరియు LLMల ప్రపంచంలో, మీరు బహుశా ఇలాగే ఉండవచ్చు), మీ డీలిమిటర్లను తెలివిగా ఎంచుకోవడం ద్వారా మీరు మరింత సామర్థ్యాన్ని పెంచుకోవచ్చు.
కామాలు ప్రామాణికమైనవి, కానీ ట్యాబ్లు (\t) తరచుగా అనేక టోకెనైజర్ పదజాలంలో ఒకే టోకెన్గా సూచించబడతాయి. ఇంకా, ట్యాబ్లు సహజ టెక్స్ట్ ఫీల్డ్లలో చాలా అరుదుగా కనిపిస్తాయి, ఇది తప్పించుకునే అక్షరాల అవసరాన్ని తగ్గిస్తుంది (కోట్లలో స్ట్రింగ్లను చుట్టడం వంటివి).
మోడల్కి పంపే ముందు మీరు మీ డేటాను ట్యాబ్లను ఉపయోగించి ఎన్కోడ్ చేయవచ్చు:
ప్రాంప్ట్లో మోడల్కు తెలియజేయాలని గుర్తుంచుకోండి: "డేటా TOONతో ట్యాబ్-వేరు చేయబడింది." ఇది మోడల్ను అన్వయించడానికి మరియు రూపొందించడానికి చాలా సులభమైన హైపర్-కాంపాక్ట్ ప్రాతినిధ్యాన్ని సృష్టిస్తుంది.
const toonPrompt = ఎన్కోడ్(డేటా, {డిలిమిటర్: '\t'});
పూర్తి వర్క్ఫ్లో ఉదాహరణ
వాస్తవ ప్రపంచ దృశ్యాన్ని చూద్దాం: సిస్టమ్ లాగ్లను ఫిల్టర్ చేయడం. మీరు మోడల్కి ముడి లాగ్లను పంపి, లోపాల నిర్మాణాత్మక జాబితాను తిరిగి పొందాలనుకుంటున్నారు.
ప్రాంప్ట్:
** మోడల్ అవుట్పుట్:**
TOON ఆకృతిలో సిస్టమ్ లాగ్లు (ట్యాబ్-వేరు చేయబడినవి):
ఈవెంట్లు[4]{id,level,message,timestamp}:
1,ఎర్రర్,కనెక్షన్ గడువు ముగిసింది,2025-01-15T10:00:00Z
2,హెచ్చరించండి,నెమ్మదైన ప్రశ్న,2025-01-15T10:05:00Z
3, సమాచారం, వినియోగదారు లాగిన్, 2025-01-15T10:10:00Z
4,ఎర్రర్,డేటాబేస్ ఎర్రర్025-01-15T10:15:00Z
టాస్క్: 'ఎర్రర్' స్థాయితో అన్ని ఈవెంట్లను సంగ్రహించండి. నవీకరించబడిన హెడర్ కౌంట్తో ఫలితాన్ని చెల్లుబాటు అయ్యే TOONగా అందించండి.
ఫలితం:
ఈవెంట్లు[2]{id,level,message,timestamp}:
1,ఎర్రర్,కనెక్షన్ గడువు ముగిసింది,2025-01-15T10:00:00Z
4,ఎర్రర్,డేటాబేస్ ఎర్రర్,2025-01-15T10:15:00Z
మోడల్ జాబితాను సరిగ్గా ఫిల్టర్ చేసింది మరియు ముఖ్యంగా, హెడర్ను ఈవెంట్లు[2]కి అప్డేట్ చేసింది. ఈ ప్రతిస్పందనను డీకోడ్ చేయడం ద్వారా, మీరు మీ అప్లికేషన్ లాజిక్ కోసం క్లీన్, టైప్-సురక్షిత శ్రేణిని సిద్ధం చేస్తారు.
సారాంశం
TOON మానవ రీడబిలిటీ మరియు యంత్ర సామర్థ్యం మధ్య అంతరాన్ని తగ్గిస్తుంది. పటిష్టమైన సాఫ్ట్వేర్ అభివృద్ధికి అవసరమైన నిర్మాణాన్ని అందించేటప్పుడు ఇది LLMల వ్యయ పరిమితులను గౌరవిస్తుంది.
- దీన్ని చిన్నదిగా ఉంచండి: మీ ఉదాహరణలలో 2-5 వరుసలను ఉపయోగించండి; మోడల్ సాధారణీకరించబడుతుంది.
- స్పష్టంగా ఉండండి: హెడర్లను స్పష్టంగా నిర్వచించండి, తద్వారా మోడల్కు స్కీమా తెలుస్తుంది.
- కచ్చితంగా ధృవీకరించండి: జనరేషన్ లోపాలను గుర్తించడానికి ఫార్మాట్ యొక్క మెటాడేటాను ఉపయోగించండి.
మీ ప్రాంప్ట్ పేలోడ్ల కోసం JSON నుండి దూరంగా వెళ్లడం ద్వారా, మీరు టోకెన్లను మాత్రమే సేవ్ చేయడం లేదు-మీరు మరింత విశ్వసనీయమైన AI పైప్లైన్ని నిర్మిస్తున్నారు.