LLMలతో TOONని ఎలా ఉపయోగించాలి

LLM
ప్రాంప్ట్ ఇంజనీరింగ్

మీరు ఎప్పుడైనా ChatGPT లేదా Claudeలో పెద్ద JSON శ్రేణిని అతికించి ఉంటే, మీరు సందర్భ విండోను మూసివేసే బాధను అనుభవించి ఉండవచ్చు. వెబ్ APIలకు JSON అద్భుతమైనది, కానీ పెద్ద భాషా నమూనాల (LLMలు) కోసం ఇది చాలా వృధాగా ఉంటుంది. ప్రతి ఒక్క రికార్డ్ కోసం "id":, "name": మరియు "timestamp": వంటి ఫీల్డ్ పేర్లను పునరావృతం చేయడం అనవసరం కాదు; ఇది నిజమైన డబ్బు మరియు విలువైన సందర్భ స్థలాన్ని ఖర్చు చేసే టోకెన్ల ద్వారా కాలిపోతుంది.

ఇక్కడే TOON (టేబుల్ ఆబ్జెక్ట్ నోటేషన్) ప్రకాశిస్తుంది. ఇది కేవలం డేటా ఫార్మాట్ కాదు; ఇది LLM పరస్పర చర్యలను ఆప్టిమైజ్ చేయడానికి ఒక వ్యూహం. JSON యొక్క సింటాక్స్ పన్నును తీసివేయడం ద్వారా మరియు స్పష్టమైన నిర్మాణ శీర్షికలను జోడించడం ద్వారా, TOON మీ మోడల్‌లకు మరింత డేటాను పంపడానికి మరియు బదులుగా మరింత విశ్వసనీయమైన నిర్మాణాత్మక అవుట్‌పుట్‌లను పొందడానికి మిమ్మల్ని అనుమతిస్తుంది.

టూన్ యొక్క టోకెన్ ఎకనామిక్స్

ఫార్మాట్‌లను మార్చడంలో ఎందుకు ఇబ్బంది పడతారు? గణితం సులభం. ప్రామాణిక JSON వస్తువుల శ్రేణిలో, ప్రతి అడ్డు వరుసకు స్కీమా పునరావృతమవుతుంది. మీరు 50 మంది వినియోగదారుల జాబితాను కలిగి ఉంటే, మీరు ఫీల్డ్ పేర్లకు 50 సార్లు చెల్లిస్తున్నారు.

TOON హెడర్‌లో స్కీమాను ఒకసారి ప్రకటించడం ద్వారా ఈ రిడెండెన్సీని తొలగిస్తుంది. డేటా దట్టమైన, స్ట్రీమ్-లైన్డ్ ఫార్మాట్‌లో అనుసరిస్తుంది. ఆచరణలో, ఇది సాధారణంగా ఫార్మాట్ చేయబడిన JSONతో పోలిస్తే ఏకరీతి శ్రేణుల కోసం టోకెన్ వినియోగంలో **30-60% తగ్గింపుకు దారితీస్తుంది. మీరు భారీ కాంటెక్స్ట్ విండోస్ లేదా అధిక-వాల్యూమ్ API కాల్‌లతో వ్యవహరిస్తున్నప్పుడు, ఆ సామర్థ్యం నేరుగా తక్కువ బిల్లులు మరియు తక్కువ జాప్యానికి అనువదిస్తుంది.

డేటాను పంపుతోంది: "చూపండి, చెప్పవద్దు" నియమం

డేటాను విశ్లేషించడానికి మీకు LLM అవసరమైనప్పుడు, మీ ప్రాంప్ట్ వ్యూహం కీలకం. బిగినర్స్ తరచుగా డేటా ఆకృతిని వివరిస్తూ పొడవైన పేరాగ్రాఫ్‌లను వ్రాస్తారు. TOONతో, మీరు దీన్ని చేయవలసిన అవసరం లేదు.

LLMలు ప్యాటర్న్-మ్యాచింగ్ ఇంజిన్‌లు. వారు TOONని అకారణంగా అర్థం చేసుకున్నారు, ఎందుకంటే ఇది YAML మరియు CSV-ఫార్మాట్‌ల యొక్క హైబ్రిడ్ వలె కనిపిస్తుంది - శిక్షణ సమయంలో వారు బిలియన్ల సార్లు చూసారు.

డేటాను పంపడానికి, దానిని కంచెతో కూడిన కోడ్ బ్లాక్‌లో చుట్టండి. మీరు దీన్ని టూన్ అని లేబుల్ చేయవచ్చు, కానీ మోడల్ యొక్క సింటాక్స్ హైలైటర్ అధికారికంగా మద్దతు ఇవ్వకపోయినా, మోడల్ నిర్మాణాన్ని వెంటనే అర్థం చేసుకుంటుంది.

ఇన్‌పుట్ ఉదాహరణ

స్కీమాను వివరించడానికి బదులుగా, బ్లాక్‌ను అందించండి:

హెడర్ యూజర్స్[3]{id,name,role,lastLogin} మోడల్‌కి తెలుసుకోవలసిన ప్రతి విషయాన్ని తెలియజేస్తుంది: ఎంటిటీ రకం, కౌంట్ (3 అడ్డు వరుసలు) మరియు ఫీల్డ్‌ల క్రమం. ఇండెంటేషన్ సోపానక్రమాన్ని నిర్వహిస్తుంది. ఈ "స్వీయ-డాక్యుమెంటింగ్" స్వభావం సింటాక్స్ పార్సింగ్ సూచనల కంటే అసలు లాజిక్ టాస్క్‌పై దృష్టి పెట్టడానికి మీ ప్రాంప్ట్‌ను ఖాళీ చేస్తుంది.

వినియోగదారు కార్యాచరణ లాగ్ ఇక్కడ ఉంది. డేటా TOON ఆకృతిలో ఉంది (2-స్పేస్ ఇండెంట్, స్పష్టమైన శీర్షికలు). 

వినియోగదారులు[3]{id,name,role,lastLogin}: 
1,ఆలిస్,అడ్మిన్,2025-01-15T10:30:00Z 
2,బాబ్,యూజర్,2025-01-14T15:22:00Z 
3,చార్లీ,యూజర్,2025-01-13T09:45:00Z 

విధి: లాగ్‌లను విశ్లేషించండి మరియు గత 24 గంటల్లో ఏ వినియోగదారులు లాగిన్ చేయలేదని గుర్తించండి. 

నమ్మదగిన అవుట్‌పుట్‌ను ఉత్పత్తి చేస్తోంది

read డేటాకు LLMని పొందడం సులభం; చెల్లుబాటు అయ్యే నిర్మాణాత్మక డేటాను generate చేయడం కష్టం. మోడల్‌లు JSONని భ్రాంతికి గురిచేయడం, కత్తిరించడం లేదా బ్రేస్‌లను మూసివేయడం మర్చిపోవడం వంటివి ఇష్టపడతారు.

TOON దాని హెడర్ సింటాక్స్ ద్వారా భద్రత యొక్క పొరను జోడిస్తుంది, ప్రత్యేకంగా [N] కౌంట్. మీరు TOON అవుట్‌పుట్ చేయమని మోడల్‌ని అడిగినప్పుడు, అది డేటాను రూపొందించే ముందు ఒక నిర్మాణానికి కట్టుబడి ఉండమని మీరు అడుగుతున్నారు.

జనరేషన్ కోసం ప్రాంప్టింగ్

ఉత్తమ ఫలితాలను పొందడానికి, మీరు ఆశించే హెడర్ ఆకృతిని అందించండి మరియు అడ్డు వరుసలను పూరించడానికి మోడల్‌ను సూచించండి.

[N]ని లెక్కించమని మోడల్‌ని అడగడం ద్వారా, మోడల్ అవుట్‌పుట్ పరిమాణాన్ని ప్లాన్ చేయాల్సిన "చైన్ ఆఫ్ థాట్" ప్రక్రియను మీరు బలవంతం చేస్తారు. ఈ చిన్న అవరోధం మోడల్‌ను జాబితా ద్వారా సగానికి తగ్గించే సంభావ్యతను గణనీయంగా తగ్గిస్తుంది.

విధి: "వినియోగదారు" పాత్రతో క్రియాశీల వినియోగదారుల జాబితాను తిరిగి ఇవ్వండి. 
ఫార్మాట్: TOON ఉపయోగించండి. మీరు రూపొందించే వరుసల ఖచ్చితమైన సంఖ్యతో సరిపోలడానికి హెడర్‌లో [N] విలువను సెట్ చేయండి. 

ఆశించిన ఆకృతి: 
వినియోగదారులు[N]{id,name,role,lastLogin}: 

కఠినమైన మోడ్‌తో ధృవీకరిస్తోంది

మీరు LLM నుండి ప్రతిస్పందనను స్వీకరించినప్పుడు, మీరు దానిని విశ్వసించకూడదు. ఇక్కడే TOON లైబ్రరీ యొక్క కఠినమైన మోడ్ ఉత్పత్తి అనువర్తనాల కోసం ఒక సూపర్ పవర్ అవుతుంది.

మీరు టైప్‌స్క్రిప్ట్ లైబ్రరీని ఉపయోగిస్తుంటే, స్ట్రిక్ట్ మోడ్‌తో డీకోడింగ్ చేయడం వలన ఉత్పత్తి చేయబడిన అడ్డు వరుసలు హెడర్ కౌంట్‌తో సరిపోలుతున్నాయని ధృవీకరిస్తుంది:

ఇది మీ అప్లికేషన్‌లో దిగువన ఉన్న చెడు డేటాను కనుగొనకుండా, "లేజీ" మోడల్ అవుట్‌పుట్‌లను లేదా నెట్‌వర్క్ ట్రంక్‌లను వెంటనే ప్రోగ్రామాటిక్‌గా క్యాచ్ చేయడానికి మిమ్మల్ని అనుమతిస్తుంది.

'@toon-format/toon' నుండి {డీకోడ్ }ని దిగుమతి చేయండి; 

ప్రయత్నించండి { 
// మోడల్ [5] అని చెప్పినప్పటికీ 4 అడ్డు వరుసలను అందించినట్లయితే, ఇది లోపాన్ని విసురుతుంది. 
కాన్స్ట్ డేటా = డీకోడ్(మోడల్ అవుట్‌పుట్, {స్ట్రిక్ట్: ట్రూ}); 
console.log('చెల్లుబాటు అయ్యే డేటా స్వీకరించబడింది:', డేటా); 
} క్యాచ్ (లోపం) { 
console.error('మోడల్ హాలూసినేషన్ లేదా ట్రంకేషన్ కనుగొనబడింది:', error.message); 
} 

అధునాతన ఆప్టిమైజేషన్: ట్యాబ్ ట్రిక్

మీరు ఆప్టిమైజేషన్‌తో నిమగ్నమై ఉంటే (మరియు LLMల ప్రపంచంలో, మీరు బహుశా ఇలాగే ఉండవచ్చు), మీ డీలిమిటర్‌లను తెలివిగా ఎంచుకోవడం ద్వారా మీరు మరింత సామర్థ్యాన్ని పెంచుకోవచ్చు.

కామాలు ప్రామాణికమైనవి, కానీ ట్యాబ్‌లు (\t) తరచుగా అనేక టోకెనైజర్ పదజాలంలో ఒకే టోకెన్‌గా సూచించబడతాయి. ఇంకా, ట్యాబ్‌లు సహజ టెక్స్ట్ ఫీల్డ్‌లలో చాలా అరుదుగా కనిపిస్తాయి, ఇది తప్పించుకునే అక్షరాల అవసరాన్ని తగ్గిస్తుంది (కోట్‌లలో స్ట్రింగ్‌లను చుట్టడం వంటివి).

మోడల్‌కి పంపే ముందు మీరు మీ డేటాను ట్యాబ్‌లను ఉపయోగించి ఎన్‌కోడ్ చేయవచ్చు:

ప్రాంప్ట్‌లో మోడల్‌కు తెలియజేయాలని గుర్తుంచుకోండి: "డేటా TOONతో ట్యాబ్-వేరు చేయబడింది." ఇది మోడల్‌ను అన్వయించడానికి మరియు రూపొందించడానికి చాలా సులభమైన హైపర్-కాంపాక్ట్ ప్రాతినిధ్యాన్ని సృష్టిస్తుంది.

const toonPrompt = ఎన్‌కోడ్(డేటా, {డిలిమిటర్: '\t'}); 

పూర్తి వర్క్‌ఫ్లో ఉదాహరణ

వాస్తవ ప్రపంచ దృశ్యాన్ని చూద్దాం: సిస్టమ్ లాగ్‌లను ఫిల్టర్ చేయడం. మీరు మోడల్‌కి ముడి లాగ్‌లను పంపి, లోపాల నిర్మాణాత్మక జాబితాను తిరిగి పొందాలనుకుంటున్నారు.

ప్రాంప్ట్:

** మోడల్ అవుట్‌పుట్:**

TOON ఆకృతిలో సిస్టమ్ లాగ్‌లు (ట్యాబ్-వేరు చేయబడినవి): 

ఈవెంట్‌లు[4]{id,level,message,timestamp}: 
1,ఎర్రర్,కనెక్షన్ గడువు ముగిసింది,2025-01-15T10:00:00Z 
2,హెచ్చరించండి,నెమ్మదైన ప్రశ్న,2025-01-15T10:05:00Z 
3, సమాచారం, వినియోగదారు లాగిన్, 2025-01-15T10:10:00Z 
4,ఎర్రర్,డేటాబేస్ ఎర్రర్025-01-15T10:15:00Z 

టాస్క్: 'ఎర్రర్' స్థాయితో అన్ని ఈవెంట్‌లను సంగ్రహించండి. నవీకరించబడిన హెడర్ కౌంట్‌తో ఫలితాన్ని చెల్లుబాటు అయ్యే TOONగా అందించండి. 

ఫలితం:

ఈవెంట్‌లు[2]{id,level,message,timestamp}: 
1,ఎర్రర్,కనెక్షన్ గడువు ముగిసింది,2025-01-15T10:00:00Z 
4,ఎర్రర్,డేటాబేస్ ఎర్రర్,2025-01-15T10:15:00Z 

మోడల్ జాబితాను సరిగ్గా ఫిల్టర్ చేసింది మరియు ముఖ్యంగా, హెడర్‌ను ఈవెంట్‌లు[2]కి అప్‌డేట్ చేసింది. ఈ ప్రతిస్పందనను డీకోడ్ చేయడం ద్వారా, మీరు మీ అప్లికేషన్ లాజిక్ కోసం క్లీన్, టైప్-సురక్షిత శ్రేణిని సిద్ధం చేస్తారు.

సారాంశం

TOON మానవ రీడబిలిటీ మరియు యంత్ర సామర్థ్యం మధ్య అంతరాన్ని తగ్గిస్తుంది. పటిష్టమైన సాఫ్ట్‌వేర్ అభివృద్ధికి అవసరమైన నిర్మాణాన్ని అందించేటప్పుడు ఇది LLMల వ్యయ పరిమితులను గౌరవిస్తుంది.

  1. దీన్ని చిన్నదిగా ఉంచండి: మీ ఉదాహరణలలో 2-5 వరుసలను ఉపయోగించండి; మోడల్ సాధారణీకరించబడుతుంది.
  1. స్పష్టంగా ఉండండి: హెడర్‌లను స్పష్టంగా నిర్వచించండి, తద్వారా మోడల్‌కు స్కీమా తెలుస్తుంది.
  1. కచ్చితంగా ధృవీకరించండి: జనరేషన్ లోపాలను గుర్తించడానికి ఫార్మాట్ యొక్క మెటాడేటాను ఉపయోగించండి.

మీ ప్రాంప్ట్ పేలోడ్‌ల కోసం JSON నుండి దూరంగా వెళ్లడం ద్వారా, మీరు టోకెన్‌లను మాత్రమే సేవ్ చేయడం లేదు-మీరు మరింత విశ్వసనీయమైన AI పైప్‌లైన్‌ని నిర్మిస్తున్నారు.