TOON CLI மாஸ்டரிங்

CLI
டூன்

நீங்கள் பெரிய மொழி மாதிரிகள் (LLMகள்) உடன் பணிபுரிந்திருந்தால், JSON என்பது தரவு பரிமாற்றத்தின் மொழியாகும் என்பது உங்களுக்குத் தெரியும். இருப்பினும், JSON இழிவான "அரட்டை" என்பதும் உங்களுக்குத் தெரியும். அந்த ப்ரேஸ்கள், மேற்கோள்கள் மற்றும் மீண்டும் மீண்டும் வரும் விசைகள் அனைத்தும் உங்கள் சூழல் சாளரத்தை தின்று, தாமதத்தை அதிகரிக்கின்றன மற்றும் API செலவுகளை அதிகரிக்கின்றன.

இங்குதான் TOON (The Object-oriented Notation) ஒளிர்கிறது. பயன்பாட்டுக் குறியீட்டிற்கு டைப்ஸ்கிரிப்ட் லைப்ரரி சிறந்தது என்றாலும், சில நேரங்களில் நீங்கள் டெர்மினலில் விஷயங்களை விரைவாகச் செய்ய வேண்டும். நீங்கள் ப்ராம்ட்டை பிழைத்திருத்தினாலும், தரவுத்தொகுப்பைத் தயார் செய்தாலும் அல்லது டோக்கன்களில் எவ்வளவு பணத்தைச் சேமிக்கலாம் என்று ஆர்வமாக இருந்தாலும், @toon-format/toon CLI உங்களின் புதிய சிறந்த நண்பர்.

இந்த வழிகாட்டியில், உங்கள் ஷெல் பணிப்பாய்வுகளில் நேரடியாக தரவுத் தேர்வுமுறையை ஒருங்கிணைக்க TOON கட்டளை வரி இடைமுகத்தை எவ்வாறு பயன்படுத்துவது என்பதைப் பார்ப்போம்.

அமைகிறது

நவீன ஜாவாஸ்கிரிப்ட் கருவியைப் பற்றிய சிறந்த விஷயங்களில் ஒன்று, தொடங்குவதற்கு நீங்கள் அடிக்கடி எதையும் "நிறுவ" தேவையில்லை. நீங்கள் ஒரு கோப்பில் TOON ஐ முயற்சிக்க விரும்பினால், பைனரியை நேரடியாக இயக்க npx ஐப் பயன்படுத்தலாம்:

npx @toon-format/cli input.json -o output.toon 

இருப்பினும், நீங்கள் இதை அடிக்கடி பயன்படுத்த திட்டமிட்டால் - டோக்கன் சேமிப்பை நீங்கள் பார்த்தவுடன், உலகளாவிய நிறுவல் தான் செல்ல வழி. இது உங்கள் கணினியில் எங்கும் சுருக்கமான toon கட்டளைக்கான அணுகலை வழங்குகிறது.

npm install -g @toon-format/cli 
# அல்லது 
pnpm add -g @toon-format/cli 

நிறுவப்பட்டதும், உங்கள் தரவைச் சுருக்கத் தொடங்க நீங்கள் தயாராக உள்ளீர்கள்.

தானாக கண்டறிவதற்கான மந்திரம்

TOON CLI ஆனது நீங்கள் என்ன செய்ய முயற்சிக்கிறீர்கள் என்பதைப் பற்றி புத்திசாலித்தனமாக வடிவமைக்கப்பட்டுள்ளது. குறியாக்கம் அல்லது டிகோட் செய்ய நீங்கள் வெளிப்படையாகச் சொல்ல வேண்டியதில்லை; அதை முடிவு செய்ய உங்கள் கோப்பு நீட்டிப்புகளைப் பார்க்கிறது.

நீங்கள் அதற்கு .json கோப்பினை வழங்கினால், அதை நீங்கள் TOONக்கு குறியாக்கம் செய்ய விரும்புகிறீர்கள். நீங்கள் .toon கோப்பை வழங்கினால், அது உங்களுக்கு JSONஐத் திரும்பக் கொடுக்க டிகோடிங் பயன்முறைக்கு மாறும்.

# TOONக்கு தானாக குறியாக்கம் 
toon data.json -o compressed.toon 

# JSONக்கு தானாகவே டிகோட் செய்கிறது 
toon compressed.toon -o restored.json 

ஆனால் CLI உண்மையில் அதன் மதிப்பை நிரூபிக்கும் இடம் "யுனிக்ஸ் தத்துவம்"-சிறிய கருவிகள் தளர்வாக இணைக்கப்பட்டுள்ளது. TOON CLI ஆனது நிலையான உள்ளீட்டிலிருந்து (stdin) படித்து, நிலையான வெளியீட்டிற்கு (stdout) எழுதுவதால், அதன் மூலம் நீங்கள் தரவை நேரடியாகப் பெறலாம்.

# JSON ஐ நேரடியாக TOON இல் இணைக்கவும் 
cat large-dataset.json | toon > data.toon 

# TOON இல் அது எப்படி இருக்கிறது என்பதைப் பார்க்க விரைவான பொருளை எதிரொலிக்கவும் 
எதிரொலி '{"பெயர்": "அடா", "பாத்திரம்": "நிர்வாகம்"}' | டூன் 

நீங்கள் stdin வழியாக தரவை அனுப்பும்போது, ​​CLI இயல்புநிலையாக குறியீடு பயன்முறையில் இருக்கும். மற்றொரு செயல்முறையிலிருந்து வரும் TOON தரவின் ஸ்ட்ரீமை டிகோட் செய்ய வேண்டுமானால், --decode (அல்லது -d) கொடியைச் சேர்க்கவும்.

டோக்கன் சேமிப்புகளை பகுப்பாய்வு செய்தல்

தரவு வடிவங்களை மேம்படுத்துவது பெரும்பாலும் கேம்களை யூகிப்பதாகும். "நான் இடைவெளியை அகற்றினால், நான் எவ்வளவு சேமிப்பேன்?" "நான் YAMLக்கு மாறினால் என்ன?"

TOON CLI யூகத்தை --stats கொடியுடன் நீக்குகிறது. குறியாக்கம் செய்யும் போது, ​​இந்த விருப்பம் மதிப்பிடப்பட்ட டோக்கன் எண்ணிக்கையைக் கணக்கிட்டு, சேமிப்பை உடனடியாகக் காண்பிக்கும். அதிக அளவு எல்எல்எம் அழைப்புகளுக்கு நீங்கள் பட்ஜெட் செய்யும் போது இது விலைமதிப்பற்றது.

toon context.json --stats 

30% அல்லது 40% அளவு குறைவதைக் குறிக்கும் வெளியீட்டை நீங்கள் காணலாம். அது வெறும் வட்டு இடம் அல்ல; அதாவது உள்ளீடு டோக்கன்களில் 40% குறைவான தாமதம் மற்றும் 40% குறைந்த விலை.

மேம்பட்ட ட்யூனிங்: டிலிமிட்டர்கள் மற்றும் வடிவமைப்பு

இயல்பாக, TOON JSON போன்ற வரிசை உருப்படிகளைப் பிரிக்க காற்புள்ளிகளைப் பயன்படுத்துகிறது. இருப்பினும், வெவ்வேறு LLM டோக்கனைசர்கள் நிறுத்தற்குறிகளுடன் வித்தியாசமாக நடந்து கொள்கின்றன. சில நேரங்களில், ஒரு தாவல் எழுத்து அல்லது குழாய் (|) காற்புள்ளியை விட டோக்கன்-திறனுடையதாக இருக்கும்.

CLI ஆனது நீங்கள் பறக்கும்போது டிலிமிட்டர்களை மாற்ற அனுமதிக்கிறது. நீங்கள் அட்டவணைத் தரவைக் கையாளுகிறீர்கள் எனில், டேப் டிலிமிட்டருக்கு மாறுவது வெளியீட்டை சுத்தமாகவும் திறமையாகவும் மாற்றும்.

தயாரிப்புகளின் பட்டியலுக்கு, இது கமாவால் பிரிக்கப்பட்ட பட்டியலிலிருந்து வெளியீட்டை ஒரு சுத்தமான, தாவலால் பிரிக்கப்பட்ட கட்டமைப்பாக மாற்றுகிறது, இது கிட்டத்தட்ட ஒரு விரிதாளைப் போன்றது, இது பல மாதிரிகள் விதிவிலக்காக நன்றாக அலசுகிறது.

# வரிசை உருப்படிகளுக்கு தாவல்களைப் பயன்படுத்தவும் 
toon items.json --delimiter "\t" -o items.toon 

::: குறிப்பு புரோ உதவிக்குறிப்பு: டேப் டிலிமிட்டர்கள் பெரும்பாலும் மேற்கோள்களைத் தப்புவதற்கான தேவையைக் குறைக்கின்றன, மேலும் எண்ணியல் தரவுகளுக்கு சிறந்த டோக்கனைசேஷனை ஏற்படுத்தலாம். நீங்கள் பெரிய தரவுத்தொகுப்புகளைச் செயலாக்குகிறீர்கள் என்றால், ஒவ்வொரு பிட் செயல்திறனையும் கசக்கிவிட --டிலிமிட்டர் "\t" ஐ முயற்சிக்கவும். :::

விசை மடிப்பு மூலம் சுருக்க அமைப்பு

CLI இல் கிடைக்கும் புதிய அம்சங்களில் ஒன்று (ஸ்பெக் v1.5 இல் அறிமுகப்படுத்தப்பட்டது) விசை மடிப்பு. JSON தரவு பெரும்பாலும் ஆழமாக உள்ளமைக்கப்படுகிறது, data.response.items போன்ற ரேப்பர் விசைகள் அர்த்தத்தைச் சேர்க்காமல் கட்டமைப்பு ஆழத்தைச் சேர்க்கின்றன.

CLI ஆனது இந்த உள்ளமை விசைகளை ஒற்றை புள்ளி-குறியிடப்பட்ட பாதையில் "மடிப்பதற்கு" அனுமதிக்கிறது, படிநிலையை சமன் செய்து, உள்தள்ளல் மற்றும் பிரேஸ்களில் டோக்கன்களை சேமிக்கிறது.

toon deep-structure.json --key-folding safe -o flat.toon 

இது உள்ளமை பொருட்களை மாற்றுகிறது:

{ "பயனர்": { "profile": { "id": 1 } } } 

ஒரு சுருக்கமான TOON பிரதிநிதித்துவத்தில்:

user.profile.id: 1 

இதை நீங்கள் பின்னர் முழு JSON ஆக மாற்ற வேண்டும் என்றால், டிகோடிங்கின் போது `--விரிவாக்கு-பாதைகள் பாதுகாப்பான' கொடியைப் பயன்படுத்தி ஆழமான பொருளின் கட்டமைப்பை முழுமையாக மறுகட்டமைக்கலாம்.

பைப்லைன்களில் ஒருங்கிணைக்கிறது

TOON CLI இன் உண்மையான சக்தி, கர்ல் மற்றும் jq போன்ற பிற கருவிகளுடன் அதை இணைக்கும் போது வரும். நீங்கள் ஒரு API இலிருந்து தரவைப் பெறலாம், அதை அத்தியாவசியமானவற்றிற்கு வடிகட்டலாம் மற்றும் அதை ஒரே வரியில் TOON ஆக மாற்றலாம் - ஒரு வரியில் ஒட்டலாம் அல்லது ஒரு அனுமான முடிவுப்புள்ளிக்கு அனுப்பலாம்.

இந்த பணிப்பாய்வுகளில், நீங்கள் தரவைப் பெற்று, செயலில் உள்ள பயனர்களை மட்டும் பிரித்தெடுத்து, அதை பைப்-டிலிமிட்டட் டூன் வடிவத்திற்கு மாற்றவும், மேலும் எத்தனை டோக்கன்களைச் சேமித்துள்ளீர்கள் என்ற புள்ளிவிவர அறிக்கையைப் பெறவும்.

curl -s https://api.example.com/users \ 
| jq '.data.active_users' \ 
| toon --stats --delimiter "|" 

சுருக்கம்

@toon-format/cli என்பது கோப்பு மாற்றியை விட அதிகம்; இது எல்எல்எம் சகாப்தத்திற்கான ஒரு பயன்பாட்டு பெல்ட் ஆகும். தரவுச் செயலாக்கத்தை கட்டளை வரிக்கு நகர்த்துவதன் மூலம், நீங்கள் வேகமாகச் செயல்படலாம், மேம்படுத்தல்களை உடனடியாகக் காட்சிப்படுத்தலாம் மற்றும் உங்கள் தற்போதைய பொறியியல் பணிப்பாய்வுகளில் டோக்கன்-திறமையான வடிவங்களை ஒருங்கிணைக்கலாம்.

நீங்கள் RAG (Retrieval-Augmented Generation) ஆவணங்களைத் தயாரிக்கிறீர்களோ அல்லது ஒரு பெரிய JSON ப்ளாப்பை ஒரு சிறிய சூழல் சாளரத்தில் பொருத்த முயற்சித்தாலும், CLI க்கு சுழலவும். உங்கள் டோக்கன் பட்ஜெட் உங்களுக்கு நன்றி தெரிவிக்கும்.