டூன் என்றால் என்ன?
நாங்கள் அனைவரும் அங்கு இருந்தோம். நீங்கள் ஒரு பெரிய மொழி மாதிரியை (LLM) உருவாக்குகிறீர்கள், மேலும் நீங்கள் கட்டமைக்கப்பட்ட தரவை அனுப்ப வேண்டும். நீங்கள் JSON ஐ அடைகிறீர்கள். எல்லாவற்றிற்கும் மேலாக, இது தொழில் தரநிலை. ஆனால் உங்கள் சூழல் சாளரம் முடிவில்லா சுருள் பிரேஸ்கள், மீண்டும் மீண்டும் விசைகள் மற்றும் எளிய முழு எண்களைச் சுற்றி மேற்கோள் குறிகளால் நிரப்பப்படுவதைப் பார்க்கும்போது, நீங்கள் ஆச்சரியப்படுவீர்கள்: இதைவிட சிறந்த வழி இருக்கிறதா?
YAML படிக்கக்கூடிய தன்மையை வழங்குகிறது ஆனால் தெளிவின்மையால் பாதிக்கப்படுகிறது. CSV அடர்த்தியானது ஆனால் படிநிலை இல்லை.
TOON ஐ உள்ளிடவும்.
TOON என்பது தரவு வரிசைப்படுத்தல் வடிவமாகும், இது டெவலப்பர்களுக்கு புதிய காற்றின் சுவாசமாகவும், AI மாதிரிகளுக்கு ஒரு சொந்த மொழியாகவும் இருக்கும். இது மனித வாசிப்புத்திறனுக்கும் இயந்திர செயல்திறனுக்கும் இடையிலான இடைவெளியைக் குறைக்கிறது. இன்று, TOON இன் தொடரியல் மற்றும் இயக்கவியலில் ஆழமாக மூழ்கி, அது ஏன் உயர் செயல்திறன் தரவு பரிமாற்றத்திற்கு மிகவும் பிடித்ததாக மாறுகிறது என்பதைப் புரிந்துகொள்வோம்.
தத்துவம்: JSON சொற்பொருள், YAML அழகியல்
அதன் மையத்தில், TOON JSON போன்ற அதே தரவு மாதிரியைப் பகிர்ந்து கொள்கிறது. நீங்கள் அதை JSON-ல் பிரதிநிதித்துவப்படுத்த முடியும் என்றால் - ப்ரிமிடிவ்கள் (சரங்கள், எண்கள், பூலியன்கள், பூஜ்யம்), பொருள்கள் மற்றும் அணிவரிசைகள் - நீங்கள் அதை TOON இல் குறிப்பிடலாம். இருப்பினும், விளக்கக்காட்சி முற்றிலும் வேறுபட்டது.
டூன் பிரேஸ்களைத் தள்ளுகிறார். இது YAML போன்ற படிநிலையைக் குறிக்க உள்தள்ளலைப் பயன்படுத்துகிறது. ஒரு எளிய பொருள் சுத்தமாகவும் அணுகக்கூடியதாகவும் தெரிகிறது:
இருப்பினும், YAML போலல்லாமல், TOON வகைகளில் கண்டிப்பானது. இல்லை என்றால் தவறு அல்லது சரம் "இல்லை" என்றால் யூகிக்க முடியாது. TOON இல், சரங்களுக்கு மிகவும் அவசியமான போது மட்டுமே மேற்கோள்கள் தேவைப்படுகின்றன-அவை சிறப்பு எழுத்துக்களைக் கொண்டிருக்கும்போது, எண்களை ஒத்திருக்கும்போது அல்லது காலியாக இருக்கும்போது. நீங்கள் செய்தி: ஹலோ வேர்ல்ட் என தட்டச்சு செய்தால், உங்களுக்கு ஒரு சரம் கிடைக்கும். நீங்கள் count: 42 என டைப் செய்தால், உங்களுக்கு ஒரு எண் கிடைக்கும்.
ஐடி: 123
பெயர்: அடா
செயலில்: உண்மை
அணிவரிசைகளின் சக்தி: நீளம் மற்றும் அட்டவணைகள்
TOON உண்மையில் தொகுப்பிலிருந்து தன்னைப் பிரித்துக் கொள்ளும் இடத்தில் அதன் வரிசைகளைக் கையாள்வது ஆகும். டோக்கன் மேம்படுத்தலுக்கான "கொலையாளி அம்சம்" இதுவாகும்.
TOON இல் உள்ள ஒவ்வொரு அணிவரிசையும் அதன் நீளத்தை உருப்படிகள்[3] போன்ற அடைப்புக்குறிக்குள் வெளிப்படையாக அறிவிக்கிறது. இது ஒரு மனிதனுக்கு தேவையற்றதாக தோன்றலாம், ஆனால் ஒரு LLM க்கு இது ஒரு வல்லரசு. இது மாதிரியை உடனடியாக கட்டமைப்பை சரிபார்க்கவும், துண்டிக்கப்பட்டதைக் கண்டறியவும் அனுமதிக்கிறது. இரண்டு உருப்படிகளுக்குப் பிறகு ஸ்ட்ரீம் துண்டிக்கப்பட்டாலும், தலைப்பு மூன்று என்று உறுதியளித்திருந்தால், பாகுபடுத்தியவருக்கு ஏதோ தவறு நடந்ததாகத் தெரியும்.
டூன் திறம்பட வரிசைகளைக் கையாள மூன்று வழிகளை வழங்குகிறது, தானாகவே மிகவும் திறமையான ஒன்றைத் தேர்ந்தெடுக்கிறது:
- இன்லைன் ப்ரிமிடிவ்ஸ்: எண்கள் அல்லது சரங்களின் எளிய பட்டியல்களுக்கு, TOON அதைச் சுருக்கமாக வைத்திருக்கும்.
குறிச்சொற்கள்[3]: admin,ops,dev
- ** நிலையான பட்டியல்கள்:** கலப்பு வகைகளுக்கு, இது YAML போன்ற ஹைபனேட்டட் பட்டியல் தொடரியல் பயன்படுத்துகிறது.
- அட்டவணை பொருள்கள்: இது கேம்-சேஞ்சர்.
உங்களிடம் ஒரே விசைகளைப் பகிரும் பொருள்களின் வரிசை இருந்தால் - தரவுத்தளப் பதிவுகளில் மிகவும் பொதுவான வடிவம் - TOON பிவோட்கள் ** அட்டவணை வடிவத்திற்கு**. ஒவ்வொரு வரிசைக்கும் மீண்டும் மீண்டும் விசைகளை வழங்குவதற்குப் பதிலாக, தலைப்பில் ஒருமுறை விசைகளை அறிவிக்கிறது.
மேலே உள்ள எடுத்துக்காட்டில், பயனர்கள்[2]{id,name,role}: எங்களிடம் 2 வரிசைகள் இருப்பதாகச் சொல்லி, திட்டத்தை வரையறுக்கிறது. தரவு CSV போன்ற கட்டமைப்பில் பின்பற்றப்படுகிறது. இது ஒவ்வொரு பயனருக்கும் "id":, "name": மற்றும் "role": ஆகியவற்றைத் திரும்பத் திரும்பச் சொல்வதன் பெரும் டோக்கன் மேல்நிலையை நீக்குகிறது.
பயனர்கள்[2]{id,name,role}:
1, ஆலிஸ் நிர்வாகி, நிர்வாகி
2, பாப் ஸ்மித், பயனர்
டிலிமிட்டர்கள் மற்றும் டோக்கன் செயல்திறன்
மேலே உள்ள எடுத்துக்காட்டுகளில் காற்புள்ளிகளின் பயன்பாட்டை நீங்கள் கவனிக்கலாம். TOON உண்மையில் மூன்று டிலிமிட்டர்களை ஆதரிக்கிறது: காற்புள்ளிகள் (இயல்புநிலை), தாவல்கள் மற்றும் குழாய்கள் (|).
இது ஏன் முக்கியம்? டோக்கனைசேஷன்.
பல எல்எல்எம் டோக்கனைசர்களில், கமாவைத் தொடர்ந்து மேற்கோள் பல டோக்கன்களாகப் பிரிக்கப்படலாம். இருப்பினும், ஒரு தாவல் எழுத்து பெரும்பாலும் மிகவும் சுத்தமாக டோக்கனைஸ் செய்கிறது. TOON ஆனது வரிசையின் தலைப்பு மட்டத்தில் எல்லைகளை மாற்ற உங்களை அனுமதிக்கிறது. நீங்கள் டேப் டிலிமிட்டரைப் பயன்படுத்தினால், உங்கள் தரவை மேலும் சுருக்கி, இடைவெளிகளைக் கொண்ட சரங்களை மேற்கோள் காட்ட வேண்டிய அவசியமில்லை.
இந்த வடிவம் "மோதல்களை" கையாளும் அளவுக்கு ஸ்மார்ட்டாக உள்ளது. உங்கள் தரவு செயலில் உள்ள டிலிமிட்டரைக் கொண்டிருந்தால், TOON அந்த குறிப்பிட்ட மதிப்பை மேற்கோள் காட்டுகிறது.
உருப்படிகள்[2]{sku,name,qty}:
A1, விட்ஜெட் பெயர், 2
B2, கேஜெட் பெயர்,1
விசை மடிப்பு: வளைவைத் தட்டையாக்குதல்
டூனின் செயல்திறனில் கவனம் செலுத்தும் மற்றொரு அம்சம் விசை மடிப்பு. ஆழமாக உள்ளமைக்கப்பட்ட பொருள்கள் பொதுவாக கிடைமட்ட இடத்தையும் டோக்கன்களையும் சாப்பிடும் உள்தள்ளலின் "படிக்கட்டில்" விளைகின்றன.
இடைநிலை பொருட்களுக்கு உடன்பிறப்புகள் இல்லாத ஆழமான படிநிலை உங்களிடம் இருந்தால், TOON அவர்களை புள்ளி-குறியீட்டு பாதையில் சுருக்கலாம்.
எழுதுவதற்கு பதிலாக:
நீங்கள் எழுதலாம்:
தரவு:
மெட்டாடேட்டா:
உருப்படிகள்[2]: a,b
இந்த அம்சம், ஸ்பெக் v1.5 முதல் கிடைக்கும், வரி எண்ணிக்கை மற்றும் உள்தள்ளல் டோக்கன்களை கணிசமாகக் குறைக்கிறது. முக்கியமாக, இது முழுமையாக மீளக்கூடியது. பாதை விரிவாக்கம் இயக்கப்பட்ட தரவை நீங்கள் டிகோட் செய்யும்போது, அது ஆழமான பொருள் படிநிலையை முழுமையாக மறுகட்டமைக்கிறது.
data.metadata.items[2]: a,b
கண்டிப்பு மற்றும் பாதுகாப்பு
அதன் சுருக்கமான தோற்றம் இருந்தபோதிலும், TOON தரவுகளுடன் தளர்வாக இல்லை. மேற்கோள் காட்டுவதற்கும் தப்பிப்பதற்கும் இது கடுமையான விதிகளை கடைபிடிக்கிறது.
சரங்கள் பொதுவாக மேற்கோள் காட்டப்படாமல் இருக்கும், இது வாசிப்புத்திறனுக்கு சிறந்தது. இருப்பினும், தரவு ஒருமைப்பாட்டை உறுதி செய்வதற்காக எட்ஜ் கேஸ்களுக்கான மேற்கோள்களை TOON செயல்படுத்துகிறது. ஒரு சரம் எண்ணாகத் தோன்றினால் (எ.கா. "05" அல்லது "1e-6"), அது எண்ணாகப் பாகுபடுத்தப்படுவதைத் தடுக்க மேற்கோள் காட்டப்படும். ஒரு சரம் என்பது true அல்லது null போன்ற ஒதுக்கப்பட்ட வார்த்தையாக இருந்தால், அது மேற்கோள் காட்டப்படும்.
மேலும், TOON எண்களை இயல்பாக்குகிறது. இது நியதியான தசம வடிவங்களை வெளியிடுகிறது-அறிவியல் குறியீடு அல்லது வெளியீட்டில் பூஜ்ஜியங்களை பின்தள்ளாது-நிலைத்தன்மையை உறுதி செய்கிறது. இது BigInt ஐயும் பாதுகாப்பாகக் கையாளுகிறது; ஒரு எண் பாதுகாப்பான முழு எண் வரம்பைத் தாண்டினால், போக்குவரத்தின் போது துல்லியமான இழப்பைத் தடுக்க அது ஒரு சரமாக வரிசைப்படுத்தப்படுகிறது.
ரூட் படிவங்கள்
நம்மில் பெரும்பாலோர் ரூட் ஆப்ஜெக்ட்களுடன் பணிபுரியும் போது, டூன் நெகிழ்வானது. ஒரு ஆவணம் முக்கிய மதிப்பு ஜோடியுடன் தொடங்க வேண்டியதில்லை. இது ரூட் வரிசைகளை ஆதரிக்கிறது (உடனடியாக [N]: உடன் தொடங்குகிறது) அல்லது ஒற்றை ரூட் ப்ரிமிட்டிவ் கூட. JSON உடனான இந்த சமநிலையானது, நீங்கள் மறுமுனையில் பாகுபடுத்தி இருந்தால், JSON தற்போது பயன்படுத்தப்படும் எந்த பைப்லைனிலும் TOON ஐ மாற்றலாம்.
இறுதி எண்ணங்கள்
TOON என்பது "மற்றொரு வடிவம்" அல்ல. இது ஒரு சகாப்தத்திற்கான ஒரு பிரத்யேக கருவியாகும், அங்கு தரவு நிகழ்தகவு மாதிரிகளால் அடிக்கடி நிர்ணய குறியீடு மூலம் நுகரப்படுகிறது. JSON இன் திடமான தரவு மாதிரியை CSVயின் அடர்த்தி மற்றும் YAML இன் வாசிப்புத்திறனுடன் இணைப்பதன் மூலம், இது வகை பாதுகாப்பை தியாகம் செய்யாமல் சூழல்-சாளர மேம்படுத்தலின் குறிப்பிட்ட சிக்கலை தீர்க்கிறது.
நீங்கள் ஏஜென்ட்களை உருவாக்கினால், நன்றாகச் சரிசெய்யும் மாடல்கள் அல்லது முடிவில்லாத மூடும் பிரேஸ்கள் மூலம் ஸ்க்ரோலிங் செய்வதில் சோர்வாக இருந்தால், டூனைப் பார்க்க வேண்டிய நேரம் இது.