LLMகளுடன் TOON ஐ எவ்வாறு பயன்படுத்துவது

எல்.எல்.எம்
உடனடி பொறியியல்

நீங்கள் எப்போதாவது ஒரு பெரிய JSON வரிசையை ChatGPT அல்லது Claude இல் ஒட்டியிருந்தால், சூழல் சாளரம் மூடும் வலியை நீங்கள் உணர்ந்திருக்கலாம். வலை API களுக்கு JSON அற்புதமானது, ஆனால் பெரிய மொழி மாதிரிகளுக்கு (LLMகள்) இது நம்பமுடியாத அளவிற்கு வீணானது. ஒவ்வொரு பதிவுக்கும் "id":, "name": மற்றும் "timestamp": போன்ற புலப் பெயர்களைத் திரும்பத் திரும்பச் சொல்வது தேவையற்றது அல்ல; இது உண்மையான பணம் மற்றும் மதிப்புமிக்க சூழல் இடத்தை செலவழிக்கும் டோக்கன்கள் மூலம் எரிகிறது.

இங்குதான் TOON (Table Object Notation) ஒளிர்கிறது. இது வெறும் தரவு வடிவம் அல்ல; இது LLM தொடர்புகளை மேம்படுத்துவதற்கான ஒரு உத்தி. JSON இன் தொடரியல் வரியை அகற்றி, வெளிப்படையான கட்டமைப்பு தலைப்புகளைச் சேர்ப்பதன் மூலம், TOON உங்கள் மாடல்களுக்கு அதிக தரவை அனுப்பவும், அதற்குப் பதிலாக நம்பகமான கட்டமைக்கப்பட்ட வெளியீடுகளைப் பெறவும் உங்களை அனுமதிக்கிறது.

டூனின் டோக்கன் எகனாமிக்ஸ்

வடிவங்களை மாற்றுவது ஏன்? கணிதம் எளிமையானது. நிலையான JSON பொருள்களின் வரிசையில், ஒவ்வொரு வரிசையிலும் ஸ்கீமா மீண்டும் மீண்டும் செய்யப்படுகிறது. உங்களிடம் 50 பயனர்களின் பட்டியல் இருந்தால், புலப் பெயர்களுக்கு 50 முறை பணம் செலுத்துகிறீர்கள்.

TOON இந்த பணிநீக்கத்தை தலைப்பில் ஒரு முறை அறிவிப்பதன் மூலம் நீக்குகிறது. தரவு அடர்த்தியான, ஸ்ட்ரீம்-லைன் வடிவத்தில் பின்பற்றப்படுகிறது. நடைமுறையில், இது பொதுவாக வடிவமைக்கப்பட்ட JSON உடன் ஒப்பிடும்போது சீரான வரிசைகளுக்கான டோக்கன் பயன்பாட்டில் **30-60% குறைப்பை ஏற்படுத்துகிறது. நீங்கள் பாரிய சூழல் சாளரங்கள் அல்லது அதிக அளவு API அழைப்புகளை கையாளும் போது, ​​அந்த செயல்திறன் நேரடியாக குறைந்த கட்டணங்கள் மற்றும் குறைந்த தாமதத்திற்கு மொழிபெயர்க்கப்படுகிறது.

தரவு அனுப்புதல்: "காண்பி, சொல்லாதே" விதி

தரவை பகுப்பாய்வு செய்ய உங்களுக்கு எல்எல்எம் தேவைப்படும்போது, ​​உங்கள் உடனடி உத்தி முக்கியமானது. தொடக்கநிலையாளர்கள் பெரும்பாலும் தரவு வடிவமைப்பை விளக்கும் நீண்ட பத்திகளை எழுதுகிறார்கள். TOON மூலம், நீங்கள் அதைச் செய்ய வேண்டியதில்லை.

எல்எல்எம்கள் மாதிரி-பொருந்தும் என்ஜின்கள். அவர்கள் TOON ஐ உள்ளுணர்வாக புரிந்துகொள்கிறார்கள், ஏனெனில் இது YAML மற்றும் CSV-யின் கலப்பினத்தைப் போல் தெரிகிறது - பயிற்சியின் போது அவர்கள் பல பில்லியன் முறை பார்த்திருக்கிறார்கள்.

தரவை அனுப்ப, அதை வேலியிடப்பட்ட குறியீட்டுத் தொகுதியில் மடிக்கவும். நீங்கள் அதை டூன் என்று லேபிளிடலாம், ஆனால் மாடலின் தொடரியல் ஹைலைட்டர் அதை அதிகாரப்பூர்வமாக ஆதரிக்காவிட்டாலும், மாடல் உடனடியாக கட்டமைப்பைப் புரிந்து கொள்ளும்.

உள்ளீட்டு எடுத்துக்காட்டு

திட்டத்தை விவரிப்பதற்கு பதிலாக, தொகுதியை வழங்கவும்:

தலைப்பு பயனர்கள்[3]{id,name,role,lastLogin} மாதிரியானது அது தெரிந்து கொள்ள வேண்டிய அனைத்தையும் கூறுகிறது: பொருளின் வகை, எண்ணிக்கை (3 வரிசைகள்) மற்றும் புலங்களின் வரிசை. உள்தள்ளல் படிநிலையைக் கையாளுகிறது. இந்த "சுய ஆவணப்படுத்தல்" இயல்பு, தொடரியல் பாகுபடுத்தும் வழிமுறைகளைக் காட்டிலும் உண்மையான தர்க்கப் பணியில் கவனம் செலுத்துவதற்கான உங்கள் தூண்டுதலை விடுவிக்கிறது.

எம்.டி இங்கே பயனர் செயல்பாடு பதிவு உள்ளது. தரவு TOON வடிவத்தில் உள்ளது (2-ஸ்பேஸ் உள்தள்ளல், வெளிப்படையான தலைப்புகள்).

பயனர்கள்[3]{id,name,role,lastLogin}: 1,ஆலிஸ்,நிர்வாகி,2025-01-15T10:30:00Z 2,பாப்,பயனர்,2025-01-14T15:22:00Z 3,சார்லி,பயனர்,2025-01-13T09:45:00Z

பணி: பதிவுகளை ஆராய்ந்து, கடந்த 24 மணிநேரத்தில் எந்தப் பயனர்கள் உள்நுழையவில்லை என்பதைக் கண்டறியவும்.

நம்பகமான வெளியீட்டை உருவாக்குதல்

read தரவை LLM பெறுவது எளிது; சரியான கட்டமைக்கப்பட்ட தரவை generate பெறுவது கடினமான பகுதியாகும். மாடல்கள் JSON ஐ மாயத்தோற்றம் செய்ய, துண்டிக்க அல்லது ப்ரேஸ்களை மூடுவதை மறக்க விரும்புகின்றன.

TOON அதன் தலைப்பு தொடரியல் மூலம் பாதுகாப்பு அடுக்கைச் சேர்க்கிறது, குறிப்பாக [N] எண்ணிக்கை. TOON ஐ வெளியிட ஒரு மாடலைக் கேட்கும் போது, ​​அது தரவை உருவாக்கும் முன் ஒரு கட்டமைப்பில் ஈடுபடும்படி கேட்கிறீர்கள்.

தலைமுறைக்கு தூண்டுகிறது

சிறந்த முடிவுகளைப் பெற, நீங்கள் எதிர்பார்க்கும் தலைப்பு வடிவமைப்பை வழங்கவும் மற்றும் வரிசைகளை நிரப்ப மாதிரியை அறிவுறுத்தவும்.

[N] கணக்கிட மாதிரியைக் கேட்பதன் மூலம், மாதிரி வெளியீட்டு அளவைத் திட்டமிட வேண்டிய "சிந்தனைச் சங்கிலி" செயல்முறையை நீங்கள் கட்டாயப்படுத்துகிறீர்கள். இந்த வெளித்தோற்றத்தில் சிறிய தடையானது, ஒரு பட்டியலின் பாதியிலேயே மாடல் வெட்டப்படுவதற்கான வாய்ப்பைக் கணிசமாகக் குறைக்கிறது.

எம்.டி பணி: "பயனர்" என்ற பாத்திரத்துடன் செயலில் உள்ள பயனர்களின் பட்டியலைத் தரவும். வடிவம்: TOON ஐப் பயன்படுத்தவும். நீங்கள் உருவாக்கும் வரிசைகளின் சரியான எண்ணிக்கையுடன் பொருந்துமாறு தலைப்பில் [N] மதிப்பை அமைக்கவும்.

எதிர்பார்க்கப்படும் வடிவம்: பயனர்கள்[N]{id,name,role,lastLogin}:

கண்டிப்பான பயன்முறையில் சரிபார்க்கிறது

நீங்கள் LLM இலிருந்து பதிலைப் பெறும்போது, ​​​​நீங்கள் அதை நம்பக்கூடாது. இங்குதான் டூன் நூலகத்தின் கண்டிப்பான பயன்முறை உற்பத்திப் பயன்பாடுகளுக்கு வல்லரசாக மாறுகிறது.

நீங்கள் டைப்ஸ்கிரிப்ட் லைப்ரரியைப் பயன்படுத்துகிறீர்கள் என்றால், கடுமையான பயன்முறையில் டிகோடிங் செய்வது, உருவாக்கப்பட்ட வரிசைகள் தலைப்பு எண்ணிக்கையுடன் பொருந்துகிறது என்பதை உறுதிப்படுத்துகிறது:

இது உங்கள் பயன்பாட்டில் மோசமான தரவைக் கண்டறியாமல், "சோம்பேறி" மாதிரி வெளியீடுகள் அல்லது நெட்வொர்க் துண்டிப்புகளை உடனடியாகப் பிடிக்க உங்களை அனுமதிக்கிறது.

'@toon-format/toon' இலிருந்து {டிகோட் } இறக்குமதி; 

முயற்சி { 
// மாதிரியானது [5] எனக் கூறினாலும் 4 வரிசைகளை வழங்கினால், இது பிழையை ஏற்படுத்தும். 
const தரவு = டிகோட்(modelOutput, { strict: true }); 
console.log('சரியான தரவு பெறப்பட்டது:', தரவு); 
} பிடி (பிழை) { 
console.error('மாடல் மாயத்தோற்றம் அல்லது துண்டிக்கப்பட்டது கண்டறியப்பட்டது:', error.message); 
} 

மேம்பட்ட மேம்படுத்தல்: தாவல் தந்திரம்

நீங்கள் தேர்வுமுறையில் ஆர்வமாக இருந்தால் (மற்றும் எல்எல்எம்களின் உலகில், ஒருவேளை நீங்கள் இருக்க வேண்டும்), உங்கள் டிலிமிட்டர்களை புத்திசாலித்தனமாகத் தேர்ந்தெடுப்பதன் மூலம் நீங்கள் இன்னும் அதிக செயல்திறனைப் பெறலாம்.

காற்புள்ளிகள் நிலையானவை, ஆனால் பல டோக்கனைசர் சொற்களஞ்சியங்களில் தாவல்கள் (\t) பெரும்பாலும் ஒற்றை டோக்கனாக குறிப்பிடப்படுகின்றன. மேலும், தாவல்கள் இயற்கையான உரைப் புலங்களுக்குள் அரிதாகவே தோன்றும், இது தப்பிக்கும் எழுத்துகளின் தேவையைக் குறைக்கிறது (மேற்கோள்களில் சரங்களை மடக்குவது போன்றவை).

உங்கள் தரவை மாதிரிக்கு அனுப்பும் முன் தாவல்களைப் பயன்படுத்தி குறியாக்கம் செய்யலாம்:

ப்ராம்ப்டில் மாதிரியை தெரிவிக்க நினைவில் கொள்ளுங்கள்: "டேட்டா டூன் தாவலாக பிரிக்கப்பட்டுள்ளது." இது மாதிரியை அலசுவதற்கும் உருவாக்குவதற்கும் நம்பமுடியாத அளவிற்கு எளிதாக இருக்கும் மிகச்சிறிய பிரதிநிதித்துவத்தை உருவாக்குகிறது.

const toonPrompt = குறியாக்கம்(தரவு, {டிலிமிட்டர்: '\t'}); 

ஒரு முழுமையான பணிப்பாய்வு எடுத்துக்காட்டு

நிஜ உலகக் காட்சியைப் பார்ப்போம்: கணினி பதிவுகளை வடிகட்டுதல். நீங்கள் மாதிரிக்கு மூலப் பதிவுகளை அனுப்ப வேண்டும் மற்றும் பிழைகளின் கட்டமைக்கப்பட்ட பட்டியலைப் பெற வேண்டும்.

விரைவு:

மாடல் வெளியீடு:

எம்.டி TOON வடிவத்தில் கணினி பதிவுகள் (தாவலில் பிரிக்கப்பட்டவை):

நிகழ்வுகள்[4]{id,level,message,timestamp}: 1,பிழை,இணைப்பு நேரம் முடிந்தது,2025-01-15T10:00:00Z 2,எச்சரிக்கை,மெதுவான வினவல்,2025-01-15T10:05:00Z 3,தகவல்,பயனர் உள்நுழைவு,2025-01-15T10:10:00Z 4, பிழை, தரவுத்தளப் பிழை025-01-15T10:15:00Z

பணி: நிலை 'பிழை' மூலம் அனைத்து நிகழ்வுகளையும் பிரித்தெடுக்கவும். புதுப்பிக்கப்பட்ட தலைப்பு எண்ணிக்கையுடன் சரியான TOON என முடிவை வழங்கவும்.

முடிவு:

நிகழ்வுகள்[2]{id,level,message,timestamp}: 
1,பிழை,இணைப்பு நேரம் முடிந்தது,2025-01-15T10:00:00Z 
4, பிழை, தரவுத்தளப் பிழை, 2025-01-15T10:15:00Z 

மாடல் பட்டியலை சரியாக வடிகட்டியது மற்றும் முக்கியமாக, தலைப்பை நிகழ்வுகள்[2] என மாற்றியது. இந்த பதிலை டிகோட் செய்வதன் மூலம், உங்கள் பயன்பாட்டு தர்க்கத்திற்கான சுத்தமான, வகை-பாதுகாப்பான வரிசையை நீங்கள் பெறுவீர்கள்.

சுருக்கம்

TOON மனிதனின் வாசிப்புத்திறனுக்கும் இயந்திரத் திறனுக்கும் இடையிலான இடைவெளியைக் குறைக்கிறது. வலுவான மென்பொருள் மேம்பாட்டிற்கு தேவையான கட்டமைப்பை வழங்கும் அதே வேளையில் LLMகளின் விலைக் கட்டுப்பாடுகளை இது மதிக்கிறது.

  1. சிறியதாக வைத்திருங்கள்: உங்கள் உதாரணங்களில் 2-5 வரிசைகளைப் பயன்படுத்தவும்; மாதிரி பொதுமைப்படுத்தப்படும்.
  1. வெளிப்படையாக இருங்கள்: மாடல் ஸ்கீமாவை அறியும் வகையில் தலைப்புகளை தெளிவாக வரையறுக்கவும்.
  1. கண்டிப்பாகச் சரிபார்க்கவும்: தலைமுறைப் பிழைகளைப் பிடிக்க வடிவமைப்பின் மெட்டாடேட்டாவைப் பயன்படுத்தவும்.

உங்கள் உடனடி பேலோடுகளுக்காக JSON இலிருந்து விலகிச் செல்வதன் மூலம், நீங்கள் டோக்கன்களை மட்டும் சேமிக்கவில்லை - நீங்கள் மிகவும் நம்பகமான AI பைப்லைனை உருவாக்குகிறீர்கள்.