ஏன் TOON மற்ற வடிவங்களை விட சிறப்பாக செயல்படுகிறது

எல்.எல்.எம்
வரையறைகள்
RAG

நீங்கள் LLM பயன்பாடுகளை உருவாக்குகிறீர்கள் என்றால், குறிப்பாக Retrieval-Augmented Generation (RAG) அமைப்புகள் அல்லது பெரிய தரவுத்தொகுப்புகளைப் பயன்படுத்தும் முகவர்கள், நீங்கள் இரண்டு முனைகளில் தொடர்ந்து போரிடலாம்: டோக்கன் செலவு மற்றும் சூழல் சாளர வரம்புகள்.

பல ஆண்டுகளாக, தரவு பரிமாற்றத்தின் இயல்பு மொழியாக JSON உள்ளது. இது மனிதர்கள் படிக்கக்கூடியது (பெரும்பாலும்) மற்றும் எங்கும் நிறைந்தது. ஆனால் நீங்கள் 500-வரிசை JSON வரிசையை ஒரு ப்ராம்ட்டில் ஒட்டும்போது, ​​குறிப்பிட்ட வரிசைக்கு பூஜ்ஜிய சொற்பொருள் மதிப்பைக் கொண்டு மீண்டும் மீண்டும் புலப் பெயர்களில் ("id":, "name":, "email":) ஆயிரக்கணக்கான டோக்கன்களை எரிக்கிறீர்கள்.

TOON ஐ உள்ளிடவும். இது LLM உள்ளீடுகளில் சிக்னல்-க்கு-இரைச்சல் விகிதச் சிக்கலைத் தீர்க்க குறிப்பாக வடிவமைக்கப்பட்ட வடிவமாகும். நான் சமீபத்திய அளவுகோல்களுக்குள் மூழ்கிக்கொண்டிருக்கிறேன், முடிவுகள் திடுக்கிடும்: TOON இடத்தை சேமிப்பது மட்டுமல்ல; இது உண்மையில் GPT-5-nano மற்றும் Gemini-2.5-flash போன்ற மாதிரிகள் தரவைப் புரிந்துகொள்ள உதவுகிறது better.

TOON ஏன் ஹெவிவெயிட்களை (JSON, CSV, YAML, XML) தோற்கடிக்கிறது என்பதை உடைத்து, மூல எண்களைப் பார்ப்போம்.

வெர்போசிட்டி ட்ராப்: JSON எதிராக டூன்

டோக்கன் செயல்திறனின் மிகப்பெரிய எதிரி கட்டமைப்பு திரும்பத் திரும்பும். நிலையான நேர-தொடர் பகுப்பாய்வு தரவுத்தொகுப்பைப் பார்ப்போம். JSON இல், ஒவ்வொரு தரவுப் புள்ளியும் அதன் ஸ்கீமாவின் சாமான்களைக் கொண்டுள்ளது.

JSON (தரநிலை) அளவுகோலில் பயன்படுத்தப்படும் டோக்கன்கள்: 22,250_

அது நிறைய இடம் வீணாகிறது. இப்போது, ​​TOON சமமானதைப் பாருங்கள். TOON ஸ்கீமாவை ஹெடரில் ஒருமுறை வரையறுத்து, பின்னர் மதிப்புகளுக்கான அடர்த்தியான, CSV-பாணி தளவமைப்பிற்கு மாறுகிறது.

டூன் அளவுகோலில் பயன்படுத்தப்படும் டோக்கன்கள்: 9,120

முடிவு: டோக்கன் பயன்பாட்டில் மிகப்பெரிய 59.0% குறைப்பு.

மீண்டும் மீண்டும் விசைகளை அகற்றுவதன் மூலம், மாதிரியின் சூழல் சாளரத்தில் கூடுதல் வரலாற்றைப் பொருத்த TOON உங்களை அனுமதிக்கிறது. ஆனால் முக்கியமாக, CSV போலல்லாமல், இது தலைப்பு வரையறை அளவீடுகள்[5]{...} மூலம் வகை விழிப்புணர்வு மற்றும் வெளிப்படையான கட்டமைப்பை பராமரிக்கிறது.

ஏன் CSVஐ மட்டும் பயன்படுத்தக்கூடாது?

இது மிகவும் பொதுவான எதிர் வாதமாகும். "உங்களுக்கு தட்டையான தரவு தேவைப்பட்டால், CSV ஐப் பயன்படுத்தவும்."

பிரச்சனை என்னவென்றால், நிஜ-உலகத் தரவு அரிதாகவே முற்றிலும் தட்டையானது. நீங்கள் உள்ளமைக்கப்பட்ட கட்டமைப்புகள், பொருள்களுக்குள் பட்டியல்கள் அல்லது காற்புள்ளிகள் மற்றும் மேற்கோள்களைக் கொண்ட சிக்கலான விளக்கங்களை வைத்திருக்கும் தருணத்தில் CSV முற்றிலும் உடைந்து விடும்.

அளவுகோல்களில், குறிப்பாக கலப்பு-கட்டமைப்பு ட்ராக் (இதில் ஈ-காமர்ஸ் ஆர்டர்கள் மற்றும் நிகழ்வு பதிவுகள் அடங்கும்), CSV முற்றிலும் விலக்கப்பட்டது, ஏனெனில் அது நஷ்டமான தட்டையானது இல்லாமல் தரவை பிரதிநிதித்துவப்படுத்த முடியாது.

TOON இதை அழகாகக் கையாள்கிறார். வரிசைகளை மேம்படுத்தும் போது உள்ளமை பொருட்களை இது அனுமதிக்கிறது. 100 கிட்ஹப் களஞ்சியங்களின் சோதனையில் (இதில் கலப்பு உரை விளக்கங்கள் மற்றும் மெட்டாடேட்டா உள்ளது), செயல்திறன் இடைவெளி தெளிவாக இருந்தது:

  • JSON: 15,145 டோக்கன்கள்
  • டூன்: 8,745 டோக்கன்கள் (42.3% சேமிப்பு)

JSON Compact (குறைக்கப்பட்டது) க்கு எதிராக கூட, TOON இன்னும் 24% கூடுதல் சேமிப்பை பிழிந்துள்ளது. ஒரு மில்லியன் டோக்கன்களுக்கு நீங்கள் செலுத்தும் போது, ​​அது உடனடி ROI ஆகும்.

துல்லியம்: ஆச்சரியமான வெற்றியாளர்

என்னை ஆச்சரியப்படுத்திய பகுதி இதோ. பொதுவாக, நீங்கள் தரவை சுருக்கும்போது, ​​நீங்கள் தெளிவை இழக்கிறீர்கள். அடர்த்தியான வடிவமைப்பை அலச LLM போராடும் என்று நீங்கள் எதிர்பார்க்கலாம். வரையறைகள் எதிர் காட்டுகின்றன.

Claude Haiku, Gemini Flash மற்றும் GPT-5-nano போன்ற மாடல்களில் சோதனை செய்யப்பட்ட 209 தரவு மீட்டெடுப்பு கேள்விகளில், TOON ஆனது நிலையான JSON இன் 69.7% உடன் ஒப்பிடும்போது 73.9% மீட்டெடுப்பு துல்லியத்தை அடைந்தது.

ஏன்? இது அறிவாற்றல் சுமை (அல்லது LLM க்கு சமமான) வரலாம்.

  1. குறைவான சத்தம்: ஆயிரக்கணக்கான திரும்பத் திரும்ப வரும் `"கீ" டோக்கன்களை மாடல் கவனிக்க வேண்டியதில்லை. கவனம் பொறிமுறையில் தொடர்புடைய மதிப்புகள் நெருக்கமாக உள்ளன.
  1. வெளிப்படையான மெட்டாடேட்டா: TOON தலைப்புகளில் எண்ணிக்கை ([N]) மற்றும் புலப் பெயர்கள் வெளிப்படையாக இருக்கும்.
  1. கட்டமைப்பு விழிப்புணர்வு: தரவுத்தொகுப்பு அமைப்பு பற்றி கேட்கும் சோதனைகளில் (எ.கா., "எத்தனை வரிசைகள் உள்ளன?"), TOON 88% துல்லியம் ஐத் தாக்கியது, அதே நேரத்தில் JSON மற்றும் XML பின்தங்கியுள்ளன. TOON ஹெடரில் (repositories[100]) உள்ள வெளிப்படையான எண்ணிக்கையானது, LLMகள் மோசமாக இருக்கும் டோக்கன்களை கைமுறையாக "எண்ண" செய்வதிலிருந்து மாதிரியைத் தடுக்கும் ஒரு குறிப்பாக செயல்படுகிறது.

XML மற்றும் YAML சோர்வு

மற்ற போட்டியாளர்களை நாம் சுருக்கமாக குறிப்பிட வேண்டும்.

எக்ஸ்எம்எல் தான் இங்கு பெரும் நஷ்டம். இது வாய்மொழியானது, படிக்க கடினமாக உள்ளது மற்றும் செயலாக்குவதற்கு விலை உயர்ந்தது. அளவுகோல்களில், XML தொடர்ந்து அதிக டோக்கன்களைப் பயன்படுத்தியது (ஒரு சீரான பணியாளர் பதிவிற்கு 5,000 க்கு மேல் TOON ~2,700 இல் குறிப்பிடப்பட்டுள்ளது) மற்றும் மிகக் குறைந்த துல்லியம் (67.1%) இருந்தது.

YAML XML ஐ விட சிறப்பாக செயல்படுகிறது, ஆனால் TOON உடன் ஒப்பிடும்போது டோக்கன் வீக்கத்தால் இன்னும் அவதிப்படுகிறது. மனித உள்ளமைவு கோப்புகளுக்கு YAML சிறந்தது என்றாலும், அதன் இடைவெளி உணர்திறன் தன்மை மற்றும் முக்கிய மறுநிகழ்வு ஆகியவை அதிக அளவு தரவு சூழலுக்கு துணைபுரிகிறது. "ஈ-காமர்ஸ் ஆர்டர்கள்" சோதனையில், YAML TOON ஐ விட ~14% கூடுதல் டோக்கன்களைப் பயன்படுத்தியது.

எப்போது மாற வேண்டும்?

தரவு மிகவும் உறுதியானது. நீங்கள் கையாளுகிறீர்கள் என்றால்:

  1. பொருள்களின் பட்டியல்கள்: பதிவுகள், பரிவர்த்தனை வரலாறுகள், தேடல் முடிவுகள் அல்லது தயாரிப்பு பட்டியல்கள்.
  1. RAG பைப்லைன்கள்: ஒரு டிபியில் இருந்து டேட்டாவின் துணுக்குகளை மீட்டெடுக்கும் இடத்தில், ஒரு ப்ராம்ட் செய்ய.
  1. அதிக-தொகுதி APIகள்: அலைவரிசை மற்றும் தாமதம் முக்கியமானவை.

TOON "இரு உலகங்களிலும் சிறந்த" காட்சியை வழங்குகிறது. JSON இன் கட்டமைப்பு ஒருமைப்பாட்டுடன் CSVயின் அடர்த்தியைப் பெறுவீர்கள்.

அளவுகோல்களில், GPT-5-nano TOON வடிவமைக்கப்பட்ட தரவுகளில் ஒரு அதிர்ச்சியூட்டும் 90.9% துல்லியத்தை அடைந்தது. இந்த மேம்படுத்தப்பட்ட வடிவங்களைப் பாகுபடுத்துவதில் புதிய, புத்திசாலித்தனமான மாடல்கள் பெருகிய முறையில் திறமையாகி வருகின்றன, அதாவது JSON இலிருந்து விலகிச் செல்வதற்கான "படிக்கக்கூடிய அபராதம்" இயந்திரத்திற்கு பூஜ்ஜியமாக இருக்கும் என்று இது அறிவுறுத்துகிறது.

நீங்கள் இன்னும் உங்கள் RAG சூழலை JSON.stringify(data, null, 2) என வடிவமைத்துக்கொண்டிருந்தால், ஒவ்வொரு ஏபிஐ அழைப்பிலும் "படிக்கக்கூடிய வரியை" திறம்பட செலுத்துகிறீர்கள். வடிவங்களை மாற்றுவதற்கான நேரமாக இருக்கலாம்.