ٹون نے دوسرے فارمیٹس کو کیوں بہتر بنایا
اگر آپ ایل ایل ایم کی ایپلی کیشنز بنا رہے ہیں ، خاص طور پر بازیافت سے متعلق جنریشن (آر اے جی) سسٹم یا ایجنٹ جو بڑے ڈیٹاسیٹس کا استعمال کرتے ہیں تو ، آپ ممکنہ طور پر دو محاذوں پر مستقل جنگ لڑ رہے ہیں: ** ٹوکن لاگت ** اور ** سیاق و سباق کی ونڈو کی حدود **۔
برسوں سے ، JSON ڈیٹا انٹرچینج کا پہلے سے طے شدہ زبان فرانکا رہا ہے۔ یہ انسانی پڑھنے کے قابل (زیادہ تر) اور ہر جگہ ہے۔ لیکن جب آپ ایک 500-صف JSON سرنی کو کسی اشارے پر چسپاں کرتے ہیں تو ، آپ بار بار فیلڈ کے ناموں (" ID ": ، " نام ": ، " ای میل ":) پر ہزاروں ٹوکن جلا رہے ہیں جو مخصوص صف کے لئے صفر کی معنوی قیمت رکھتے ہیں۔
درج کریں ** ٹون **۔ یہ ایک ایسا فارمیٹ ہے جو خاص طور پر ایل ایل ایم ان پٹ میں سگنل سے شور کے تناسب کے مسئلے کو حل کرنے کے لئے ڈیزائن کیا گیا ہے۔ میں تازہ ترین بینچ مارک میں غوطہ لگا رہا ہوں ، اور نتائج حیران کن ہیں: ٹون صرف جگہ کی بچت نہیں کررہا ہے۔ یہ دراصل GPT-5-NANO اور جیمنی -2.5-فلیش جیسے ماڈلز کی مدد کر رہا ہے ڈیٹا _ بیٹر_ کو سمجھتا ہے۔
آئیے یہ توڑ دیتے ہیں کہ ٹون ہیوی وائٹس (JSON ، CSV ، YAML ، XML) کو کیوں پیٹ رہا ہے اور خام نمبروں کو دیکھ رہا ہے۔
وربوسیٹی ٹریپ: JSON بمقابلہ ٹون
ٹوکن کی کارکردگی کا سب سے بڑا دشمن ڈھانچہ کی تکرار ہے۔ آئیے ایک معیاری ٹائم سیریز تجزیاتی ڈیٹاسیٹ کو دیکھیں۔ JSON میں ، ہر ایک ڈیٹا پوائنٹ اس کے اسکیما کا سامان رکھتا ہے۔
** JSON (معیاری) ** _ ٹوکنز بینچ مارک میں استعمال کیا جاتا ہے: 22،250_
یہ بہت ضائع شدہ جگہ ہے۔ اب ، ** ٹون ** مساوی دیکھیں۔ ٹون نے ایک بار ہیڈر میں اسکیما کی وضاحت کی اور پھر اقدار کے لئے گھنے ، CSV طرز کی ترتیب میں سوئچ کیا۔
** ٹون ** _ ٹوکنز بینچ مارک میں استعمال کیا جاتا ہے: 9،120_
** نتیجہ: ** بڑے پیمانے پر ** 59.0 ٪ کمی ** ٹوکن استعمال میں۔
بار بار کی چابیاں چھین کر ، ٹون آپ کو ماڈل کے سیاق و سباق کی ونڈو میں مزید تاریخ کو فٹ کرنے کی اجازت دیتا ہے۔ لیکن اہم طور پر ، CSV کے برعکس ، یہ ہیڈر تعریف میٹرکس [5] {...} کے ذریعہ قسم کی آگاہی اور واضح ڈھانچے کو برقرار رکھتا ہے۔
کیوں نہ صرف CSV استعمال کریں؟
یہ سب سے عام انسداد دلیل ہے۔ "اگر آپ فلیٹ ڈیٹا چاہتے ہیں تو ، صرف CSV استعمال کریں۔"
مسئلہ یہ ہے کہ حقیقی دنیا کا ڈیٹا شاذ و نادر ہی بالکل فلیٹ ہوتا ہے۔ CSV اس لمحے کو مکمل طور پر توڑ دیتا ہے جب آپ نے گھوںسلا ڈھانچے ، اشیاء کے اندر فہرستیں ، یا پیچیدہ وضاحتیں جس میں کوما اور قیمت درج کیے جاتے ہیں۔
بینچ مارک میں ، خاص طور پر ** مخلوط ڈھانچے کی ٹریک ** (جس میں ای کامرس آرڈرز اور ایونٹ کے نوشتہ شامل ہیں) ، سی ایس وی کو مکمل طور پر خارج کردیا گیا تھا کیونکہ وہ بغیر کسی نقصان کے اعداد و شمار کی نمائندگی نہیں کرسکتا ہے۔
ٹون اس کو خوبصورتی سے سنبھالتا ہے۔ یہ صفوں کو بہتر بنانے کے دوران گھونسلے والی اشیاء کی اجازت دیتا ہے۔ 100 گٹ ہب ذخیروں (جس میں مخلوط متن کی تفصیل اور میٹا ڈیٹا پر مشتمل ہے) کے ٹیسٹ میں ، کارکردگی کا فرق واضح تھا:
- ** JSON: ** 15،145 ٹوکن
- ** ٹون: ** 8،745 ٹوکن (** 42.3 ٪ بچت **)
یہاں تک کہ ** JSON کمپیکٹ ** (منڈی) کے خلاف بھی ، ٹون نے ابھی بھی تقریبا 24 24 ٪ مزید بچت کو نچوڑ لیا۔ جب آپ فی ملین ٹوکن کی ادائیگی کر رہے ہیں تو ، یہ فوری طور پر آر اوآئ ہے۔
درستگی: حیرت انگیز فاتح
یہ وہ حصہ ہے جس نے مجھے حیرت میں ڈال دیا۔ عام طور پر ، جب آپ ڈیٹا کو کمپریس کرتے ہیں تو ، آپ وضاحت کھو دیتے ہیں۔ آپ توقع کریں گے کہ ایل ایل ایم ڈینسر فارمیٹ کی تجزیہ کرنے کے لئے جدوجہد کرے گا۔ بینچ مارک اس کے برعکس دکھاتے ہیں۔
معیاری JSON کے ** 69.7 ٪ ** کے مقابلے میں ، کلاڈ ہائیکو ، جیمنی فلیش ، اور جی پی ٹی -5-نانو جیسے ماڈلز پر 209 اعداد و شمار کی بازیافت کے سوالات کا تجربہ کیا گیا۔
کیوں؟ یہ ممکنہ طور پر ** علمی بوجھ ** (یا ایل ایل ایم مساوی) پر آتا ہے۔
- ** کم شور: ** ماڈل کو ہزاروں دہرانے والے
" کلید "ٹوکن میں شرکت کرنے کی ضرورت نہیں ہے۔ متعلقہ اقدار توجہ کے طریقہ کار میں ایک ساتھ قریب ہیں۔
- ** واضح میٹا ڈیٹا: ** ٹون ہیڈروں میں گنتی (
[n]) اور فیلڈ کے نام واضح طور پر شامل ہیں۔
- ** ڈھانچے کی آگاہی: ** ٹیسٹوں میں ڈیٹاسیٹ ڈھانچے کے بارے میں پوچھتے ہوئے (جیسے ، "کتنی قطاریں ہیں؟") ، ٹون نے ** 88 ٪ درستگی ** کو نشانہ بنایا ، جبکہ JSON اور XML پیچھے رہ گئے۔ ٹون ہیڈر میں واضح گنتی (
ذخیرے [100]) ایک اشارے کے طور پر کام کرتی ہے جو ماڈل کو دستی طور پر "گنتی" کرنے سے روکتی ہے ، جس میں ایل ایل ایم بدنام زمانہ خراب ہیں۔
XML اور YAML تھکاوٹ
ہمیں مختصر طور پر دوسرے دعویداروں کا ذکر کرنا چاہئے۔
** XML ** یہاں بھاری ہاری ہے۔ یہ فعل ہے ، پڑھنا مشکل ہے ، اور اس پر عملدرآمد کرنا مہنگا ہے۔ بینچ مارک میں ، XML نے مستقل طور پر سب سے زیادہ ٹوکن استعمال کیے (یکساں ملازم ریکارڈ سیٹ کے لئے 5،000 سے زیادہ کا استعمال کیا جس کی نمائندگی ٹون نے ~ 2،700 میں کی تھی) اور اس میں سب سے کم درستگی (67.1 ٪) تھی۔
** یامل ** XML سے بہتر کارکردگی کا مظاہرہ کرتا ہے لیکن پھر بھی ٹون کے مقابلے میں ٹوکن بلوٹ کا شکار ہے۔ اگرچہ یامل انسانی تشکیل فائلوں کے لئے بہت اچھا ہے ، لیکن اس کی وائٹ اسپیس حساس نوعیت اور کلیدی تکرار اس کو اعلی حجم کے اعداد و شمار کے سیاق و سباق کے ل sub سب سے اہم بناتی ہے۔ "ای کامرس آرڈرز" ٹیسٹ میں ، یامل نے ٹون کے مقابلے میں ~ 14 ٪ زیادہ ٹوکن استعمال کیے۔
کب سوئچ کریں؟
ڈیٹا کافی حتمی ہے۔ اگر آپ اس سے نمٹ رہے ہیں:
- ** اشیاء کی فہرستیں: ** لاگ ، لین دین کی تاریخ ، تلاش کے نتائج ، یا مصنوع کی کیٹلاگ۔
- ** اعلی حجم APIs: ** جہاں بینڈوتھ اور لیٹینسی معاملہ ہے۔
ٹون "دونوں جہانوں کا بہترین" منظر پیش کرتا ہے۔ آپ کو JSON کی ساختی سالمیت کے ساتھ CSV کی کثافت مل جاتی ہے۔
بینچ مارک میں ، ** جی پی ٹی -5-نانو ** نے ٹون فارمیٹڈ ڈیٹا پر حیرت انگیز ** 90.9 ٪ درستگی ** حاصل کیا۔ اس سے پتہ چلتا ہے کہ نئے ، ہوشیار ماڈل ان بہتر شکلوں کو پارس کرنے میں تیزی سے ماہر بن رہے ہیں ، یعنی JSON سے دور ہونے کا "پڑھنے کی سزا" مشین کے لئے مؤثر طریقے سے صفر ہے۔
اگر آپ ابھی بھی اپنے چیتھڑے کے سیاق و سباق کو json.stringify (ڈیٹا ، NULL ، 2) `کی شکل دے رہے ہیں تو ، آپ ہر ایک API کال پر مؤثر طریقے سے" پڑھنے کے قابل ٹیکس "کی ادائیگی کر رہے ہیں۔ فارمیٹس کو تبدیل کرنے کا وقت ہوسکتا ہے۔