কেন TOON অন্যান্য ফর্ম্যাটগুলিকে ছাড়িয়ে যায়

এলএলএম
মানদণ্ড
RAG

আপনি যদি LLM অ্যাপ্লিকেশন তৈরি করেন, বিশেষত পুনরুদ্ধার-অগমেন্টেড জেনারেশন (RAG) সিস্টেম বা এজেন্ট যেগুলি বড় ডেটাসেটগুলি ব্যবহার করে, আপনি সম্ভবত দুটি ফ্রন্টে একটি ধ্রুবক যুদ্ধ করছেন: টোকেন খরচ এবং প্রসঙ্গ উইন্ডো সীমা

বছরের পর বছর ধরে, JSON ডেটা আদান-প্রদানের ডিফল্ট লিঙ্গুয়া ফ্রাঙ্কা। এটি মানব-পাঠযোগ্য (বেশিরভাগ) এবং সর্বব্যাপী। কিন্তু আপনি যখন একটি 500-সারি JSON অ্যারেকে একটি প্রম্পটে পেস্ট করেন, আপনি বারবার ক্ষেত্রের নামের ("id":, "name":, "email":) হাজার হাজার টোকেন বার্ন করছেন যা নির্দিষ্ট সারির জন্য শূন্য শব্দার্থিক মান বহন করে।

TOON লিখুন। এটি একটি বিন্যাস যা বিশেষভাবে LLM ইনপুটগুলিতে সংকেত-থেকে-শব্দ অনুপাত সমস্যা সমাধানের জন্য ডিজাইন করা হয়েছে। আমি সর্বশেষ বেঞ্চমার্কে ডুব দিয়েছি, এবং ফলাফলগুলি চমকপ্রদ: TOON শুধুমাত্র স্থান সংরক্ষণ করে না; এটি আসলে GPT-5-ন্যানো এবং জেমিনি-2.5-ফ্ল্যাশের মতো মডেলগুলিকে ডেটা বেটার বুঝতে সাহায্য করছে।

TOON কেন হেভিওয়েটদের (JSON, CSV, YAML, XML) মারছে তা ভেঙে ফেলা যাক এবং কাঁচা সংখ্যার দিকে তাকাই।

ভার্বোসিটি ট্র্যাপ: JSON বনাম TOON

টোকেন দক্ষতার সবচেয়ে বড় শত্রু হল কাঠামোর পুনরাবৃত্তি। আসুন একটি স্ট্যান্ডার্ড টাইম-সিরিজ অ্যানালিটিক্স ডেটাসেট দেখি। JSON-এ, প্রতিটি একক ডেটা পয়েন্ট তার স্কিমার লাগেজ বহন করে।

JSON (স্ট্যান্ডার্ড) বেঞ্চমার্কে ব্যবহৃত টোকেন: 22,250_

যে অনেক জায়গা নষ্ট হয়. এখন, TOON সমতুল্য দেখুন। TOON শিরোনামে একবার স্কিমা সংজ্ঞায়িত করে এবং তারপর মানগুলির জন্য একটি ঘন, CSV-শৈলী বিন্যাসে স্যুইচ করে।

টুন বেঞ্চমার্কে ব্যবহৃত টোকেন: 9,120_

ফলাফল: টোকেন ব্যবহারে ব্যাপক 59.0% হ্রাস

পুনরাবৃত্ত কীগুলি সরিয়ে দিয়ে, TOON আপনাকে মডেলের প্রসঙ্গ উইন্ডোতে আরও ইতিহাস ফিট করার অনুমতি দেয়। কিন্তু গুরুত্বপূর্ণভাবে, CSV এর বিপরীতে, এটি হেডার সংজ্ঞা মেট্রিক্স[5]{...} এর মাধ্যমে টাইপ সচেতনতা এবং সুস্পষ্ট কাঠামো বজায় রাখে।

কেন শুধু CSV ব্যবহার করবেন না?

এটি সবচেয়ে সাধারণ পাল্টা যুক্তি। "আপনি যদি ফ্ল্যাট ডেটা চান, শুধু CSV ব্যবহার করুন।"

সমস্যা হল বাস্তব-বিশ্বের ডেটা খুব কমই পুরোপুরি সমতল। আপনার নেস্টেড স্ট্রাকচার, অবজেক্টের মধ্যে তালিকা বা কমা এবং উদ্ধৃতি সমন্বিত জটিল বিবরণের মুহুর্তে CSV সম্পূর্ণভাবে ভেঙে যায়।

বেঞ্চমার্কে, বিশেষ করে মিক্সড-স্ট্রাকচার ট্র্যাক (যাতে ই-কমার্স অর্ডার এবং ইভেন্ট লগ অন্তর্ভুক্ত), CSV সম্পূর্ণভাবে বাদ দেওয়া হয়েছিল কারণ এটি ক্ষতিকারক সমতলকরণ ছাড়া ডেটা উপস্থাপন করতে পারে না।

TOON এটি সুন্দরভাবে পরিচালনা করে। অ্যারে অপ্টিমাইজ করার সময় এটি নেস্টেড বস্তুর জন্য অনুমতি দেয়। 100টি GitHub সংগ্রহস্থলের পরীক্ষায় (যাতে মিশ্র পাঠ্য বিবরণ এবং মেটাডেটা রয়েছে), দক্ষতার ব্যবধানটি স্পষ্ট ছিল:

  • JSON: ১৫,১৪৫ টোকেন
  • টুন: ৮,৭৪৫ টোকেন (৪২.৩% সঞ্চয়)

এমনকি JSON Compact (মিনিফাইড) এর বিপরীতে, TOON এখনও প্রায় 24% বেশি সঞ্চয় করে ফেলেছে। আপনি যখন প্রতি মিলিয়ন টোকেন পরিশোধ করছেন, তখন তা তাৎক্ষণিক ROI।

নির্ভুলতা: সারপ্রাইজ বিজয়ী

এখানে যে অংশ আমাকে বিস্মিত. সাধারণত, আপনি যখন ডেটা সংকুচিত করেন, আপনি স্বচ্ছতা হারাবেন। আপনি আশা করবেন যে LLM একটি ঘন বিন্যাস পার্স করার জন্য সংগ্রাম করবে। মানদণ্ড বিপরীত দেখায়।

Claude Haiku, Gemini Flash, এবং GPT-5-nano-এর মতো মডেলগুলিতে পরীক্ষা করা 209টি ডেটা পুনরুদ্ধার প্রশ্ন জুড়ে, TOON একটি 73.9% পুনরুদ্ধার নির্ভুলতা অর্জন করেছে, স্ট্যান্ডার্ড JSON-এর 69.7% তুলনায়।

কেন? এটি সম্ভবত কগনিটিভ লোড (বা এলএলএম সমতুল্য) এ নেমে আসে।

  1. কম নয়েজ: মডেলটিকে হাজার হাজার পুনরাবৃত্তি করা "কী" টোকেনগুলিতে উপস্থিত থাকতে হবে না। প্রাসঙ্গিক মানগুলি মনোযোগের প্রক্রিয়ায় একসাথে কাছাকাছি।
  1. স্পষ্ট মেটাডেটা: TOON শিরোনামগুলিতে গণনা ([N]) এবং ক্ষেত্রের নাম স্পষ্টভাবে অন্তর্ভুক্ত থাকে।
  1. গঠন সচেতনতা: ডেটাসেট গঠন সম্পর্কে জিজ্ঞাসা করা পরীক্ষায় (যেমন, "কতটি সারি আছে?"), TOON হিট 88% নির্ভুলতা, যখন JSON এবং XML পিছিয়ে। TOON শিরোনামে (আধারন[100]) স্পষ্ট গণনা একটি ইঙ্গিত হিসাবে কাজ করে যা মডেলটিকে ম্যানুয়ালি টোকেনগুলিকে "গণনা" করতে বাধা দেয়, যা এলএলএমগুলি কুখ্যাতভাবে খারাপ।

XML এবং YAML ক্লান্তি

আমাদের সংক্ষিপ্তভাবে অন্যান্য প্রতিযোগীদের উল্লেখ করা উচিত।

XML এখানে সবচেয়ে বেশি হারে। এটি ভার্বস, পড়া কঠিন এবং প্রক্রিয়া করা ব্যয়বহুল। বেঞ্চমার্কে, XML ধারাবাহিকভাবে সর্বাধিক টোকেন ব্যবহার করেছে (একটি অভিন্ন কর্মচারী রেকর্ডের জন্য 5,000 এর বেশি যা TOON ~2,700-এ প্রতিনিধিত্ব করেছে) এবং সর্বনিম্ন নির্ভুলতা (67.1%) ছিল।

YAML XML-এর থেকে ভালো পারফর্ম করে কিন্তু এখনও TOON-এর তুলনায় টোকেন ব্লোটে ভুগছে। যদিও YAML মানুষের কনফিগারেশন ফাইলগুলির জন্য দুর্দান্ত, এর হোয়াইটস্পেস-সংবেদনশীল প্রকৃতি এবং কী পুনরাবৃত্তি এটিকে উচ্চ-ভলিউম ডেটা প্রসঙ্গের জন্য সাবঅপ্টিমাল করে তোলে। "ই-কমার্স অর্ডার" পরীক্ষায়, YAML TOON থেকে ~14% বেশি টোকেন ব্যবহার করেছে।

কখন সুইচ করবেন?

তথ্য মোটামুটি চূড়ান্ত. আপনি যদি ডিল করছেন:

  1. বস্তুর তালিকা: লগ, লেনদেনের ইতিহাস, অনুসন্ধান ফলাফল, বা পণ্য ক্যাটালগ।
  1. RAG পাইপলাইন: যেখানে আপনি একটি প্রম্পটে ফিড করার জন্য একটি ডিবি থেকে ডেটার অংশ পুনরুদ্ধার করেন৷
  1. হাই-ভলিউম API: যেখানে ব্যান্ডউইথ এবং লেটেন্সি গুরুত্বপূর্ণ।

TOON একটি "উভয় জগতের সেরা" দৃশ্যকল্প অফার করে। আপনি JSON এর কাঠামোগত অখণ্ডতার সাথে CSV এর ঘনত্ব পান।

বেঞ্চমার্কে, GPT-5-nano TOON ফরম্যাটেড ডেটাতে 90.9% নির্ভুলতা অর্জন করেছে। এটি পরামর্শ দেয় যে নতুন, স্মার্ট মডেলগুলি এই অপ্টিমাইজ করা ফর্ম্যাটগুলিকে পার্স করার ক্ষেত্রে ক্রমশ পারদর্শী হয়ে উঠছে, যার অর্থ JSON থেকে দূরে সরে যাওয়ার "পঠনযোগ্যতা শাস্তি" মেশিনের জন্য কার্যকরভাবে শূন্য৷

আপনি যদি এখনও আপনার RAG কনটেক্সটকে JSON.stringify(data, null, 2) হিসেবে ফর্ম্যাট করে থাকেন, তাহলে আপনি কার্যকরভাবে প্রতিটি API কলে একটি "পঠনযোগ্যতা ট্যাক্স" প্রদান করছেন। এটি ফর্ম্যাট স্যুইচ করার সময় হতে পারে.