এলএলএম-এর সাথে কীভাবে টুন ব্যবহার করবেন

এলএলএম
প্রম্পট ইঞ্জিনিয়ারিং

আপনি যদি কখনও ChatGPT বা Claude-এ একটি বড় JSON অ্যারে পেস্ট করে থাকেন, তাহলে আপনি সম্ভবত প্রসঙ্গ উইন্ডোটি বন্ধ হয়ে যাওয়ার ব্যথা অনুভব করেছেন৷ JSON ওয়েব API-এর জন্য দুর্দান্ত, কিন্তু বড় ভাষা মডেলগুলির (LLM) জন্য এটি অবিশ্বাস্যভাবে অপচয়জনক৷ প্রতি একক রেকর্ডের জন্য "id":, "name":, এবং "timestamp":-এর মতো ফিল্ডের নামগুলি পুনরাবৃত্তি করা শুধু অপ্রয়োজনীয় নয়; এটি টোকেনগুলির মাধ্যমে জ্বলে যা প্রকৃত অর্থ এবং মূল্যবান প্রসঙ্গ স্থান খরচ করে।

এখানেই TOON (টেবিল অবজেক্ট নোটেশন) জ্বলজ্বল করে। এটা শুধু একটি তথ্য বিন্যাস নয়; এটি এলএলএম মিথস্ক্রিয়া অপ্টিমাইজ করার জন্য একটি কৌশল। JSON-এর সিনট্যাক্স ট্যাক্স বাদ দিয়ে এবং সুস্পষ্ট কাঠামোর শিরোনাম যোগ করে, TOON আপনাকে আপনার মডেলগুলিতে আরও ডেটা প্রেরণ করতে এবং বিনিময়ে আরও নির্ভরযোগ্য কাঠামোগত আউটপুট পেতে দেয়।

TOON এর টোকেন ইকোনমিক্স

কেন বিন্যাস স্যুইচ বিরক্ত? গণিত সহজ. অবজেক্টের একটি স্ট্যান্ডার্ড JSON অ্যারেতে, প্রতিটি সারির জন্য স্কিমা পুনরাবৃত্তি করা হয়। আপনার যদি 50 জন ব্যবহারকারীর তালিকা থাকে, আপনি ক্ষেত্রের নামের জন্য 50 বার অর্থ প্রদান করছেন।

হেডারে একবার স্কিমা ঘোষণা করে TOON এই অপ্রয়োজনীয়তা দূর করে। ডেটা একটি ঘন, স্ট্রিম-রেখাযুক্ত বিন্যাসে অনুসরণ করে। অনুশীলনে, এটি সাধারণত ফরম্যাট করা JSON-এর তুলনায় ইউনিফর্ম অ্যারেগুলির জন্য টোকেন ব্যবহারে 30-60% হ্রাস ঘটায়। আপনি যখন বিশাল কনটেক্সট উইন্ডো বা উচ্চ-ভলিউম API কলগুলির সাথে কাজ করছেন, তখন সেই দক্ষতা সরাসরি কম বিল এবং কম বিলম্বে অনুবাদ করে৷

ডেটা পাঠানো: "দেখান, বলবেন না" নিয়ম

ডেটা বিশ্লেষণ করার জন্য যখন আপনার একটি এলএলএম প্রয়োজন, তখন আপনার প্রম্পট কৌশলটি অত্যন্ত গুরুত্বপূর্ণ। নতুনরা প্রায়শই ডেটা বিন্যাস ব্যাখ্যা করে দীর্ঘ অনুচ্ছেদ লেখেন। TOON এর সাথে, আপনার এটি করার দরকার নেই।

LLM হল প্যাটার্ন-ম্যাচিং ইঞ্জিন। তারা স্বজ্ঞাতভাবে TOON বোঝে কারণ এটি YAML এবং CSV-এর একটি হাইব্রিডের মতো দেখাচ্ছে—ফরম্যাট যা তারা প্রশিক্ষণের সময় বিলিয়ন বার দেখেছে।

ডেটা পাঠাতে, এটিকে একটি বেড়াযুক্ত কোড ব্লকে মোড়ানো। আপনি এটিকে 'টুন' লেবেল করতে পারেন, তবে মডেলের সিনট্যাক্স হাইলাইটারটি আনুষ্ঠানিকভাবে এটিকে সমর্থন না করলেও, মডেলটি অবিলম্বে কাঠামোটি বুঝতে পারে।

ইনপুট উদাহরণ

স্কিমা বর্ণনা করার পরিবর্তে, শুধু ব্লক প্রদান করুন:

শিরোনাম ব্যবহারকারীরা[3]{id,name,role,lastLogin} মডেলটিকে যা জানা দরকার তার সবকিছু বলে: সত্তার ধরন, গণনা (৩টি সারি), এবং ক্ষেত্রের ক্রম। ইন্ডেন্টেশন অনুক্রমটি পরিচালনা করে। এই "স্ব-ডকুমেন্টিং" প্রকৃতি আপনার প্রম্পটকে সিনট্যাক্স পার্সিং নির্দেশাবলীর পরিবর্তে প্রকৃত যুক্তির টাস্কে ফোকাস করার জন্য মুক্ত করে।

``মো এখানে ব্যবহারকারী কার্যকলাপ লগ. ডেটা TOON ফর্ম্যাটে (2-স্পেস ইন্ডেন্ট, স্পষ্ট শিরোনাম)।

ব্যবহারকারীরা[3]{id,name,role,lastLogin}: 1,এলিস,প্রশাসন,2025-01-15T10:30:00Z 2,বব,ব্যবহারকারী,2025-01-14T15:22:00Z 3,চার্লি,ব্যবহারকারী,2025-01-13T09:45:00Z

টাস্ক: লগগুলি বিশ্লেষণ করুন এবং শনাক্ত করুন যে কোন ব্যবহারকারী গত 24 ঘন্টার মধ্যে লগ ইন করেননি৷

নির্ভরযোগ্য আউটপুট তৈরি করা

read ডেটাতে LLM পাওয়া সহজ; বৈধ স্ট্রাকচার্ড ডেটা _জেনারেট করা কঠিন অংশ। মডেলরা হ্যালুসিনেট করতে, JSON ছেঁটে ফেলতে বা বন্ধনী বন্ধনী ভুলে যেতে পছন্দ করে।

TOON তার হেডার সিনট্যাক্সের মাধ্যমে নিরাপত্তার একটি স্তর যোগ করে, বিশেষ করে [N] গণনা। আপনি যখন একটি মডেলকে TOON আউটপুট করতে বলবেন, আপনি এটিকে ডেটা তৈরি করার আগে একটি কাঠামোতে প্রতিশ্রুতিবদ্ধ করতে বলছেন।

প্রজন্মের জন্য অনুরোধ করা

সর্বোত্তম ফলাফল পেতে, আপনার প্রত্যাশিত শিরোনাম বিন্যাস প্রদান করুন এবং মডেলটিকে সারিগুলি পূরণ করতে নির্দেশ করুন৷

মডেলটিকে [N] গণনা করতে বলে, আপনি একটি "চিন্তার শৃঙ্খল" প্রক্রিয়া জোর করে যেখানে মডেলটিকে অবশ্যই আউটপুট আকারের পরিকল্পনা করতে হবে। এই আপাতদৃষ্টিতে ছোট সীমাবদ্ধতা উল্লেখযোগ্যভাবে একটি তালিকার মধ্য দিয়ে মডেল কেটে ফেলার সম্ভাবনাকে কমিয়ে দেয়।

``মো টাস্ক: "ব্যবহারকারী" ভূমিকা সহ সক্রিয় ব্যবহারকারীদের একটি তালিকা ফেরত দিন। বিন্যাস: TOON ব্যবহার করুন। আপনার তৈরি করা সারিগুলির সঠিক সংখ্যার সাথে মেলে হেডারে [N] মান সেট করুন।

প্রত্যাশিত বিন্যাস: ব্যবহারকারীরা[N]{id,name,role,lastLogin}:

কঠোর মোডে বৈধ করা হচ্ছে

আপনি যখন এলএলএম থেকে প্রতিক্রিয়া পান, তখন আপনার কেবল এটি বিশ্বাস করা উচিত নয়। এখানেই TOON লাইব্রেরির কঠোর মোড উত্পাদন অ্যাপ্লিকেশনের জন্য একটি সুপার পাওয়ার হয়ে ওঠে।

আপনি যদি TypeScript লাইব্রেরি ব্যবহার করেন, তাহলে কঠোর মোডের সাথে ডিকোডিং যাচাই করে যে তৈরি করা সারিগুলি হেডারের সংখ্যার সাথে মেলে:

এটি আপনাকে আপনার অ্যাপ্লিকেশনে ডাউনস্ট্রিম খারাপ ডেটা আবিষ্কার করার পরিবর্তে প্রোগ্রাম্যাটিকভাবে "অলস" মডেল আউটপুট বা নেটওয়ার্ক ট্রাঙ্কেশনগুলি অবিলম্বে ধরতে দেয়।

`` টাইপস্ক্রিপ্ট '@toon-format/toon' থেকে { ডিকোড } আমদানি করুন;

চেষ্টা করুন { // যদি মডেলটি বলে [5] কিন্তু 4টি সারি প্রদান করে, এটি একটি ত্রুটি নিক্ষেপ করে। const data = decode(modelOutput, { strict: true }); console.log('বৈধ ডেটা গৃহীত:', ডেটা); } ধরা (ত্রুটি) { console.error('মডেল হ্যালুসিনেশন বা ট্রাঙ্কেশন সনাক্ত করা হয়েছে:', error.message); }

উন্নত অপ্টিমাইজেশান: ট্যাব ট্রিক

আপনি যদি অপ্টিমাইজেশানে আচ্ছন্ন হন (এবং এলএলএম-এর জগতে, আপনার সম্ভবত হওয়া উচিত), আপনি আপনার সীমাবদ্ধতাগুলিকে বুদ্ধিমানের সাথে বেছে নিয়ে আরও বেশি দক্ষতা অর্জন করতে পারেন।

কমাগুলি প্রমিত, কিন্তু ট্যাবগুলি (\t) প্রায়শই অনেক টোকেনাইজার শব্দভান্ডারে একক টোকেন হিসাবে উপস্থাপিত হয়। উপরন্তু, ট্যাবগুলি খুব কমই প্রাকৃতিক পাঠ্য ক্ষেত্রের মধ্যে উপস্থিত হয়, যা এস্কেপ অক্ষরের প্রয়োজনীয়তা হ্রাস করে (যেমন উদ্ধৃতিতে স্ট্রিং মোড়ানো)।

আপনি মডেলে পাঠানোর আগে ট্যাব ব্যবহার করে আপনার ডেটা এনকোড করতে পারেন:

শুধু প্রম্পটে মডেলটিকে জানানোর কথা মনে রাখবেন: "ডেটা ট্যাব-সপারেটেড টুন।" এটি একটি হাইপার-কম্প্যাক্ট উপস্থাপনা তৈরি করে যা মডেলের পার্স এবং জেনারেট করার জন্য অবিশ্বাস্যভাবে সহজ।

`` টাইপস্ক্রিপ্ট const toonPrompt = encode(data, { delimiter: '\t' });

একটি সম্পূর্ণ ওয়ার্কফ্লো উদাহরণ

আসুন একটি বাস্তব-বিশ্বের দৃশ্য দেখি: ফিল্টারিং সিস্টেম লগ। আপনি মডেলটিতে কাঁচা লগ পাঠাতে চান এবং ত্রুটিগুলির একটি কাঠামোগত তালিকা ফিরে পেতে চান।

প্রম্পট:

মডেল আউটপুট:

``মো TOON ফর্ম্যাটে সিস্টেম লগগুলি (ট্যাব-বিচ্ছিন্ন):

ঘটনা[4]{id,level,message,timestamp}: 1,ত্রুটি,সংযোগের সময়সীমা,2025-01-15T10:00:00Z 2,সতর্ক, ধীরগতির প্রশ্ন,2025-01-15T10:05:00Z 3,তথ্য,ব্যবহারকারী লগইন,2025-01-15T10:10:00Z 4,ত্রুটি,ডাটাবেস ত্রুটি025-01-15T10:15:00Z

টাস্ক: লেভেল 'এরর' সহ সমস্ত ইভেন্ট বের করুন। একটি আপডেট হেডার গণনা সহ বৈধ TOON হিসাবে ফলাফলটি ফেরত দিন।

ফলাফল:

``টুন ঘটনা[2]{id,level,message,timestamp}: 1,ত্রুটি,সংযোগের সময়সীমা,2025-01-15T10:00:00Z 4,ত্রুটি,ডাটাবেস ত্রুটি,2025-01-15T10:15:00Z

মডেলটি সঠিকভাবে তালিকাটি ফিল্টার করেছে এবং, গুরুত্বপূর্ণভাবে, হেডারটিকে ইভেন্ট[2]-এ আপডেট করেছে। এই প্রতিক্রিয়াটি ডিকোড করার মাধ্যমে, আপনি আপনার অ্যাপ্লিকেশন লজিকের জন্য একটি পরিষ্কার, টাইপ-নিরাপদ অ্যারে প্রস্তুত পাবেন।

সারাংশ

TOON মানুষের পঠনযোগ্যতা এবং মেশিনের দক্ষতার মধ্যে ব্যবধান পূরণ করে। শক্তিশালী সফ্টওয়্যার বিকাশের জন্য প্রয়োজনীয় কাঠামো প্রদান করার সময় এটি এলএলএম-এর খরচের সীমাবদ্ধতাকে সম্মান করে।

  1. এটি ছোট রাখুন: আপনার উদাহরণে 2-5টি সারি ব্যবহার করুন; মডেল সাধারণীকরণ করা হবে.
  1. স্পষ্ট হোন: শিরোনামগুলিকে স্পষ্টভাবে সংজ্ঞায়িত করুন যাতে মডেলটি স্কিমাটি জানে৷
  1. কঠোরভাবে যাচাই করুন: প্রজন্মের ত্রুটিগুলি ধরতে ফর্ম্যাটের মেটাডেটা ব্যবহার করুন৷

আপনার প্রম্পট পেলোডের জন্য JSON থেকে দূরে সরে গিয়ে, আপনি শুধু টোকেন সংরক্ষণ করছেন না—আপনি আরও নির্ভরযোগ্য AI পাইপলাইন তৈরি করছেন।