એલએલએમ સાથે ટૂનનો ઉપયોગ કેવી રીતે કરવો

એલએલએમ
પ્રોમ્પ્ટ એન્જિનિયરિંગ

જો તમે ક્યારેય ChatGPT અથવા Claude માં મોટો JSON એરે પેસ્ટ કર્યો હોય, તો તમે સંભવતઃ સંદર્ભ વિન્ડો બંધ થવાની પીડા અનુભવી હશે. JSON વેબ API માટે અદ્ભુત છે, પરંતુ લાર્જ લેંગ્વેજ મોડલ્સ (LLM) માટે, તે અતિ નકામી છે. દરેક એક રેકોર્ડ માટે "id":, "નામ":, અને "ટાઇમસ્ટેમ્પ": જેવા ફીલ્ડ નામોનું પુનરાવર્તન કરવું એ માત્ર બિનજરૂરી નથી; તે ટોકન્સ દ્વારા બળે છે જે વાસ્તવિક પૈસા અને મૂલ્યવાન સંદર્ભ જગ્યા ખર્ચ કરે છે.

આ તે છે જ્યાં TOON (ટેબલ ઑબ્જેક્ટ નોટેશન) ચમકે છે. તે માત્ર ડેટા ફોર્મેટ નથી; તે LLM ક્રિયાપ્રતિક્રિયાઓને ઑપ્ટિમાઇઝ કરવા માટેની વ્યૂહરચના છે. JSON ના સિન્ટેક્સ ટેક્સને દૂર કરીને અને સ્પષ્ટ માળખું હેડરો ઉમેરીને, TOON તમને તમારા મોડલ્સમાં વધુ ડેટા પસાર કરવાની અને બદલામાં વધુ વિશ્વસનીય માળખાગત આઉટપુટ મેળવવાની મંજૂરી આપે છે.

ટુનનું ટોકન ઇકોનોમિક્સ

શા માટે સ્વિચિંગ ફોર્મેટ્સ પરેશાન કરો? ગણિત સરળ છે. ઑબ્જેક્ટના પ્રમાણભૂત JSON એરેમાં, દરેક પંક્તિ માટે સ્કીમાનું પુનરાવર્તન થાય છે. જો તમારી પાસે 50 વપરાશકર્તાઓની સૂચિ છે, તો તમે ફીલ્ડના નામ માટે 50 વખત ચૂકવણી કરી રહ્યાં છો.

TOON હેડરમાં એકવાર સ્કીમા જાહેર કરીને આ નિરર્થકતાને દૂર કરે છે. ડેટા ગાઢ, સ્ટ્રીમ-લાઇનવાળા ફોર્મેટમાં અનુસરે છે. વ્યવહારમાં, આ સામાન્ય રીતે ફોર્મેટ કરેલ JSON ની તુલનામાં સમાન એરે માટે ટોકન વપરાશમાં 30-60% ઘટાડો માં પરિણમે છે. જ્યારે તમે મોટા પ્રમાણમાં સંદર્ભ વિન્ડો અથવા ઉચ્ચ-વોલ્યુમ API કૉલ્સ સાથે કામ કરી રહ્યાં હોવ, ત્યારે તે કાર્યક્ષમતા સીધા ઓછા બિલ અને ઓછી વિલંબમાં અનુવાદ કરે છે.

ડેટા મોકલો: "બતાવો, કહો નહીં" નિયમ

જ્યારે તમને ડેટાનું વિશ્લેષણ કરવા માટે એલએલએમની જરૂર હોય, ત્યારે તમારી પ્રોમ્પ્ટ વ્યૂહરચના નિર્ણાયક છે. પ્રારંભિક લોકો ઘણીવાર ડેટા ફોર્મેટને સમજાવતા લાંબા ફકરા લખે છે. TOON સાથે, તમારે તે કરવાની જરૂર નથી.

LLM એ પેટર્ન-મેચિંગ એન્જિન છે. તેઓ TOON ને સાહજિક રીતે સમજે છે કારણ કે તે YAML અને CSV ના વર્ણસંકર જેવું લાગે છે—ફોર્મેટ જે તેઓએ તાલીમ દરમિયાન અબજો વખત જોયા છે.

ડેટા મોકલવા માટે, તેને ફક્ત ફેન્સ્ડ કોડ બ્લોકમાં લપેટી દો. તમે તેને 'ટૂન' લેબલ કરી શકો છો, પરંતુ જો મોડલનું સિન્ટેક્સ હાઇલાઇટર તેને સત્તાવાર રીતે સમર્થન ન આપે તો પણ, મોડેલ તરત જ માળખું સમજે છે.

ઇનપુટ ઉદાહરણ

સ્કીમાનું વર્ણન કરવાને બદલે, ફક્ત બ્લોક પ્રદાન કરો:

હેડર વપરાશકર્તાઓ[3]{id,name,role,lastLogin} મોડેલને તે જાણવાની જરૂર છે તે બધું કહે છે: એન્ટિટી પ્રકાર, ગણતરી (3 પંક્તિઓ), અને ક્ષેત્રોનો ક્રમ. ઇન્ડેન્ટેશન વંશવેલો સંભાળે છે. આ "સ્વ-દસ્તાવેજીકરણ" પ્રકૃતિ વાક્યરચના પાર્સિંગ સૂચનાઓને બદલે વાસ્તવિક તર્ક કાર્ય પર ધ્યાન કેન્દ્રિત કરવા માટે તમારા પ્રોમ્પ્ટને મુક્ત કરે છે.

``એમડી અહીં વપરાશકર્તા પ્રવૃત્તિ લોગ છે. ડેટા TOON ફોર્મેટમાં છે (2-સ્પેસ ઇન્ડેન્ટ, સ્પષ્ટ હેડર).

વપરાશકર્તાઓ[3]{id,name,role,lastLogin}: 1,એલિસ,એડમિન,2025-01-15T10:30:00Z 2,બોબ,વપરાશકર્તા,2025-01-14T15:22:00Z 3,ચાર્લી,વપરાશકર્તા,2025-01-13T09:45:00Z

કાર્ય: લૉગ્સનું વિશ્લેષણ કરો અને ઓળખો કે છેલ્લા 24 કલાકમાં કયા વપરાશકર્તાઓએ લૉગ ઇન કર્યું નથી.

વિશ્વસનીય આઉટપુટ જનરેટ કરી રહ્યું છે

ડેટા વાંચવા માટે એલએલએમ મેળવવું સરળ છે; માન્ય સંરચિત ડેટાને _જનરેટ_માં મેળવવો એ મુશ્કેલ ભાગ છે. મૉડલ્સને ભ્રમિત કરવાનું, JSONને કાપવાનું અથવા કૌંસ બંધ કરવાનું ભૂલી જવું ગમે છે.

TOON તેના હેડર સિન્ટેક્સ દ્વારા સલામતીનું સ્તર ઉમેરે છે, ખાસ કરીને [N] ગણતરી. જ્યારે તમે મોડલને ટૂન આઉટપુટ કરવા માટે કહો છો, ત્યારે તમે તેને ડેટા જનરેટ કરે તે પહેલા તેને સ્ટ્રક્ચરમાં કમિટ કરવા માટે કહો છો.

જનરેશન માટે પ્રોમ્પ્ટીંગ

શ્રેષ્ઠ પરિણામો મેળવવા માટે, તમે અપેક્ષા કરો છો તે હેડર ફોર્મેટ પ્રદાન કરો અને પંક્તિઓ ભરવા માટે મોડેલને સૂચના આપો.

મોડેલને [N] ની ગણતરી કરવાનું કહીને, તમે "વિચારોની સાંકળ" પ્રક્રિયાને દબાણ કરો છો જ્યાં મોડેલે આઉટપુટ કદનું આયોજન કરવું જોઈએ. આ મોટે ભાગે નાની મર્યાદા સૂચિમાંથી અડધા રસ્તે મોડલ કાપવાની સંભાવનાને નોંધપાત્ર રીતે ઘટાડે છે.

``એમડી કાર્ય: "વપરાશકર્તા" ભૂમિકા સાથે સક્રિય વપરાશકર્તાઓની સૂચિ પરત કરો. ફોર્મેટ: TOON નો ઉપયોગ કરો. તમે જનરેટ કરો છો તે પંક્તિઓની ચોક્કસ સંખ્યા સાથે મેળ કરવા માટે હેડરમાં [N] મૂલ્ય સેટ કરો.

અપેક્ષિત ફોર્મેટ: વપરાશકર્તાઓ[N]{id,name,role,lastLogin}:

કડક મોડ સાથે માન્ય કરી રહ્યું છે

જ્યારે તમને LLM તરફથી પ્રતિસાદ મળે છે, ત્યારે તમારે ફક્ત તેના પર વિશ્વાસ ન કરવો જોઈએ. આ તે છે જ્યાં TOON લાઇબ્રેરીનો કડક મોડ પ્રોડક્શન એપ્લિકેશન્સ માટે સુપરપાવર બની જાય છે.

જો તમે TypeScript લાઇબ્રેરીનો ઉપયોગ કરી રહ્યાં છો, તો કડક મોડ સાથે ડીકોડિંગ પ્રમાણિત કરે છે કે જનરેટ કરેલી પંક્તિઓ હેડરની સંખ્યા સાથે મેળ ખાય છે:

આ તમને તમારી એપ્લિકેશનમાં ખરાબ ડેટા ડાઉનસ્ટ્રીમ શોધવાને બદલે પ્રોગ્રામેટિકલી "આળસુ" મોડેલ આઉટપુટ અથવા નેટવર્ક ટ્રંકેશનને તરત જ પકડવાની મંજૂરી આપે છે.

``ટાઇપસ્ક્રિપ્ટ '@toon-format/toon' માંથી { ડીકોડ } આયાત કરો;

પ્રયાસ કરો { // જો મોડેલ [5] કહે છે પરંતુ 4 પંક્તિઓ પ્રદાન કરે છે, તો આ એક ભૂલ ફેંકે છે. const ડેટા = ડીકોડ(મોડેલઆઉટપુટ, { કડક: સાચું }); console.log('માન્ય ડેટા પ્રાપ્ત થયો:', ડેટા); } પકડો (ભૂલ) { console.error('મોડેલ ભ્રામકતા અથવા કપાયેલું શોધાયેલ:', error.message); }

એડવાન્સ ઑપ્ટિમાઇઝેશન: ટૅબ ટ્રિક

જો તમે ઑપ્ટિમાઇઝેશન (અને એલએલએમની દુનિયામાં, તમારે કદાચ હોવું જોઈએ) સાથે ઝનૂની હોય, તો તમે તમારા સીમાંકકોને સમજદારીપૂર્વક પસંદ કરીને વધુ કાર્યક્ષમતા મેળવી શકો છો.

અલ્પવિરામ પ્રમાણભૂત છે, પરંતુ ટૅબ્સ (\t) ઘણી વખત ટોકનાઇઝર શબ્દભંડોળમાં એક ટોકન તરીકે રજૂ થાય છે. વધુમાં, ટેબ્સ ભાગ્યે જ પ્રાકૃતિક ટેક્સ્ટ ફીલ્ડ્સની અંદર દેખાય છે, જે એસ્કેપ અક્ષરોની જરૂરિયાત ઘટાડે છે (જેમ કે અવતરણમાં સ્ટ્રીંગ્સ લપેટી).

તમે તમારા ડેટાને મોડેલ પર મોકલતા પહેલા ટેબનો ઉપયોગ કરીને એન્કોડ કરી શકો છો:

ફક્ત પ્રોમ્પ્ટમાં મોડેલને જાણ કરવાનું યાદ રાખો: "ડેટા ટૅબ-સેપરેટેડ ટૂન છે." આ એક હાઇપર-કોમ્પેક્ટ રજૂઆત બનાવે છે જે મોડેલ માટે પાર્સ અને જનરેટ કરવા માટે અતિ સરળ છે.

``ટાઇપસ્ક્રિપ્ટ const toonPrompt = encode(data, { delimiter: '\t' });

એક સંપૂર્ણ વર્કફ્લોનું ઉદાહરણ

ચાલો વાસ્તવિક-વિશ્વનું દૃશ્ય જોઈએ: ફિલ્ટરિંગ સિસ્ટમ લોગ. તમે મોડલ પર કાચા લોગ મોકલવા અને ભૂલોની સંરચિત સૂચિ પાછી મેળવવા માંગો છો.

પ્રોમ્પ્ટ:

મૉડલ આઉટપુટ:

``એમડી TOON ફોર્મેટમાં સિસ્ટમ લૉગ્સ (ટેબથી અલગ):

ઇવેન્ટ્સ[4]{id,level,message,timestamp}: 1,ભૂલ,કનેક્શન સમયસમાપ્તિ,2025-01-15T10:00:00Z 2,ચેતવણી,ધીમી ક્વેરી,2025-01-15T10:05:00Z 3,માહિતી,વપરાશકર્તા લોગીન,2025-01-15T10:10:00Z 4,ભૂલ,ડેટાબેઝ ભૂલ025-01-15T10:15:00Z

કાર્ય: સ્તર 'એરર' સાથે તમામ ઇવેન્ટ્સ બહાર કાઢો. અપડેટ હેડર કાઉન્ટ સાથે પરિણામને માન્ય TOON તરીકે પરત કરો.

પરિણામ:

``ટૂન ઇવેન્ટ્સ[2]{id,level,message,timestamp}: 1,ભૂલ,કનેક્શન સમયસમાપ્તિ,2025-01-15T10:00:00Z 4,ભૂલ,ડેટાબેઝ ભૂલ,2025-01-15T10:15:00Z

મોડેલે સૂચિને યોગ્ય રીતે ફિલ્ટર કર્યું અને, નિર્ણાયક રીતે, હેડરને ઇવેન્ટ્સ[2] પર અપડેટ કર્યું. આ પ્રતિભાવને ડીકોડ કરીને, તમે તમારા એપ્લિકેશન તર્ક માટે સ્વચ્છ, ટાઇપ-સેફ એરે મેળવો છો.

સારાંશ

ટૂન માનવ વાંચનક્ષમતા અને મશીનની કાર્યક્ષમતા વચ્ચેના અંતરને દૂર કરે છે. મજબૂત સોફ્ટવેર ડેવલપમેન્ટ માટે જરૂરી માળખું પ્રદાન કરતી વખતે તે એલએલએમની કિંમતની મર્યાદાઓનો આદર કરે છે.

  1. તેને નાનું રાખો: તમારા ઉદાહરણોમાં 2-5 પંક્તિઓનો ઉપયોગ કરો; મોડેલ સામાન્યીકરણ કરશે.
  1. સ્પષ્ટ બનો: હેડરોને સ્પષ્ટ રીતે વ્યાખ્યાયિત કરો જેથી મોડેલ સ્કીમાને જાણે.
  1. સખત રીતે માન્ય કરો: જનરેશન ભૂલો પકડવા માટે ફોર્મેટના મેટાડેટાનો ઉપયોગ કરો.

તમારા પ્રોમ્પ્ટ પેલોડ્સ માટે JSON થી દૂર જઈને, તમે માત્ર ટોકન્સ બચાવી રહ્યાં નથી-તમે વધુ વિશ્વસનીય AI પાઇપલાઇન બનાવી રહ્યાં છો.