মূল্যায়ন

মূল্যায়ন হল এক ধরনের পরীক্ষার যা আপনাকে আপনার এলএলএম-এর প্রতিক্রিয়া যাচাই করতে এবং সেগুলি আপনার মানের বারের সাথে মিলছে তা নিশ্চিত করতে সাহায্য করে।

Firebase Genkit প্লাগইনগুলির মাধ্যমে তৃতীয় পক্ষের মূল্যায়ন সরঞ্জামগুলিকে সমর্থন করে, শক্তিশালী পর্যবেক্ষণ বৈশিষ্ট্যগুলির সাথে যুক্ত যা আপনার LLM-চালিত অ্যাপ্লিকেশনগুলির রানটাইম অবস্থার অন্তর্দৃষ্টি প্রদান করে৷ জেনকিট টুলিং আপনাকে স্বয়ংক্রিয়ভাবে ইনপুট, আউটপুট এবং LLM প্রতিক্রিয়াগুলির এন্ড-টু-এন্ড মানের মূল্যায়নের পাশাপাশি আপনার সিস্টেমের বিল্ডিং ব্লকগুলির কার্যকারিতা বোঝার জন্য মধ্যবর্তী পদক্ষেপগুলি থেকে তথ্য সহ ডেটা বের করতে সহায়তা করে।

উদাহরণস্বরূপ, যদি আপনার একটি RAG ফ্লো থাকে, Genkit নথির সেটগুলি বের করবে যা পুনরুদ্ধারকারী দ্বারা ফেরত দেওয়া হয়েছিল যাতে আপনি আপনার পুনরুদ্ধারের গুণমান মূল্যায়ন করতে পারেন যখন এটি Genkit বিশ্বস্ততার সাথে নীচে দেখানো হিসাবে প্রবাহের প্রেক্ষাপটে চলে। উত্তর প্রাসঙ্গিকতা মেট্রিক্স:

import { GenkitMetric, genkitEval } from '@genkit-ai/evaluator';
import { textEmbeddingGecko } from '@genkit-ai/vertexai';

export default configureGenkit({
  plugins: [
    genkitEval({
      judge: gemini15Flash,
      metrics: [GenkitMetric.FAITHFULNESS, GenkitMetric.ANSWER_RELEVANCY],
      embedder: textEmbeddingGecko, // GenkitMetric.ANSWER_RELEVANCY requires an embedder
    }),
  ],
  // ...
});
  npm install @genkit-ai/evaluator @genkit-ai/vertexai

আপনি testInputs.json নামে একটি ইনপুট ডেটাসেট হিসাবে ব্যবহার করতে চান এমন ইনপুটগুলির একটি সেট সংজ্ঞায়িত করে শুরু করুন। এই ইনপুট ডেটাসেটটি পরীক্ষার ক্ষেত্রে উপস্থাপন করে যা আপনি মূল্যায়নের জন্য আউটপুট তৈরি করতে ব্যবহার করবেন।

["Cheese", "Broccoli", "Spinach and Kale"]

তারপর আপনি testInputs.json এ প্রদত্ত পরীক্ষার ক্ষেত্রে আপনার প্রবাহের মূল্যায়ন করতে eval:flow কমান্ডটি ব্যবহার করতে পারেন।

genkit eval:flow menuSuggestionFlow --input testInputs.json

তারপরে আপনি বিকাশকারী UI তে মূল্যায়নের ফলাফলগুলি চালিয়ে দেখতে পারেন:

genkit start

তারপর localhost:4000/evaluate

বিকল্পভাবে, আপনি একটি json ফাইলে আউটপুট পরিদর্শন করার জন্য একটি আউটপুট ফাইল প্রদান করতে পারেন।

genkit eval:flow menuSuggestionFlow --input testInputs.json --output eval-result.json

সমর্থিত মূল্যায়নকারীদের

Genkit মূল্যায়নকারী

আপনাকে শুরু করতে সাহায্য করতে জেনকিটে RAGAS দ্বারা অনুপ্রাণিত স্বল্প সংখ্যক দেশীয় মূল্যায়নকারী অন্তর্ভুক্ত রয়েছে:

  • বিশ্বস্ততা
  • উত্তর প্রাসঙ্গিকতা
  • বিদ্বেষ

মূল্যায়নকারী প্লাগইন

Genkit প্লাগইনগুলির মাধ্যমে অতিরিক্ত মূল্যায়নকারীদের সমর্থন করে:

উন্নত ব্যবহার

eval:flow দ্রুত প্রবাহের মূল্যায়ন করার একটি সুবিধাজনক উপায়, কিন্তু কখনও কখনও আপনার মূল্যায়ন পদক্ষেপের উপর আরও নিয়ন্ত্রণের প্রয়োজন হতে পারে। এটি ঘটতে পারে যদি আপনি একটি ভিন্ন ফ্রেমওয়ার্ক ব্যবহার করেন এবং ইতিমধ্যেই কিছু আউটপুট থাকে যা আপনি মূল্যায়ন করতে চান। আপনি সমস্ত পদক্ষেপ সম্পাদন করতে পারেন যা eval:flow আধা-ম্যানুয়ালি সম্পাদন করে।

আপনি ব্যাচ আপনার জেনকিট ফ্লো চালাতে পারেন এবং রানে একটি অনন্য লেবেল যোগ করতে পারেন যা তারপর একটি মূল্যায়ন ডেটাসেট (ইনপুট, আউটপুট এবং প্রসঙ্গগুলির একটি সেট) বের করতে ব্যবহার করা হবে।

আপনার পরীক্ষার ইনপুটগুলির উপর প্রবাহ চালান:

genkit flow:batchRun myRagFlow test_inputs.json --output flow_outputs.json --label customLabel

মূল্যায়ন ডেটা বের করুন:

genkit eval:extractData myRagFlow --label customLabel --output customLabel_dataset.json

রপ্তানি করা ডেটা নিম্নলিখিত বিন্যাসে প্রতিটি testCase সহ একটি json ফাইল হিসাবে আউটপুট হবে:

[
  {
    "testCaseId": string,
    "input": string,
    "output": string,
    "context": array of strings,
    "traceIds": array of strings,
  }
]

ডেটা এক্সট্র্যাক্টর স্বয়ংক্রিয়ভাবে পুনরুদ্ধারকারীদের সনাক্ত করবে এবং প্রসঙ্গ অ্যারেতে উত্পাদিত ডক্স যুক্ত করবে। ডিফল্টরূপে, eval:run সমস্ত কনফিগার করা মূল্যায়নকারীদের বিরুদ্ধে চলবে, এবং eval:flow এর মতো, eval:run এর ফলাফল বিকাশকারী UI-এর মূল্যায়ন পৃষ্ঠায় প্রদর্শিত হবে, যা localhost:4000/evaluate এ অবস্থিত।

কাস্টম এক্সট্র্যাক্টর

এছাড়াও আপনি eval:extractData এবং eval:flow কমান্ডে ব্যবহার করার জন্য কাস্টম এক্সট্র্যাক্টর প্রদান করতে পারেন। কাস্টম এক্সট্র্যাক্টর আপনাকে ডিফল্ট নিষ্কাশন যুক্তিকে ওভাররাইড করার অনুমতি দেয় যা আপনাকে ডেটাসেট তৈরি করতে এবং তাদের মূল্যায়নে আরও শক্তি দেয়।

কাস্টম এক্সট্র্যাক্টর কনফিগার করতে, আপনার প্রোজেক্ট রুটে genkit-tools.conf.js নামে একটি টুল কনফিগার ফাইল যোগ করুন, যদি আপনার কাছে ইতিমধ্যে একটি না থাকে।

cd $GENKIT_PROJECT_HOME
touch genkit-tools.conf.js

টুল কনফিগার ফাইলে, নিম্নলিখিত কোড যোগ করুন:

module.exports = {
  evaluators: [
    {
      flowName: 'myFlow',
      extractors: {
        context: { outputOf: 'foo-step' },
        output: 'bar-step',
      },
    },
  ],
};

এই নমুনায়, আপনি myFlow প্রবাহের জন্য একটি এক্সট্র্যাক্টর কনফিগার করেন। কনফিগারেশন context এবং output ক্ষেত্রগুলির জন্য এক্সট্র্যাক্টরগুলিকে ওভাররাইড করে এবং input ক্ষেত্রের জন্য ডিফল্ট যুক্তি ব্যবহার করে।

মূল্যায়ন নিষ্কাশনকারীর স্পেসিফিকেশন নিম্নরূপ:

  • evaluators ক্ষেত্র EvaluatorConfig অবজেক্টের একটি অ্যারে গ্রহণ করে, যা flowName দ্বারা স্কোপ করা হয়
  • extractors হল একটি বস্তু যা এক্সট্রাক্টর ওভাররাইডগুলিকে নির্দিষ্ট করে। extractors বর্তমান সমর্থিত কীগুলি হল [input, output, context] । গ্রহণযোগ্য মান প্রকারগুলি হল:
    • string - এটি একটি ধাপের নাম হওয়া উচিত, একটি stirng হিসাবে নির্দিষ্ট করা। এই ধাপের আউটপুট এই কীটির জন্য বের করা হয়।
    • { inputOf: string } বা { outputOf: string } - এই বস্তুগুলি একটি ধাপের নির্দিষ্ট চ্যানেল (ইনপুট বা আউটপুট) উপস্থাপন করে। উদাহরণস্বরূপ, { inputOf: 'foo-step' } এই কীটির জন্য পদক্ষেপ foo-step ইনপুট বের করবে।
    • (trace) => string; - আরও নমনীয়তার জন্য, আপনি একটি ফাংশন প্রদান করতে পারেন যা একটি জেনকিট ট্রেস গ্রহণ করে এবং একটি string প্রদান করে এবং এই ফাংশনের ভিতরে নিষ্কাশন যুক্তি নির্দিষ্ট করে। সঠিক ট্রেসডেটা স্কিমার জন্য genkit/genkit-tools/common/src/types/trace.ts পড়ুন।

বিদ্যমান ডেটাসেটে চলছে

ইতিমধ্যে নিষ্কাশিত ডেটাসেটের উপর মূল্যায়ন চালানোর জন্য:

genkit eval:run customLabel_dataset.json

একটি ভিন্ন অবস্থানে আউটপুট করতে, --output পতাকা ব্যবহার করুন।

genkit eval:flow menuSuggestionFlow --input testInputs.json --output customLabel_evalresult.json

কনফিগার করা মূল্যায়নকারীদের একটি উপসেটে চালানোর জন্য, --evaluators পতাকা ব্যবহার করুন এবং নাম অনুসারে মূল্যায়নকারীদের একটি কমা বিভক্ত তালিকা প্রদান করুন:

genkit eval:run customLabel_dataset.json --evaluators=genkit/faithfulness,genkit/answer_relevancy

একটি এলএলএম ব্যবহার করে পরীক্ষার ডেটা সংশ্লেষণ করা

এখানে একটি উদাহরণ প্রবাহ যা ব্যবহারকারীরা এটি সম্পর্কে জিজ্ঞাসা করতে পারে এমন সম্ভাব্য প্রশ্ন তৈরি করতে একটি PDF ফাইল ব্যবহার করে।

export const synthesizeQuestions = defineFlow(
  {
    name: 'synthesizeQuestions',
    inputSchema: z.string().describe('PDF file path'),
    outputSchema: z.array(z.string()),
  },
  async (filePath) => {
    filePath = path.resolve(filePath);
    const pdfTxt = await run('extract-text', () => extractText(filePath));

    const chunks = await run('chunk-it', async () =>
      chunk(pdfTxt, chunkingConfig)
    );

    const questions: string[] = [];
    for (var i = 0; i < chunks.length; i++) {
      const qResponse = await generate({
        model: gemini15Flash,
        prompt: {
          text: `Generate one question about the text below: ${chunks[i]}`,
        },
      });
      questions.push(qResponse.text());
    }
    return questions;
  }
);

তারপরে আপনি একটি ফাইলে ডেটা রপ্তানি করতে এবং মূল্যায়নের জন্য ব্যবহার করতে এই কমান্ডটি ব্যবহার করতে পারেন।

genkit flow:run synthesizeQuestions '"my_input.pdf"' --output synthesizedQuestions.json