মূল্যায়ন হল পরীক্ষার একটি ফর্ম যা আপনাকে আপনার LLM-এর প্রতিক্রিয়াগুলিকে যাচাই করতে এবং সেগুলি আপনার মানের বারের সাথে মিলছে তা নিশ্চিত করতে সহায়তা করে৷
Firebase Genkit প্লাগইনগুলির মাধ্যমে তৃতীয় পক্ষের মূল্যায়ন সরঞ্জামগুলিকে সমর্থন করে, শক্তিশালী পর্যবেক্ষণ বৈশিষ্ট্যগুলির সাথে যুক্ত যা আপনার LLM-চালিত অ্যাপ্লিকেশনগুলির রানটাইম অবস্থার অন্তর্দৃষ্টি প্রদান করে৷ জেনকিট টুলিং আপনাকে স্বয়ংক্রিয়ভাবে ইনপুট, আউটপুট এবং LLM প্রতিক্রিয়াগুলির এন্ড-টু-এন্ড মানের মূল্যায়নের পাশাপাশি আপনার সিস্টেমের বিল্ডিং ব্লকগুলির কার্যকারিতা বোঝার জন্য মধ্যবর্তী পদক্ষেপগুলি থেকে তথ্য সহ ডেটা বের করতে সহায়তা করে।
উদাহরণস্বরূপ, যদি আপনার একটি RAG ফ্লো থাকে, Genkit নথির সেটগুলি বের করবে যা পুনরুদ্ধারকারী দ্বারা ফেরত দেওয়া হয়েছিল যাতে আপনি আপনার পুনরুদ্ধারের গুণমান মূল্যায়ন করতে পারেন যখন এটি Genkit বিশ্বস্ততার সাথে নীচে দেখানো হিসাবে প্রবাহের প্রেক্ষাপটে চলে। উত্তর প্রাসঙ্গিকতা মেট্রিক্স:
import { genkit } from 'genkit';
import { genkitEval, GenkitMetric } from '@genkit-ai/evaluator';
import { vertexAI, textEmbedding004, gemini15Flash } from '@genkit-ai/vertexai';
const ai = genkit({
plugins: [
vertexAI(),
genkitEval({
judge: gemini15Flash,
metrics: [GenkitMetric.FAITHFULNESS, GenkitMetric.ANSWER_RELEVANCY],
embedder: textEmbedding004, // GenkitMetric.ANSWER_RELEVANCY requires an embedder
}),
],
// ...
});
দ্রষ্টব্য: উপরের কনফিগারেশনের জন্য genkit
, @genkit-ai/google-ai
, @genkit-ai/evaluator
এবং @genkit-ai/vertexai
প্যাকেজ ইনস্টল করতে হবে।
npm install @genkit-ai/evaluator @genkit-ai/vertexai
আপনি testInputs.json
নামে একটি ইনপুট ডেটাসেট হিসাবে ব্যবহার করতে চান এমন ইনপুটগুলির একটি সেট সংজ্ঞায়িত করে শুরু করুন। এই ইনপুট ডেটাসেটটি পরীক্ষার ক্ষেত্রে উপস্থাপন করে যা আপনি মূল্যায়নের জন্য আউটপুট তৈরি করতে ব্যবহার করবেন।
["Cheese", "Broccoli", "Spinach and Kale"]
তারপর আপনি testInputs.json
এ প্রদত্ত পরীক্ষার ক্ষেত্রে আপনার প্রবাহের মূল্যায়ন করতে eval:flow
কমান্ডটি ব্যবহার করতে পারেন।
genkit eval:flow menuSuggestionFlow --input testInputs.json
তারপরে আপনি বিকাশকারী UI তে মূল্যায়নের ফলাফলগুলি চালিয়ে দেখতে পারেন:
genkit start
তারপর localhost:4000/evaluate
।
বিকল্পভাবে, আপনি একটি JSON ফাইলে আউটপুট পরিদর্শন করার জন্য একটি আউটপুট ফাইল প্রদান করতে পারেন।
genkit eval:flow menuSuggestionFlow --input testInputs.json --output eval-result.json
দ্রষ্টব্য: নীচে আপনি একটি উদাহরণ দেখতে পারেন যে কীভাবে একটি এলএলএম আপনাকে পরীক্ষার কেস তৈরি করতে সহায়তা করতে পারে।
সমর্থিত মূল্যায়নকারীদের
Genkit মূল্যায়নকারী
আপনাকে শুরু করতে সাহায্য করতে জেনকিটে RAGAS দ্বারা অনুপ্রাণিত স্বল্প সংখ্যক দেশীয় মূল্যায়নকারী অন্তর্ভুক্ত রয়েছে:
- বিশ্বস্ততা
- উত্তর প্রাসঙ্গিকতা
- বিদ্বেষ
মূল্যায়নকারী প্লাগইন
Genkit VertexAI প্লাগইনের মাধ্যমে VertexAI Rapid Evaluators এর মতো প্লাগইনগুলির মাধ্যমে অতিরিক্ত মূল্যায়নকারীদের সমর্থন করে।
উন্নত ব্যবহার
eval:flow
দ্রুত প্রবাহের মূল্যায়ন করার একটি সুবিধাজনক উপায়, কিন্তু কখনও কখনও আপনার মূল্যায়ন পদক্ষেপের উপর আরও নিয়ন্ত্রণের প্রয়োজন হতে পারে। এটি ঘটতে পারে যদি আপনি একটি ভিন্ন ফ্রেমওয়ার্ক ব্যবহার করেন এবং ইতিমধ্যেই কিছু আউটপুট থাকে যা আপনি মূল্যায়ন করতে চান। আপনি সমস্ত পদক্ষেপগুলি সম্পাদন করতে পারেন যা eval:flow
আধা-ম্যানুয়ালি সম্পাদন করে।
আপনি ব্যাচ আপনার জেনকিট ফ্লো চালাতে পারেন এবং রানে একটি অনন্য লেবেল যোগ করতে পারেন যা তারপর একটি মূল্যায়ন ডেটাসেট (ইনপুট, আউটপুট এবং প্রসঙ্গগুলির একটি সেট) বের করতে ব্যবহার করা হবে।
আপনার পরীক্ষার ইনপুটগুলির উপর প্রবাহ চালান:
genkit flow:batchRun myRagFlow test_inputs.json --output flow_outputs.json --label customLabel
মূল্যায়ন ডেটা বের করুন:
genkit eval:extractData myRagFlow --label customLabel --output customLabel_dataset.json
রপ্তানি করা ডেটা নিম্নলিখিত বিন্যাসে প্রতিটি testCase সহ একটি JSON ফাইল হিসাবে আউটপুট হবে:
[
{
"testCaseId": string,
"input": string,
"output": string,
"context": array of strings,
"traceIds": array of strings,
}
]
ডেটা এক্সট্র্যাক্টর স্বয়ংক্রিয়ভাবে পুনরুদ্ধারকারীদের সনাক্ত করবে এবং প্রসঙ্গ অ্যারেতে উত্পাদিত ডক্স যুক্ত করবে। ডিফল্টরূপে, eval:run
সমস্ত কনফিগার করা মূল্যায়নকারীদের বিরুদ্ধে চলবে, এবং eval:flow
এর মতো, eval:run
এর ফলাফল বিকাশকারী UI-এর মূল্যায়ন পৃষ্ঠায় প্রদর্শিত হবে, যা localhost:4000/evaluate
এ অবস্থিত।
কাস্টম এক্সট্র্যাক্টর
আপনি eval:extractData
এবং eval:flow
কমান্ডে ব্যবহার করার জন্য কাস্টম এক্সট্র্যাক্টর প্রদান করতে পারেন। কাস্টম এক্সট্র্যাক্টরগুলি আপনাকে ডিফল্ট নিষ্কাশন যুক্তিকে ওভাররাইড করার অনুমতি দেয় যা আপনাকে ডেটাসেট তৈরি করতে এবং তাদের মূল্যায়নে আরও শক্তি দেয়।
কাস্টম এক্সট্র্যাক্টর কনফিগার করতে, আপনার প্রোজেক্ট রুটে genkit-tools.conf.js
নামে একটি টুল কনফিগার ফাইল যোগ করুন যদি আপনার কাছে আগে থেকে না থাকে।
cd $GENKIT_PROJECT_HOME
touch genkit-tools.conf.js
টুল কনফিগার ফাইলে, নিম্নলিখিত কোড যোগ করুন:
module.exports = {
evaluators: [
{
actionRef: '/flow/myFlow',
extractors: {
context: { outputOf: 'foo-step' },
output: 'bar-step',
},
},
],
};
এই নমুনায়, আপনি myFlow
প্রবাহের জন্য একটি এক্সট্র্যাক্টর কনফিগার করেন। কনফিগারেশন context
এবং output
ক্ষেত্রের জন্য এক্সট্রাক্টরকে ওভাররাইড করে এবং input
ক্ষেত্রের জন্য ডিফল্ট লজিক ব্যবহার করে।
মূল্যায়ন নিষ্কাশনকারীদের স্পেসিফিকেশন নিম্নরূপ:
-
evaluators
ক্ষেত্র EvaluatorConfig অবজেক্টের একটি অ্যারে গ্রহণ করে, যাflowName
দ্বারা স্কোপ করা হয় -
extractors
হল একটি বস্তু যা এক্সট্র্যাক্টর ওভাররাইড নির্দিষ্ট করে।extractors
বর্তমান সমর্থিত কীগুলি হল[input, output, context]
। গ্রহণযোগ্য মান প্রকারগুলি হল:-
string
- এটি একটি ধাপের নাম হওয়া উচিত, একটি স্ট্রিং হিসাবে নির্দিষ্ট করা। এই ধাপের আউটপুট এই কীটির জন্য বের করা হয়। -
{ inputOf: string }
বা{ outputOf: string }
- এই বস্তুগুলি একটি ধাপের নির্দিষ্ট চ্যানেল (ইনপুট বা আউটপুট) উপস্থাপন করে। উদাহরণস্বরূপ,{ inputOf: 'foo-step' }
এই কীটির জন্য পদক্ষেপfoo-step
ইনপুট বের করবে। -
(trace) => string;
- আরও নমনীয়তার জন্য, আপনি একটি ফাংশন প্রদান করতে পারেন যা একটি জেনকিট ট্রেস গ্রহণ করে এবং একটিstring
প্রদান করে এবং এই ফাংশনের ভিতরে নিষ্কাশন যুক্তি নির্দিষ্ট করে। সঠিক ট্রেসডেটা স্কিমার জন্যgenkit/genkit-tools/common/src/types/trace.ts
পড়ুন।
-
দ্রষ্টব্য: এই সমস্ত পদক্ষেপের জন্য নিষ্কাশিত ডেটা একটি JSON স্ট্রিং হবে। টুলিং স্বয়ংক্রিয়ভাবে মূল্যায়নের সময় এই JSON স্ট্রিংকে পার্স করবে। একটি ফাংশন এক্সট্র্যাক্টর প্রদান করলে, নিশ্চিত করুন যে আউটপুটটি একটি বৈধ JSON স্ট্রিং। উদাহরণস্বরূপ: "Hello, world!"
বৈধ JSON নয়; "\"Hello, world!\""
বৈধ৷
বিদ্যমান ডেটাসেটে চলছে
ইতিমধ্যে নিষ্কাশিত ডেটাসেটের উপর মূল্যায়ন চালানোর জন্য:
genkit eval:run customLabel_dataset.json
একটি ভিন্ন অবস্থানে আউটপুট করতে, --output
পতাকা ব্যবহার করুন।
genkit eval:flow menuSuggestionFlow --input testInputs.json --output customLabel_evalresult.json
কনফিগার করা মূল্যায়নকারীদের একটি উপসেটে চালানোর জন্য, --evaluators
পতাকা ব্যবহার করুন এবং নাম অনুসারে মূল্যায়নকারীদের একটি কমা-বিচ্ছিন্ন তালিকা প্রদান করুন:
genkit eval:run customLabel_dataset.json --evaluators=genkit/faithfulness,genkit/answer_relevancy
একটি এলএলএম ব্যবহার করে পরীক্ষার ডেটা সংশ্লেষণ করা
এখানে একটি উদাহরণ প্রবাহ যা ব্যবহারকারীরা এটি সম্পর্কে জিজ্ঞাসা করতে পারে এমন সম্ভাব্য প্রশ্ন তৈরি করতে একটি PDF ফাইল ব্যবহার করে।
import { genkit, run, z } from "genkit";
import { googleAI, gemini15Flash } from "@genkit-ai/googleai";
import { chunk } from "llm-chunk";
const ai = genkit({ plugins: [googleAI()] });
export const synthesizeQuestions = ai.defineFlow(
{
name: "synthesizeQuestions",
inputSchema: z.string().describe("PDF file path"),
outputSchema: z.array(z.string()),
},
async (filePath) => {
filePath = path.resolve(filePath);
const pdfTxt = await run("extract-text", () => extractText(filePath));
const chunks = await run("chunk-it", async () =>
chunk(pdfTxt, chunkingConfig)
);
const questions: string[] = [];
for (var i = 0; i < chunks.length; i++) {
const qResponse = await ai.generate({
model: gemini15Flash,
prompt: {
text: `Generate one question about the text below: ${chunks[i]}`,
},
});
questions.push(qResponse.text);
}
return questions;
}
);
তারপরে আপনি এই কমান্ডটি একটি ফাইলে ডেটা রপ্তানি করতে এবং মূল্যায়নের জন্য ব্যবহার করতে পারেন।
genkit flow:run synthesizeQuestions '"my_input.pdf"' --output synthesizedQuestions.json