মূল্যায়ন হল এক ধরনের পরীক্ষার যা আপনাকে আপনার এলএলএম-এর প্রতিক্রিয়া যাচাই করতে এবং সেগুলি আপনার মানের বারের সাথে মিলছে তা নিশ্চিত করতে সাহায্য করে।
Firebase Genkit প্লাগইনগুলির মাধ্যমে তৃতীয় পক্ষের মূল্যায়ন সরঞ্জামগুলিকে সমর্থন করে, শক্তিশালী পর্যবেক্ষণ বৈশিষ্ট্যগুলির সাথে যুক্ত যা আপনার LLM-চালিত অ্যাপ্লিকেশনগুলির রানটাইম অবস্থার অন্তর্দৃষ্টি প্রদান করে৷ জেনকিট টুলিং আপনাকে স্বয়ংক্রিয়ভাবে ইনপুট, আউটপুট এবং LLM প্রতিক্রিয়াগুলির এন্ড-টু-এন্ড মানের মূল্যায়নের পাশাপাশি আপনার সিস্টেমের বিল্ডিং ব্লকগুলির কার্যকারিতা বোঝার জন্য মধ্যবর্তী পদক্ষেপগুলি থেকে তথ্য সহ ডেটা বের করতে সহায়তা করে।
উদাহরণস্বরূপ, যদি আপনার একটি RAG ফ্লো থাকে, Genkit নথির সেটগুলি বের করবে যা পুনরুদ্ধারকারী দ্বারা ফেরত দেওয়া হয়েছিল যাতে আপনি আপনার পুনরুদ্ধারের গুণমান মূল্যায়ন করতে পারেন যখন এটি Genkit বিশ্বস্ততার সাথে নীচে দেখানো হিসাবে প্রবাহের প্রেক্ষাপটে চলে। উত্তর প্রাসঙ্গিকতা মেট্রিক্স:
import { GenkitMetric, genkitEval } from '@genkit-ai/evaluator';
import { textEmbeddingGecko } from '@genkit-ai/vertexai';
export default configureGenkit({
plugins: [
genkitEval({
judge: gemini15Flash,
metrics: [GenkitMetric.FAITHFULNESS, GenkitMetric.ANSWER_RELEVANCY],
embedder: textEmbeddingGecko, // GenkitMetric.ANSWER_RELEVANCY requires an embedder
}),
],
// ...
});
npm install @genkit-ai/evaluator @genkit-ai/vertexai
আপনি testInputs.json
নামে একটি ইনপুট ডেটাসেট হিসাবে ব্যবহার করতে চান এমন ইনপুটগুলির একটি সেট সংজ্ঞায়িত করে শুরু করুন। এই ইনপুট ডেটাসেটটি পরীক্ষার ক্ষেত্রে উপস্থাপন করে যা আপনি মূল্যায়নের জন্য আউটপুট তৈরি করতে ব্যবহার করবেন।
["Cheese", "Broccoli", "Spinach and Kale"]
তারপর আপনি testInputs.json
এ প্রদত্ত পরীক্ষার ক্ষেত্রে আপনার প্রবাহের মূল্যায়ন করতে eval:flow
কমান্ডটি ব্যবহার করতে পারেন।
genkit eval:flow menuSuggestionFlow --input testInputs.json
তারপরে আপনি বিকাশকারী UI তে মূল্যায়নের ফলাফলগুলি চালিয়ে দেখতে পারেন:
genkit start
তারপর localhost:4000/evaluate
।
বিকল্পভাবে, আপনি একটি json ফাইলে আউটপুট পরিদর্শন করার জন্য একটি আউটপুট ফাইল প্রদান করতে পারেন।
genkit eval:flow menuSuggestionFlow --input testInputs.json --output eval-result.json
সমর্থিত মূল্যায়নকারীদের
Genkit মূল্যায়নকারী
আপনাকে শুরু করতে সাহায্য করতে জেনকিটে RAGAS দ্বারা অনুপ্রাণিত স্বল্প সংখ্যক দেশীয় মূল্যায়নকারী অন্তর্ভুক্ত রয়েছে:
- বিশ্বস্ততা
- উত্তর প্রাসঙ্গিকতা
- বিদ্বেষ
মূল্যায়নকারী প্লাগইন
Genkit প্লাগইনগুলির মাধ্যমে অতিরিক্ত মূল্যায়নকারীদের সমর্থন করে:
- VertexAI প্লাগইনের মাধ্যমে VertexAI দ্রুত মূল্যায়নকারীরা।
- LangChain প্লাগইনের মাধ্যমে LangChain মানদণ্ড মূল্যায়ন ।
উন্নত ব্যবহার
eval:flow
দ্রুত প্রবাহের মূল্যায়ন করার একটি সুবিধাজনক উপায়, কিন্তু কখনও কখনও আপনার মূল্যায়ন পদক্ষেপের উপর আরও নিয়ন্ত্রণের প্রয়োজন হতে পারে। এটি ঘটতে পারে যদি আপনি একটি ভিন্ন ফ্রেমওয়ার্ক ব্যবহার করেন এবং ইতিমধ্যেই কিছু আউটপুট থাকে যা আপনি মূল্যায়ন করতে চান। আপনি সমস্ত পদক্ষেপ সম্পাদন করতে পারেন যা eval:flow
আধা-ম্যানুয়ালি সম্পাদন করে।
আপনি ব্যাচ আপনার জেনকিট ফ্লো চালাতে পারেন এবং রানে একটি অনন্য লেবেল যোগ করতে পারেন যা তারপর একটি মূল্যায়ন ডেটাসেট (ইনপুট, আউটপুট এবং প্রসঙ্গগুলির একটি সেট) বের করতে ব্যবহার করা হবে।
আপনার পরীক্ষার ইনপুটগুলির উপর প্রবাহ চালান:
genkit flow:batchRun myRagFlow test_inputs.json --output flow_outputs.json --label customLabel
মূল্যায়ন ডেটা বের করুন:
genkit eval:extractData myRagFlow --label customLabel --output customLabel_dataset.json
রপ্তানি করা ডেটা নিম্নলিখিত বিন্যাসে প্রতিটি testCase সহ একটি json ফাইল হিসাবে আউটপুট হবে:
[
{
"testCaseId": string,
"input": string,
"output": string,
"context": array of strings,
"traceIds": array of strings,
}
]
ডেটা এক্সট্র্যাক্টর স্বয়ংক্রিয়ভাবে পুনরুদ্ধারকারীদের সনাক্ত করবে এবং প্রসঙ্গ অ্যারেতে উত্পাদিত ডক্স যুক্ত করবে। ডিফল্টরূপে, eval:run
সমস্ত কনফিগার করা মূল্যায়নকারীদের বিরুদ্ধে চলবে, এবং eval:flow
এর মতো, eval:run
এর ফলাফল বিকাশকারী UI-এর মূল্যায়ন পৃষ্ঠায় প্রদর্শিত হবে, যা localhost:4000/evaluate
এ অবস্থিত।
কাস্টম এক্সট্র্যাক্টর
এছাড়াও আপনি eval:extractData
এবং eval:flow
কমান্ডে ব্যবহার করার জন্য কাস্টম এক্সট্র্যাক্টর প্রদান করতে পারেন। কাস্টম এক্সট্র্যাক্টর আপনাকে ডিফল্ট নিষ্কাশন যুক্তিকে ওভাররাইড করার অনুমতি দেয় যা আপনাকে ডেটাসেট তৈরি করতে এবং তাদের মূল্যায়নে আরও শক্তি দেয়।
কাস্টম এক্সট্র্যাক্টর কনফিগার করতে, আপনার প্রোজেক্ট রুটে genkit-tools.conf.js
নামে একটি টুল কনফিগার ফাইল যোগ করুন, যদি আপনার কাছে ইতিমধ্যে একটি না থাকে।
cd $GENKIT_PROJECT_HOME
touch genkit-tools.conf.js
টুল কনফিগার ফাইলে, নিম্নলিখিত কোড যোগ করুন:
module.exports = {
evaluators: [
{
flowName: 'myFlow',
extractors: {
context: { outputOf: 'foo-step' },
output: 'bar-step',
},
},
],
};
এই নমুনায়, আপনি myFlow
প্রবাহের জন্য একটি এক্সট্র্যাক্টর কনফিগার করেন। কনফিগারেশন context
এবং output
ক্ষেত্রগুলির জন্য এক্সট্র্যাক্টরগুলিকে ওভাররাইড করে এবং input
ক্ষেত্রের জন্য ডিফল্ট যুক্তি ব্যবহার করে।
মূল্যায়ন নিষ্কাশনকারীর স্পেসিফিকেশন নিম্নরূপ:
-
evaluators
ক্ষেত্র EvaluatorConfig অবজেক্টের একটি অ্যারে গ্রহণ করে, যাflowName
দ্বারা স্কোপ করা হয় -
extractors
হল একটি বস্তু যা এক্সট্রাক্টর ওভাররাইডগুলিকে নির্দিষ্ট করে।extractors
বর্তমান সমর্থিত কীগুলি হল[input, output, context]
। গ্রহণযোগ্য মান প্রকারগুলি হল:-
string
- এটি একটি ধাপের নাম হওয়া উচিত, একটি stirng হিসাবে নির্দিষ্ট করা। এই ধাপের আউটপুট এই কীটির জন্য বের করা হয়। -
{ inputOf: string }
বা{ outputOf: string }
- এই বস্তুগুলি একটি ধাপের নির্দিষ্ট চ্যানেল (ইনপুট বা আউটপুট) উপস্থাপন করে। উদাহরণস্বরূপ,{ inputOf: 'foo-step' }
এই কীটির জন্য পদক্ষেপfoo-step
ইনপুট বের করবে। -
(trace) => string;
- আরও নমনীয়তার জন্য, আপনি একটি ফাংশন প্রদান করতে পারেন যা একটি জেনকিট ট্রেস গ্রহণ করে এবং একটিstring
প্রদান করে এবং এই ফাংশনের ভিতরে নিষ্কাশন যুক্তি নির্দিষ্ট করে। সঠিক ট্রেসডেটা স্কিমার জন্যgenkit/genkit-tools/common/src/types/trace.ts
পড়ুন।
-
বিদ্যমান ডেটাসেটে চলছে
ইতিমধ্যে নিষ্কাশিত ডেটাসেটের উপর মূল্যায়ন চালানোর জন্য:
genkit eval:run customLabel_dataset.json
একটি ভিন্ন অবস্থানে আউটপুট করতে, --output
পতাকা ব্যবহার করুন।
genkit eval:flow menuSuggestionFlow --input testInputs.json --output customLabel_evalresult.json
কনফিগার করা মূল্যায়নকারীদের একটি উপসেটে চালানোর জন্য, --evaluators
পতাকা ব্যবহার করুন এবং নাম অনুসারে মূল্যায়নকারীদের একটি কমা বিভক্ত তালিকা প্রদান করুন:
genkit eval:run customLabel_dataset.json --evaluators=genkit/faithfulness,genkit/answer_relevancy
একটি এলএলএম ব্যবহার করে পরীক্ষার ডেটা সংশ্লেষণ করা
এখানে একটি উদাহরণ প্রবাহ যা ব্যবহারকারীরা এটি সম্পর্কে জিজ্ঞাসা করতে পারে এমন সম্ভাব্য প্রশ্ন তৈরি করতে একটি PDF ফাইল ব্যবহার করে।
export const synthesizeQuestions = defineFlow(
{
name: 'synthesizeQuestions',
inputSchema: z.string().describe('PDF file path'),
outputSchema: z.array(z.string()),
},
async (filePath) => {
filePath = path.resolve(filePath);
const pdfTxt = await run('extract-text', () => extractText(filePath));
const chunks = await run('chunk-it', async () =>
chunk(pdfTxt, chunkingConfig)
);
const questions: string[] = [];
for (var i = 0; i < chunks.length; i++) {
const qResponse = await generate({
model: gemini15Flash,
prompt: {
text: `Generate one question about the text below: ${chunks[i]}`,
},
});
questions.push(qResponse.text());
}
return questions;
}
);
তারপরে আপনি একটি ফাইলে ডেটা রপ্তানি করতে এবং মূল্যায়নের জন্য ব্যবহার করতে এই কমান্ডটি ব্যবহার করতে পারেন।
genkit flow:run synthesizeQuestions '"my_input.pdf"' --output synthesizedQuestions.json