PDF 파일로 채팅하기

이 Codelab에서는 사용자가 자연어를 사용하여 PDF 문서에서 정보를 추출할 수 있는 대화형 애플리케이션을 빌드하는 방법을 보여줍니다.

프로젝트 설정하기
필요한 종속 항목 가져오기
Genkit 및 기본 모델 구성
PDF 파일 로드 및 파싱
프롬프트 설정하기
UI 구현
채팅 루프 구현
앱 실행

기본 요건

작업을 시작하기 전에 다음 기본 요건을 설정해야 합니다.

구현 단계

종속 항목을 설정한 후 프로젝트를 빌드할 수 있습니다.

1. 프로젝트 설정

소스 코드를 보관할 디렉터리 구조와 파일을 만듭니다.

$ mkdir -p chat-with-a-pdf/src && \
cd chat-with-a-pdf && \
touch src/index.ts

새 TypeScript 프로젝트를 초기화합니다.
```
$ npm init -y
```

pdf-parse 모듈을 설치합니다.

$ npm i pdf-parse && npm i -D @types/pdf-parse

프로젝트에서 Genkit를 사용하려면 다음 Genkit 종속 항목을 설치하세요.
```
$ npm i genkit @genkit-ai/googleai
```
- genkit는 Genkit 핵심 기능을 제공합니다.
- @genkit-ai/googleai는 Google AI Gemini 모델에 대한 액세스 권한을 제공합니다.
모델 API 키 가져오기 및 구성

이 Codelab에서 사용하는 Gemini API를 사용하려면 먼저 API 키를 구성해야 합니다. 아직 키가 없다면 Google AI Studio에서 키를 만듭니다.

Gemini API는 충분한 할당량이 포함된 무료 등급을 제공하므로 신용카드 없이도 시작할 수 있습니다.

API 키를 만든 후 다음 명령어를 사용하여 GOOGLE_GENAI_API_KEY 환경 변수를 키로 설정합니다.
```
$ export GOOGLE_GENAI_API_KEY=<your API key>
```
참고: 이 튜토리얼에서는 AI Studio의 Gemini API를 사용하지만 Genkit은 다음을 비롯한 다양한 모델 제공업체를 지원합니다.
- Vertex AI의 Gemini
- Vertex AI Model Garden 및 커뮤니티 플러그인을 통한 Anthropic의 Claude 3 모델과 Llama 3.1
- Ollama 를 통한 오픈소스 모델
- OpenAI 및 Cohere와 같은 커뮤니티 지원 제공업체

2. 필요한 종속 항목 가져오기

만든 index.ts 파일에 다음 줄을 추가하여 이 프로젝트에 필요한 종속 항목을 가져옵니다.

import { gemini20Flash, googleAI } from '@genkit-ai/googleai';
import { genkit } from 'genkit/beta'; // chat is a beta feature
import pdf from 'pdf-parse';
import fs from 'fs';
import { createInterface } from "node:readline/promises";

첫 번째 줄은 @genkit-ai/googleai 패키지에서 gemini20Flash 모델과 googleAI 플러그인을 가져와 Google의 Gemini 모델에 액세스할 수 있도록 합니다.
다음 두 줄은 PDF 파일 파싱을 위한 pdf-parse 라이브러리와 파일 시스템 작업을 위한 fs 모듈을 가져옵니다.
마지막 줄은 사용자 상호작용을 위한 명령줄 인터페이스를 만드는 데 사용되는 node:readline/promises 모듈에서 createInterface 함수를 가져옵니다.

3. Genkit 및 기본 모델 구성

다음 줄을 추가하여 Genkit을 구성하고 Gemini 2.0 Flash를 기본 모델로 설정합니다.

const ai = genkit({
  plugins: [googleAI()],
  model: gemini20Flash,
});

그런 다음 코드 및 오류 처리의 스켈레톤을 추가할 수 있습니다.

(async () => {
  try {
    // Step 1: get command line arguments

    // Step 2: load PDF file

    // Step 3: construct prompt

    // Step 4: start chat

    // Step 5: chat loop

  } catch (error) {
    console.error("Error parsing PDF or interacting with Genkit:", error);
  }
})(); // <-- don't forget the trailing parentheses to call the function!

4. PDF 로드 및 파싱

명령줄에서 전달된 PDF 파일 이름을 읽는 코드를 추가합니다.

    // Step 1: get command line arguments
    const filename = process.argv[2];
    if (!filename) {
      console.error("Please provide a filename as a command line argument.");
      process.exit(1);
    }

PDF 파일의 콘텐츠를 로드하는 코드를 추가합니다.

    // Step 2: load PDF file
    let dataBuffer = fs.readFileSync(filename);
    const { text } = await pdf(dataBuffer);

5. 메시지 설정

프롬프트를 설정하는 코드를 추가합니다.

    // Step 3: construct prompt
    const prefix = process.argv[3] || "Sample prompt: Answer the user's questions about the contents of this PDF file.";
    const prompt = `
      ${prefix}
      Context:
      ${text}
    `;

첫 번째 const 선언은 사용자가 명령줄에서 자체 프롬프트를 전달하지 않는 경우 기본 프롬프트를 정의합니다.
두 번째 const 선언은 프롬프트 접두사와 PDF 파일의 전체 텍스트를 모델의 프롬프트에 보간합니다.

6. UI 구현

다음 코드를 추가하여 채팅을 시작하고 UI를 구현합니다.

    // Step 4: start chat
    const chat = ai.chat({ system: prompt });
    const readline = createInterface(process.stdin, process.stdout);
    console.log("You're chatting with Gemini. Ctrl-C to quit.\n");

첫 번째 const 선언은 chat 메서드를 호출하여 프롬프트 (PDF 파일의 전체 텍스트 포함)를 전달하여 모델과의 채팅을 시작합니다. 나머지 코드는 텍스트 입력을 인스턴스화한 다음 사용자에게 메시지를 표시합니다.

7. 채팅 루프 구현

5단계에서 사용자 입력을 수신하고 chat.send를 사용하여 입력을 모델에 전송하는 코드를 추가합니다. 이 부분은 사용자가 CTRL + C를 누를 때까지 반복됩니다.

    // Step 5: chat loop
    while (true) {
      const userInput = await readline.question("> ");
      const { text } = await chat.send(userInput);
      console.log(text);
    }

8. 앱 실행

앱을 실행하려면 프로젝트의 루트 폴더에서 터미널을 연 다음 다음 명령어를 실행합니다.

npx tsx src/index.ts path/to/some.pdf

그런 다음 PDF 파일로 채팅을 시작할 수 있습니다.