Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ทำการค้นหาความคล้ายคลึงกันของเวกเตอร์ด้วย Vertex AI

ยินดีต้อนรับสู่การค้นหาความคล้ายคลึงของเวกเตอร์ของ Firebase SQL Connect ซึ่งเป็นการติดตั้งใช้งานการค้นหาเชิงความหมายของ Firebase ที่ผสานรวมกับ Google Vertex AI

หัวใจสำคัญของฟีเจอร์นี้คือการฝังเวกเตอร์ ซึ่งเป็นอาร์เรย์ของตัวเลขทศนิยมที่แสดงความหมายเชิงความหมายของข้อความหรือสื่อ การเรียกใช้ การค้นหาเพื่อนบ้านที่ใกล้ที่สุดโดยใช้การฝังเวกเตอร์อินพุตจะช่วยให้คุณค้นหาเนื้อหาทั้งหมดที่ มีความหมายคล้ายกันได้ SQL Connect ใช้ส่วนขยายของ PostgreSQL pgvector สำหรับความสามารถนี้

การค้นหาเชิงความหมายที่มีประสิทธิภาพนี้สามารถขับเคลื่อนกรณีการใช้งานต่างๆ เช่น เครื่องมือแนะนำ และเครื่องมือค้นหา นอกจากนี้ยังเป็นองค์ประกอบสำคัญในการสร้าง การดึงข้อมูลเสริม ในโฟลว์ Generative AI เอกสารประกอบของ Vertex AI เป็นแหล่งข้อมูลที่ยอดเยี่ยมในการดูข้อมูลเพิ่มเติม

คุณสามารถใช้SQL Connectการรองรับในตัวของเพื่อสร้างเวกเตอร์ Embedding โดยอัตโนมัติโดยใช้ Embeddings API ของ Vertex AI หรือใช้ API ดังกล่าวเพื่อสร้างด้วยตนเอง

ข้อกำหนดเบื้องต้น

ตั้งค่า SQL Connect สำหรับ โปรเจ็กต์

หมายเหตุ: ขณะทำตามขั้นตอนการตั้งค่า โปรดทราบว่า การผสานรวม Vertex AI ของ SQL Connect รองรับเฉพาะ Cloud SQL บางรายการสำหรับตำแหน่ง PostgreSQL ดูรายการสถานที่
เปิดใช้ Vertex AI API

หมายเหตุ: คุณไม่จำเป็นต้องสร้างโปรเจ็กต์ Google Cloud แยกต่างหากหรือติดตั้ง Google Cloud CLI

ตั้งค่า

คุณสามารถเลือกได้ระหว่างขั้นตอนการพัฒนาในเครื่อง (หากคุณเป็นนักพัฒนาเว็บ, Kotlin Android หรือ iOS) หรือขั้นตอน IDX (สำหรับนักพัฒนาเว็บ) คุณสามารถใช้ฐานข้อมูลในเครื่องหรือSQL Connectโปรเจ็กต์ที่ใช้งานจริงและCloud SQLอินสแตนซ์สำหรับ PostgreSQL เพื่อการพัฒนาได้

คำสั่งเหล่านี้จะถือว่าคุณได้สร้างSQL Connectโปรเจ็กต์ ตามคู่มือเริ่มใช้งานฉบับย่อแล้ว

ผสานรวมกับ PostgreSQL ในเครื่อง

ตั้งค่าอินสแตนซ์ PostgreSQL ในเครื่อง
ให้ บทบาท IAM ผู้ใช้ Vertex AI แก่ตัวคุณเอง
ตั้งค่าGoogle Cloudข้อมูลรับรองเริ่มต้นของแอปพลิเคชันในสภาพแวดล้อมของคุณ
ในอินสแตนซ์ PostgreSQL ในเครื่อง ให้ติดตั้งส่วนขยาย pgvector
เปิดใช้ส่วนขยายโดยใช้ CREATE EXTENSION vector ตามpgvector วิธีการในที่เก็บ

ผสานรวมกับ IDX

ตั้งค่าพื้นที่ทำงาน IDX โดยใช้SQL Connectเทมเพลต
ให้ บทบาท IAM ผู้ใช้ Vertex AI แก่ตัวคุณเอง
เปิดใช้ส่วนขยายโดยใช้ CREATE EXTENSION vector ตามpgvector วิธีการในที่เก็บ

ออกแบบสคีมา

หากต้องการทำการค้นหาเวกเตอร์ ให้เพิ่มฟิลด์ใหม่ประเภท Vector ในสคีมา เช่น หากต้องการทำการค้นหาเชิงความหมายโดยใช้คำอธิบายภาพยนตร์ ให้เพิ่มฟิลด์เพื่อเก็บการฝังเวกเตอร์ที่เชื่อมโยงกับคำอธิบายภาพยนตร์ ในสคีมานี้ ระบบจะเพิ่ม descriptionEmbedding เพื่อจัดเก็บการฝังเวกเตอร์สำหรับฟิลด์ description

type Movie @table {
 id: ID! @col(name: "movie_id") @default(id: ID! @col(name: "movie_id") @default(expr: "uuidV4()")
 title: String!
 description: String
 descriptionEmbedding: Vector! @col(size:768)
 // ...
}

สร้างและดึงข้อมูลการฝัง

SQL Connect รองรับการฝังเวกเตอร์แบบผสานรวมด้วยค่าเซิร์ฟเวอร์ _embed ซึ่งจะสั่งให้ SQL Connect สร้าง การฝังเวกเตอร์โดยเรียกใช้ Embedding API ของ Vertex AI ภายใน _embed ค่าเซิร์ฟเวอร์ใช้ได้ทั้งในการเปลี่ยนแปลงและการค้นหา

หมายเหตุ: โดยทั่วไปแล้ว ระบบจะถือว่าการฝังเวกเตอร์ที่สร้างจากโมเดลเวอร์ชันต่างๆ ไม่สามารถใช้งานร่วมกันได้ ดังนั้น สำหรับการดำเนินการทั้งหมดในฟิลด์ (การค้นหาหรือการเปลี่ยนแปลง) แนวทางปฏิบัติแนะนำคือการใช้การฝังเวกเตอร์ที่สร้างขึ้นโดยใช้โมเดลเดียวกัน ดูรายการโมเดล Vertex AI ที่รองรับได้ในเอกสารประกอบ

การกลายพันธุ์

สร้างและจัดเก็บ Embedding ผ่าน SQL Connect

ในแอปการค้นหาเวกเตอร์ คุณอาจต้องการขอให้สร้างการฝังทันทีที่เพิ่มระเบียนลงในฐานข้อมูล โดย createMovie mutation จะเพิ่มระเบียนภาพยนตร์ลงในตาราง Movie และส่งคำอธิบายภาพยนตร์ พร้อมการฝังที่ระบุ model

mutation createMovie($title: String!, $description: String!) {
  movie_insert(data: {
    title: $title,
    description: $description,
    descriptionEmbedding_embed: {model: "text-embedding-005", text: $description}
  })
}

ในบางกรณี คุณอาจต้องการอัปเดตคำอธิบายและการฝังภาพยนตร์

mutation updateDescription($id: String!, $description: String!) {
  movie_update(id: $id, data: {
    description: $description,
    descriptionEmbedding_embed: {model: "text-embedding-005", text: $description}
  })
}

หากต้องการเรียกใช้การเปลี่ยนแปลงหลังสุดจากไคลเอ็นต์ ให้ทำดังนี้

import { updateMovieDescription } from 'lib/dataconnect-sdk/';

await updateMovieDescription({ id: movieId, description: description});

// Use the response

คำค้นหา

ดึงข้อมูลการฝังเวกเตอร์โดยใช้การค้นหา เช่น การค้นหาต่อไปนี้ โปรดทราบว่าdescriptionEmbeddingที่การค้นหาแสดงผลคืออาร์เรย์ของจำนวนทศนิยม ซึ่งโดยปกติแล้วจะอ่านไม่ออก ดังนั้น SDK ที่สร้างโดย SQL Connect จึงไม่รองรับการส่งคืนโดยตรง

คุณสามารถใช้เวกเตอร์ฝังที่ส่งคืนเพื่อทำการค้นหาความคล้ายคลึงตามที่อธิบายไว้ใน ส่วนถัดไป

query getMovieDescription($id: String!) @auth(level: PUBLIC) {
 movie(id: $id)
   id
   description
   descriptionEmbedding
}

ค้นหาความคล้ายคลึง

ตอนนี้เราสามารถทำการค้นหาความคล้ายกันได้แล้ว

สำหรับฟิลด์ Vector แต่ละฟิลด์ SQL Connect จะสร้างฟังก์ชัน GraphQL ที่ใช้การค้นหาความคล้ายคลึงกัน ฟังก์ชันที่สร้างขึ้นนี้มีชื่อว่า ${pluralType}_${vectorFieldName}_similarity โดยรองรับพารามิเตอร์บางรายการ ดังที่แสดงในตัวอย่างต่อไปนี้และในรายการอ้างอิง

คุณสามารถกำหนดฟังก์ชัน GraphQL ที่เรียกใช้การค้นหาความคล้ายกันได้ ดังที่กล่าวไว้ข้างต้น ค่าเซิร์ฟเวอร์ _embed จะสั่งให้ SQL Connect สร้างการฝังเวกเตอร์โดยใช้ Embedding API ของ Vertex AI ในกรณีนี้คือเพื่อสร้างการฝังสำหรับสตริงการค้นหาที่ใช้ในการเปรียบเทียบกับการฝังคำอธิบายภาพยนตร์

ในตัวอย่างนี้ การค้นหาความคล้ายคลึงจะแสดงภาพยนตร์ได้สูงสุด 5 เรื่องซึ่งมี คำอธิบายที่ใกล้เคียงกับคำค้นหาที่ป้อนมากที่สุดในเชิงความหมาย ชุดผลลัพธ์จะจัดเรียง ตามระยะทางจากใกล้ที่สุดไปไกลที่สุด

query searchMovieDescriptionUsingL2Similarity ($query: String!) @auth(level: PUBLIC) {
    movies_descriptionEmbedding_similarity(
      compare_embed: {model: "text-embedding-005", text: $query},
      where: {content: {ne: "No info available for this movie."}}, limit: 5)
      {
        id
        title
        description
      }
  }

ปรับแต่งการค้นหาความคล้ายคลึง

ค่าเริ่มต้นสำหรับพารามิเตอร์การค้นหา เช่น method และ within ทำงานได้ดีสำหรับกรณีการใช้งานส่วนใหญ่ อย่างไรก็ตาม หากคุณสังเกตเห็นว่าคำค้นหาแสดงผลลัพธ์ที่แตกต่างกันมากเกินไป หรือไม่มีผลลัพธ์ที่คุณต้องการรวม ให้ลองปรับพารามิเตอร์เหล่านี้

หากต้องการค้นหาค่าที่เหมาะสมสำหรับ within เราสามารถเพิ่ม _metadata.distance ลงใน ฟิลด์ที่เลือกเพื่อดูว่าผลลัพธ์แต่ละรายการอยู่ห่างจากเวกเตอร์การค้นหาเท่าใด เราสามารถตั้งค่าพารามิเตอร์ within ตามค่า distance ที่แสดง เฉพาะผลลัพธ์ที่มีระยะทางน้อยกว่าค่าของ within เท่านั้นที่จะรวมไว้

query searchMovieDescriptionUsingL2Similarity ($query: String!) @auth(level: PUBLIC) {
    movies_descriptionEmbedding_similarity(
      compare_embed: {model: "text-embedding-005", text: $query},
      within: 2,
      where: {content: {ne: "No info available for this movie."}}, limit: 5)
      {
        id
        title
        description
        _metadata {
          distance
        }
      }
  }

คุณยังทดลองใช้ฟังก์ชันระยะทางต่างๆ ได้ด้วยโดยการตั้งค่าmethod พารามิเตอร์

query searchMovieDescriptionUsingL2Similarity ($query: String!) @auth(level: PUBLIC) {
    movies_descriptionEmbedding_similarity(
      compare_embed: {model: "text-embedding-005", text: $query},
      within: .5,
      method: COSINE,
      where: {content: {ne: "No info available for this movie."}}, limit: 5)
      {
        id
        title
        description
        _metadata {
          distance
        }
      }
  }

โปรดทราบว่าวิธีการต่างๆ จะแสดงค่าระยะทางที่แตกต่างกันมาก หากคุณตั้งค่า within คุณจะต้องปรับค่าดังกล่าวอีกครั้งหลังจากเปลี่ยน method

เรียกใช้การค้นหาความคล้ายคลึง

วิธีเรียกใช้การค้นหาความคล้ายคลึงจากโค้ดฝั่งไคลเอ็นต์

import { searchMovieDescriptionUsingL2similarity} from 'lib/dataconnect-sdk';

const response = await searchMovieDescriptionUsingL2similarity({ query });

// Use the response

ใช้การฝังที่กำหนดเอง

SQL Connect ยังช่วยให้คุณทำงานกับ Embedding ได้โดยตรงในรูปแบบ Vectors แทนที่จะใช้ค่าเซิร์ฟเวอร์ _embed เพื่อสร้าง

จัดเก็บการฝังที่กำหนดเอง

เมื่อใช้ Vertex Embeddings API ให้ระบุโมเดลที่ตรงกันและขอ ผลลัพธ์การฝังที่มีมิติข้อมูลที่ถูกต้อง

จากนั้นส่งอาร์เรย์ของโฟลตที่ส่งคืนไปยัง Vector เพื่อส่งไปยังการดำเนินการ update สำหรับการจัดเก็บ

mutation updateDescription($id: String!, $description: String!, $descriptionEmbedding: Vector!) {
  movie_update(id: $id, data: {
    // title, genre...
    description: $description,
    descriptionEmbedding: $descriptionEmbedding
  })
}

ทำการค้นหาความคล้ายคลึงโดยใช้การฝังที่กำหนดเอง

ดำเนินการเดียวกันเพื่อดึงข้อมูลการฝังสำหรับข้อความค้นหาและแคสต์ ไปยัง Vectors

จากนั้นเรียกใช้ _similarity query เพื่อทำการค้นหาแต่ละครั้ง

query searchMovieDescriptionUsingL2Similarity($compare: Vector!, $within: Float, $excludesContent: String, $limit: Int) @auth(level: PUBLIC) {
    movies_descriptionEmbedding_similarity(
      compare: $compare,
      method: L2,
      within: $within,
      where: {content: {ne: $excludesContent}}, limit: $limit)
      {
        id
        title
        description
      }
  }

นำไปใช้งานในเวอร์ชันที่ใช้งานจริง

ติดตั้งใช้งานสคีมาและตัวเชื่อมต่อ

ขั้นตอนสุดท้ายในการทำซ้ำตามปกติSQL Connectคือการนำชิ้นงาน ไปใช้งานจริง

เมื่อติดตั้งใช้งานสคีมาที่มีVectorประเภทไปยัง Cloud SQL โดยใช้คำสั่ง firebase deploy Firebase CLI จะดำเนินการตามขั้นตอนที่จำเป็นเพื่อ เปิดใช้การสร้างการฝังตาม Vertex AI ในอินสแตนซ์ Cloud SQL

firebase deploy --only dataconnect

หากต้องการเปิดใช้การรองรับการฝังในอินสแตนซ์ Cloud SQL ด้วยตนเอง หรือ พบข้อผิดพลาดใน CLI ให้ทำตามวิธีการเหล่านี้

ไวยากรณ์การค้นหาเวกเตอร์

ส่วนขยายสคีมา

ประเภทข้อมูล SQL Connect ของ Vector จะแมปกับประเภท vector ของ PostgreSQL ตามที่กำหนดโดยpgvector ส่วนขยาย ระบบจะจัดเก็บประเภท vector ของ pgvector เป็นอาร์เรย์ของจำนวนทศนิยมแบบลอยตัวที่มีความแม่นยำเดียว ใน PostgreSQL

ใน SQL Connect ประเภท Vector จะแสดงเป็นอาร์เรย์ของ ตัวเลข JSON ระบบจะบังคับให้ป้อนข้อมูลเป็นอาร์เรย์ของค่า float32 หากการบังคับ ล้มเหลว ระบบจะแสดงข้อผิดพลาด

ใช้พารามิเตอร์ขนาดของคำสั่ง @col เพื่อตั้งค่าขนาดของ เวกเตอร์

type Question @table {
    text: String!
    category: String!
    textEmbedding: Vector! @col(size: 768)
}

size รองรับเฉพาะประเภท Vector Vector เช่น การค้นหาความคล้ายคลึง จำเป็นต้องมี Vector ที่มีจำนวนมิติข้อมูลเท่ากัน ทั้งหมด

directive @col(
  # … existing args
  """
  Defines a fixed column size for certain scalar types.

  - For Vector, size is required.
  - For all other types, size is currently unsupported and hence supplying it will result in a schema error.
  """
  size: Int
) on FIELD_DEFINITION

ค่า `_embed` ของเซิร์ฟเวอร์สําหรับการค้นหาและการเปลี่ยนแปลง

_embed

ค่าเซิร์ฟเวอร์นี้จะสั่งให้SQL Connectสร้างและจัดเก็บการฝังโดยใช้ Embedding API ของ Vertex AI ค่าเซิร์ฟเวอร์นี้ใช้ได้ทั้งในการค้นหาและการเปลี่ยนแปลง

พารามิเตอร์สำหรับการค้นหาความคล้ายคลึง

method: COSINE|INNER_PRODUCT|L2

ฟังก์ชันระยะทางที่ใช้ในการค้นหาเพื่อนบ้านที่อยู่ใกล้เคียง อัลกอริทึมที่รองรับในปัจจุบันเป็นส่วนย่อยของอัลกอริทึมการค้นหา pgvector

within: float

ข้อจำกัดเกี่ยวกับระยะทางที่ใช้ในการค้นหาจุดข้อมูลที่ใกล้ที่สุด

where: FDC filter condition

ดูคำแนะนำเกี่ยวกับสคีมา การค้นหา และการเปลี่ยนแปลง

limit: int

จำนวนผลลัพธ์ที่จะแสดง