สร้างข้อความจากพรอมต์แบบหลายโมดัลโดยใช้ Gemini API


เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Vertex AI สำหรับ Firebase SDK คุณสามารถสั่งให้โมเดล Gemini สร้างข้อความโดยอิงตามอินพุตหลายรูปแบบได้ พรอมต์หลายรูปแบบอาจรวมถึงวิธีการหลายรูปแบบ (หรือการป้อนข้อมูลประเภทต่างๆ) เช่น ข้อความพร้อมกับรูปภาพ, PDF, วิดีโอ และเสียง

สำหรับการทดสอบและทำซ้ำข้อความแจ้งแบบหลายโมดัล เราขอแนะนำให้ใช้ Vertex AI Studio

ก่อนเริ่มต้น

โปรดอ่านคู่มือเริ่มต้นใช้งาน Vertex AI สำหรับ Firebase SDK หากยังไม่ได้อ่าน ตรวจสอบว่าคุณได้ดำเนินการทั้งหมดต่อไปนี้แล้ว

  • สร้างโปรเจ็กต์ Firebase ใหม่หรือที่มีอยู่ รวมถึงการใช้แพ็กเกจราคา Blaze และการเปิดใช้ API ที่จำเป็น

  • เชื่อมต่อแอปกับ Firebase รวมถึงลงทะเบียนแอปและเพิ่มการกำหนดค่า Firebase ลงในแอป

  • เพิ่ม SDK และเริ่มต้นบริการ Vertex AI และโมเดล Generative ในแอป

หลังจากเชื่อมต่อแอปกับ Firebase เพิ่ม SDK และเริ่มต้นบริการ Vertex AI และโมเดล Generative แล้ว คุณก็พร้อมที่จะเรียกใช้ Gemini API แล้ว

สร้างข้อความจากข้อความและรูปภาพเดียว

โปรดศึกษาส่วนก่อนเริ่มต้นของคู่มือนี้ให้จบก่อนที่จะลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ด้วยพรอมต์แบบหลายโมดัลที่มีทั้งข้อความและไฟล์เดียว (เช่น รูปภาพ ดังที่แสดงในตัวอย่างนี้) สำหรับการเรียกเหล่านี้ คุณต้องใช้โมเดลที่รองรับพรอมต์แบบหลายโมดัล (เช่น Gemini 1.5 Pro)

ไฟล์ที่รองรับประกอบด้วยรูปภาพ, PDF, วิดีโอ, เสียง และอื่นๆ อย่าลืมอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอคำตอบจนกว่าจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจากการสร้างโมเดล แต่ใช้การสตรีมเพื่อจัดการผลลัพธ์บางส่วนแทน

ตัวอย่างนี้แสดงวิธีใช้ generateContentStream() เพื่อสตรีมข้อความที่สร้างขึ้นจากคำขอพรอมต์แบบหลายโมดัลที่มีข้อความและรูปภาพเดียว

โดยไม่ต้องสตรีม

หรือจะรอผลลัพธ์ทั้งหมดแทนการสตรีมก็ได้ เนื่องจากผลลัพธ์จะแสดงหลังจากที่โมเดลเสร็จสิ้นกระบวนการสร้างทั้งหมดแล้ว

ตัวอย่างนี้แสดงวิธีใช้ generateContent() เพื่อสร้างข้อความจากพรอมต์หลายรูปแบบที่มีข้อความและรูปภาพเดียว

ดูวิธีเลือกโมเดล Gemini และตำแหน่งที่ไม่บังคับสำหรับกรณีการใช้งานและแอปของคุณ

สร้างข้อความจากข้อความและรูปภาพหลายรูป

โปรดศึกษาส่วนก่อนเริ่มต้นของคู่มือนี้ให้จบก่อนที่จะลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ด้วยพรอมต์แบบหลายโมดัลที่มีทั้งไฟล์ข้อความและหลายไฟล์ (เช่น รูปภาพ ดังที่แสดงในตัวอย่างนี้) สำหรับการเรียกเหล่านี้ คุณต้องใช้โมเดลที่รองรับพรอมต์แบบหลายโมดัล (เช่น Gemini 1.5 Pro)

ไฟล์ที่รองรับประกอบด้วยรูปภาพ, PDF, วิดีโอ, เสียง และอื่นๆ อย่าลืมอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอคำตอบจนกว่าจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจากการสร้างโมเดล แต่ใช้การสตรีมเพื่อจัดการผลลัพธ์บางส่วนแทน

ตัวอย่างนี้แสดงวิธีใช้ generateContentStream() เพื่อสตรีมข้อความที่สร้างขึ้นจากคำขอพรอมต์แบบหลายโมดัลที่มีข้อความและรูปภาพหลายรูป

โดยไม่ต้องสตรีม

อีกวิธีหนึ่งคือ รอผลลัพธ์ทั้งหมดแทนการสตรีม ระบบจะแสดงผลผลลัพธ์หลังจากที่โมเดลเสร็จสิ้นกระบวนการสร้างทั้งหมดแล้วเท่านั้น

ตัวอย่างนี้แสดงวิธีใช้ generateContent() เพื่อสร้างข้อความจากพรอมต์หลายรูปแบบที่มีข้อความและรูปภาพหลายรูป

ดูวิธีเลือกโมเดล Gemini และตำแหน่งที่ไม่บังคับสำหรับกรณีการใช้งานและแอปของคุณ

สร้างข้อความจากข้อความและวิดีโอ

โปรดศึกษาส่วนก่อนเริ่มต้นของคู่มือนี้ให้จบก่อนที่จะลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ด้วยพรอมต์แบบหลายโมดัลที่มีทั้งข้อความและวิดีโอเดียว (ดังที่แสดงในตัวอย่างนี้) สำหรับการเรียกเหล่านี้ คุณต้องใช้โมเดลที่รองรับพรอมต์แบบหลายโมดัล (เช่น Gemini 1.5 Pro)

อย่าลืมอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอคำตอบจนกว่าจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจากการสร้างโมเดล แต่ใช้การสตรีมเพื่อจัดการผลลัพธ์บางส่วนแทน

ตัวอย่างนี้แสดงวิธีใช้ generateContentStream() เพื่อสตรีมข้อความที่สร้างขึ้นจากคำขอพรอมต์แบบหลายโมดัลที่มีข้อความและวิดีโอรายการเดียว

โดยไม่ต้องสตรีม

หรือจะรอผลลัพธ์ทั้งหมดแทนการสตรีมก็ได้ เนื่องจากผลลัพธ์จะแสดงหลังจากที่โมเดลเสร็จสิ้นกระบวนการสร้างทั้งหมดแล้ว

ตัวอย่างนี้แสดงวิธีใช้ generateContent() เพื่อสร้างข้อความจากพรอมต์แบบหลายโมดัลที่มีข้อความและวิดีโอรายการเดียว

ดูวิธีเลือกโมเดล Gemini และตำแหน่งที่ไม่บังคับสำหรับกรณีการใช้งานและแอปของคุณ

ข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

หากต้องการดูข้อมูลเกี่ยวกับประเภทไฟล์ที่รองรับ วิธีระบุประเภท MIME และวิธีตรวจสอบว่าไฟล์และคำขอหลายรูปแบบเป็นไปตามข้อกำหนดและทำตามแนวทางปฏิบัติแนะนำ โปรดดูไฟล์อินพุตที่รองรับและข้อกำหนดสำหรับ Vertex AI Gemini API

คุณทำอะไรได้อีกบ้าง

  • ดูวิธีนับโทเค็นก่อนส่งพรอมต์แบบยาวไปยังโมเดล
  • ตั้งค่า Cloud Storage สำหรับ Firebase เพื่อให้คุณรวมไฟล์ขนาดใหญ่ในคำขอผ่านสื่อหลากรูปแบบโดยใช้ URL ของ Cloud Storage ได้ โดยไฟล์อาจประกอบด้วยรูปภาพ, PDF, วิดีโอ และเสียง
  • เริ่มพิจารณาการเตรียมพร้อมสำหรับเวอร์ชันที่ใช้งานจริง รวมถึงการตั้งค่า Firebase App Check เพื่อปกป้อง Gemini API จากการละเมิดโดยไคลเอ็นต์ที่ไม่ได้รับอนุญาต

ลองใช้ความสามารถอื่นๆ ของ Gemini API

เรียนรู้วิธีควบคุมการสร้างเนื้อหา

นอกจากนี้ คุณยังทดสอบพรอมต์และการกำหนดค่าโมเดลได้โดยใช้ Vertex AI Studio

ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดล Gemini

ดูข้อมูลเกี่ยวกับ รุ่นที่พร้อมให้ใช้งานสำหรับกรณีการใช้งานต่างๆ รวมถึงโควต้าและราคา


แสดงความคิดเห็นเกี่ยวกับประสบการณ์การใช้งาน Vertex AI สำหรับ Firebase