สร้างข้อความจากพรอมต์แบบหลายโมดัลโดยใช้ Gemini API


เมื่อเรียกใช้ Gemini API จากแอปโดยใช้ Vertex AI in Firebase SDK คุณจะสามารถแจ้งให้โมเดล Gemini สร้างข้อความตามอินพุตแบบหลายรูปแบบได้ พรอมต์หลายรูปแบบอาจมีวิธีการหลายแบบ (หรืออินพุตประเภทต่างๆ) เช่น ข้อความ พร้อมด้วยรูปภาพ, PDF, วิดีโอ และเสียง

เราขอแนะนำให้ใช้ Vertex AI Studio สำหรับการทดสอบและปรับปรุงพรอมต์แบบมัลติโมด

ก่อนเริ่มต้น

ทําตามคู่มือการเริ่มต้นใช้งาน Vertex AI in Firebase SDK ให้เสร็จสมบูรณ์ หากยังไม่ได้ดำเนินการ ตรวจสอบว่าคุณได้ทำสิ่งต่อไปนี้ทั้งหมดแล้ว

  1. ตั้งค่าโปรเจ็กต์ Firebase ใหม่หรือที่มีอยู่ รวมถึงใช้แพ็กเกจราคา Blaze และเปิดใช้ API ที่จําเป็น

  2. เชื่อมต่อแอปกับ Firebase ซึ่งรวมถึงการลงทะเบียนแอปและเพิ่มการกําหนดค่า Firebase ลงในแอป

  3. เพิ่ม SDK และเริ่มต้นบริการ Vertex AI และโมเดล Generative ในแอปของคุณ

หลังจากเชื่อมต่อแอปกับ Firebase, เพิ่ม SDK และเริ่มต้นบริการ Vertex AI และโมเดล Generative แล้ว คุณก็พร้อมเรียกใช้ Gemini API

สร้างข้อความจากข้อความและรูปภาพเดียว

โปรดตรวจสอบว่าคุณดำเนินการตามก่อนเริ่มต้นจนเสร็จสมบูรณ์แล้ว ของคู่มือนี้ก่อนที่จะลองใช้ตัวอย่างนี้

คุณเรียกใช้ Gemini API ได้ด้วยข้อความแจ้งแบบหลายโมดัลที่มี ทั้งแบบข้อความและไฟล์เดียว (เช่น รูปภาพ ตามที่แสดงในตัวอย่างนี้) สําหรับการเรียกใช้เหล่านี้ คุณต้องใช้โมเดลที่รองรับพรอมต์แบบหลายสื่อ (เช่น Gemini 1.5 Pro)

ไฟล์ที่รองรับ ได้แก่ รูปภาพ, PDF, วิดีโอ, เสียง และอื่นๆ โปรดอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอ สำหรับคำตอบจนกว่าจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจาก การสร้างโมเดล และใช้สตรีมมิงเพื่อจัดการผลลัพธ์บางส่วนแทน

โดยไม่ต้องสตรีม

หรือจะรอผลลัพธ์ทั้งหมดแทนการสตรีมก็ได้ เวลา ส่งคืนผลลัพธ์หลังจากที่โมเดลเสร็จสิ้นการสร้างทั้งหมดแล้วเท่านั้น ขั้นตอนได้

ดูวิธีเลือกโมเดล Gemini และเลือกสถานที่ ที่เหมาะกับกรณีการใช้งานและแอปของคุณ

สร้างข้อความจากข้อความและรูปภาพหลายรูป

โปรดตรวจสอบว่าคุณดำเนินการตามก่อนเริ่มต้นจนเสร็จสมบูรณ์แล้ว ของคู่มือนี้ก่อนที่จะลองใช้ตัวอย่างนี้

คุณสามารถเรียกใช้ Gemini API ด้วยพรอมต์แบบมัลติโมดัลที่มีทั้งข้อความและไฟล์หลายรายการ (เช่น รูปภาพตามที่แสดงในตัวอย่างนี้) สําหรับการเรียกใช้เหล่านี้ คุณต้องใช้โมเดลที่รองรับพรอมต์แบบหลายสื่อ (เช่น Gemini 1.5 Pro)

ไฟล์ที่รองรับ ได้แก่ รูปภาพ, PDF, วิดีโอ, เสียง และอื่นๆ โปรดอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอคำตอบจนกว่าระบบจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจาก การสร้างโมเดล และใช้สตรีมมิงเพื่อจัดการผลลัพธ์บางส่วนแทน

โดยไม่ต้องสตรีม

อีกวิธีหนึ่งคือ คุณสามารถรอผลลัพธ์ทั้งหมดแทน สตรีมมิง; ผลลัพธ์จะแสดงขึ้นมาหลังจากที่โมเดลเสร็จสมบูรณ์แล้ว กระบวนการสร้าง

ดูวิธีเลือกโมเดล Gemini และเลือกสถานที่ ที่เหมาะกับกรณีการใช้งานและแอปของคุณ

สร้างข้อความจากข้อความและวิดีโอ

โปรดตรวจสอบว่าคุณดำเนินการตามก่อนเริ่มต้นจนเสร็จสมบูรณ์แล้ว ของคู่มือนี้ก่อนที่จะลองใช้ตัวอย่างนี้

คุณเรียกใช้ Gemini API ได้ด้วยข้อความแจ้งแบบหลายโมดัลที่มี ทั้งแบบข้อความและวิดีโอรายการเดียว (ตามที่แสดงในตัวอย่างนี้) สำหรับ คุณต้องใช้โมเดลที่รองรับพรอมต์หลายรูปแบบ (เช่น Gemini 1.5 Pro)

โปรดอ่านข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

เลือกว่าต้องการสตรีมคำตอบ (generateContentStream) หรือรอ สำหรับคำตอบจนกว่าจะสร้างผลลัพธ์ทั้งหมด (generateContent)

อุปกรณ์การสตรีม

คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมดจากการสร้างโมเดล และใช้การสตรีมเพื่อจัดการผลลัพธ์บางส่วนแทน

โดยไม่ต้องสตรีม

หรือจะรอผลลัพธ์ทั้งหมดแทนการสตรีมก็ได้ เวลา ส่งคืนผลลัพธ์หลังจากที่โมเดลเสร็จสิ้นการสร้างทั้งหมดแล้วเท่านั้น ขั้นตอนได้

ดูวิธีเลือกโมเดล Gemini และเลือกสถานที่ ที่เหมาะกับกรณีการใช้งานและแอปของคุณ

ข้อกำหนดและคำแนะนำสำหรับไฟล์อินพุต

ดูข้อมูลเกี่ยวกับประเภทไฟล์ที่รองรับ วิธีระบุประเภท MIME และวิธีตรวจสอบว่าไฟล์และคำขอแบบหลายรูปแบบเป็นไปตามข้อกำหนดและแนวทางปฏิบัติแนะนำได้ที่ไฟล์อินพุตที่รองรับและข้อกำหนดสำหรับ Vertex AI Gemini API

คุณทำอะไรได้อีกบ้าง

  • ดูวิธีนับโทเค็น ก่อนที่จะส่งพรอมต์ยาวๆ ไปยังโมเดล
  • ตั้งค่า Cloud Storage for Firebase เพื่อให้คุณรวมไฟล์ขนาดใหญ่ในคำขอแบบหลายรูปแบบได้โดยใช้ URL Cloud Storage ไฟล์ดังกล่าวอาจเป็นรูปภาพ, PDF, วิดีโอ และเสียง
  • เริ่มพิจารณาเกี่ยวกับการเตรียมพร้อมสำหรับการผลิต เช่น การตั้งค่า Firebase App Check เพื่อปกป้อง Gemini API จากการละเมิดโดยไคลเอ็นต์ที่ไม่ได้รับอนุญาต

ลองใช้ความสามารถอื่นๆ ของ Gemini API

ดูวิธีควบคุมการสร้างเนื้อหา

คุณยังสามารถทดสอบข้อความแจ้งและการกำหนดค่าโมเดลโดยใช้ Vertex AI Studio

ดูข้อมูลเพิ่มเติมเกี่ยวกับรุ่นต่างๆ ของ Gemini

ดูข้อมูลเกี่ยวกับ รุ่นที่เหมาะกับกรณีการใช้งานที่หลากหลาย และ โควต้าและการกำหนดราคา


แสดงความคิดเห็นเกี่ยวกับประสบการณ์ของคุณในการใช้ Vertex AI in Firebase