ไฟล์อินพุตที่รองรับและข้อกำหนดสำหรับ Vertex AI Gemini API

เมื่อเรียกใช้ Vertex AI Gemini API จากแอปของคุณโดยใช้ Vertex AI in Firebase SDK คุณสามารถเรียกให้โมเดล Gemini สร้างข้อความได้ โดยอิงตามอินพุตในหลายโมดัล พรอมต์แบบหลายโมดัลอาจมีรูปแบบต่างๆ มากมาย (หรือประเภทอินพุต) เช่น ข้อความพร้อมรูปภาพ, PDF, วิดีโอ และเสียง

สำหรับอินพุตส่วนที่ไม่ใช่ข้อความ (เช่น ไฟล์สื่อ) คุณต้องใช้ ประเภทไฟล์ที่สนับสนุน ระบุประเภท MIME ที่สนับสนุน และตรวจสอบให้แน่ใจว่า ไฟล์และคำขอหลายรูปแบบจะเป็นไปตามข้อกำหนดและทำตามแนวทางปฏิบัติแนะนำ

หน้านี้จะอธิบายถึงประเภท MIME ที่รองรับ แนวทางปฏิบัติแนะนำ และข้อจำกัด สำหรับ

ข้อกำหนดเฉพาะสำหรับ SDK ของ Vertex AI in Firebase

สำหรับ SDK Vertex AI in Firebase รายการ ขนาดคำขอรวมสูงสุดคือ 20 MB คุณจะได้รับข้อผิดพลาด HTTP 413 หากคำขอมีขนาดใหญ่เกินไป



รูปภาพ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

รูปภาพ: ข้อกำหนด

ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ รูปภาพ

ประเภท MIME ที่รองรับ

โมเดลหลายโมดัลของ Gemini รองรับ MIME ประเภทรูปภาพต่อไปนี้

ประเภท MIME ของรูปภาพ Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg

ขีดจำกัดต่อคำขอ

ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม รูปภาพขนาดใหญ่จะถูกลดขนาดลงและเพิ่มให้พอดีกับความละเอียดสูงสุด 3072 x 3072 ในขณะที่คงสัดส่วนภาพเดิมไว้

จำนวนไฟล์ภาพสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้

  • Gemini 1.0 Pro Vision: 16 รูปภาพ
  • Gemini 1.5 Flash และ Gemini 1.5 Pro: รูปภาพ 3,000 รูป

รูปภาพ: การแปลงข้อมูลเป็นโทเค็น

วิธีคำนวณโทเค็นสำหรับรูปภาพมีดังนี้

  • Gemini 1.0 Pro Vision: บัญชีรูปภาพแต่ละบัญชี สำหรับ 258 โทเค็น
  • Gemini 1.5 Flash และ Gemini 1.5 Pro
    • หากรูปภาพทั้ง 2 ด้านมีขนาดน้อยกว่าหรือเท่ากับ 384 พิกเซล จะใช้โทเค็น 258 รายการ
    • หากรูปภาพมีขนาดเกิน 384 พิกเซล ค่า รูปภาพถูกครอบตัดเป็นชิ้นส่วน ขนาดไทล์แต่ละแบบจะมีค่าเริ่มต้นเป็นขนาดเล็กที่สุด ขนาด (ความกว้างหรือความสูง) หารด้วย 1.5 หากจำเป็น แต่ละการ์ด ปรับให้ไม่เล็กกว่า 256 พิกเซลและไม่เกิน 768 พิกเซล จากนั้นแต่ละไทล์จะปรับขนาดเป็น 768x768 และใช้โทเค็น 258 รายการ

รูปภาพ: แนวทางปฏิบัติแนะนำ

เมื่อใช้รูปภาพ ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้สำหรับ ผลลัพธ์ที่ดีที่สุด:

  • หากต้องการตรวจหาข้อความในรูปภาพ ให้ใช้พรอมต์ที่มีรูปภาพเดียวเพื่อ ให้ผลลัพธ์ที่ดีกว่าพรอมต์ที่มีรูปภาพหลายรูป
  • หากพรอมต์มีรูปภาพเดียว ให้วางรูปภาพไว้หน้าข้อความ ในคำขอ
  • หากพรอมต์ของคุณมีรูปภาพหลายภาพและคุณต้องการอ้างอิงภาพเหล่านั้น ภายหลังในข้อความแจ้ง หรือให้โมเดลอ้างถึงในคำตอบโมเดล ก็จะช่วยให้แต่ละภาพมีดัชนีก่อนภาพนั้น ใช้ a b c หรือ image 1 image 2 image 3 สำหรับดัชนีของคุณ ต่อไปนี้เป็นตัวอย่างการใช้รูปภาพที่จัดทำดัชนีใน ข้อความแจ้ง:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • ใช้รูปภาพที่มีความละเอียดสูงขึ้น จะให้ผลลัพธ์ที่ดีกว่า
  • ใส่ตัวอย่าง 2-3 รายการในพรอมต์
  • หมุนรูปภาพให้อยู่ในแนวที่เหมาะสมก่อนเพิ่มลงใน ปรากฏขึ้น
  • หลีกเลี่ยงภาพเบลอ

รูปภาพ: ข้อจำกัด

แม้ว่าโมเดลสื่อหลากรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานสื่อหลากรูปแบบ คุณควรเข้าใจข้อจำกัดของโมเดลดังนี้

  • การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะมอบคำตอบ ในรูปภาพที่ละเมิดนโยบายด้านความปลอดภัยของเรา
  • การให้เหตุผลเชิงพื้นที่: โมเดลระบุตำแหน่งได้ไม่แม่นยำ ข้อความหรือวัตถุในรูปภาพ พวกเขาอาจแสดงผลเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
  • การใช้งานทางการแพทย์: โมเดลนี้ไม่เหมาะกับการตีความ รูปภาพทางการแพทย์ (เช่น ภาพเอ็กซ์เรย์และซีทีสแกน) หรือให้ภาพทางการแพทย์ คำแนะนำของเรา
  • การจดจำบุคคล: โมเดลไม่ได้มีจุดประสงค์เพื่อ ระบุคนที่ไม่ใช่คนดังในรูปภาพได้
  • ความแม่นยำ: โมเดลอาจพบคำตอบที่ไม่สมเหตุสมผลหรือทำงานผิดพลาด เมื่อมีการตีความภาพคุณภาพต่ำ หมุน หรือมีความละเอียดต่ำมาก นายแบบ/นางแบบอาจพบคำตอบที่ไม่สมเหตุสมผลเมื่อตีความข้อความที่เขียนด้วยลายมือใน รูปภาพ



วิดีโอ: ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

วิดีโอ: ข้อกำหนด

ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ ในการสร้างสรรค์วิดีโอ

ประเภท MIME ที่รองรับ

โมเดลแบบหลายโมดัลของ Gemini รองรับประเภท MIME ของวิดีโอต่อไปนี้

ประเภท MIME ของวิดีโอ Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/mov
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WebM - video/webm
WMV - video/wmv
3GPP - video/3gpp

ขีดจำกัดต่อคำขอ

จำนวนไฟล์วิดีโอสูงสุดที่อนุญาตในคำขอพรอมต์มีดังนี้

  • Gemini 1.0 Pro Vision: ไฟล์วิดีโอ 1 ไฟล์
  • Gemini 1.5 Flash และ Gemini 1.5 Pro: ไฟล์วิดีโอ 10 ไฟล์

วิดีโอ: การแปลงข้อมูลเป็นโทเค็น

วิธีคำนวณโทเค็นสำหรับวิดีโอมีดังนี้

  • โมเดลสื่อหลากรูปแบบของ Gemini ทั้งหมด: วิดีโอได้รับการสุ่มตัวอย่างที่ 1 เฟรมต่อวินาที (FPS) เฟรมวิดีโอแต่ละเฟรมคิดเป็น 258 โทเค็น
  • Gemini 1.5 Flash และ Gemini 1.5 Pro: แทร็กเสียงมีการเข้ารหัส ด้วยเฟรมวิดีโอ แทร็กเสียงยังแบ่งออกเป็น 1 วินาที Trunk ซึ่งแต่ละบัญชีมีโทเค็น 32 รายการ วิดีโอ โทเค็นเฟรมและเสียงจะแทรกสลับกับการประทับเวลา การประทับเวลาจะแสดงเป็นโทเค็น 7 รายการ

วิดีโอ: แนวทางปฏิบัติแนะนำ

เมื่อใช้วิดีโอ ให้ใช้แนวทางปฏิบัติที่ดีที่สุดและข้อมูลต่อไปนี้สำหรับ ผลลัพธ์ที่ดีที่สุด:

  • หากพรอมต์มีวิดีโอเดียว ให้วางวิดีโอไว้หน้าข้อความ ปรากฏขึ้น
  • หากต้องการการแปลการประทับเวลาในวิดีโอที่มีเสียง ให้ถามโมเดล เพื่อสร้างการประทับเวลาในรูปแบบ MM:SS โดยที่ 2 รายการแรก ตัวเลขแสดงนาที และตัวเลข 2 หลักสุดท้ายแทนวินาที ใช้เมนู รูปแบบเดียวกันสำหรับคำถามที่ถามเกี่ยวกับการประทับเวลา
  • สิ่งที่ควรทราบหากคุณใช้ Gemini 1.0 Pro Vision อยู่

    • ใช้วิดีโอไม่เกิน 1 รายการต่อข้อความแจ้ง
    • โมเดลจะประมวลผลข้อมูลเฉพาะภายใน 2 นาทีแรกของ ในวิดีโอ
    • โมเดลจะประมวลผลวิดีโอเป็นเฟรมรูปภาพที่ไม่ต่อเนื่องจาก ในการสร้างสรรค์วิดีโอ ไม่รวมเสียง หากคุณสังเกตเห็นว่าโมเดลหายไปบางส่วน เนื้อหาจากวิดีโอ ลองทำให้วิดีโอสั้นลงเพื่อให้โมเดล จะบันทึกเนื้อหาวิดีโอส่วนใหญ่
    • โมเดลไม่ได้ประมวลผลข้อมูลเสียงหรือการประทับเวลา ข้อมูลเมตา ด้วยเหตุนี้ โมเดลจึงอาจทำงานได้ไม่ดีใน Use Case ที่ต้องมีอินพุตเสียง เช่น เสียงคำบรรยาย หรือเวลา ข้อมูลอื่น เช่น ความเร็วหรือจังหวะ

วิดีโอ: ข้อจํากัด

แม้ว่าโมเดลสื่อหลากรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานสื่อหลากรูปแบบ คุณควรเข้าใจข้อจำกัดของโมเดลดังนี้

  • การกลั่นกรองเนื้อหา: โมเดลปฏิเสธที่จะมอบคำตอบ ในวิดีโอที่ละเมิดนโยบายด้านความปลอดภัย
  • การจดจำเสียงที่ไม่ใช่เสียงพูด: รุ่นที่รองรับ เสียงอาจเกิดข้อผิดพลาดในการจดจำเสียงที่ไม่ใช่เสียงพูด
  • การเคลื่อนไหวความเร็วสูง: โมเดลอาจทำงานผิดพลาด ความเข้าใจเกี่ยวกับการเคลื่อนไหวความเร็วสูงในวิดีโอเนื่องจาก อัตราการสุ่มตัวอย่าง 1 เฟรมต่อวินาที (FPS)
  • เครื่องหมายวรรคตอนของการถอดเสียงเป็นคำ (หากใช้ Gemini 1.5 Flash) โมเดลอาจ แสดงผลการถอดเสียงเป็นคำที่ไม่มีเครื่องหมายวรรคตอน



เสียง: ข้อกำหนดและข้อจำกัด

เสียง: ข้อกำหนด

ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เสียง

ประเภท MIME ที่รองรับ

โมเดลแบบหลายโมดัลของ Gemini รองรับ MIME ประเภทเสียงต่อไปนี้

ประเภท MIME ของเสียง Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WebM - audio/webm

ขีดจำกัดต่อคำขอ

คุณรวมไฟล์เสียงได้สูงสุด 1 ไฟล์ในคำขอพรอมต์

เสียง: ข้อจำกัด

แม้ว่าโมเดลสื่อหลากรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานสื่อหลากรูปแบบ คุณควรเข้าใจข้อจำกัดของโมเดลดังนี้

  • การจดจำเสียงที่ไม่ใช่เสียงพูด: รุ่นที่รองรับ เสียงอาจเกิดข้อผิดพลาดในการจดจำเสียงที่ไม่ใช่เสียงพูด
  • การประทับเวลาแบบเสียงเท่านั้น: รุ่นที่รองรับเสียง ไม่สามารถสร้างการประทับเวลาอย่างถูกต้องสำหรับคำขอที่มีไฟล์เสียง ช่วงเวลานี้ รวมการประทับเวลาการแบ่งส่วนเนื้อหาและการแปลชั่วคราว การประทับเวลาอาจ สร้างขึ้นอย่างถูกต้องสำหรับอินพุตที่มีวิดีโอที่มีเสียง
  • เครื่องหมายวรรคตอนของการถอดเสียงเป็นคำ (หากใช้ Gemini 1.5 Flash) โมเดลอาจ แสดงผลการถอดเสียงเป็นคำที่ไม่มีเครื่องหมายวรรคตอน



เอกสาร (เช่น PDF): ข้อกำหนด แนวทางปฏิบัติแนะนำ และข้อจำกัด

เอกสาร: ข้อกำหนด

ในส่วนนี้ คุณจะได้เรียนรู้เกี่ยวกับประเภท MIME ที่รองรับและขีดจำกัดต่อคำขอสำหรับ เอกสาร (เช่น PDF)

ประเภท MIME ที่รองรับ

โมเดลแบบหลายโมดัลของ Gemini รองรับเอกสารประเภท MIME ต่อไปนี้

ประเภท MIME ของเอกสาร Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf

ขีดจำกัดต่อคำขอ

PDF จะถือว่าเป็นรูปภาพ ดังนั้น PDF เพียงหน้าเดียวจะถือว่าเป็นหน้าเดียว รูปภาพ จำนวนหน้าที่อนุญาตในข้อความแจ้งถูกจำกัดจำนวน รูปภาพที่โมเดลนี้รองรับได้

  • Gemini 1.0 Pro Vision: 16 หน้า
  • Gemini 1.5 Pro และ Gemini 1.5 Flash: 1,000 หน้า

เอกสาร: การแปลงข้อมูลเป็นโทเค็น

PDF จะถือว่าเป็นรูปภาพ ดังนั้น PDF แต่ละหน้าจะแปลงเป็นโทเค็น เป็นรูปภาพได้

นอกจากนี้ ค่าใช้จ่ายสำหรับ PDF มีดังนี้ การกำหนดราคารูปภาพ Gemini ตัวอย่างเช่น ถ้ารวมไฟล์ PDF 2 หน้าไว้ในการเรียก Gemini API คุณจะ จะต้องเสียค่าป้อนข้อมูลในการประมวลผลรูปภาพ 2 รูป

เอกสาร: แนวทางปฏิบัติแนะนำ

เมื่อใช้ PDF ให้ใช้แนวทางปฏิบัติแนะนำและข้อมูลต่อไปนี้สำหรับ ผลลัพธ์ที่ดีที่สุด:

  • หากพรอมต์มี PDF ไฟล์เดียว ให้วางไฟล์ PDF นั้นไว้หน้าข้อความ ในคำขอ
  • หากคุณมีเอกสารขนาดยาว ให้พิจารณาแบ่งออกเป็น PDF หลายไฟล์ เพื่อประมวลผล
  • ใช้ PDF ที่สร้างด้วยข้อความที่แสดงเป็นข้อความแทนการใช้ข้อความใน รูปภาพที่สแกน รูปแบบนี้ทำให้ข้อความ เป็นข้อความที่เครื่องสามารถอ่านได้ แก้ไข ค้นหา และปรับเปลี่ยนโมเดลได้ง่ายกว่าเมื่อเทียบกับการสแกน ไฟล์รูปภาพ PDF วิธีนี้จะให้ผลลัพธ์ที่ดีที่สุดเมื่อทำงานกับ เอกสารที่มีข้อความจำนวนมาก เช่น สัญญา

เอกสาร: ข้อจำกัด

แม้ว่าโมเดลสื่อหลากรูปแบบของ Gemini จะมีประสิทธิภาพในการใช้งานสื่อหลากรูปแบบ คุณควรเข้าใจข้อจำกัดของโมเดลดังนี้

  • การให้เหตุผลเชิงพื้นที่: โมเดลระบุตำแหน่งได้ไม่แม่นยำ ข้อความหรือวัตถุใน PDF พวกเขาอาจแสดงผลเฉพาะจำนวนโดยประมาณของ ออบเจ็กต์
  • ความแม่นยำ: โมเดลอาจพบความไม่สมเหตุสมผลเมื่อตีความ ข้อความที่เขียนด้วยลายมือในเอกสาร PDF