קובצי קלט נתמכים ודרישות של Vertex AI Gemini API

כשמבצעים קריאה ל-Vertex AI Gemini API מהאפליקציה באמצעות Vertex AI in Firebase SDK, אפשר להנחות את מודל Gemini ליצור טקסט שמבוסס על קלט מרובה מצבים. הנחיות רב-אופניות יכולות לכלול שיטות מרובות (או סוגי קלט), כמו טקסט יחד עם תמונות, קובצי PDF, וידאו ואודיו.

בחלקים של הקלט שאינם טקסט (כמו קובצי מדיה), צריך להשתמש בסוגי קבצים נתמכים, לציין סוג MIME נתמך ולוודא שהקבצים והבקשות הרב-מודליות עומדים בדרישות ופועלים בהתאם לשיטות המומלצות.

בדף הזה מתוארים סוגי ה-MIME הנתמכים, השיטות המומלצות והמגבלות לגבי:

דרישות ספציפיות ל-SDK של Vertex AI in Firebase

גודל הבקשה הכולל המקסימלי של Vertex AI in Firebase ערכות SDK הוא 20MB. אם הבקשה גדולה מדי, תופיע שגיאת HTTP 413.



תמונות: דרישות, שיטות מומלצות ומגבלות

תמונות: דרישות

בקטע הזה נסביר על סוגי MIME הנתמכים והמגבלות על כל בקשה של תמונות.

סוגי ה-MIME הנתמכים

המודלים של Gemini multimodal תומכים בסוגי ה-MIME הבאים של תמונות:

סוג ה-MIME של התמונה Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG – image/png
JPEG –‏ image/jpeg
WebP – image/webp

הגבלות לכל בקשה

אין מגבלה ספציפית על מספר הפיקסלים בתמונה. אבל, לפעמים תמונות גדולות יותר מוקטנות ומרווחים כדי להתאים לרזולוציה מקסימלית של 3072x 3072 תוך שמירה על יחס הגובה-רוחב המקורי שלהם.

זהו המספר המקסימלי של קובצי תמונה שמותרים בבקשה להנחיה:

  • Gemini 1.0 Pro Vision: 16 תמונות
  • Gemini 1.5 Flash ו- Gemini 1.5 Pro: 3,000 תמונות

תמונות: יצירת טוקנים

כך מחושבים האסימונים לתמונות:

  • Gemini 1.0 Pro Vision: כל תמונה כוללת חשבון ל-258 אסימונים.
  • Gemini 1.5 Flash ו- Gemini 1.5 Pro:
    • אם שני המידות של התמונה קטנים מ-384 פיקסלים או שווים לו, ואז נעשה שימוש ב-258 אסימונים.
    • אם אחד הממדים של התמונה גדול מ-384 פיקסלים, התמונה חתוכה למשבצות. כברירת מחדל, כל גודל משבצת מוגדר לפי הגודל הקטן ביותר מאפיין (רוחב או גובה) חלקי 1.5. אם צריך, כל משבצת מותאמת כך שהיא לא תהיה קטנה מ-256 פיקסלים ולא גדולה מ-768 פיקסלים. לאחר מכן, הגודל של כל משבצת משתנה ל-768x768 ומשתמשים ב-258 אסימונים.

תמונות: שיטות מומלצות

כשאתם משתמשים בתמונות, יש לפעול לפי השיטות המומלצות והמידע הבאים כדי התוצאות הטובות ביותר:

  • אם אתם רוצים לזהות טקסט בתמונה, אתם יכולים להשתמש בהנחיות עם תמונה אחת כדי מניבות תוצאות טובות יותר מאשר הנחיות עם כמה תמונות.
  • אם ההנחיה מכילה תמונה אחת, צריך למקם את התמונה לפני ההנחיה בטקסט בבקשה.
  • אם ההנחיה כוללת כמה תמונות ואתם רוצים להתייחס אליהן מאוחר יותר בהנחיה שלכם, או שהמודל יפנה אליהם בתשובה מהמודל, כדאי להוסיף לכל תמונה אינדקס לפני התמונה. כדאי להשתמש a b c או image 1 image 2 image 3 להוספה לאינדקס. הדוגמה הבאה ממחישה שימוש בתמונות שנוספו לאינדקס בהנחיה:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • להשתמש בתמונות ברזולוציה גבוהה יותר. הן מניבות תוצאות טובות יותר.
  • כדאי לכלול בהנחיה כמה דוגמאות.
  • מסובבים את התמונות לכיוון הנכון לפני שמוסיפים אותן להנחיה.
  • יש להימנע משימוש בתמונות מטושטשות.

תמונות: מגבלות

המודלים הרב-מודאליים של Gemini יעילים בהרבה תרחישים של שימוש רב-מודאלי, אבל חשוב להבין את המגבלות של המודלים:

  • ניהול תוכן: המודלים מסרבים לספק תשובות בתמונות שמפירות את מדיניות הבטיחות שלנו.
  • חשיבה מרחבית: המודלים לא מדויקים במיקום של טקסט או אובייקטים בתמונות. יכול להיות שהן יחזירו רק את המספרים המשוערים של הפריטים.
  • שימושים רפואיים: המודלים לא מתאימים לפענוח תמונות רפואיות (למשל, צילומי רנטגן וסריקות CT) או למתן ייעוץ רפואי.
  • זיהוי אנשים: המודלים לא מיועדים לזיהוי אנשים בתמונות שאינם סלבריטאים.
  • דיוק: המודלים יכולים להזות או טועים כשמפרשים תמונות באיכות נמוכה, תמונות מסובבות או תמונות ברזולוציה נמוכה במיוחד. יכול להיות שהמודלים ייצרו הזיות גם כשהם מפרשים טקסט בכתב יד במסמכים שמכילים תמונות.



סרטון: דרישות, שיטות מומלצות ומגבלות

סרטון: דרישות

בקטע הזה מוסבר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה של סרטון.

סוגי MIME נתמכים

המודלים הרב-מצביים של Gemini תומכים בסוגי MIME הבאים של וידאו:

סוג MIME של הווידאו Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV –‏ video/x-flv
MOV –‏ video/quicktime
MPEG – video/mpeg
MPEGPS - video/mpegps
מיילים לגלון - video/mpg
MP4 – video/mp4
WEBM – video/webm
WMV – video/wmv
3GPP – video/3gpp

הגבלות לכל בקשה

זהו המספר המקסימלי של קובצי וידאו שמותרים בבקשה להנחיה:

  • Gemini 1.0 Pro Vision: קובץ וידאו אחד
  • Gemini 1.5 Flash ו- Gemini 1.5 Pro: 10 קובצי וידאו

סרטון: יצירת אסימונים

כך מחושבים אסימונים לסרטונים:

  • כל המודלים הרב-אופניים של Gemini: הסרטונים נדגמים פריים אחד לשנייה (fps). כל פריים בסרטון נחשב ל-258 לאסימונים אישיים.
  • Gemini 1.5 Flash ו- Gemini 1.5 Pro: הטראק של האודיו מקודד עם פריימים. הטראק של האודיו מחולק גם לטראנקים של שנייה אחת, שכל אחד מהם מכיל 32 אסימונים. אסימוני האודיו והפריים של הווידאו מופרדים זה מזה יחד עם חותמות הזמן שלהם. חותמות הזמן מיוצגות כ-7 אסימונים.

סרטון: שיטות מומלצות

כדי לקבל את התוצאות הטובות ביותר, כדאי להשתמש בשיטות המומלצות ובמידע הבאים כשמשתמשים בווידאו:

  • אם ההנחיה מכילה סרטון אחד, צריך למקם את הסרטון לפני הטקסט .
  • אם אתם צריכים לוקליזציה של חותמות זמן בסרטון עם אודיו, צריך לבקש מהמודל ליצור חותמות זמן בפורמט MM:SS, כאשר שני הספרות הראשונות מייצגות דקות ושני הספרות האחרונות מייצגות שניות. צריך להשתמש באותו פורמט בשאלות שמתייחסות לחותמת זמן.
  • חשוב לשים לב לנקודות הבאות אם משתמשים ב-Gemini 1.0 Pro Vision:

    • אין לכלול יותר מסרטון אחד בכל הנחיה.
    • המודל מעבד את המידע רק בשתי הדקות הראשונות של הסרטון.
    • המודל מעבד סרטונים כמסגרות תמונה לא רציפות וידאו. האודיו לא כלול. אם שמתם לב שחסרות במודל של הסרטון, נסו לקצר אותו כדי שהמודל מתעד חלק גדול יותר מתוכן הסרטון.
    • המודל לא מעבד מידע או מטא-נתונים של חותמת זמן של אודיו. לכן, יכול להיות שהמודל לא יניב ביצועים טובים בתרחישים לדוגמה שמחייבים קלט אודיו, כמו כתוביות, מידע, כמו מהירות או קצב.

סרטון: הגבלות

המודלים הרב-מודאליים של Gemini יעילים בהרבה תרחישים של שימוש רב-מודאלי, אבל חשוב להבין את המגבלות של המודלים:

  • ניהול תוכן: הדוגמניות מסרבות לספק תשובות בסרטונים שמפירים את כללי המדיניות שלנו בנושא בטיחות.
  • זיהוי צלילים שאינם דיבור: המודלים שתומכים האודיו עלול לגרום לטעויות בזיהוי צלילים שאינם דיבור.
  • תנועה במהירות גבוהה: יכול להיות שהמודלים יעשו שגיאות בהבנת תנועה במהירות גבוהה בסרטון בגלל קצב הדגימה הקבוע של פריים אחד לשנייה (fps).
  • סימני פיסוק לתמלול: (אם משתמשים ב-Gemini 1.5 Flash) יכול להיות שהמודלים להחזיר תמלילים שלא כוללים סימני פיסוק.



אודיו: דרישות ומגבלות

אודיו: דרישות

בקטע הזה נסביר על סוגי MIME הנתמכים והמגבלות על כל בקשה של אודיו.

סוגי ה-MIME הנתמכים

מודלים של Gemini עם מגוון מודעות תומכים בסוגי ה-MIME הבאים של אודיו:

סוג MIME של אודיו Gemini 1.5 Flash Gemini 1.5 Pro
AAC – audio/aac
FLAC – audio/flac
MP3 – audio/mp3
MPA – audio/m4a
MPEG – audio/mpeg
MPGA - audio/mpga
MP4 – audio/mp4
OPUS – audio/opus
PCM – audio/pcm
WAV – audio/wav
WEBM - audio/webm

מגבלות לכל בקשה

אפשר לכלול עד קובץ אודיו אחד בבקשה להנחיה.

אודיו: הגבלות

למודלים רב-אופניים של Gemini יש הרבה יתרונות שאפשר להשתמש בהם במגוון שיטות חשוב להבין את המגבלות של המודלים:

  • זיהוי צלילים שאינם דיבור: בדגמים שתומכים בסאונד, יכולות להיות שגיאות בזיהוי צלילים שאינם דיבור.
  • חותמות זמן של אודיו בלבד: כדי ליצור חותמות זמן מדויקות של קבצים של אודיו בלבד, צריך להגדיר את הפרמטר audio_timestamp ב-generation_config.
  • סימני פיסוק לתמלול: (אם משתמשים ב-Gemini 1.5 Flash) יכול להיות שהמודלים להחזיר תמלילים שלא כוללים סימני פיסוק.



מסמכים (כמו קובצי PDF): דרישות, שיטות מומלצות ומגבלות

מסמכים: דרישות

בקטע הזה נסביר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה של מסמכים (כמו קובצי PDF).

סוגי MIME נתמכים

המודלים הרב-מצביים של Gemini תומכים בסוגי MIME הבאים של מסמכים:

סוג MIME של מסמך Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF – application/pdf
טקסט - text/plain

הגבלות לכל בקשה

קובצי PDF נחשבים לתמונות, לכן דף יחיד של קובץ PDF נחשב לאחד תמונה. מספר הדפים שמותר להוסיף להנחיה מוגבל למספר התמונות שהמודל יכול לתמוך בהן:

  • Gemini 1.0 Pro Vision: 16 דפים
  • Gemini 1.5 Pro ו-Gemini 1.5 Flash: 1,000 דפים

מסמכים: יצירת אסימונים

טוקניזציה של קובצי PDF

קובצי PDF נחשבים לתמונות, כך שכל דף בקובץ ה-PDF עובר הצפנה באותו אסימון בתור תמונה.

בנוסף, העלות של קובצי PDF מבוססת על התמחור של תמונות ב-Gemini. לדוגמה, אם תכללו קובץ PDF בן שתי דפים בקריאה ל-Gemini API, תצטרכו לשלם על עיבוד שתי תמונות.

יצירת אסימונים של טקסט פשוט

מסמכים בטקסט פשוט מחולקים לטוקנים כטקסט. לדוגמה, אם תכללו בקריאה ל-Gemini API מסמך של 100 מילים בטקסט פשוט, תחויבו בעמלת קלט על עיבוד 100 מילים.

מסמכים: שיטות מומלצות

כדי לקבל את התוצאות הטובות ביותר, מומלץ להשתמש בשיטות המומלצות ובמידע הבאים כשעובדים עם קובצי PDF:

  • אם ההנחיה מכילה קובץ PDF אחד, צריך למקם את קובץ ה-PDF לפני הטקסט בבקשה שלכם.
  • אם יש לכם מסמך ארוך, מומלץ לפצל אותו לכמה קובצי PDF כדי לעבד אותו.
  • כדאי להשתמש בקובצי PDF שנוצרו עם טקסט שעבר רינדור כטקסט, במקום להשתמש בטקסט בתמונות סרוקות. הפורמט הזה מבטיח שהטקסט קריא למכונה, כך שקל יותר לערוך, לחפש ולבצע בו שינויים במודל בהשוואה לקובצי PDF של תמונות סרוקות. השיטה הזו מניבה תוצאות אופטימליות כשעובדים עם מסמכים שמכילים הרבה טקסט, כמו חוזים.

מסמכים: מגבלות

המודלים הרב-מודאליים של Gemini יעילים בהרבה תרחישים של שימוש רב-מודאלי, אבל חשוב להבין את המגבלות של המודלים:

  • נימוק מרחבי: המודלים לא מדויקים באיתור טקסט או אובייקטים בקובצי PDF. יכול להיות שהן יחזירו רק את המספרים המשוערים של הפריטים.
  • דיוק: יכול להיות שהמודלים ייצרו הזיות כשהם ינסו לפרש טקסט בכתב יד במסמכי PDF.