קובצי קלט נתמכים ודרישות ל-Vertex AI Gemini API

כשאתם קוראים ל-Vertex AI Gemini API מהאפליקציה באמצעות SDK של Vertex AI in Firebase, אתם יכולים להנחות את מודל Gemini ליצור טקסט על סמך קלט רב-מודלי. הנחיות מרובה-מצבים יכולות לכלול כמה מודלים (או סוגי קלט), כמו טקסט עם תמונות, קובצי PDF, סרטונים ואודיו.

בחלקים של הקלט שאינם טקסט (כמו קובצי מדיה), צריך להשתמש בסוגי קבצים נתמכים, לציין סוג MIME נתמך ולוודא שהקבצים והבקשות הרב-מודאליות עומדים בדרישות ופועלים בהתאם לשיטות המומלצות.

בדף הזה מתוארים סוגי ה-MIME הנתמכים, השיטות המומלצות והמגבלות לגבי:

דרישות ספציפיות ל-SDK של Vertex AI in Firebase

ב-SDK של Vertex AI in Firebase, הגודל הכולל המקסימלי של בקשה הוא 20MB. אם הבקשה גדולה מדי, תופיע שגיאת HTTP 413.



תמונות: דרישות, שיטות מומלצות ומגבלות

תמונות: דרישות

בקטע הזה נסביר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה לגבי תמונות.

סוגי MIME נתמכים

המודלים של Gemini multimodal תומכים בסוגי ה-MIME הבאים של תמונות:

סוג ה-MIME של התמונה Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG – image/png
JPEG –‏ image/jpeg
WebP – image/webp

מגבלות לכל בקשה

אין הגבלה ספציפית על מספר הפיקסלים בתמונה. עם זאת, תמונות גדולות יותר מוקטנות וממולאות כדי להתאים לרזולוציה מקסימלית של 3072 על 3072, תוך שמירה על יחס הגובה-רוחב המקורי שלהן.

זהו המספר המקסימלי של קובצי תמונה שמותר לשלוח בבקשה להצגת הנחיה:

  • Gemini 1.0 Pro Vision: 16 תמונות
  • Gemini 1.5 Flash ו-Gemini 1.5 Pro: 3,000 תמונות

תמונות: יצירת טוקנים

כך מחושבים האסימונים לתמונות:

  • Gemini 1.0 Pro Vision: כל תמונה נספרת כ-258 אסימונים.
  • Gemini 1.5 Flash ו-Gemini 1.5 Pro:
    • אם שני המימדים של התמונה קטנים מ-384 פיקסלים או שווים להם, נעשה שימוש ב-258 אסימונים.
    • אם מימד אחד של תמונה גדול מ-384 פיקסלים, התמונה תוחתוך לריבועים. ברירת המחדל של כל גודל משבצת היא המאפיין הקטן ביותר (רוחב או גובה) חלקי 1.5. אם צריך, כל משבצת מותאמת כך שהיא לא תהיה קטנה מ-256 פיקסלים ולא גדולה מ-768 פיקסלים. לאחר מכן, המערכת משנה את הגודל של כל משבצת ל-768x768 ומשתמשת ב-258 אסימונים.

תמונות: שיטות מומלצות

כדי לקבל את התוצאות הטובות ביותר, מומלץ להשתמש בשיטות המומלצות ובמידע הבאים כשמשתמשים בתמונות:

  • אם רוצים לזהות טקסט בתמונה, כדאי להשתמש בהנחיות עם תמונה אחת כדי לקבל תוצאות טובות יותר מאשר בהנחיות עם כמה תמונות.
  • אם ההנחיה מכילה תמונה אחת, צריך למקם את התמונה לפני ההנחיה בטקסט בבקשה.
  • אם ההנחיה מכילה כמה תמונות, ואתם רוצים להפנות אליהן בהמשך ההנחיה או לאפשר למודל להפנות אליהן בתשובה של המודלים, כדאי לתת לכל תמונה אינדקס לפני התמונה. משתמשים ב-a b c או ב-image 1 image 2 image 3 לאינדקס. הדוגמה הבאה ממחישה שימוש בתמונות שנוספו לאינדקס בהנחיה:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • כדאי להשתמש בתמונות ברזולוציה גבוהה יותר, כי הן מניבות תוצאות טובות יותר.
  • מומלץ לכלול בהנחיה כמה דוגמאות.
  • מסובבים את התמונות לכיוון הנכון לפני שמוסיפים אותן להנחיה.
  • יש להימנע משימוש בתמונות מטושטשות.

תמונות: מגבלות

המודלים הרב-מודאליים של Gemini יעילים בהרבה תרחישים לדוגמה של שימוש רב-מודאלי, אבל חשוב להבין את המגבלות של המודלים:

  • ניהול תוכן: הדוגמנים מסרבים לספק תשובות לגבי תמונות שמפירות את כללי הבטיחות שלנו.
  • חשיבה מרחבית: המודלים לא מדויקים בזיהוי טקסט או אובייקטים בתמונות. יכול להיות שהן יחזירו רק את המספרים המשוערים של הפריטים.
  • שימושים רפואיים: המודלים לא מתאימים לפענוח תמונות רפואיות (למשל, צילומי רנטגן וסריקות CT) או למתן ייעוץ רפואי.
  • זיהוי אנשים: המודלים לא מיועדים לזיהוי אנשים בתמונות שאינם סלבריטאים.
  • דיוק: יכול להיות שהמודלים ייצרו הזיות או יעשו שגיאות כשהם מפרשים תמונות באיכות נמוכה, תמונות שהופנו או תמונות באיכות רזולוציה נמוכה במיוחד. יכול להיות שהמודלים ייצרו הזיות גם כשהם מפרשים טקסט בכתב יד במסמכים שמכילים תמונות.



סרטונים: דרישות, שיטות מומלצות ומגבלות

סרטון: דרישות

בקטע הזה נסביר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה של סרטון.

סוגי MIME נתמכים

מודלים של Gemini עם מגוון מודעות תומכים בסוגי ה-MIME הבאים של סרטונים:

סוג ה-MIME של הסרטון Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV –‏ video/x-flv
MOV –‏ video/quicktime
MPEG - video/mpeg
MPEGPS – video/mpegps
MPG - video/mpg
MP4 – video/mp4
WEBM – video/webm
WMV – video/wmv
3GPP – video/3gpp

מגבלות לכל בקשה

זהו המספר המקסימלי של קובצי וידאו שמותר לשלוח בבקשה להצגת הנחיה:

  • Gemini 1.0 Pro Vision: קובץ וידאו אחד
  • Gemini 1.5 Flash ו-Gemini 1.5 Pro: 10 קובצי וידאו

סרטון: יצירת טוקנים

כך מחושבים האסימונים בסרטונים:

  • כל המודלים המולטי-מודאליים של Gemini: הסרטונים נלקחים לדגימה בקצב של פריים אחד לשנייה (FPS). כל פריים בסרטון מכיל 258 אסימונים.
  • Gemini 1.5 Flash ו-Gemini 1.5 Pro: הטראק של האודיו מקודד באמצעות פריימים של וידאו. הטראק של האודיו מחולק גם לטראנקים של שנייה אחת, שכל אחד מהם מכיל 32 אסימונים. אסימוני האודיו והפריים של הווידאו מופרדים זה מזה יחד עם חותמות הזמן שלהם. חותמות הזמן מיוצגות כ-7 אסימונים.

סרטון: שיטות מומלצות

כדי לקבל את התוצאות הטובות ביותר, כדאי להשתמש בשיטות המומלצות ובמידע הבאים כשמשתמשים בווידאו:

  • אם ההנחיה מכילה סרטון אחד, צריך למקם את הסרטון לפני ההנחיה הטקסטואלית.
  • אם אתם צריכים לוקליזציה של חותמות זמן בסרטון עם אודיו, צריך לבקש מהמודל ליצור חותמות זמן בפורמט MM:SS, כאשר שני הספרות הראשונות מייצגות דקות ושני הספרות האחרונות מייצגות שניות. צריך להשתמש באותו פורמט בשאלות שמתייחסות לחותמת זמן.
  • אם אתם משתמשים ב-Gemini 1.0 Pro Vision, חשוב לשים לב לנקודות הבאות:

    • מומלץ להשתמש בסרטון אחד לכל הנחיה.
    • המודל מעבד את המידע רק בשתי הדקות הראשונות של הסרטון.
    • המודל מעבד סרטונים כמסגרות תמונה לא רציפות מהסרטון. האודיו לא כלול. אם אתם מבחינים שהדוגמנית לא מתעדת חלק מהתוכן בסרטון, נסו לקצר את הסרטון כדי שהדוגמנית תצלם חלק גדול יותר מתוכן הסרטון.
    • המודל לא מעבד מידע אודיו או מטא-נתונים של חותמות זמן. לכן, יכול להיות שהמודל לא יניב ביצועים טובים בתרחישי שימוש שדורשים קלט אודיו, כמו הוספת כתוביות לאודיו או מידע שקשור לזמן, כמו מהירות או קצב.

סרטון: מגבלות

המודלים הרב-מודאליים של Gemini יעילים בהרבה תרחישים לדוגמה של שימוש רב-מודאלי, אבל חשוב להבין את המגבלות של המודלים:

  • ניהול תוכן: הדוגמניות מסרבות לתת תשובות בסרטונים שמפירים את כללי המדיניות שלנו בנושא בטיחות.
  • זיהוי צלילים שאינם דיבור: בדגמים שתומכים בסאונד, יכולות להיות שגיאות בזיהוי צלילים שאינם דיבור.
  • תנועה במהירות גבוהה: יכול להיות שהמודלים יעשו שגיאות בהבנת תנועה במהירות גבוהה בסרטון בגלל קצב הדגימה הקבוע של פריים אחד לשנייה (fps).
  • סימני פיסוק בתמלול: (אם משתמשים ב-Gemini 1.5 Flash) יכול להיות שהמודלים יחזירו תמלילים שלא כוללים סימני פיסוק.



אודיו: דרישות ומגבלות

אודיו: דרישות

בקטע הזה מוסבר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה לאודיו.

סוגי MIME נתמכים

מודלים של Gemini עם רכיבים מסוגים שונים תומכים בסוגי ה-MIME הבאים של אודיו:

סוג MIME של אודיו Gemini 1.5 Flash Gemini 1.5 Pro
AAC – audio/aac
FLAC – audio/flac
MP3 – audio/mp3
MPA – audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 – audio/mp4
OPUS – audio/opus
PCM – audio/pcm
WAV – audio/wav
WEBM – audio/webm

מגבלות לכל בקשה

אפשר לכלול עד קובץ אודיו אחד בבקשה להנחיה.

אודיו: מגבלות

המודלים הרב-מודאליים של Gemini יעילים בהרבה תרחישים לדוגמה של שימוש רב-מודאלי, אבל חשוב להבין את המגבלות של המודלים:

  • זיהוי צלילים שאינם דיבור: בדגמים שתומכים בסאונד, יכולות להיות שגיאות בזיהוי צלילים שאינם דיבור.
  • חותמות זמן של אודיו בלבד: כדי ליצור חותמות זמן מדויקות של קבצים של אודיו בלבד, צריך להגדיר את הפרמטר audio_timestamp ב-generation_config.
  • סימני פיסוק בתמלול: (אם משתמשים ב-Gemini 1.5 Flash) יכול להיות שהמודלים יחזירו תמלילים שלא כוללים סימני פיסוק.



מסמכים (כמו קובצי PDF): דרישות, שיטות מומלצות ומגבלות

מסמכים: דרישות

בקטע הזה נסביר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה של מסמכים (כמו קובצי PDF).

סוגי MIME נתמכים

מודלים של Gemini עם מגוון מודלים תומכים בסוגי ה-MIME הבאים של מסמכים:

סוג ה-MIME של המסמך Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
קובץ PDF – application/pdf
טקסט – text/plain

מגבלות לכל בקשה

קובצי PDF נחשבים כתמונות, כך שדף אחד בקובץ PDF נחשב כתמונה אחת. מספר הדפים שמותר להוסיף להנחיה מוגבל למספר התמונות שהמודל יכול לתמוך בהן:

  • Gemini 1.0 Pro Vision: 16 דפים
  • Gemini 1.5 Pro ו-Gemini 1.5 Flash: 1,000 דפים

מסמכים: יצירת אסימונים

טוקניזציה של קובצי PDF

קובצי PDF נחשבים כתמונות, ולכן כל דף בקובץ PDF מומר לאסימונים באותו אופן שבו תמונה מומרת לאסימונים.

בנוסף, העלות של קובצי PDF מבוססת על התמחור של תמונות ב-Gemini. לדוגמה, אם תכללו קובץ PDF בן שתי דפים בקריאה ל-Gemini API, תצטרכו לשלם על עיבוד שתי תמונות.

טוקניזציה של טקסט פשוט

מסמכים בטקסט פשוט מחולקים לטוקנים כטקסט. לדוגמה, אם תכללו בקריאה ל-Gemini API מסמך של 100 מילים בטקסט פשוט, תחויבו בעמלת קלט על עיבוד 100 מילים.

מסמכים: שיטות מומלצות

כדי לקבל את התוצאות הטובות ביותר, מומלץ להשתמש בשיטות המומלצות ובמידע הבאים כשעובדים עם קובצי PDF:

  • אם ההנחיה מכילה קובץ PDF אחד, צריך להציב את קובץ ה-PDF לפני ההנחיה הטקסטואלית בבקשה.
  • אם יש לכם מסמך ארוך, מומלץ לפצל אותו לכמה קובצי PDF כדי לעבד אותו.
  • כדאי להשתמש בקובצי PDF שנוצרו עם טקסט שעבר עיבוד כטקסט, במקום להשתמש בטקסט בתמונות סרוקות. הפורמט הזה מבטיח שהטקסט קריא למכונה, כך שקל יותר לערוך, לחפש ולבצע בו שינויים במודל בהשוואה לקובצי PDF של תמונות סרוקות. השיטה הזו מניבה תוצאות אופטימליות כשעובדים עם מסמכים שמכילים הרבה טקסט, כמו חוזים.

מסמכים: מגבלות

המודלים הרב-מודאליים של Gemini יעילים בהרבה תרחישים לדוגמה של שימוש רב-מודאלי, אבל חשוב להבין את המגבלות של המודלים:

  • חשיבה מרחבית: המודלים לא מדויקים במיקום של טקסט או אובייקטים בקובצי PDF. יכול להיות שהן יחזירו רק את המספרים המשוערים של הפריטים.
  • דיוק: יכול להיות שהמודלים ייצרו הזיות כשהם ינסו לפרש טקסט בכתב יד במסמכי PDF.