All Gemini 1.0 and Gemini 1.5 models are now retired.
To avoid service disruption, update to a newer model (for example, gemini-2.5-flash-lite). Learn more.

דף זה תורגם על ידי Cloud Translation API.

קובצי קלט נתמכים ודרישות

כשמתקשרים אל Gemini API מהאפליקציה באמצעות Firebase AI Logic SDK, אפשר להנחות את מודל Gemini ליצור טקסט על סמך קלט רב-אופני, כמו תמונות, סרטונים, אודיו ומסמכים (כמו קובצי PDF).

צריך להשתמש בסוגי קבצים נתמכים, לציין סוג MIME נתמך ולוודא שהקבצים והבקשות המולטימודאליות עומדים בדרישות ופועלים לפי שיטות מומלצות.

הדף הזה מתייחס ספציפית לשימוש ב-GenerativeModel ומתוארים בו הנושאים הבאים:

אפשרויות לשליחת קבצים בבקשה.
פרטים על סוגי ה-MIME הנתמכים, שיטות מומלצות ומגבלות לגבי קבצים מהסוגים הבאים:
תמונות | סרטונים | אודיו | מסמכים (כמו קובצי PDF).

אפשרויות לשליחת קבצים בבקשות מולטימודאליות

בדף הזה אפשר לבחור את ספק Gemini API כדי לראות תוכן שספציפי לספק

בכל בקשה מולטימודלית, תמיד צריך לספק את הפרטים הבאים:

הקובץ mimeType. סוגי ה-MIME הנתמכים של כל קובץ קלט מפורטים בקטע הרלוונטי בדף הזה.
הקובץ. אפשר לספק את הקובץ כנתונים מוטבעים או לספק את הקובץ באמצעות כתובת ה-URL שלו.

הגודל ומספר הקבצים שאפשר לספק בבקשה נקבעים לפי סוג קובץ הקלט, האופן שבו מספקים את הקובץ והמודל שבו נעשה שימוש (פרטים מופיעים בקטע של כל סוג קובץ קלט בדף הזה).

אפשרות 1: ציון הקובץ כנתונים מוטבעים

חשוב לשים לב לנקודות הבאות לגבי קבצים שמוצגים כנתונים מוטבעים:

אפשר לשלוח רק קבצים קטנים כנתונים מוטבעים, כי המגבלה על הגודל הכולל של הבקשה היא 20 MB.
הקובץ מקודד ל-base64 במהלך ההעברה (מה שמגדיל את גודל הקובץ).

דוגמה לאופן הוספת קובץ כנתונים מוטבעים מופיעה במאמר יצירת טקסט מקלט של טקסט וקובץ (רב-אופני). הערה: ערכות ה-SDK לפלטפורמות Android ו-Apple יכולות לטפל בתמונות מוטבעות בבקשות בלי לציין את סוג ה-MIME. למידע נוסף

אפשרות 2: שליחת הקובץ באמצעות כתובת URL

אלה סוגי כתובות ה-URL שאפשר להשתמש בהן בתג Gemini Developer API:

כתובת ה-URL של הסרטון ב-YouTube: הסרטון ב-YouTube צריך להיות גלוי לכולם או לא רשום.

אפשר לציין כתובת URL אחת של סרטון YouTube בכל בקשה.

תמונות: דרישות, שיטות מומלצות ומגבלות

תמונות: דרישות

בקטע הזה מפורטים סוגי ה-MIME הנתמכים והמגבלות לכל בקשה של תמונות.

סוגי MIME נתמכים

Gemini מודלים מולטימודאליים תומכים בסוגי ה-MIME הבאים של תמונות:

‫PNG – image/png
‫JPEG – image/jpeg
‫WebP – image/webp

מגבלות לכל בקשה

אין הגבלה ספציפית על מספר הפיקסלים בתמונה. עם זאת, תמונות גדולות יותר עוברות שינוי גודל והוספת שוליים כדי להתאים לרזולוציה מקסימלית של 3072 x‏ 3072, תוך שמירה על יחס הגובה-רוחב המקורי שלהן.

מספר הקבצים המקסימלי לבקשה: 3,000 קובצי תמונות

תמונות: יצירת טוקנים

כך מחושבים טוקנים לתמונות:

אם שני הממדים של התמונה קטנים מ-384 פיקסלים או שווים להם, נעשה שימוש ב-258 טוקנים.
אם מידה אחת של תמונה גדולה מ-384 פיקסלים, התמונה נחתכת לאריחים. גודל כל משבצת מוגדר כברירת מחדל למידה הקטנה ביותר (רוחב או גובה) חלקי 1.5. במקרה הצורך, כל משבצת מותאמת כך שהיא לא קטנה מ-256 פיקסלים ולא גדולה מ-768 פיקסלים. לאחר מכן, כל משבצת משנה את הגודל שלה ל-768x768 ומשתמשת ב-258 טוקנים.

תמונות: שיטות מומלצות

כדי להשיג את התוצאות הטובות ביותר כשמשתמשים בתמונות, כדאי לפעול לפי השיטות המומלצות ולעיין במידע הבא:

אם רוצים לזהות טקסט בתמונה, כדאי להשתמש בהנחיות עם תמונה אחת כדי לקבל תוצאות טובות יותר מאשר בהנחיות עם כמה תמונות.
אם ההנחיה כוללת תמונה אחת, צריך למקם את התמונה לפני הנחיית הטקסט בבקשה.
אם ההנחיה מכילה כמה תמונות, ואתם רוצים להתייחס אליהן בהמשך ההנחיה או שהמודל יתייחס אליהן בתשובה שלו, כדאי לתת לכל תמונה אינדקס לפני התמונה. משתמשים ב-a b c או ב-image 1 image 2 image 3 לאינדקס. הדוגמה הבאה ממחישה שימוש בתמונות עם אינדקס בהנחיה:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
מומלץ להשתמש בתמונות ברזולוציה גבוהה יותר כדי לקבל תוצאות טובות יותר.
כדאי לכלול בהנחיה כמה דוגמאות.
לפני שמוסיפים תמונות להנחיה, צריך לסובב אותן לאוריינטציה הנכונה.
אל תשתמשו בתמונות מטושטשות.

תמונות: מגבלות

למרות שהמודלים מרובי-האופנים Gemini הם עוצמתיים במקרים רבים של שימוש מרובה-אופנים, חשוב להבין את המגבלות של המודלים:

צנזורה של תוכן: המודלים מסרבים לספק תשובות לגבי תמונות שמפירות את מדיניות הבטיחות שלנו.
היגיון מרחבי: המודלים לא מדויקים באיתור טקסט או אובייקטים בתמונות. יכול להיות שהם יחזירו רק את המספרים המשוערים של האובייקטים.
שימושים רפואיים: המודלים לא מתאימים לפרשנות של תמונות רפואיות (לדוגמה, צילומי רנטגן וטומוגרפיה ממוחשבת) או למתן ייעוץ רפואי.
זיהוי אנשים: המודלים לא מיועדים לזיהוי אנשים שאינם מפורסמים בתמונות.
דיוק: יכול להיות שהמודלים יפיקו הזיות או יעשו טעויות כשהם מפרשים תמונות באיכות נמוכה, תמונות מסובבות או תמונות ברזולוציה נמוכה מאוד. יכול להיות שהמודלים גם יפיקו הזיות כשהם מפרשים טקסט בכתב יד במסמכים של תמונות.

סרטונים: דרישות, שיטות מומלצות ומגבלות

סרטון: דרישות

בקטע הזה מוסבר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה של סרטון.

סוגי MIME נתמכים

Gemini מודלים מולטי-מודאליים תומכים בסוגי ה-MIME הבאים של סרטונים:

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
‫MP4 – video/mp4
WEBM – video/webm
‫WMV – video/wmv
‫3GPP – video/3gpp

מגבלות לכל בקשה

מספר הקבצים המקסימלי לבקשה: 10 קובצי וידאו

סרטון: יצירת טוקנים

כך מחושבים האסימונים עבור סרטונים:

טראק האודיו מקודד עם פריימים של סרטון. פסי האודיו מחולקים גם הם לקטעים של שנייה אחת, שכל אחד מהם מייצג 32 טוקנים. מסגרת הווידאו וטוקני האודיו משולבים יחד עם חותמות הזמן שלהם. חותמות הזמן מיוצגות כ-5 טוקנים.
בסרטונים שנדגמים בקצב של פריים אחד לשנייה (fps) או פחות, חותמות הזמן של השעה הראשונה של הסרטון מיוצגות כ-5 טוקנים לכל פריים של הסרטון. חותמות הזמן הנותרות מיוצגות כ-7 טוקנים לכל פריים של הסרטון.
בסרטונים שנדגמים בקצב של יותר מ-1 פריימים לשנייה (fps), חותמות הזמן של השעה הראשונה של הסרטון מיוצגות כ-9 טוקנים לכל פריימים של הסרטון. חותמות הזמן הנותרות מיוצגות כ-11 טוקנים לכל פריים של הסרטון.

סרטון: שיטות מומלצות

כדי להשיג את התוצאות הטובות ביותר כשמשתמשים בווידאו, כדאי לפעול לפי השיטות המומלצות והמידע הבאים:

אם ההנחיה מכילה סרטון אחד, צריך להציב את הסרטון לפני הנחיית הטקסט.
אם אתם צריכים לוקליזציה של חותמות זמן בסרטון עם אודיו, בקשו מהמודל ליצור חותמות זמן בפורמט שמתואר בקטע 'פורמט חותמת הזמן'.

סרטון: מגבלות

סינון תוכן: המודלים מסרבים לספק תשובות לגבי סרטונים שמפירים את מדיניות הבטיחות שלנו.
זיהוי של צלילים שאינם דיבור: יכול להיות שהמודלים שתומכים באודיו יטעו בזיהוי של צלילים שאינם דיבור.

אודיו: דרישות ומגבלות

אודיו: דרישות

בקטע הזה מוסבר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה של אודיו.

סוגי MIME נתמכים

Gemini מודלים מולטימודאליים תומכים בסוגי ה-MIME הבאים של אודיו:

‫AAC – audio/aac
‫FLAC – audio/flac
MP3 - audio/mp3
MPA – audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
‫MP4 – audio/mp4
OPUS - audio/opus
PCM - audio/pcm
‫WAV - audio/wav
WEBM – audio/webm

מגבלות לכל בקשה

מספר הקבצים המקסימלי לכל בקשה: קובץ אודיו אחד

אודיו: מגבלות

זיהוי של צלילים שאינם דיבור: יכול להיות שהמודלים שתומכים באודיו יטעו בזיהוי של צלילים שאינם דיבור.
חותמות זמן של אודיו בלבד: כדי ליצור חותמות זמן מדויקות לקובצי אודיו בלבד, צריך להגדיר את הפרמטר audio_timestamp ב-generation_config.

מסמכים (כמו קובצי PDF): דרישות, שיטות מומלצות ומגבלות

מסמכים: דרישות

בקטע הזה מוסבר על סוגי ה-MIME הנתמכים ועל המגבלות לכל בקשה עבור מסמכים (כמו קובצי PDF).

סוגי MIME נתמכים

Gemini מודלים מולטימודאליים תומכים בסוגי ה-MIME הבאים של מסמכים:

‫PDF – application/pdf
טקסט – text/plain

מגבלות לכל בקשה

קובצי PDF נחשבים לתמונות, ולכן דף אחד של קובץ PDF נחשב לתמונה אחת. מספר הדפים שמותר להשתמש בהם בהנחיה מוגבל למספר התמונות שמודלים רב-אופניים של Gemini יכולים לתמוך בהן.

מספר הקבצים המקסימלי לבקשה: 3,000 קבצים
מספר הדפים המקסימלי בכל קובץ: 1,000 דפים
הגודל המקסימלי של כל קובץ: 50MB לכל קובץ

מסמכים: יצירת טוקנים

טוקניזציה של קובצי PDF

קובצי PDF נחשבים כתמונות, ולכן כל דף בקובץ PDF עובר טוקניזציה באותו אופן כמו תמונה.

בנוסף, העלות של קובצי PDF היא בהתאם לGemini תמחור התמונות. לדוגמה, אם כוללים קובץ PDF בן שני עמודים בקריאה ל-Gemini API, תחויבו בעמלת קלט על עיבוד של שתי תמונות.

מסמכים: שיטות מומלצות

כדי לקבל את התוצאות הטובות ביותר כשמשתמשים בקובצי PDF, כדאי לפעול לפי השיטות המומלצות ולעיין במידע הבא:

אם ההנחיה מכילה קובץ PDF אחד, צריך למקם את קובץ ה-PDF לפני ההנחיה הטקסטואלית בבקשה.
אם יש לכם מסמך ארוך, כדאי לפצל אותו לכמה קובצי PDF כדי לעבד אותו.
כדאי להשתמש בקובצי PDF שנוצרו עם טקסט שעבר רינדור כטקסט, במקום להשתמש בטקסט בתמונות סרוקות. הפורמט הזה מבטיח שהטקסט יהיה קריא למכונה, כך שיהיה קל יותר למודל לערוך, לחפש ולשנות אותו בהשוואה לקובצי PDF של תמונות סרוקות. השיטה הזו מניבה תוצאות אופטימליות כשעובדים עם מסמכים עמוסי טקסט כמו חוזים.

מסמכים: מגבלות

היגיון מרחבי: המודלים לא מדויקים באיתור טקסט או אובייקטים בקובצי PDF. יכול להיות שהם יחזירו רק את המספרים המשוערים של האובייקטים.
דיוק: יכול להיות שהמודלים יפיקו הזיות כשהם מפרשים טקסט בכתב יד במסמכי PDF.

קובצי קלט נתמכים ודרישות קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

אפשרויות לשליחת קבצים בבקשות מולטימודאליות

אפשרות 1: ציון הקובץ כנתונים מוטבעים

אפשרות 2: שליחת הקובץ באמצעות כתובת URL

תמונות: דרישות, שיטות מומלצות ומגבלות

תמונות: דרישות

סוגי MIME נתמכים

מגבלות לכל בקשה

תמונות: יצירת טוקנים

תמונות: שיטות מומלצות

תמונות: מגבלות

סרטונים: דרישות, שיטות מומלצות ומגבלות

סרטון: דרישות

סוגי MIME נתמכים

מגבלות לכל בקשה

סרטון: יצירת טוקנים

סרטון: שיטות מומלצות

סרטון: מגבלות

אודיו: דרישות ומגבלות

אודיו: דרישות

סוגי MIME נתמכים

מגבלות לכל בקשה

אודיו: מגבלות

מסמכים (כמו קובצי PDF): דרישות, שיטות מומלצות ומגבלות

מסמכים: דרישות

סוגי MIME נתמכים

מגבלות לכל בקשה

מסמכים: יצירת טוקנים

מסמכים: שיטות מומלצות

מסמכים: מגבלות

קובצי קלט נתמכים ודרישות