יצירת טקסט מהנחיות מרובות מצבים באמצעות Gemini API


כשמפעילים את ה-Gemini API מהאפליקציה באמצעות ה-SDK של Vertex AI in Firebase, אפשר להנחות את המודל של Gemini ליצור טקסט על סמך קלט מרובה מצבים. הנחיות מולטימודיות יכולות לכלול כמה מודלים (או סוגי קלט), כמו טקסט עם תמונות, קובצי PDF, סרטונים ואודיו.

לצורך בדיקה וחזרה על הנחיות עם מספר מצבים, מומלץ להשתמש Vertex AI Studio

לפני שמתחילים

אם עדיין לא עשיתם זאת, כדאי לעיין במדריך למתחילים בנושא ערכות ה-SDK של Vertex AI in Firebase. חשוב לוודא שכל הפעולות הבאות בוצעו:

  1. מגדירים פרויקט Firebase חדש או קיים, כולל באמצעות שלב את תוכנית התמחור והתשלומים ולהפעיל את ממשקי ה-API הנדרשים.

  2. קישור האפליקציה ל-Firebase, כולל רישום האפליקציה והוספת הגדרות Firebase לאפליקציה.

  3. מוסיפים את ה-SDK ומפעילים את השירות Vertex AI ואת המודל הגנרטיבי באפליקציה.

אחרי שמחברים את האפליקציה ל-Firebase, מוסיפים את ה-SDK ומפעילים את השירות Vertex AI ואת המודל הגנרטיבי, אפשר לבצע קריאה ל-Gemini API.

ליצור טקסט מטקסט ומתמונה אחת

חשוב לוודא שהשלמתם את השלבים לפני שמתחילים במדריך הזה לפני שמנסים את הדוגמה הזו.

אפשר להפעיל את Gemini API באמצעות הנחיות רב-אופניות שכוללות גם טקסט וגם קובץ יחיד (כמו תמונה, כפי שאפשר לראות בדוגמה הזו). עבור אלה צריך להשתמש במודל שתומך בהנחיות מרובות מצבים (כמו Gemini 1.5 Pro).

הקבצים הנתמכים כוללים תמונות, קובצי PDF, וידאו, אודיו ועוד. חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.

בוחרים אם להעביר את התגובה בסטרימינג (generateContentStream) או להמתין לתגובה עד שהתוצאה כולה נוצרת (generateContent).

סטרימינג

אפשר להשיג אינטראקציות מהר יותר אם לא ממתינים עד שהתוצאה המלאה תהיה ליצירת מודל, ובמקום זאת להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.

ללא סטרימינג

לחלופין, אפשר להמתין עד לקבלת התוצאה המלאה במקום להפעיל את הסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.

כאן מוסבר איך בוחרים מודל Gemini, ואם רוצים גם מיקום שמתאים לתרחיש לדוגמה ולאפליקציה.

יצירת טקסט מטקסט וממספר תמונות

לפני שמנסים את הדוגמה הזו, חשוב לוודא שמילאתם את הקטע לפני שמתחילים במדריך הזה.

אפשר להפעיל את Gemini API באמצעות הנחיות במגוון מודלים, שכוללות גם טקסט וגם כמה קבצים (כמו תמונות, כפי שמוצג בדוגמה הזו). לשיחות האלה צריך להשתמש במודל שתומך בהנחיות במגוון מודלים (כמו Gemini 1.5 Pro).

הקבצים הנתמכים כוללים תמונות, קובצי PDF, וידאו, אודיו ועוד. חשוב לבדוק את דרישות והמלצות לקובצי קלט.

עליך לבחור אם לשדר את התשובה (generateContentStream) או להמתין על התשובה, עד ליצירת התוצאה המלאה (generateContent).

סטרימינג

כדי לקבל אינטראקציות מהירות יותר, אפשר לא להמתין לתוצאה המלאה של יצירת המודל, אלא להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.

ללא סטרימינג

לחלופין, אפשר להמתין עד לקבלת התוצאה המלאה במקום סטרימינג; התוצאה מוחזרת רק אחרי שהמודל משלים את כל ליצירת שפה.

כאן מוסבר איך בוחרים מודל של Gemini ואפשר גם להזין מיקום שמתאים לתרחיש לדוגמה ולאפליקציה שלכם.

יצירת טקסט מטקסט וסרטון

לפני שמנסים את הדוגמה הזו, חשוב לוודא שמילאתם את הקטע לפני שמתחילים במדריך הזה.

אפשר להפעיל את Gemini API באמצעות הנחיות רב-אופניות שכוללות גם טקסט וגם סרטון אחד (כפי שמוצג בדוגמה הזו). עבור אלה צריך להשתמש במודל שתומך בהנחיות מרובות מצבים (כמו Gemini 1.5 Pro).

חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.

עליך לבחור אם לשדר את התשובה (generateContentStream) או להמתין על התשובה, עד ליצירת התוצאה המלאה (generateContent).

סטרימינג

אפשר להשיג אינטראקציות מהר יותר אם לא ממתינים עד שהתוצאה המלאה תהיה את יצירת המודל, ובמקום זאת להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.

ללא סטרימינג

לחלופין, אפשר להמתין עד לקבלת התוצאה המלאה במקום להפעיל את הסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.

כאן מוסבר איך בוחרים מודל של Gemini ואפשר גם להזין מיקום שמתאים לתרחיש לדוגמה ולאפליקציה שלכם.

דרישות והמלצות בנוגע לקובצי קלט

מידע נוסף על סוגי קבצים נתמכים, איך לציין סוג MIME ואיך ליצור שהקבצים והבקשות הרב-אופניים עומדים בדרישות שיטות מומלצות: קובצי קלט נתמכים ודרישות עבור Vertex AI Gemini API.

מה עוד אפשר לעשות?

  • כך סופרים אסימונים לפני ששולחים הנחיות ארוכות למודל.
  • הגדרה של Cloud Storage for Firebase כך שתוכלו לכלול קבצים גדולים בבקשות מרובות מצבים באמצעות Cloud Storage כתובות URL. הקבצים יכולים לכלול תמונות, קובצי PDF, וידאו ואודיו.
  • כדאי להתחיל לחשוב על ההכנות לקראת ההשקה בסביבת הייצור, כולל הגדרת Firebase App Check כדי להגן על ה-Gemini API מפני ניצול לרעה על ידי לקוחות לא מורשים.

ניסיון ביכולות אחרות של Gemini API

איך שולטים ביצירת תוכן

אפשר גם להתנסות בהנחיות ובהגדרות של מודלים באמצעות Vertex AI Studio.

מידע נוסף על המודלים של Gemini

מידע על מודלים שזמינים למגוון תרחישים לדוגמה וגם מכסות ותמחור.


שליחת משוב על חוויית השימוש ב-Vertex AI in Firebase