כשאתם קוראים ל-Gemini API מהאפליקציה באמצעות SDK של Vertex AI in Firebase, תוכלו לבקש ממודל Gemini ליצור טקסט על סמך קלט רב-מודלי. הנחיות מולטימודיות יכולות לכלול כמה מודלים (או סוגי קלט), כמו טקסט עם תמונות, קובצי PDF, סרטונים ואודיו.
כדי לבדוק הנחיות במגוון מישורים ולבצע בהן שינויים, מומלץ להשתמש ב-Vertex AI Studio.
לפני שמתחילים
אם עדיין לא עשיתם זאת, כדאי לעיין במדריך למתחילים בנושא ערכות ה-SDK של Vertex AI in Firebase. חשוב לוודא שכל הפעולות הבאות בוצעו:
מגדירים פרויקט Firebase חדש או קיים, כולל שימוש בתוכנית התמחור Blaze והפעלה של ממשקי ה-API הנדרשים.
קישור האפליקציה ל-Firebase, כולל רישום האפליקציה והוספת הגדרות Firebase לאפליקציה.
מוסיפים את ה-SDK ומפעילים את השירות Vertex AI ואת המודל הגנרטיבי באפליקציה.
אחרי שמחברים את האפליקציה ל-Firebase, מוסיפים את ה-SDK ומפעילים את השירות Vertex AI ואת המודל הגנרטיבי, אפשר לבצע קריאה ל-Gemini API.
יצירת טקסט מטקסט ותמונה אחת
לפני שמנסים את הדוגמה הזו, חשוב לוודא שפעלתם לפי ההוראות בקטע לפני שמתחילים במדריך הזה.
אפשר להפעיל את Gemini API באמצעות הנחיות במגוון מודלים, שכוללות גם טקסט וגם קובץ יחיד (כמו תמונה, כפי שמוצג בדוגמה הזו). לשיחות האלה צריך להשתמש במודל שתומך בהנחיות במגוון מודלים (כמו Gemini 1.5 Pro).
הקבצים הנתמכים כוללים תמונות, קובצי PDF, סרטונים, קובצי אודיו ועוד. חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.
בוחרים אם להעביר את התשובה בסטרימינג (generateContentStream
) או להמתין לתשובה עד שהתוצאה כולה נוצרת (generateContent
).
סטרימינג
כדי לקבל אינטראקציות מהירות יותר, אפשר לא להמתין לתוצאה המלאה של יצירת המודל, אלא להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.
ללא סטרימינג
לחלופין, אפשר להמתין לקבלת התוצאה המלאה במקום להפעיל את הסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.
כאן מוסבר איך בוחרים מודל Gemini, ואם רוצים גם מיקום, שמתאימים לתרחיש לדוגמה ולאפליקציה.
יצירת טקסט מטקסט וממספר תמונות
לפני שמנסים את הדוגמה הזו, חשוב לוודא שפעלתם לפי ההוראות בקטע לפני שמתחילים במדריך הזה.
אפשר להפעיל את Gemini API באמצעות הנחיות במגוון מודלים, שכוללות גם טקסט וגם כמה קבצים (כמו תמונות, כפי שמוצג בדוגמה הזו). לשיחות האלה צריך להשתמש במודל שתומך בהנחיות במגוון מודלים (כמו Gemini 1.5 Pro).
הקבצים הנתמכים כוללים תמונות, קובצי PDF, סרטונים, קובצי אודיו ועוד. חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.
בוחרים אם להעביר את התשובה בסטרימינג (generateContentStream
) או להמתין לתשובה עד שהתוצאה כולה נוצרת (generateContent
).
סטרימינג
כדי לקבל אינטראקציות מהירות יותר, אפשר לא להמתין לתוצאה המלאה של יצירת המודל, אלא להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.
ללא סטרימינג
לחלופין, אפשר להמתין לקבלת התוצאה המלאה במקום להשתמש בסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.
כאן מוסבר איך בוחרים מודל Gemini, ואם רוצים גם מיקום, שמתאימים לתרחיש לדוגמה ולאפליקציה.
יצירת טקסט מטקסט וסרטון
לפני שמנסים את הדוגמה הזו, חשוב לוודא שפעלתם לפי ההוראות בקטע לפני שמתחילים במדריך הזה.
אפשר להפעיל את Gemini API באמצעות הנחיות מרובות-מודות שכוללות גם טקסט וגם סרטון אחד (כמו בדוגמה הזו). לשיחות האלה צריך להשתמש במודל שתומך בהנחיות במגוון מודלים (כמו Gemini 1.5 Pro).
חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.
בוחרים אם להעביר את התשובה בסטרימינג (generateContentStream
) או להמתין לתשובה עד שהתוצאה כולה נוצרת (generateContent
).
סטרימינג
כדי לקבל אינטראקציות מהירות יותר, אפשר לא להמתין לתוצאה המלאה של יצירת המודל, אלא להשתמש בסטרימינג כדי לטפל בתוצאות חלקיות.
ללא סטרימינג
לחלופין, אפשר להמתין עד לקבלת התוצאה המלאה במקום להפעיל את הסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.
כאן מוסבר איך בוחרים מודל Gemini, ואם רוצים גם מיקום, שמתאימים לתרחיש לדוגמה ולאפליקציה.
דרישות והמלצות לגבי קובצי קלט
במאמר קבצי קלט נתמכים ודרישות ל-Vertex AI Gemini API מוסבר על סוגי הקבצים הנתמכים, על אופן ציון סוג ה-MIME ועל הדרכים לוודא שהקבצים והבקשות הרב-מודאליות עומדים בדרישות ופועלים בהתאם לשיטות המומלצות.
מה עוד אפשר לעשות?
- כך סופרים אסימונים לפני ששולחים הנחיות ארוכות למודל.
- מגדירים את Cloud Storage for Firebase כדי שתוכלו לכלול קבצים גדולים בבקשות עם מודלים מרובים באמצעות כתובות URL מסוג Cloud Storage. הקבצים יכולים לכלול תמונות, קובצי PDF, סרטונים ואודיו.
- כדאי להתחיל לחשוב על ההכנות לקראת ההשקה בסביבת הייצור, כולל הגדרת Firebase App Check כדי להגן על ה-Gemini API מפני ניצול לרעה על ידי לקוחות לא מורשים.
ניסיון ביכולות אחרות של Gemini API
- ליצור שיחות עם זיכרון (צ'אט).
- יצירת טקסט מהנחיות בטקסט בלבד.
- יצירת פלט מובנה (כמו JSON) גם מהנחיות טקסט וגם מהנחיות מולטימודליות.
- משתמשים בקריאה לפונקציה כדי לחבר מודלים גנרטיביים למערכות ולמידע חיצוניים.
איך שולטים ביצירת תוכן
- הסבר על תכנון הנחיות, כולל שיטות מומלצות, אסטרטגיות והנחיות לדוגמה.
- להגדיר את הפרמטרים של המודל, כמו הטמפרטורה ואת מספר האסימונים המקסימלי של הפלט.
- שימוש בהגדרות הבטיחות כדי לשנות את הסבירות לקבלת תשובות שעשויות להיחשב כמזיקות.
מידע נוסף על המודלים של Gemini
כאן תוכלו לקרוא מידע נוסף על המודלים הזמינים לתרחישי שימוש שונים, ועל המכסות והתמחור שלהם.שליחת משוב על חוויית השימוש ב-Vertex AI in Firebase