כשקוראים ל-Gemini API מהאפליקציה באמצעות SDK של Vertex AI in Firebase, אפשר לבקש מהמודל של Gemini ליצור טקסט על סמך קלט מרובה מצבים. הנחיות מרובות שיטות יכולות לכלול שיטות (או סוגי קלט), כמו טקסט יחד עם תמונות, קובצי PDF, וידאו ואודיו.
מומלץ להשתמש ב-Vertex AI Studio כדי לבצע בדיקה ואיטרציה על הנחיות מרובות מצבים.
לפני שמתחילים
אם עדיין לא עשיתם זאת, תוכלו להיעזר במדריך לתחילת העבודה עם ערכות ה-SDK של Vertex AI in Firebase. חשוב לוודא שביצעתם את כל הפעולות הבאות:
מגדירים פרויקט Firebase חדש או קיים, כולל שימוש בתוכנית התמחור Blaze והפעלת ממשקי ה-API הנדרשים.
מקשרים את האפליקציה ל-Firebase, כולל רישום האפליקציה והוספת ההגדרה של Firebase לאפליקציה.
מוסיפים את ה-SDK ומפעילים את השירות Vertex AI ואת המודל הגנרטיבי באפליקציה.
אחרי שמחברים את האפליקציה ל-Firebase, מוסיפים את ה-SDK ומפעילים את השירות Vertex AI ואת המודל הגנרטיבי, אפשר לבצע קריאה ל-Gemini API.
ליצור טקסט מטקסט ומתמונה אחת
חשוב לוודא שהשלמתם את הקטע לפני שמתחילים במדריך לפני שמנסים את הדוגמה הזו.
אפשר לקרוא ל-Gemini API באמצעות הנחיות מרובות מצבים שכוללות גם טקסט וגם קובץ יחיד (כמו תמונה, כפי שמוצג בדוגמה הזו). לשיחות האלה צריך להשתמש במודל שתומך בהנחיות במגוון מודלים (כמו Gemini 1.5 Pro).
הקבצים הנתמכים כוללים תמונות, קובצי PDF, סרטונים, קובצי אודיו ועוד. חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.
בוחרים אם להעביר את התגובה בסטרימינג (generateContentStream
) או להמתין לתגובה עד שהתוצאה כולה תיווצר (generateContent
).
סטרימינג
אפשר להשיג אינטראקציות מהר יותר אם לא ממתינים עד התוצאה המלאה מיצירת המודל, ובמקום זאת משתמשים בסטרימינג כדי לטפל בתוצאות חלקיות.
ללא סטרימינג
לחלופין, אפשר להמתין עד שהתוצאה תהיה מלאה במקום סטרימינג. התוצאה מוחזרת רק אחרי שהמודל ישלים את כל תהליך היצירה.
בקישורים הבאים מוסבר איך לבחור מודל של Gemini ואופציונלית גם מיקום שמתאים לתרחיש לדוגמה ולאפליקציה שלכם.
ליצור טקסט מטקסט ומכמה תמונות
חשוב לוודא שהשלמתם את הקטע לפני שמתחילים במדריך לפני שמנסים את הדוגמה הזו.
אפשר להפעיל את Gemini API באמצעות הנחיות במגוון מודלים, שכוללות גם טקסט וגם כמה קבצים (כמו תמונות, כפי שמוצג בדוגמה הזו). לשיחות האלה צריך להשתמש במודל שתומך בהנחיות במגוון מודלים (כמו Gemini 1.5 Pro).
הקבצים הנתמכים כוללים תמונות, קובצי PDF, סרטונים, קובצי אודיו ועוד. חשוב לקרוא את הדרישות וההמלצות לגבי קובצי קלט.
בוחרים אם להעביר את התגובה בסטרימינג (generateContentStream
) או להמתין לתגובה עד שהתוצאה כולה תיווצר (generateContent
).
סטרימינג
אפשר להשיג אינטראקציות מהר יותר אם לא ממתינים עד התוצאה המלאה מיצירת המודל, ובמקום זאת משתמשים בסטרימינג כדי לטפל בתוצאות חלקיות.
ללא סטרימינג
לחלופין, אתם יכולים להמתין עד שהתוצאה המלאה תהיה במקום סטרימינג. התוצאה מוחזרת רק אחרי שהמודל ישלים את כל תהליך היצירה.
בקישורים הבאים מוסבר איך לבחור מודל של Gemini ואופציונלית גם מיקום שמתאים לתרחיש לדוגמה ולאפליקציה שלכם.
ליצור טקסט מטקסט ומסרטון
חשוב לוודא שהשלמתם את הקטע לפני שמתחילים במדריך לפני שמנסים את הדוגמה הזו.
אפשר להפעיל את Gemini API באמצעות הנחיות במגוון מודלים, שכוללות גם טקסט וגם סרטון אחד (כמו בדוגמה הזו). לשיחות האלה צריך להשתמש במודל שתומך בהנחיות במגוון מודלים (כמו Gemini 1.5 Pro).
חשוב לקרוא את הדרישות וההמלצות לקובצי קלט.
בוחרים אם לשדר את התשובה (generateContentStream
) או להמתין לתשובה עד ליצירת התוצאה כולה (generateContent
).
סטרימינג
אפשר להשיג אינטראקציות מהר יותר אם לא ממתינים עד התוצאה המלאה מיצירת המודל, ובמקום זאת משתמשים בסטרימינג כדי לטפל בתוצאות חלקיות.
ללא סטרימינג
לחלופין, אפשר להמתין לקבלת התוצאה המלאה במקום להעביר אותה בסטרימינג. התוצאה תוחזר רק אחרי שהמודל ישלים את כל תהליך היצירה.
בקישורים הבאים מוסבר איך לבחור מודל של Gemini ואופציונלית גם מיקום שמתאים לתרחיש לדוגמה ולאפליקציה שלכם.
דרישות והמלצות בנוגע לקובצי קלט
למידע על סוגי הקבצים הנתמכים, על אופן ציון סוג ה-MIME ועל אופן לוודא שהקבצים והבקשות הרב-מודאליות עומדים בדרישות ופועלים בהתאם לשיטות המומלצות, אפשר לעיין במאמר קבצי קלט נתמכים ודרישות ל-Vertex AI Gemini API.
מה עוד אפשר לעשות?
- כך סופרים אסימונים לפני ששולחים הנחיות ארוכות למודל.
- מגדירים את Cloud Storage for Firebase כדי לכלול קבצים גדולים בבקשות מרובות מצבים באמצעות Cloud Storage כתובות URL. הקבצים יכולים לכלול תמונות, קובצי PDF, וידאו ואודיו.
- כדאי להתחיל לחשוב על ההכנות לקראת ההשקה בסביבת הייצור, כולל הגדרת Firebase App Check כדי להגן על ה-Gemini API מפני ניצול לרעה על ידי לקוחות לא מורשים.
ניסיון ביכולות אחרות של Gemini API
- יצירה של שיחות מרובות פניות (צ'אט).
- יצירת טקסט מהנחיות עם טקסט בלבד.
- יצירת פלט מובנה (כמו JSON) גם מהנחיות טקסט וגם מהנחיות מולטימודליות.
- אפשר להשתמש בשליחת פונקציות כדי לחבר מודלים גנרטיביים עם מידע ומערכות חיצוניות.
איך שולטים ביצירת תוכן
- הסבר על עיצוב הנחיות, כולל שיטות מומלצות, אסטרטגיות והנחיות לדוגמה.
- הגדרת פרמטרים של מודל כמו טמפרטורה ואסימוני פלט מקסימלי.
- משתמשים בהגדרות בטיחות כדי לשנות את הסבירות שתתקבל תגובות שעלולות להיחשב מזיקות.
מידע נוסף על המודלים של Gemini
כאן תוכלו לקרוא מידע נוסף על המודלים הזמינים לתרחישי שימוש שונים, ועל המכסות והתמחור שלהם.נשמח לקבל ממך משוב על החוויה שלך עם Vertex AI in Firebase