עולם המוזיקה המיוצרת ע”י בינה מלאכותית כבר לא חדש. אחרי שראינו את Suno ו-Udio מייצרות שירים שנשמעים כמו להיטים ברדיו, גוגל החליטה שהגיע הזמן ליישר קו. בטק סטיישן לקחנו את היכולות החדשות של Gemini ג’מיני לנסיעת מבחן כדי להבין: האם יש פה בשורה חדשה, או רק ניסיון להדביק את הפער?
אם אתם עוקבים אחרי עולם ה-AI, אתם יודעים שגוגל היא ממש לא הראשונה שהופכת טקסט לצלילים. כלים כמו Suno כבר הספיקו להדהים אותנו עם איכות ווקאלית מטורפת, אבל הצעד של גוגל מעניין מהיבט אחר: הנגישות והאינטגרציה. במקום לעבור לאתר ייעודי, הכל קורה עכשיו בתוך ה-Chatbot המוכר, כחלק בלתי נפרד מזרימת העבודה.
בואו פשוט תשמעו בעצמכם בג’מיני
הנה שיר הראפ ש-Gemini “פלט” לנו אחרי שזרקנו לו כמה מילים בודדות על טק סטיישן. שימו לב לקצב, לזרימה של המילים ואפילו לעטיפת האלבום שהמערכת עיצבה לבד כדי להשלים את החוויה. מוכנים? תלחצו על Play (ואל תשכחו להגביר רמקולים):
הניסוי: יצירת מוזיקה במינימום מילים, מקסימום קצב
היופי (וגם האתגר) בכלי של Gemini הוא הפשטות הקיצונית. לא נכנסנו להגדרות מסובכות של BPM או סולמות מוזיקליים. זרקנו לו פרומפט קצרצר – בסך הכל כמה מילים בודדות על האווירה של Tech Station והגדרנו סגנון: ראפ.
התוצאה? שיר ראפ קצר ובועט שהפתיע אותנו במהירות שלו. תוך שניות בודדות קיבלנו קובץ אודיו עם הפקה מלאה. האם זה נשמע כמו משהו שיעקוף את היכולות המלודיות של Udio? אולי עוד לא. אבל ככלי עבודה מהיר וזמין, התוצאה הייתה מרשימה מספיק כדי לגרום לכולם במשרד להגביר את הרמקולים.
לא רק סאונד: חבילת המולטימדיה המלאה
כאן גוגל מנסה לתת את הערך המוסף שלה. ג’מיני לא רק “הלחין” את השיר, הוא גם ייצר עבורו אוטומטית עטיפת אלבום (Art Cover) שמתאימה לוייב.
זהו רגע שבו מבינים את הכוח של מודל רב-מודלי (Multimodal): בשיחה אחת, תחת פרומפט אחד, קיבלנו טקסט, לחן, ביצוע ועיצוב גרפי. עבור יוצרי תוכן שצריכים “מעטפת” שלמה לפרויקט במינימום זמן, מדובר בחיסכון אדיר בחיכוך בין כלים שונים.
מתחת למכסה המנוע: הכירו את Lyria של ג’מיני
אז איך הקסם הזה קורה בפועל? המנוע שמניע את יצירת המוזיקה בתוך Gemini מבוסס על מודל Lyria (ליריה), מודל הדור הבא של Google DeepMind ליצירת אודיו.
בניגוד למודלים ישנים שהיו מייצרים “רעש” מוזיקלי או צלילים שנשמעים כמו סינתיסייזר משנות ה-90, Lyria תוכננה להתמודד עם משימות מורכבות של הלחנה, עיבוד קולי ושמירה על המשכיות מוזיקלית (Continuity) לאורך זמן. הנה כמה נקודות טכניות ששווה להכיר:
- איכות שמע גבוהה: המודל מסוגל לייצר אודיו באיכות גבוהה (High Fidelity), מה שמסביר למה הראפ ששמעתם לא נשמע כמו הקלטה בתוך קופסת שימורים.
- הבנת קונטקסט: המודל יודע לנתח את הפרומפט הטקסטואלי ולהבין לא רק את ה”ז’אנר”, אלא גם את הניואנסים של הכלים (למשל, ההבדל בין בס של טראפ לבס של רוק).
- SynthID – חותמת מים דיגיטלית: אחד הפיתוחים המעניינים של גוגל ב-Lyria הוא השימוש ב-SynthID. זוהי “חותמת מים” שמוטמעת בתוך גלי הקול של השיר. היא אינה נשמעת לאוזן אנושית ולא פוגעת באיכות המוזיקה, אך היא מאפשרת למערכות זיהוי לדעת בוודאות שהתוכן נוצר על ידי AI – צעד קריטי בעולם של זכויות יוצרים וזיופים עמוקים (Deepfakes).
- אינטגרציה רב-מודלית: השילוב של Lyria בתוך Gemini מאפשר למעשה “שיחה” בין מודל השפה (LLM) לבין מודל האודיו. ג’מיני עוזר לנסח את המילים ולבנות את המבנה, וליריה לוקחת את זה משם אל פס הקול המוגמר.
מבט מפוכח: בין פוטנציאל לביצוע
בואו נהיה ריאליים – הטכנולוגיה הזו, לפחות בגרסה הנוכחית שלה בתוך ג’מיני, עדיין מרגישה כמו גרסת מעבדה. כמי שמכירים את הכלים המתחרים בשוק, אפשר להבחין שגוגל עדיין נזהרת. הסאונד לפעמים מרגיש קצת יותר “דיגיטלי” מהמתחרים המובילים, וישנם גליצ’ים קטנים בעיבוד הקולי.
אבל (וזה אבל חשוב), הכניסה של גוגל למגרש הזה אומרת דבר אחד: יצירת מוזיקה הופכת להיות פיצ’ר סטנדרטי בכל בית. היא כבר לא נחלתם של מפיקים או של מקצוענים שגולשים באתרים ייעודיים. היא נגישה לכל מי שכותב מייל או מתכנן לו”ז ב-Gemini.
השורה התחתונה
הראפ של טק סטיישן אולי לא יזכה בפרס השנה, אבל הוא הוכיח לנו שהעתיד של יצירת התוכן הוא פשוט, מהיר ומשולב. גוגל אמנם לא המציאה את הגלגל המוזיקלי, אבל היא בהחלט דואגת שהוא יסתובב בתוך המערכת שלה.
אנחנו בטק סטיישן נמשיך לבדוק את הגבולות של הכלים האלו. אלו של גוגל ואלו של המתחרים – כדי לראות לאן הקצב הזה לוקח אותנו.
נסו גם אתם בג’מיני Lyria: לחצו כאן
ומה אתכם? אתם נאמנים לכלים המקצועיים יותר כמו Suno, או שהזמינות של Gemini קורצת לכם? ספרו לנו בתגובות!