כותרות

דור חדש של דיבור מלאכותי: מודל ה-AI הגדול ביותר מגלה יכולות רגשיות ולשוניות חדשניות!

צוות מחקר של אמזון הכשיר את המודל הגדול ביותר שנראה עד כה בתחום ההפקה טקסט-לדיבור, המציג יכולות "מתפתחות" שמשפרות את היכולת שלו לדבר משפטים מורכבים בצורה טבעית. מודל זה, שנקרא Big Adaptive Streamable TTS with Emergent abilities (בקיצור BASE TTS), משתמש ב-100,000 שעות של נתוני דיבור בתחום הציבורי, כאשר 90% מהם הם באנגלית והשאר בגרמנית, הולנדית וספרדית. עם 980 מיליון פרמטרים, BASE TTS נראה כמו המודל הגדול ביותר בקטגוריה זו.

המחקר העלה שהמודל מציג יכולות מתפתחות במיוחד בטיפול במשימות לשוניות מאתגרות כגון שמות תרכובת, רגשות, מילים זרות, פרלינגוויסטיקה (למשל, צלילים שאינם מילים), פונקציות פיסוק, שאלות ומורכבויות תחביריות. משימות אלו, שלא הוכשרו במפורש במודל, מדגימות שיפור משמעותי ביכולת ההתמודדות שלו לעומת מודלים אחרים בתחום.

הפריצה בטכנולוגיה של טקסט לדיבור נושאת השלכות חשובות לנגישות וליישומים נוספים. טבע המודל הזרימי והיכולת שלו לטפל במשימות לשוניות מורכבות עשויות להוביל למהפכה בתחום. עם זאת, החוקרים הדגישו שהמודל עדיין נמצא בשלבי ניסוי ונדרש מחקר נוסף כדי לזהות את נקודת המפנה ליכולת מתפתחת ולאמן ולפרוס את המודל המתקבל ביעילות.

למרות ההתקדמויות המבטיחות, הצוות ביטא זהירות בקשר לפרסום מקור המודל ונתונים נוספים בשל הסיכון לשימוש לרעה על ידי גורמים שליליים. בכל זאת, הפריצה מסמנת צעד חשוב קדימה בפיתוח טכנולוגיית הטקסט לדיבור, עם פוטנציאל ליישומים רחבים בעתיד הקרוב.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

תפריט נגישות

פתיחת צ'אט
היי👋
איך נוכל לעזור?