
OpenAI הכריזה על השקת שלושה מודלי קול חדשים במסגרת ממשק ה־Realtime API, במהלך שמכוון להאיץ את פיתוח הדור הבא של יישומים מבוססי קול. המודלים החדשים - GPT-Realtime-2, GPT-Realtime-Translate ו־GPT-Realtime-Whisper - מציעים שילוב של יכולות חשיבה מתקדמות, תרגום חי ותמלול בזמן אמת, עם דגש על חוויית משתמש רציפה ואינטראקטיבית יותר.
במרכז ההכרזה עומד GPT-Realtime-2, שמוגדר על ידי החברה כמודל הקול החכם ביותר שלה עד כה, עם יכולות חשיבה ברמה של GPT-5. המודל כולל חלון הקשר של 128 אלף טוקנים - פי ארבעה מהדור הקודם - ומאפשר התאמה של רמת החשיבה בהתאם לצורך, החל מתגובות מהירות ועד ניתוחים מורכבים. לפי נתוני OpenAI, המודל מציג שיפור של כ־15% במדדי ביצועים בהשוואה לקודמו.
לצדו, GPT-Realtime-Translate מציע תרגום קולי בזמן אמת מיותר מ־70 שפות ל־13 שפות יעד, תוך שמירה על קצב הדיבור הטבעי של המשתמש. GPT-Realtime-Whisper מתמקד בתמלול, ומאפשר שליטה ברמת ההשהיה: תגובות מהירות יותר מספקות טקסט חלקי מוקדם, בעוד שהשהיה ארוכה יותר משפרת את הדיוק.
מבחינת תמחור, GPT-Realtime-2 מתחיל בעלות של 32 דולר למיליון טוקנים של קלט קולי. שירות התרגום מתומחר לפי 0.034 דולר לדקה, בעוד שירות התמלול עולה 0.017 דולר לדקה.
חברות שכבר בחנו את הטכנולוגיה מדווחות על שיפורים משמעותיים. Zillow, למשל, רשמה עלייה של 26% באחוזי הצלחת השיחות - עד ל־95% - בהשוואה ל־69% בלבד בדור הקודם. חברת BolnaAI דיווחה על ירידה של 12.5% בשיעור טעויות התמלול במספר שפות הודיות.
ב־OpenAI מדגישים כי המערכת כוללת מנגנוני בטיחות מובנים, לרבות מסננים בזמן אמת שמפסיקים שיחות החורגות מכללי השימוש. בנוסף, השירות עומד בדרישות רגולציה אירופיות בנושא אחסון נתונים.
המודלים החדשים זמינים כבר כעת למפתחים דרך ה־Realtime API, ומסמנים צעד נוסף במעבר מעוזרים קוליים בסיסיים למערכות שמסוגלות להבין, לחשוב ולפעול תוך כדי שיחה.








0 תגובות