OpenAI wprowadza nowe modele głosowe: GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper

Newsy
Opinie: 0
OpenAI wprowadza nowe modele głosowe: GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper

 

OpenAI udostępniło w Realtime API 3 nowe modele audio przeznaczone do budowy aplikacji głosowych działających w czasie rzeczywistym. Nowe rozwiązania obejmują model konwersacyjny GPT-Realtime-2, model do tłumaczenia mowy na żywo GPT-Realtime-Translate oraz streamingowy model transkrypcji GPT-Realtime-Whisper. 

Firma pozycjonuje tę premierę jako kolejny krok od prostych interfejsów typu pytanie-odpowiedź w stronę agentów głosowych, które słuchają, rozumieją kontekst, korzystają z narzędzi i wykonują zadania podczas trwającej rozmowy. 

Najważniejszym modelem z nowej grupy jest GPT-Realtime-2. To pierwszy głosowy model OpenAI z rozumowaniem klasy GPT-5, przeznaczony do rozmów na żywo. Model obsługuje trudniejsze polecenia, prowadzi rozmowę w bardziej naturalny sposób, radzi sobie z korektami i przerwami użytkownika oraz może wywoływać narzędzia w trakcie interakcji. OpenAI zwiększyło też okno kontekstu z 32K do 128K, co ma znaczenie przy dłuższych sesjach oraz bardziej złożonych procesach wykonywanych przez agenta. 

W praktyce GPT-Realtime-2 ma lepiej sprawdzać się w scenariuszach, w których głos nie jest tylko kanałem komunikacji, ale pełnoprawnym interfejsem obsługi produktu. OpenAI opisuje tu 3 wzorce: voice-to-action, czyli wykonywanie zadań na podstawie wypowiedzianej prośby, systems-to-voice, czyli zamianę danych z systemów na mówione wskazówki, oraz voice-to-voice, czyli prowadzenie rozmów między osobami mówiącymi różnymi językami. Wśród przykładów wdrożeń i testów pojawiają się między innymi Zillow, Deutsche Telekom i Priceline. 

GPT-Realtime-2 otrzymał kilka funkcji istotnych dla aplikacji produkcyjnych. Programiści mogą włączać krótkie komunikaty typu „sprawdzam to”, zanim model przygotuje pełną odpowiedź. Model obsługuje równoległe wywołania narzędzi i może informować użytkownika, co właśnie robi, na przykład że sprawdza kalendarz albo wyszukuje dane. Ma też lepiej odzyskiwać kontrolę nad rozmową w sytuacjach błędów oraz dopasowywać ton odpowiedzi do sytuacji, na przykład mówić spokojniej przy rozwiązywaniu problemu lub bardziej empatycznie, gdy użytkownik jest zdenerwowany. 


Drugim nowym modelem jest GPT-Realtime-Translate. Służy on do tłumaczenia mowy na żywo i obsługuje ponad 70 języków wejściowych oraz 13 języków wyjściowych. Model ma umożliwiać tworzenie wielojęzycznych doświadczeń głosowych, w których każda osoba mówi w swoim preferowanym języku, a druga strona słyszy tłumaczenie w czasie rzeczywistym i widzi bieżącą transkrypcję. OpenAI wskazuje zastosowania w obsłudze klienta, sprzedaży międzynarodowej, edukacji, wydarzeniach, mediach oraz platformach dla twórców. 

GPT-Realtime-Translate ma zachowywać tempo rozmowy, radzić sobie ze zmianami kontekstu, regionalną wymową oraz specjalistycznym słownictwem. Deutsche Telekom testuje model w wielojęzycznych interakcjach głosowych, a Vimeo pokazuje przykład tłumaczenia filmu edukacyjnego o produkcie podczas jego odtwarzania. 

Trzecia nowość to GPT-Realtime-Whisper, streamingowy model speech-to-text do transkrypcji z niskimi opóźnieniami. Model zapisuje wypowiedzi w trakcie mówienia, dzięki czemu aplikacje mogą szybciej reagować na treść rozmowy. OpenAI wskazuje tu między innymi napisy na żywo, notatki ze spotkań tworzone w czasie trwania rozmowy, klasy, transmisje, wydarzenia oraz agentów głosowych, którzy muszą stale rozumieć użytkownika. 

Realtime API korzysta z zabezpieczeń i aktywnych klasyfikatorów, które mogą zatrzymać sesję, jeżeli rozmowa narusza zasady dotyczące szkodliwych treści. Deweloperzy mogą dodawać własne zabezpieczenia przez Agents SDK. Firma przypomina też, że zasady użycia zabraniają wykorzystywania wyników usług do spamu, oszustw i innych szkodliwych celów, a użytkownicy końcowi powinni wiedzieć, że rozmawiają z AI, o ile nie wynika to jasno z kontekstu. Realtime API obsługuje EU Data Residency dla aplikacji działających w Unii Europejskiej i jest objęte zobowiązaniami prywatnościowymi dla klientów enterprise. 

Wszystkie 3 modele są już dostępne w Realtime API. GPT-Realtime-2 kosztuje 32 dolary za 1 mln audio input tokens, 0,40 dolara za 1 mln cached input tokens oraz 64 dolary za 1 mln audio output tokens. GPT-Realtime-Translate kosztuje 0,034 dolara za minutę, a GPT-Realtime-Whisper 0,017 dolara za minutę. Modele można testować w Playground.

 

Opinie:

Rekomendowane:

Akcje partnerskie: