ChatGPT wkrótce będzie z Tobą rozmawiać głosowo i będzie miał pięć głosów do wyboru

OpenAI ogłosiło duże aktualizacje swojej popularnej aplikacji ChatGPT, a inni giganci technologiczni wykorzystują technologię firmy również do ulepszania swojej oferty.

ChatGPT wkrótce otrzyma dużą aktualizację, a płatni użytkownicy wkrótce będą mogli uzyskać dostęp do dwukierunkowych rozmów głosowych za pomocą tego narzędzia.

OpenAI ogłosiło również, że chatbot oparty na sztucznej inteligencji (AI), który został wdrożony w listopadzie ubiegłego roku, będzie mógł przeglądać obrazy i rozumieć, co się na nich dzieje.

Funkcja głosowa będzie dostępna w aplikacjach na iOS i Androida, gdzie użytkownicy będą mogli wybierać spośród pięciu różnych głosów. Opiera się na nowym modelu zamiany tekstu na mowę opracowanym przez firmę i będzie zawierać także narzędzie Whisper AI, system rozpoznawania mowy, który może transkrybować wypowiadane słowa na tekst.

Pięć głosów, mieszanka męskiego i żeńskiego z amerykańskimi akcentami, nazywa się Juniper, Sky, Cove, Ember i Breeze. OpenAI sugeruje, że głosów można używać do wszystkiego, od czytania dzieciom bajek na dobranoc po rozstrzyganie debaty przy stole.

Dyrektor generalny OpenAI, Sam Altman, mówił o potrzebie uregulowania sztucznej inteligencji ze względu na potencjalne zagrożenia, jakie stwarza ona dla ludzkości, ale wydaje się, że jego firma kontynuuje prace nad rozwojem pomimo niektórych wezwań do wstrzymania się.

Kolejną zmianą ogłoszoną przez firmę w poście na blogu jest to, że użytkownicy będą mogli wyświetlać obrazy ChatGPT, które sztuczna inteligencja może przeglądać i analizować. Firma twierdzi, że przetestowała model w „dziedzinach takich jak ekstremizm i biegłość naukowa”, aby pomóc im w jego odpowiedzialnym wdrażaniu.

Spotify wykorzystuje technologię OpenAI

Z narzędzi OpenAI korzysta także inny gigant technologiczny – Spotify – który w poniedziałek ogłosił nową funkcję tłumaczenia podcastów.

Firma podała – także w poście na blogu – że narzędzie opracowane przez Spotify wykorzystuje „najnowsze innowacje”, w tym technologię generowania głosu OpenAI, do tłumaczenia głosu mówiącego, zachowując jego styl i ton.

Rozpoczyna się od pilotażowego wdrożenia kilku odcinków podcastów takich jak Dax Shepard, Lex Fridman i Monica Padman, a sztuczna inteligencja tłumaczy ich odcinki na języki, w tym hiszpański, francuski i niemiecki.