O nas
Kontakt

OpenAI przedstawia technologię klonowania głosu AI, która potrzebuje tylko 15-sekundowej próbki do działania

Laura Kowalczyk

The OpenAI logo is seen displayed on a cell phone with an image on a computer screen generated by ChatGPT

Silnik głosowy OpenAI został po raz pierwszy opracowany pod koniec 2022 roku.

OpenAI uczyniło swoją sztuczną inteligencję (AI) jeszcze bardziej niesamowitą po ludzku dzięki narzędziu do zamiany tekstu na głos, które generuje naturalną mowę z 15-sekundowego klipu czyjegoś głosu, aby brzmiał jak oryginalny mówca.

Jednak nawet OpenAI obawia się potencjalnego niewłaściwego wykorzystania tej technologii i twierdzi, że nie udostępni publicznie Voice Engine, ponieważ obecnie jest on dostępny tylko dla wczesnych testerów.

„Wiemy, że generowanie mowy przypominającej głos ludzi wiąże się z poważnym ryzykiem, o którym szczególnie warto pamiętać w roku wyborczym” – stwierdziła w oświadczeniu firma z San Francisco.

Technologia AI klonowania głosu nie jest nowa i była już wykorzystywana w niepokojących okolicznościach.

Przed styczniowymi wyborami w Stanach Zjednoczonych do tysięcy wyborców wysłano generowane przez sztuczną inteligencję automatyczne połączenia telefoniczne naśladujące prezydenta Joe Bidena, wzywając ich do pozostania w domu i wstrzymania się od głosowania.

W rezultacie amerykańska Federalna Komisja Łączności (FCC) zakazała w zeszłym miesiącu automatycznych połączeń generowanych przez sztuczną inteligencję.

Jednak wpływ może mieć nie tylko wybory, ale także technologia klonowania głosu i deepfakes. Coraz większym problemem są także oszustwa polegające na wymuszeniach poprzez podszywanie się pod sztuczną inteligencję.

Ale można to też wykorzystać w dobrym celu. OpenAI pokazało, jak technologia pomaga pacjentom cierpiącym na nagłe lub zwyrodnieniowe zaburzenia mowy, przywracając im głos za pomocą filmów lub materiałów audio sprzed utraty zdolności mówienia.

OpenAI twierdzi, że innym przypadkiem użycia jest umożliwienie osobom, które nie potrafią mówić lub mają trudności z mówieniem, nadanie im głosu, który nie brzmi jak dźwięk robota.

„Te wdrożenia na małą skalę pomagają nam określić nasze podejście, zabezpieczenia i myślenie o tym, w jaki sposób silnik Voice Engine może być dobrze wykorzystany w różnych branżach” – stwierdził OpenAI w swoim poście na blogu.

Voice Engine jest jak dotąd dostępny tylko dla kilku partnerów OpenAI, którzy według firmy zgodzili się na ich zasady użytkowania, które zabraniają podszywania się pod inną osobę lub organizację bez zgody.

Do firm mających dostęp do Voice Engine zalicza się firma zajmująca się technologią edukacyjną Age of Learning, platforma wizualnego opowiadania historii HeyGen oraz system opieki zdrowotnej Lifespan.

OpenAI twierdzi, że kolejnym środkiem bezpieczeństwa jest znak wodny umożliwiający śledzenie pochodzenia dźwięku generowanego przez Voice Engine; wymaga również, aby partnerzy uzyskali „wyraźną i świadomą zgodę” pierwotnego mówcy.

„Uważamy, że każdemu szerokiemu wdrożeniu technologii głosu syntetycznego powinny towarzyszyć funkcje uwierzytelniania głosu, które weryfikują, czy pierwotny mówca świadomie dodaje swój głos do usługi, oraz lista głosów zakazanych, która wykrywa i zapobiega tworzeniu głosów, które są zbyt podobne do wybitnych osobistości” – stwierdził OpenAI.