O nas
Kontakt

Leczenie nowotworu sprawiło, że ta kobieta nie mogła mówić. AI przywróciła jej głos

Laura Kowalczyk

Alexis Bogan, whose speech was impaired by a brain tumour, uses an AI powered smartphone app to create a audible drink order at a Starbucks.

Chociaż klonowanie głosu oparte na sztucznej inteligencji (AI) budzi obawy, zastosowanie nowej technologii OpenAI może pomóc osobom dotkniętym udarami i nowotworami.

Przed poddaniem się operacji, która mogła uratować i zmienić życie, głos młodego Amerykanina Alexisa „Lexi” Bogana był żywiołowy.

Uwielbiała śpiewać w samochodzie ballady Taylor Swift i Zacha Bryana. Zawsze się śmiała – nawet gdy gromadziła niewłaściwie zachowujące się przedszkolaki lub debatowała z przyjaciółmi o polityce. W szkole była sopranistką w chórze.

Potem, w ciągu nocy, ten głos zniknął.

W sierpniu ubiegłego roku lekarze usunęli jej guz umiejscowiony w tylnej części mózgu. Kiedy miesiąc później wyjęto rurkę do oddychania, Bogan miał problemy z przełykaniem i z wysiłkiem przywitał się z rodzicami.

Miesiące rehabilitacji pomogły jej wyzdrowieć, ale jej mowa nadal jest ograniczona. Przyjaciele, nieznajomi i członkowie jej rodziny mają trudności ze zrozumieniem, co ona próbuje im powiedzieć.

W kwietniu 21-latka odzyskała dawny głos. Nie ten prawdziwy, ale klon głosu generowany przez technologię sztucznej inteligencji (AI) od twórcy ChatGPT OpenAI, którego może przywołać z aplikacji na telefon.

Zmęczenie deepfake'ami AI

Wyszkolona na 15-sekundowej kapsule czasu zawierającej jej nastoletni głos – pochodzący z filmu demonstracyjnego gotowania, który nagrała w ramach szkolnego projektu – jej syntetyczny, ale niezwykle realistycznie brzmiący głos AI może teraz powiedzieć prawie wszystko, co chce.

Wpisuje kilka słów lub zdań na swoim telefonie, a aplikacja natychmiast czyta je na głos.

„Cześć, czy mogę prosić o wielkie mrożone espresso z mlekiem owsianym z brązowym cukrem” – powiedział głos AI Bogana, gdy trzymała telefon za oknem samochodu w kawiarni Starbucks.

Eksperci ostrzegają, że szybko rozwijająca się technologia klonowania głosu AI może nasilić oszustwa telefoniczne, zakłócić demokratyczne wybory i naruszyć godność ludzi – żywych i umarłych – którzy nigdy nie zgodzili się na odtworzenie ich głosu w celu powiedzenia rzeczy, których nigdy nie mówili.

Wykorzystywano go do tworzenia fałszywych automatycznych połączeń telefonicznych z wyborcami w New Hampshire, naśladujących prezydenta USA Joe Bidena.

Władze stanu Maryland w USA niedawno oskarżyły dyrektora sportowego szkoły średniej o wykorzystanie sztucznej inteligencji do wygenerowania fałszywego klipu audio, na którym dyrektor szkoły wypowiada rasistowskie uwagi.

Jednak Bogan i zespół lekarzy z grupy szpitalnej Lifespan na Rhode Island uważają, że znaleźli zastosowanie uzasadniające ryzyko.

Alexis Bogan pisze odpowiedź na pytanie dziennikarki za pomocą aplikacji, która przybliża jej utracony głos.

Odtwarzanie utraconych głosów

Bogan jest jedną z pierwszych osób – jedyną osobą ze swoim schorzeniem – której udało się odtworzyć utracony głos za pomocą nowego silnika głosowego OpenAI.

Niektórzy inni dostawcy sztucznej inteligencji, na przykład start-up ElevenLabs, przetestowali podobną technologię dla osób z wadami i utratą mowy – w tym z prawniczką, która teraz na sali sądowej używa klona głosu.

Powinniśmy być świadomi zagrożeń, ale nie możemy zapominać o pacjencie i dobru społecznym.

Doktor Fatima Mirza

Rezydent pracuje nad pilotem

„Mamy nadzieję, że Lexi będzie pionierem w rozwoju technologii” – powiedział dr Rohaid Ali, rezydent neurochirurgii w szkole medycznej Brown University i szpitalu Rhode Island.

Jego zdaniem mogłyby z tego skorzystać miliony osób cierpiących na wyniszczające udary, raka gardła lub choroby neurogeneracyjne.

„Powinniśmy być świadomi ryzyka, ale nie możemy zapominać o pacjencie i dobru społecznym” – powiedziała dr Fatima Mirza, kolejna mieszkanka pracująca nad pilotażem. „Możemy pomóc Lexi odzyskać jej prawdziwy głos i mówić w sposób, który jest jej najwierniejszy”.

Mirza i Ali, małżeństwo, przyciągnęli uwagę OpenAI, twórcy ChatGPT, ze względu na ich poprzedni projekt badawczy w Lifespan, w którym wykorzystano chatbota AI do uproszczenia formularzy zgody lekarskiej dla pacjentów.

Na początku tego roku firma z San Francisco skontaktowała się z nami, szukając obiecujących zastosowań medycznych dla swojego nowego generatora głosu AI.

Powolny powrót do zdrowia

Bogan wciąż powoli wracał do zdrowia po operacji.

Choroba rozpoczęła się latem zeszłego roku bólami głowy, niewyraźnym widzeniem i opadającą twarzą, co zaniepokoiło lekarzy ze szpitala dziecięcego Hasbro w Providence.

To prawie tak, jakby odebrano mi część tożsamości, kiedy straciłem głos.

Aleksy Bogan

Pierwszy pacjent pilota

Odkryli guz naczyniowy wielkości piłki golfowej, naciskający na pień mózgu i zaplątany w naczynia krwionośne i nerwy czaszkowe.

„To była bitwa o opanowanie krwawienia i usunięcie guza” – powiedziała neurochirurg dziecięcy, dr Konstantina Svokos.

Lokalizacja i ciężkość guza w połączeniu ze złożonością 10-godzinnej operacji zaburzyły kontrolę Bogan nad mięśniami języka i strunami głosowymi, utrudniając jej zdolność jedzenia i mówienia, powiedziała Svokos.

„To prawie tak, jakby odebrano mi część tożsamości, kiedy straciłem głos” – powiedział Bogan.

Zgłębnik do karmienia pojawił się w tym roku. Trwa terapia logopedyczna, dzięki której może mówić zrozumiale w cichym pomieszczeniu, ale bez żadnych oznak odzyskania pełnej przejrzystości swojego naturalnego głosu.

„W pewnym momencie zacząłem zapominać, jak brzmię” – powiedział Bogan. „Przyzwyczaiłem się już do tego, jak teraz brzmię”.

„Szkolenie” sztucznej inteligencji w zakresie mówienia

Ilekroć w domu rodzinnym na przedmieściach Providence w North Smithfield dzwonił telefon, przekazywała go matce, aby odbierała telefony.

Czuła, że ​​obciąża przyjaciół, gdy szli do hałaśliwej restauracji. Jej tata, który ma ubytek słuchu, miał trudności z jej zrozumieniem.

W szpitalu lekarze poszukiwali pacjenta pilotażowego, który mógłby poeksperymentować z technologią OpenAI.

„Pierwszą osobą, która przyszła do głowy doktorowi Svokosowi, była Lexi” – powiedział Ali. „Skontaktowaliśmy się z Lexi, aby sprawdzić, czy byłaby zainteresowana, nie wiedząc, jaka będzie jej reakcja. Chciała to wypróbować i zobaczyć, jak to zadziała”.

Bogan musiał cofnąć się o kilka lat, aby znaleźć odpowiednie nagranie swojego głosu, aby „przeszkolić” system sztucznej inteligencji w zakresie sposobu, w jaki mówiła. Był to film, w którym wyjaśniała, jak zrobić sałatkę z makaronem.

Jej lekarze celowo przekazali systemowi AI zaledwie 15-sekundowy klip. Dźwięki gotowania sprawiają, że inne części filmu są niedoskonałe. To było także wszystko, czego potrzebowało OpenAI – ulepszenie w stosunku do poprzedniej technologii wymagającej znacznie dłuższych próbek.

Wiedzieli również, że wyciągnięcie czegoś pożytecznego z 15 sekund może mieć kluczowe znaczenie dla przyszłych pacjentów, którzy nie mają śladu swojego głosu w Internecie. Może wystarczyć krótka wiadomość głosowa pozostawiona krewnemu.

„Za każdym razem, gdy słyszę jej głos, bardzo się wzruszam”

Kiedy testowali to po raz pierwszy, wszyscy byli oszołomieni jakością klonu głosu. Sporadyczne błędy – źle wymówione słowo, brakująca intonacja – były w większości niezauważalne.

W kwietniu lekarze wyposażyli Bogan w niestandardową aplikację na telefon, z której może korzystać tylko ona.

„Za każdym razem, gdy słyszę jej głos, bardzo się wzruszam” – powiedziała jej matka, Pamela Bogan, ze łzami w oczach.

„Myślę, że to niesamowite, że znów mogę mieć takie brzmienie” – dodała Lexi Bogan, mówiąc, że pomogło to „wzmocnić moją pewność siebie do poziomu, jaki miałem, zanim to wszystko się wydarzyło”.

Obecnie korzysta z aplikacji około 40 razy dziennie i przesyła opinie, które, jak ma nadzieję, pomogą przyszłym pacjentom.

Jednym z jej pierwszych eksperymentów była rozmowa z dziećmi w przedszkolu, w którym pracuje jako asystentka nauczyciela.

Wpisała „ha ha ha ha”, oczekując odpowiedzi robota. Ku jej zdziwieniu zabrzmiało to jak jej dawny śmiech.

Używała go w Target i Marshall's, żeby zapytać, gdzie znaleźć przedmioty. Pomogło jej to ponownie nawiązać kontakt z tatą. Dzięki temu łatwiej jej było zamawiać fast foody.

Lekarze Bogana rozpoczęli klonowanie głosów innych chętnych pacjentów ze stanu Rhode Island i mają nadzieję wprowadzić tę technologię do szpitali na całym świecie.

OpenAI stwierdziło, że ostrożnie rozszerza wykorzystanie Voice Engine, który nie jest jeszcze publicznie dostępny.

Wiele mniejszych start-upów zajmujących się sztuczną inteligencją sprzedaje już usługi klonowania głosu studiom rozrywkowym lub udostępnia je szerzej.

Większość dostawców rozwiązań do generowania głosu twierdzi, że zabrania podszywania się pod inne osoby lub nadużyć, ale różnią się sposobem egzekwowania warunków użytkowania.

Alexis Bogan (w środku) i jej matka Pamela Bogan (po prawej) reagują, słysząc odtworzenie utraconego głosu z podpowiedzi napisanej przez dr Fatimę Mirzę (po lewej).

Szerszy dostęp do klonowania głosu AI

„Chcemy mieć pewność, że każda osoba, której głos jest używany w usłudze, na bieżąco wyraża zgodę” – powiedział Jeff Harris, kierownik produktu OpenAI.

„Chcemy mieć pewność, że nie będzie ona wykorzystywana w kontekście politycznym. Dlatego przyjęliśmy podejście polegające na tym, że jesteśmy bardzo ograniczeni w zakresie tego, komu przekazujemy technologię”.

Harris powiedział, że kolejnym krokiem OpenAI będzie opracowanie bezpiecznego narzędzia do „uwierzytelniania głosowego”, dzięki któremu użytkownicy będą mogli replikować wyłącznie swój własny głos. Może to być „ograniczające dla pacjentki takiej jak Lexi, która nagła utraciła zdolność mówienia” – powiedział.

„Dlatego naprawdę uważamy, że będziemy musieli utrzymywać relacje oparte na wysokim zaufaniu, zwłaszcza z dostawcami usług medycznych, aby zapewnić nieco bardziej nieskrępowany dostęp do technologii”.

Bogan zaimponowała swoim lekarzom skupieniem się na myśleniu o tym, w jaki sposób technologia może pomóc innym osobom z podobnymi lub poważniejszymi wadami wymowy.

„Częścią tego, co zrobiła przez cały ten proces, było myślenie o sposobach ulepszenia i zmiany tego” – powiedziała Mirza. „Była dla nas wielką inspiracją”.

Choć na razie musi bawić się telefonem, aby silnik głosowy zaczął mówić, Bogan wyobraża sobie silnik głosowy oparty na sztucznej inteligencji, który udoskonala starsze rozwiązania do odzyskiwania mowy – takie jak elektrolaryna brzmiąca jak robot czy proteza głosowa – łącząc się z ludzkim ciałem lub tłumaczenie słów w czasie rzeczywistym.

Jest mniej pewna, co się stanie, gdy dorośnie, a jej głos AI nadal brzmi tak, jak wtedy, gdy była nastolatką. Być może technologia mogłaby „starzyć” jej głos AI, powiedziała.

Na razie „mimo że nie odzyskałam całkowicie głosu, mam coś, co pomaga mi go ponownie odzyskać” – powiedziała.