Wkrótce łatwiej będzie oglądać posty na Facebooku i Instagramie w mniej znanych językach świata, ale ekspert sugeruje, że w celu ulepszenia narzędzia Meta powinna rozmawiać z native speakerami.
Wkrótce łatwiej będzie oglądać posty na Facebooku i Instagramie w 200 mniej używanych językach na całym świecie.
W opublikowanym w tym miesiącu artykule Meta ogłosiła, że w ramach projektu No Language Left Behind (NLLB) skalowano swoją oryginalną technologię.
Projekt obejmuje kilkanaście języków europejskich o „niskich zasobach”, takich jak gaelicki szkocki, galicyjski, irlandzki, linguryjski, bośniacki, islandzki i walijski.
Według Meta jest to język, którego dane zawierają mniej niż milion zdań możliwych do wykorzystania.
Eksperci twierdzą, że aby ulepszyć usługę, Meta powinna skonsultować się z native speakerami i specjalistami językowymi, ponieważ narzędzie nadal wymaga pracy.
Jak działa projekt
Meta szkoli swoją sztuczną inteligencję (AI) na podstawie danych z repozytorium Opus, platformy open source zawierającej zbiór autentycznych tekstów mówionych lub pisanych w różnych językach, która może programować uczenie maszynowe.
Współtwórcami zbioru danych są eksperci w dziedzinie przetwarzania języka naturalnego (NLP): podzbioru badań nad sztuczną inteligencją, który umożliwia komputerom tłumaczenie i rozumienie języka ludzkiego.
Meta twierdzi, że w swoich bazach danych wykorzystuje także kombinację danych pochodzących ze źródeł takich jak Wikipedia.
Dane są wykorzystywane do tworzenia tego, co Meta nazywa wielojęzycznym modelem językowym (MLM), w którym sztuczna inteligencja może tłumaczyć „między dowolną parą… języków bez polegania na danych w języku angielskim”, jak podaje ich strona internetowa.
Zespół NLLB ocenia jakość swoich tłumaczeń za pomocą testu porównawczego utworzonych przez siebie zdań przetłumaczonych przez ludzi, który również jest oprogramowaniem typu open source. Obejmuje to listę „toksycznych” słów lub wyrażeń, których ludzie mogą nauczyć oprogramowanie odfiltrowywać podczas tłumaczenia tekstu.
Według ich najnowszego opracowania zespół NLLB poprawił dokładność tłumaczeń o 44 procent w porównaniu ze swoim pierwszym modelem, który opublikowano w 2020 roku.
Meta szacuje, że kiedy technologia zostanie w pełni wdrożona, każdego dnia na Facebooku, Instagramie i innych platformach będzie wykonywanych ponad 25 miliardów tłumaczeń.
„Rozmawiaj z ludźmi”
William Lamb, profesor etnologii i lingwistyki gaelickiej na Uniwersytecie w Edynburgu, jest ekspertem w zakresie szkockiego gaelickiego, jednego z języków o niskich zasobach zidentyfikowanych przez Meta w swoim projekcie NLLB.
Około 2,5 procent populacji Szkocji, czyli około 130 000 osób, stwierdziło w spisie powszechnym z 2022 r., że w pewnym stopniu zna XIII-wieczny język celtycki.
We wschodniej Kanadzie, gdzie jest to język mniejszości, żyje około 2000 osób posługujących się językiem gaelickim. UNESCO klasyfikuje ten język jako „zagrożony” wyginięciem ze względu na niewielką liczbę osób, którymi posługuje się nim regularnie.
Lamb zauważył, że tłumaczenia Meta na szkocki gaelicki są „jeszcze niezbyt dobre” ze względu na dane pochodzące z crowdsourcingu, z których korzystają, mimo że „serce jest we właściwym miejscu”.
„To, co powinni zrobić… jeśli naprawdę chcą ulepszyć tłumaczenie, to porozmawiać z ludźmi, rodzimymi użytkownikami języka gaelickiego, którzy nadal żyją i oddychają tym językiem” – powiedział Lamb.
Łatwiej to powiedzieć, niż zrobić, kontynuował Lamb. Większość rodzimych użytkowników języka ma ponad 70 lat i nie korzysta z komputerów, a młodzi użytkownicy „porozumiewają się w języku gaelickim inaczej niż ich dziadkowie”.
Dobrym zamiennikiem byłoby zawarcie przez Meta umowy licencyjnej z BBC, która pracuje nad ochroną języka poprzez tworzenie w nim wysokiej jakości treści internetowych.
„Tym powinni się zająć specjaliści”
Alberto Bugarín-Diz, profesor sztucznej inteligencji na Uniwersytecie w Santiago de Compostela w Hiszpanii, uważa, że lingwiści tacy jak Lamb powinni współpracować z firmami z branży Big Tech, aby udoskonalić dostępne dla nich zbiory danych.
„Muszą się tym zająć specjaliści, którzy potrafią zrewidować teksty, poprawić je i zaktualizować o metadane, z których moglibyśmy skorzystać” – powiedziała Bugarin-Diz.
„Ludzie zajmujący się naukami humanistycznymi i technicznymi, np. inżynierowie, muszą ze sobą współpracować, to realna potrzeba” – dodał.
„Korzystanie z Wikipedii jest dla Meta korzystne” – kontynuował Bugarin-Diz, ponieważ dane odzwierciedlają „prawie każdy aspekt ludzkiego życia”, co oznacza, że jakość języka mogłaby być znacznie lepsza niż tylko używanie bardziej formalnych tekstów.
Bugarin-Diz sugeruje jednak, że Meta i inne firmy zajmujące się sztuczną inteligencją poświęcą czas na wyszukanie w Internecie wysokiej jakości danych, a następnie zapoznanie się z wymogami prawnymi niezbędnymi do ich wykorzystania, bez łamania praw własności intelektualnej.
Tymczasem Lamb powiedział, że nie będzie zalecał ludziom korzystania z niego ze względu na błędy w danych, chyba że Meta wprowadzi pewne zmiany w swoim zbiorze danych.
„Nie powiedziałbym, że ich umiejętności tłumaczeniowe są na takim poziomie, aby narzędzia te były faktycznie użyteczne” – powiedział Lamb.
„Nie polecałbym jeszcze nikomu tak niezawodnych narzędzi językowych; Myślę, że oni też byliby szczerzy, mówiąc to.”
Bugarín-Diz zajmuje inne stanowisko.
Wierzy, że jeśli nikt nie będzie korzystał z tłumaczeń Meta, „nie będzie chciał” inwestować czasu i zasobów w ich ulepszanie.
Podobnie jak w przypadku innych narzędzi AI, Bugarin-Diz uważa, że przed użyciem technologii należy poznać jej słabe strony.