O nas
Kontakt

Czy sztuczna inteligencja może uratować rzadkie i zagrożone wyginięciem języki europejskie?

Laura Kowalczyk

Greetings in multiple languages.

Już wkrótce łatwiej będzie czytać posty na Facebooku i Instagramie w mniej popularnych językach, ale ekspert sugeruje, że aby udoskonalić narzędzie, Meta powinna obsługiwać rodzimych użytkowników języków.

Już wkrótce będzie można łatwiej przeglądać posty na Facebooku i Instagramie w 200 mniej popularnych językach na całym świecie.

Przedstawiciele projektu No Language Left Behind (NLLB) firmy Meta ogłosili w artykule opublikowanym w tym miesiącu, że rozszerzyli skalę swojej oryginalnej technologii.

Projekt obejmuje kilkanaście „języków europejskich o niskich zasobach”, takich jak szkocki gaelicki, galicyjski, irlandzki, lingurian, bośniacki, islandzki i walijski.

Według Meta jest to język, którego dane zawierają mniej niż milion zdań możliwych do wykorzystania.

Eksperci twierdzą, że aby udoskonalić usługę, Meta powinna skonsultować się z rodzimymi użytkownikami języka i specjalistami językowymi, ponieważ narzędzie wciąż wymaga dopracowania.

Jak działa projekt

Meta szkoli swoją sztuczną inteligencję (AI) przy użyciu danych pochodzących z repozytorium Opus, platformy typu open source zawierającej zbiór autentycznych tekstów mówionych i pisanych w różnych językach, która może programować uczenie maszynowe.

W skład zbioru danych wchodzą eksperci w dziedzinie przetwarzania języka naturalnego (NLP): dziedziny badań nad sztuczną inteligencją, która umożliwia komputerom tłumaczenie i rozumienie języka ludzkiego.

Firma Meta poinformowała, że ​​w swoich bazach danych wykorzystuje również kombinację danych pozyskanych ze źródeł takich jak Wikipedia.

Dane te służą do tworzenia tego, co Meta nazywa wielojęzycznym modelem językowym (MLM), w którym sztuczna inteligencja może tłumaczyć „między dowolną parą… języków bez polegania na danych w języku angielskim” – zgodnie z informacjami na ich stronie internetowej.

Zespół NLLB ocenia jakość swoich tłumaczeń za pomocą wzorca zdań przetłumaczonych przez ludzi, które stworzyli i które są również open source. Obejmuje to listę słów lub fraz „toksycznych”, których ludzie mogą nauczyć oprogramowanie filtrowania podczas tłumaczenia tekstu.

Według ich najnowszego opracowania zespół NLLB poprawił dokładność tłumaczeń o 44 procent w porównaniu ze swoim pierwszym modelem, który opublikowano w 2020 roku.

Meta szacuje, że gdy technologia ta zostanie w pełni wdrożona, każdego dnia w Aktualnościach Facebooka, na Instagramie i innych platformach będzie wykonywanych ponad 25 miliardów tłumaczeń.

„Rozmawiaj z ludźmi”

William Lamb, profesor etnologii i lingwistyki gaelickiej na Uniwersytecie Edynburskim, jest ekspertem w dziedzinie języka gaelickiego szkockiego, jednego z języków o ograniczonych zasobach zidentyfikowanych przez Meta w ramach projektu NLLB.

Około 2,5% populacji Szkocji, czyli mniej więcej 130 000 osób, poinformowało w spisie powszechnym z 2022 r., że posiada pewną znajomość języka celtyckiego z XIII wieku.

W Kanadzie wschodniej jest też około 2000 osób mówiących po gaelicku, gdzie jest to język mniejszościowy. UNESCO klasyfikuje ten język jako „zagrożony” wyginięciem ze względu na niewielką liczbę osób, które regularnie się nim posługują.

„To, co powinni zrobić… jeśli naprawdę chcą ulepszyć tłumaczenie, to porozmawiać z ludźmi, rodzimymi użytkownikami języka gaelickiego, którzy wciąż żyją i oddychają tym językiem”.

William Lamb

Profesor etnologii i lingwistyki gaelickiej, Uniwersytet Edynburski

Lamb zauważył, że tłumaczenia serwisu Meta na język szkocki gaelicki „nie są jeszcze zbyt dobre” ze względu na wykorzystanie danych pozyskanych w drodze crowdsourcingu, mimo że „ich serce jest we właściwym miejscu”.

„Jeśli naprawdę chcą udoskonalić tłumaczenie, powinni porozmawiać z ludźmi, rodzimymi użytkownikami języka gaelickiego, którzy wciąż żyją i oddychają tym językiem” – powiedział Lamb.

Łatwiej powiedzieć niż zrobić, kontynuował Lamb. Większość rodzimych użytkowników języka ma 70 lat i nie używa komputerów, a młodzi użytkownicy „używają języka gaelickiego nałogowo, nie tak jak ich dziadkowie”.

Dobrą alternatywą byłoby zawarcie przez Meta umowy licencyjnej z BBC, które dba o zachowanie tego języka, tworząc w nim wysokiej jakości treści internetowe.

„To muszą zrobić specjaliści”

Alberto Bugarín-Diz, profesor sztucznej inteligencji na Uniwersytecie w Santiago de Compostela w Hiszpanii, uważa, że ​​lingwiści, tacy jak Lamb, powinni współpracować z dużymi firmami technologicznymi w celu udoskonalenia dostępnych im zbiorów danych.

„Muszą to zrobić specjaliści, którzy potrafią zrewidować teksty, poprawić je i zaktualizować za pomocą metadanych, z których moglibyśmy skorzystać” – powiedział Bugarin-Diz.

„Ludzie o profilu humanistycznym i technicznym, na przykład inżynierowie, muszą ze sobą współpracować, to realna potrzeba” – dodał.

Jak kontynuował Bugarin-Diz, korzystanie z Wikipedii daje Meta pewną korzyść, ponieważ dane odzwierciedlałyby „niemal każdy aspekt ludzkiego życia”, co oznacza, że ​​jakość języka mogłaby być znacznie lepsza niż w przypadku korzystania tylko z bardziej formalnych tekstów.

Bugarin-Diz sugeruje jednak, aby Meta i inne firmy zajmujące się sztuczną inteligencją poświęciły czas na poszukanie wysokiej jakości danych w Internecie, a następnie sprawdziły wymogi prawne niezbędne do ich wykorzystania, nie łamiąc przy tym praw własności intelektualnej.

Lamb stwierdził natomiast, że nie będzie zalecał korzystania z tej funkcji ze względu na błędy w danych, chyba że Meta wprowadzi pewne zmiany w swoim zestawie danych.

„Nie powiedziałbym, że ich umiejętności tłumaczeniowe są na takim poziomie, że narzędzia te są rzeczywiście użyteczne” – powiedział Lamb.

„Nie polecałbym jeszcze nikomu niezawodnych narzędzi językowych; myślę, że oni sami otwarcie o tym mówią”.

Bugarín-Diz zajmuje inne stanowisko.

Uważa, że ​​jeśli nikt nie będzie korzystał z tłumaczeń Meta, to „nie będą skłonni” inwestować czasu i zasobów w ich udoskonalanie.

Podobnie jak w przypadku innych narzędzi AI, Bugarin-Diz uważa, że ​​przed użyciem technologii należy poznać jej słabe strony.