Wolisz śpiew ptaków od syren? Te słuchawki zasilane sztuczną inteligencją pozwalają wybrać, który hałas chcesz odfiltrować

Technologia głębokiego uczenia się może pomóc Ci odfiltrować niechciane dźwięki tła, zachowując te, które lubisz.

Czy sztuczna inteligencja (AI) może pomóc w filtrowaniu hałasu płaczących dzieci lub syren, jednocześnie utrzymując śpiew ptaków?

Zespół z Uniwersytetu Waszyngtońskiego wierzy, że odkrył, jak w dowolnym momencie odizolować się od dźwięków otoczenia.

Opracowali algorytmy wykorzystujące technologię głębokiego uczenia się, które pozwalają użytkownikom wybierać dźwięki, których mogą słuchać, gdy mają na sobie słuchawki. Nazwali ten system „słyszeniem semantycznym”.

„Na wysokim poziomie używamy słuchawek z redukcją szumów, aby tłumić wszelkie dźwięki w otoczeniu. Ale uruchamiamy sieć neuronową na smartfonie, aby wyodrębnić interesujące dźwięki i w czasie rzeczywistym odtwarzać je do ucha przez słuchawki” – powiedział TylkoGliwice Next Shyam Gollakota, profesor informatyki i inżynierii.

Jak to działa? Słuchawki wysyłają nagrane dźwięki do podłączonego smartfona, blokując inne dźwięki. Użytkownicy mogą wybierać dźwięki z 20 kategorii – np. śpiew ptaków – za pomocą poleceń głosowych lub aplikacji, odtwarzając tylko wybrane dźwięki.

„Docelowe dźwięki odtwarzane przez głośniki musiałyby być spójne z tym, co użytkownik widzi w otoczeniu. Z tego powodu mamy tylko 20 milisekund na przetworzenie dźwięku wejściowego, wyodrębnienie dźwięków docelowych i odtworzenie ich na słuchawkach” – powiedział Bandhav Veluri, doktorant informatyki, wyjaśniając, że musieli stworzyć „bardzo wydajny model głębokiego uczenia się ”.

To ograniczenie czasowe wyjaśnia, dlaczego system opiera się na smartfonach, a nie na serwerach w chmurze.

„Interesujące jest to, że gdy ludzie obecnie mówią zazwyczaj o sieciach neuronowych i sztucznej inteligencji, mają na myśli duże modele językowe, takie jak ChatGPT” – powiedział Gollakota.

„To wymaga bardzo dużych modeli, które działają w ogromnych centrach danych, co w naszej aplikacji jest naprawdę niemożliwe. Zaprojektowaliśmy specjalną sieć neuronową, która może działać na smartfonie”.

Testowany w miejscach takich jak biura, ulice i parki, system potrafił wychwycić syreny, odgłosy ptaków, alarmy i określone dźwięki, pozbywając się jednocześnie wszystkich innych dźwięków tła.

Kiedy 22 osoby wyraziły swoje opinie na temat brzmienia systemu, zgodnie z wynikami badania, ogólnie stwierdziły, że brzmiał on lepiej niż oryginalne nagranie.

Jednak w niektórych sytuacjach systemowi trudno było odróżnić dźwięki dość podobne, np. śpiew i mówienie. Naukowcy sugerują, że udoskonalenie tych wyników mogłoby pomóc w udoskonaleniu tych wyników uczenie modeli przy użyciu większej liczby danych ze świata rzeczywistego.

System „jest gotowy do wprowadzenia na rynek konsumencki” – stwierdził Veluri.

„Te dwa trendy (technologia redukcji szumów i głębokie uczenie się) stwarzają możliwości tworzenia przyszłości inteligentnych urządzeń do noszenia, z rzeczywistymi możliwościami, które do tej pory były w sferze science fiction” – powiedział Gollakota.

„Jestem bardzo podekscytowany, że to właściwy czas na stworzenie tych inteligentnych zestawów słuchawkowych i że w ciągu najbliższych pięciu lat zaczniemy dostrzegać inteligencję w naszych zestawach słuchawkowych” – dodał.