Sora to nowy generator tekstu na wideo OpenAI, twórca ChatGPT. Oto, co wiemy o nowym narzędziu, które budzi w równym stopniu niepokój, jak i ekscytację.
Twórca ChatGPT zanurza się teraz w świat wideo stworzony przez sztuczną inteligencję (AI).
Poznaj Sorę – nowy generator zamiany tekstu na wideo OpenAI. Narzędzie, które firma z San Francisco zaprezentowała w czwartek, wykorzystuje generatywną sztuczną inteligencję do natychmiastowego tworzenia krótkich filmów na podstawie pisemnych poleceń.
Sora nie jest pierwszą osobą, która demonstruje tego rodzaju technologię. Analitycy branżowi wskazują jednak na wysoką jakość filmów wyświetlanych dotychczas za pomocą narzędzia i zauważają, że jego wprowadzenie oznacza znaczący krok zarówno dla OpenAI, jak i ogólnie dla przyszłości generowania tekstu na wideo.
Jednak podobnie jak wszystko w dzisiejszej szybko rozwijającej się przestrzeni sztucznej inteligencji, technologia taka budzi również obawy dotyczące potencjalnych implikacji etycznych i społecznych. Oto, co musisz wiedzieć.
Co potrafi Sora i czy mogę już z niej korzystać?
Sora to generator tekstu na wideo – tworzący filmy o długości do 60 sekund na podstawie pisemnych podpowiedzi przy użyciu generatywnej sztucznej inteligencji. Model może również generować wideo z istniejącego nieruchomego obrazu.
Generatywna sztuczna inteligencja to gałąź sztucznej inteligencji, która może stworzyć coś nowego. Przykłady obejmują chatboty, takie jak ChatGPT OpenAI, oraz generatory obrazów, takie jak DALL-E i Midjourney.
Stworzenie systemu sztucznej inteligencji do generowania filmów jest nowsze i trudniejsze, ale opiera się na niektórych elementach tej samej technologii.
Sora nie jest jeszcze dostępna do użytku publicznego (OpenAI twierdzi, że współpracuje z decydentami i artystami przed oficjalnym udostępnieniem narzędzia) i nadal wiele nie wiemy. Jednak od czwartkowego ogłoszenia firma udostępniła kilka przykładów filmów wygenerowanych przez Sorę, aby pokazać, co potrafi.
Dyrektor generalny OpenAI, Sam Altman, zwrócił się także do X, platformy znanej wcześniej jako Twitter, aby poprosić użytkowników mediów społecznościowych o przesyłanie szybkich pomysłów.
Później udostępnił realistycznie szczegółowe filmy, które odpowiadały na podpowiedzi, takie jak „dwa golden retrievery nagrywające podcast na szczycie góry” i „wyścig rowerowy po oceanie z różnymi zwierzętami jako sportowcy jeżdżący na rowerach z widokiem z kamery z drona”.
Chociaż filmy generowane przez Sorę mogą przedstawiać złożone, niezwykle szczegółowe sceny, OpenAI zauważa, że nadal istnieją pewne słabości – w tym pewne elementy przestrzenne i przyczynowo-skutkowe.
Na przykład OpenAI dodaje na swojej stronie internetowej: „osoba może ugryźć ciasteczko, ale później ciasteczko może nie mieć śladu ugryzienia”.
Jakie inne narzędzia wideo generowane przez sztuczną inteligencję są dostępne?
Sora z OpenAI nie jest pierwszą tego rodzaju. Google, Meta i startup Runway ML należą do firm, które wykazały podobną technologię.
Mimo to analitycy branżowi podkreślają widoczną jakość i imponującą długość udostępnionych dotychczas filmów Sory.
Fred Havemeyer, szef amerykańskiego działu badań nad sztuczną inteligencją i oprogramowaniem w firmie Macquarie, powiedział, że wprowadzenie na rynek Sory stanowi duży krok naprzód dla branży.
„Nie tylko można kręcić dłuższe filmy, rozumiem, trwające do 60 sekund, ale także tworzone filmy wyglądają bardziej normalnie i wydają się bardziej szanować fizykę i prawdziwy świat” – powiedział Havemeyer.
„W kanałach wideo nie pojawia się tak wiele filmów ani fragmentów z „doliny niesamowitej”, które wyglądają… nienaturalnie”.
Chociaż w ciągu ostatniego roku nastąpił „ogromny postęp” w dziedzinie wideo generowanego przez sztuczną inteligencję – łącznie z wprowadzeniem Stable Video Diffusion w listopadzie zeszłego roku – starszy analityk firmy Forrester, Rowan Curran, stwierdził, że takie filmy wymagają więcej „połączenia”, aby zapewnić spójność postaci i scen.
Jednak spójność i długość filmów Sory stwarza „nowe możliwości dla twórców w zakresie włączania elementów wideo wygenerowanych przez sztuczną inteligencję do bardziej tradycyjnych treści, a teraz nawet generowania pełnowymiarowych filmów narracyjnych na podstawie jednego lub kilku podpowiedzi” – Curran powiedział The The Associated Press pocztą elektroniczną w piątek.
Jakie są potencjalne zagrożenia?
Chociaż zdolności Sory zdumiewały obserwatorów od czwartkowej premiery, nadal pozostaje niepokój związany z etycznymi i społecznymi konsekwencjami wykorzystania wideo generowanego przez sztuczną inteligencję.
Havemeyer wskazuje na przykład na znaczne ryzyko związane z potencjalnie napiętym cyklem wyborczym w 2024 r.
Dodał, że posiadanie „potencjalnie magicznego” sposobu generowania filmów, które mogą wyglądać i brzmieć realistycznie, stwarza szereg problemów w polityce i poza nią, wskazując na obawy związane z oszustwami, propagandą i dezinformacją.
„Negatywne skutki zewnętrzne generatywnej sztucznej inteligencji będą kluczowym tematem debaty w 2024 r.” – powiedział Havemeyer. „To istotny problem, z którym każda firma i każda osoba będzie musiała się zmierzyć w tym roku”.
Firmy technologiczne nadal decydują o zarządzaniu sztuczną inteligencją i związanymi z nią zagrożeniami, podczas gdy rządy na całym świecie starają się nadrobić zaległości.
W grudniu Unia Europejska osiągnęła porozumienie w sprawie pierwszych na świecie kompleksowych przepisów dotyczących sztucznej inteligencji, ale ustawa zacznie obowiązywać dopiero dwa lata po ostatecznym zatwierdzeniu.
W czwartek OpenAI oświadczyło, że podejmuje ważne kroki w zakresie bezpieczeństwa, zanim udostępni Sorę powszechnie.
„Współpracujemy z czerwonymi zespołami – ekspertami w takich dziedzinach, jak dezinformacja, treści nienawistne i uprzedzenia – którzy będą kontradyktoryjnie testować model” – napisała firma.
„Tworzymy także narzędzia pomagające wykrywać wprowadzające w błąd treści, takie jak klasyfikator wykrywania, który potrafi określić, kiedy film został wygenerowany przez Sorę”.
Wiceprezes ds. globalnych OpenAI, Anna Makanju, powtórzyła to podczas piątkowego przemówienia na Konferencji Bezpieczeństwa w Monachium, podczas której OpenAI i 19 innych firm technologicznych zobowiązało się do dobrowolnej współpracy w celu zwalczania fałszywych wyborów generowanych przez sztuczną inteligencję.
Zauważyła, że firma wypuściła Sorę „w dość ostrożny sposób”.
Jednocześnie OpenAI ujawniło ograniczone informacje na temat budowy Sory.
Raport techniczny OpenAI nie ujawnił, jakie obrazy i źródła wideo zostały wykorzystane do szkolenia Sory, a firma nie odpowiedziała natychmiast na prośbę o dalszy komentarz w piątek.
Wydanie Sory pojawia się także w kontekście procesów sądowych przeciwko OpenAI i jego partnerowi biznesowemu Microsoft, wystosowanych przez niektórych autorów i The New York Times w związku z wykorzystaniem przez niego dzieł pisarskich chronionych prawem autorskim do szkolenia ChatGPT.