OpenAI twierdzi, że o1 podczas próby rozwiązania problemu wykorzystuje łańcuch myślowy.
OpenAI uruchomiło nową serię modeli, które według niego „mogą rozwiązywać trudniejsze problemy” niż wcześniejsze modele generatywnej sztucznej inteligencji (GenAI).
Kalifornijska firma poinformowała w czwartek, że wypuszcza wczesną wersję zapoznawczą serii, oficjalnie nazwaną o1-preview i o1-mini. Model otrzymał kryptonim Strawberry.
OpenAI stwierdziło, że w swoich testach nowe modele radziły sobie podobnie jak doktoranci w trudnych zadaniach z fizyki, chemii i biologii, a także dobrze radziły sobie z matematyką i kodowaniem.
Firma podała, że przetestowała model podczas egzaminu kwalifikacyjnego do Międzynarodowej Olimpiady Matematycznej (IMO), konkursu matematycznego dla szkół średnich.
Miał dziesięć godzin na rozwiązanie sześciu trudnych problemów algorytmicznych i mógł zgłosić 50 zgłoszeń na każde zadanie.
Według OpenAI model o1 rozwiązał 83 procent problemów, podczas gdy GPT-4o rozwiązał tylko 13 procent.
Jakie są wady?
Firma zauważa, że nie posiada wszystkich głównych funkcji ChatGPT, takich jak przeglądanie Internetu w poszukiwaniu informacji oraz przesyłanie plików i obrazów. Nie posiada również funkcji analizy obrazu, które zostały wyłączone do czasu dodatkowych testów.
Kolejną wadą jest to, że jest bardzo drogi. Nowy model jest około trzy razy droższy od GPT-4o pod względem wejścia i czterokrotnie droższy od wyjścia. Wersja zapoznawcza o1 kosztuje 15 USD (13,50 EUR) za 1 milion tokenów wejściowych i 60 USD (54 EUR) za 1 milion tokenów wyjściowych. Tokeny to surowe dane, a 1 milion tokenów to około 750 000 słów.
W tej chwili nie jest ona bezpłatna dla użytkowników, ale firma oświadczyła, że planuje udostępnić o1-mini wszystkim bezpłatnym użytkownikom ChatGPT.
OpenAI stwierdziło również w artykule technicznym, że z opinii testerów wynika, że o1 ma większą skłonność do halucynacji (zmyślania) niż GPT-4o. Nie przyznaje się także do braku odpowiedzi na pytanie.
Współzałożyciel i dyrektor generalny OpenAI, Sam Altman, powiedział w poście na X, że „o1 jest nadal wadliwy, wciąż ograniczony i nadal wydaje się bardziej imponujący przy pierwszym użyciu niż po spędzeniu z nim więcej czasu”.
„Łańcuch myślowy”
OpenAI stwierdziło, że model działa „podobnie do tego, jak człowiek może myśleć przez długi czas, zanim odpowie na trudne pytanie”, dodając, że „o1 wykorzystuje łańcuch myślowy, próbując rozwiązać problem”.
OpenAI nie pokazało dokładnie, jak działa ten „łańcuch myślenia”, częściowo ze względu na przewagę konkurencyjną. Ale pokazało „wygenerowane przez model podsumowania” łańcuchów myślowych.
Współpraca z rządami
OpenAI stwierdziło, że aby zwiększyć swoje zobowiązania w zakresie bezpieczeństwa sztucznej inteligencji, niedawno sformalizowało umowy z amerykańskimi i brytyjskimi instytutami bezpieczeństwa AI, które obejmowały zapewnienie instytutom wcześniejszego dostępu do modelu przed publicznym udostępnieniem.
OpenAI nie wspomniało o współpracy z rządami europejskimi.