Duże modele językowe AI dostępne na rynku masowym to najważniejsza technologiczna nowość ostatnich miesięcy. Postanowiliśmy przyjrzeć się trzem czołowym rozwiązaniom sztucznej inteligencji dostępnym na smartfonach. Rewolucję AI na dużą skalę rozpoczęła firma OpenAI, udostępniając publicznie ChatGPT 3.5. ChatGPT 3.5 szybko doczekał się nowszej wersji 4.0. Najnowsza wersja jest jednak dostępna tylko dla płatnych subskrybentów i kosztuje 99 złotych miesięcznie.
Microsoft zainwestował w OpenAI i w zamian ma dostęp do technologii ChatGPT, którą udostępnia użytkownikom aplikacji Copilot za darmo.
Google również nie odpuszcza AI. Tak powstał Bard. Początkowo wyraźnie słabszy od konkurencji, szybko zaczął nadrabiać zaległości i po zaprezentowaniu nowego modelu Gemini Pro stał się realną konkurencją. Kolejną wersją ma być Gemini Ultra.
Nie ma wątpliwości, że będzie to wyjątkowo zacięta rywalizacja, która może doprowadzić do zmian na rynku technologii na miarę powstania internetu.
Definicja ludzkiej inteligencji jest złożona i budząca wiele kontrowersji. Nic więc dziwnego, że jej komputerowa odmiana jest tematem jeszcze bardziej zawiłym. Powszechne rozumienie AI odnosi się do tak zwanej artificial general intelligence (AGI), po polsku określanej jako silna sztuczna inteligencja, albo ogólna sztuczna inteligencja. To na razie hipotetyczne rozwiązanie, które oznaczałoby dorównanie ludziom w możliwości rozumienia i rozwiązywania problemów pod każdym względem, a następnie przekroczenie wszelkich ludzkich granic dzięki samodzielnej modyfikacji.
To, co jest dostępne dzisiaj i określane mianem sztucznej inteligencji, to duże modele językowe, które w uproszczeniu jedynie przewidują statystycznie najbardziej prawdopodobne kolejne słowo wypowiedzi w oparciu o analizę ogromnej ilości danych. Można by więc powiedzieć, że inteligencji w tym nie ma żadnej. A jednak możliwości, jakie dają duże modele językowe, zaskakują wszystkich, włącznie z samymi twórcami tych modeli, którzy sami nie są w stanie trafnie przewidzieć ich działania na kilka miesięcy do przodu. Rzeczy, które miały być jeszcze długo dla LLM (large language models) nieosiągalne, kolejne wersje ChatGPT rozwiązują bez problemu.
To, co zaskakuje najbardziej w dostępnych rozwiązaniach, to połączenie cech geniuszu z totalną ignorancją. W jednym zdaniu asystent AI zaskoczy nas rozumieniem ironii i kontekstów kulturowych, które dla nas samych są trudne do zrozumienia i wydają się zbyt trudne dla maszyny. Nie stoi to na przeszkodzie AI, by po chwili palnąć zupełną głupotę albo coś po prostu zmyślić, w sposób, którego nie zrobiłoby nawet małe dziecko. Uczulamy więc, że zdecydowanie nie należy ufać asystentowi AI bezkrytycznie. Jeśli temat jest istotny, to weryfikacja jest zawsze konieczna. Wynika to właśnie z funkcjonowania na bazie prawdopodobieństwa. Jeśli do generowanej odpowiedzi przypałęta się błędne słowo, kolejne będą do niego statystycznie dopasowane, dążąc do coraz większego absurdu.
|
ChatGPT 4 (OpenAI) |
Copilot (Microsoft) |
Bard (Google) |
Darmowy |
Nie (jest ChatGPT 3,5) |
Tak |
Tak |
Ma aplikację mobilną |
Tak |
Tak |
Nie |
Szybkość działania |
Średnia |
Najwolniejsza |
Najszybsza |
Przesyłanie obrazów |
Tak |
Tak |
Tak |
Przesyłanie plików |
Tak |
Nie |
Nie |
Tryb rozmowy |
Tak |
Nie |
Nie |
Źródła |
Czasem |
Zawsze |
Nie |
Zagadki logiczne |
Dobry |
Dobry |
Średni |
Przeszukiwanie internetu |
Tak |
Tak |
Tak |
Tworzenie obrazów |
Tak (DALL-E 3) |
Tak (DALL-E 3) |
Nie |
Zarówno ChatGPT, jak i Copilot posiadają swoje dedykowane aplikacje mobilne. Bard od Google działa wyłącznie w przeglądarce, jednak nic nie stoi na przeszkodzie, aby używać go także na telefonie. Można nawet utworzyć skrót na pulpicie bezpośrednio do strony internetowej z Bardem, co symuluje korzystanie z dedykowanej aplikacji.
Szybkość działania każdego z rozwiązań nie jest bezpośrednio zależna od wydajności naszego smartfonu. Duże modele językowe generują odpowiedzi na serwerach i przesyłają je na nasz telefon, co oznacza, że szybkość działania jest zależna od rodzaju modelu i infrastruktury sieciowej, która za nim stoi. Oznacza to również, że bez łączności z siecią korzystanie z asystentów AI nie jest możliwe.
Najwolniejszy jest Copilot. Prawdopodobnie wynika to z faktu, że Microsoft udostępnia za darmo możliwości ChatGPT 4.0, za które w przypadku OpenAI trzeba płacić 99 zł miesięcznie. Wolniejsze działanie może być świadomym działaniem mającym na celu zapobieganie nadużywaniu darmowej usługi. Copilot generuje odpowiedzi na żywo, tak jakby ktoś wpisywał je na klawiaturze i tylko gdy aplikacja i ekran są aktywne. Podobnie działa to w przeglądarce na komputerze - gdy tylko przełączymy się na inne okno, generowanie odpowiedzi zostaje wstrzymane.
ChatGPT również generuje odpowiedzi wpisując je na bieżąco, litera po literze, ale robi to szybciej i nie wymaga, aby aplikacja czy okno w przeglądarce były na wierzchu i aktywne. Można zadać pytanie i wrócić po chwilę po gotową odpowiedź.
Najszybszy jest Google Bard, który po krótkim zastanowieniu od razu przedstawia całość odpowiedzi, nawet jeśli jest długa i zawiera obrazy.
Tekst poleceń można wprowadzać ręcznie na klawiaturze lub dyktować go za pomocą mechanizmu przetwarzania mowy na tekst, który jest dziś dostępny na każdym smartfonie.
Każda z usług umożliwia także przesyłanie obrazów do analizy. Obraz może przedstawiać cokolwiek, w tym również tekst lub schemat. Wyjątkiem są zdjęcia osób, których Bard nie analizuje. Każdy z asystentów ma także możliwość przeszukiwania internetu.
ChatGPT wymaga subskrypcji, aby dorównać możliwościami darmowym rozwiązaniom, ale gdy już zdecydujemy się zapłacić, oferuje coś więcej. Po pierwsze jako jedyny ma tryb rozmowy, pozwalający na prowadzenie dialogu bez dotykania ekranu. Po drugie, pozwala na przesyłanie i analizę innych plików poza obrazami: dokumentów Word, Excel, Powerpoint, PDF, plików audio, HTML i CSV oraz plików Python. Trzy możliwości, za które musimy zapłacić, a które ma darmowy Copilot to generowanie obrazów, przesyłanie obrazów do analizy i dostęp do internetu. Jeśli nie płacimy, stan wiedzy ChatGPT 3.5 sięga do stycznia 2022 roku i nie dowiemy się np. kto jest aktualnym premierem Polski.
Duże modele językowe działają w sposób niedeterministyczny. Są jak czarne pudełko, do którego trafiają dane oraz zapytanie, a następnie generują odpowiedź. Nie ma więc prostego sposobu, aby porównać możliwości różnych modeli językowych. Firmy stojące za AI często chwalą się wynikami osiągniętymi w testach tworzonych do egzaminowania ludzi, ale to daje nam jedynie pewne wskazówki i nie pozwala jednoznacznie stwierdzić, który z modeli AI najlepiej odpowie na konkretne pytanie. Można jedynie próbować znaleźć pewne prawidłowości. Jeśli chcemy zwiększyć swoje szanse na rozwiązanie skomplikowanego i niejednoznacznego problemu, czasem dobrym pomysłem jest spróbować zapytać wszystkich trzech asystentów i porównać wyniki.
Aby porównać możliwości trzech asystentów, zadałem im pytania z różnych kategorii. Chciałem, aby wyjaśniły słowa "vibe" i "rel", oraz podały przykład młodzieżowego slangu. Zadałem pytania o najlepszy smartfon fotograficzny, pytałem, czym zajmuje się nasza strona GSMONLINE.PL, oraz dałem zagadki logiczne do rozwiązania. Sprawdziłem też, czy potrafią mi wyjaśnić sytuację polityczną związaną z TVP, bo to temat bieżący, wymagający wykorzystania złożonych i świeżych danych.
Słowo "vibe" wyjaśniły wszystkie modele AI, ale z "rel" ChatGPT 4.0 poradził sobie gorzej niż Copilot i Bard. Wszystkie trzy modele podały przykład młodzieżowego slangu. W zapytaniu o przygotowanie do maratonu najbardziej szczegółowy plan na 30 tygodni przygotował ChatGPT, Bard zaplanował 16 tygodni, a Copilot napisał ogólnie o poszukiwaniu motywacji, odżywianiu, sprzęcie i możliwości pozyskania planu treningowego w sieci.
Na pytanie, czym zajmuje się GSMONLINE.PL, wszystkie modele odpowiedziały poprawnie, ale wszystkie też nie poradziły sobie ze składem redakcji. ChatGPT powiedział, że znalazł tylko jedną osobę, a dwa pozostałe modele podały przypadkowe nazwiska, całkowicie zmyślając.
Zapytane, co jest lepsze: Android czy iOS, wszystkie modele zaprezentowały całkiem ciekawą analizę zalet każdego z rozwiązań. Jednak ChatGPT na pytania zadawane w języku polskim zaczął odpowiadać po angielsku. Zapytany o to, Chat przeprosił za błąd, twierdząc, że powinien był odpowiedzieć w języku zapytania, ale potem ponownie zaczął odpowiadać po angielsku.
Na pytanie o najlepszy smartfon fotograficzny, ChatGPT wskazał Samsunga S23 Ultra, uzasadniając swój wybór. Dalej wymienił Pixel 7 Pro i iPhone 14 Pro, czyli modele ubiegłoroczne, które mają już swoich następców. Copilot wymienił same przestarzałe modele, w tym iPhone 13 Pro, i ani jednego współczesnego. Najlepiej poradził sobie Bard, wymieniając iPhone 15 Pro Max, Samsunga S23 Ultra, Xiaomi 13 Ultra i Huawei P60 Pro – każdy z nich jest sensowną propozycją, nawet jeśli Xiaomi nie jest dostępny w Polsce.
W przypadku łamigłówek i podchwytliwych zagadek ChatGPT oraz Copilot poradziły sobie lepiej niż Bard, który starał się dojść do rozwiązania „na chłopski rozum”, osiągając raczej słabe efekty. Konkurencja od razu rozpoznała podchwytliwy charakter pytań i szybko zmierzała do właściwego wyjaśnienia.
Wszystkie usługi sensownie wyjaśniały bieżącą sytuację polityczną w kraju, choć nie podejmuję się oceny, na ile były one bezstronne i obiektywne.
Dalej zająłem się rozpoznawaniem obrazów. Zrzuty postaci z gry Apex Legends przez wszystkie aplikacje AI zostały rozpoznane jako postacie z gry. ChatGPT podał najwięcej szczegółów dotyczących wyglądu, ale tylko Bard prawidłowo rozpoznał z jakiej gry pochodzi zrzut ekranu. Mimo to pomylił się, wskazując o którą konkretnie postać chodzi.
Bard jako jedyny odmawia analizy zdjęć, na których znajdują się ludzie – nawet jeśli to jest popularny mem.
Jeśli wykorzystujemy asystenta okazjonalnie i możemy poczekać na odpowiedź, to nie warto płacić abonamentu za najnowszego ChataGPT. Jest to stosunkowo droga usługa, która w szerszym ujęciu nie przynosi wyraźnych korzyści w porównaniu do darmowych wersji. Nie ma oczywistych zalet dotyczących jakości odpowiedzi. ChatGPT działa wyraźnie szybciej od Copilota, ale przy pojedynczych pytaniach nie ma to większego znaczenia. Chociaż obie aplikacje wykorzystują ChatGPT 4.0, treść ich odpowiedzi często się znacznie różni. Nie ma jednak sposobu, aby rozstrzygnąć, kto ma częściej rację. ChatGPT potrafi generować dłuższe odpowiedzi niż Copilot, który jest ograniczony do 2000 znaków. Niestety po pewnym czasie wyświetla błąd i trzeba zaczynać od początku.
Zakup można rozważyć, gdy potrzebujemy analizy innych plików niż obrazy – tylko płatny ChatGPT to oferuje. Tylko on ma też tryb rozmowy, ale z pewnością nie jest wart 99 zł miesięcznie.
Modele AI, aby działały, muszą przetworzyć ogromną ilość danych. Niemożliwe jest stworzenie tych danych od zera na potrzeby projektu. Mówimy o zasobach takich jak niemal wszystkie książki dostępne w wersji elektronicznej czy artykuły z większości gazet. Większość materiałów, na których trenowane są modele AI, jest objęta prawami autorskimi. To budzi wiele kontrowersji, ponieważ twórczość jest wykorzystywana do trenowania modeli AI bez opłat. Firmy wykorzystują te materiały bez zgody autorów, aby potem czerpać korzyści z wytrenowanych modeli językowych.
The New York Times pozwał OpenAI za skopiowanie artykułów i trenowanie ChatGPT na ich treściach. W przykładach pozwu pokazano odpowiedzi zawierające całe fragmenty artykułów NYT. Jak zauważa New York Times, oznacza to, że użytkownicy korzystający z ChatGPT i Copilota dostają te same treści za darmo, bez wchodzenia na stronę wydawcy. To prawdopodobnie nie jest jedyny taki przypadek, a problemów związanych z AI będzie jeszcze więcej. Często udaje się zawrzeć ugody, ale w tym przypadku na taką możliwość nic nie wskazuje. Od przebiegu i liczby takich procesów będzie zależeć, jak duże możliwości będą miały usługi takie jak ChatGPT. Może się okazać, że w wyniku ograniczeń zostaną one przymusowo „ogłupione”.
Asystenci AI rozwijają się bardzo szybko. W ciągu kilku miesięcy ich działanie może się diametralnie zmienić i zaoferować nowe możliwości. Na początku 2024 roku wciąż zaskakują – na przemian swoją bystrością i całkowitą głupotą. Czasami bez wysiłku potrafią wytłumaczyć tweeta, napisanego w obcym języku, skrótowo i slangowo, poprawnie rozpoznając jego kontekst kulturowy. Potrafią też znaleźć to, czego szukamy, po niejasnym opisie, w sposób, którego dzisiejsze wyszukiwarki typu Google nie potrafią. Jeśli nie wiemy, jaki jest tytuł bajki z dzieciństwa, której mamy jedynie mgliste wspomnienie, to współczesne modele językowe będą bezkonkurencyjne w podpowiedzeniu tytułu. Bywają również przydatne w monotonnych, codziennych zadaniach i czasem to, co z ich pomocą zajmuje sekundy, bez ich pomocy zajęłoby nam długie godziny.
Jednak bywa też tak, że model językowy całkowicie zmyśli swoją odpowiedź, nie zdradzając nawet, że nie jest jej pewien. Przypomina to próbę zaliczenia zajęć przez studenta, który nie uczestniczył w wykładach i się nie uczył, ale próbuje poradzić sobie samą pewnością siebie. Jeśli znamy się na danym temacie na tyle, by rozpoznać taki przypadek, to budzi to jedynie uśmiech politowania, a czasem nawet wywołuje śmiech. Oznacza to jednak, że im mniej wiemy na dany temat, tym bardziej musimy być ostrożni. Genialność niektórych poprawnych odpowiedzi potrafi uśpić czujność na momentami nieprawdopodobnie bezsensowne odpowiedzi. W relacjach z prawdziwymi ludźmi jesteśmy raczej przyzwyczajeni do tego, że zrównoważeni rozmówcy nie zaczynają konfabulować w środku zdania bez mrugnięcia okiem.