Gemini – jak sprawdza się w zastępstwie asystenta Google?

Newsy
Opinie: 0
Gemini – jak sprawdza się w zastępstwie asystenta Google?

Google po spóźnionym starcie z technologią AI powoli zaczyna doganiać konkurencję. Tydzień temu zadebiutował płatny dostęp do największego modelu językowego Gemini Ultra 1.0 za 97,99 złotych miesięcznie wraz z 2 TB dysku Google. Google wydał też aplikację Gemini na urządzenia mobilne. Dziś Google poinformował o nowej wersji modelu językowego średniej wielkości Gemini Pro 1.5, który ma być równie skuteczny jak Gemini Ultra, ale wymagać mniej mocy obliczeniowej. 

Największą nowością Gemini Pro 1.5, na razie zarezerwowaną dla wąskiej grupy testerów, jest możliwość analizowania dużo większego materiału źródłowego składającego się nawet z milion tokenów. W praktyce oznacza to przeanalizowanie 700 tysięcy słów (około 2 tysięcy stron maszynopisu), 11 godzin nagrań audio, godzinnego nagrania wideo lub 30 tysięcy linijek kodu.

Google Gemini Pro 1.5 potrafi znaleźć scenę w filmie, na której znajduje się opisany szczegół np. scena wyjęcia kartki z kieszeni. W transkrypcji misji Apollo, na którą składa się ponad 400 stron w dokumencie PDF Gemini potrafi odszukać wypowiedzi, które można określić jako zabawne. Robi to duże wrażenie. 

Bałagan językowy i prawny 

Tempo rozwoju prac nad AI wyprzedziło rozwój komputerów osobistych i serwisów internetowych w czasach ich najbardziej dynamicznego wzrostu. Jak to często bywa tam, gdzie dzieje się dużo, to jest też duże zamieszanie. W przypadku modeli AI nakładają się na siebie dwie kategorie problemów. 

Pierwszy dotyczy podziału funkcjonalności na język angielski, w którym modele językowe są najmocniej rozwijane i pozostałe języki. Drugi dotyczy różnicy przepisów między Unią Europejską a resztą świata, zwłaszcza USA. Ponieważ AI rozwija się zbyt szybko, aby wydawać jej nowe wersje tak jak wydaje się np. kolejne wersje oprogramowania, czasem trudno określić, które funkcje danego modelu językowego są dla nas dostępne. 

Często mamy do czynienia z kilkoma warstwami komplikacji i niewiadomych. Część nowych funkcjonalności jest ogłaszana przez twórców, ale nie jest jeszcze publicznie dostępna. Część jest dostępna, ale poza Unią Europejską albo w innym języku niż polski. Sytuację pogarsza fakt, że nie ma sposobu, aby łatwo to sprawdzić. Twórcy ogłaszają, że nowy model jest dostępny tylko w języku angielskim, po czym okazuje się, że działa też po polsku, ale nie wszystkie funkcje są dostępne. A gdy zapytam samo AI o to jak działa, odpowie, że albo nie wie, albo poda informacje sprzeczne z oficjalną wersją, które są na dodatek zmyślone. Słowem, nie jest łatwo się w tym zorientować. 

Podobnie jest z mobilną aplikacją Gemini na smartfony, która oficjalnie w UE nie jest dostępna, ale te ograniczenia można obejść i ręcznie zainstalować ją na telefonie.

Jak zainstalować Gemini na smartfonie i zastąpić nim asystenta Google 

Aplikacja Google Gemini znajduje się w sklepie Play, ale nie jest dostępna w Europie. Aplikacje można jednak pobrać z internetu w formie pliku APK i zainstalować ręcznie z „nieznanych źródeł”. Zwracajmy uwagę, aby tego typu pliki pobierać jedynie z bezpiecznego źródła, bo poza sklepem Play nikt nie czuwa nad tym czy do pliku nie został dodany szkodliwy wirus. 

Aby Gemini zadziałał musimy pobrać wersję przynajmniej 1.0.605683889 lub nowszą. Po zainstalowaniu przywita nas taki ekran, a dwa kolejne kroki doprowadzą nas do widoku głównego okna.

Google Gemini

Gdy dotkniemy miniatury naszego awatara od konta Google w prawym górnym rogu znajdziemy pozycję ustawienia (settings). Ostatnia pozycja na dole pozwoli nam zdecydować, czy domyślnym asystentem wywoływanym przez przytrzymanie przycisku home ma być Asystent Google, czy właśnie Gemini.

Google Gemini

Co potrafi Gemini na smartfonie? 

Aby wejść w interakcje z Gemini możemy albo uruchomić aplikację albo wywołać asystenta skrótem, tak jak do tej pory. Wówczas możemy wejść w interakcje na trzy sposoby: zacząć mówić, wpisać tekst na klawiaturze albo przesłać obraz. Jeśli wywołamy Gemini skrótem asystenta mikrofon będzie aktywny i możemy od razu zacząć mówić. 

Aplikacja Gemini nie została przetłumaczona na język polski, bo oficjalnie nie jest dostępna na naszym rynku. Wszystkie elementy interfejsu oraz funkcje i ustawienia mają opisy po angielsku. Nie przeszkadza to jednak, aby mówić lub pisać do Gemini w języku polskim i otrzymywać odpowiedzi również w języku polskim.

Google Gemini

Ograniczone możliwości kontekstu 

To co powinno odróżniać asystenta w formie aplikacji na telefonie od asystenta w przeglądarce to dodatkowe możliwości wynikające z kontekstu oraz dotyczące funkcji telefonu. W końcu Asystenta Google możemy poprosić o włączenie latarki czy zrobienie zdjęcia. 

W Gemini to raz działa dobrze, raz nie działa w ogóle, a czasami wręcz ukrywa fakt, że nie działa - trochę na wzór zmyślonych odpowiedzi generowanych przez AI. Najlepiej pokazać to na przykładach. 

Gdy poproszę Gemini by włączył latarkę lub zrobił zdjęcie, to aplikacja wykona te polecenia – dioda z tyłu telefonu się zaświeci, aktywuje się aparat i zrobi zdjęcie. Dokładnie tak jak w asystencie Google. Wygląda jakby wszystko działało, ale do czasu. 

Gdy poproszę o włączenie timera, Gemini odpowie mi, że nie ma możliwości włączenia timera i przekieruje mnie do rozwiązań dostępnych w sieci. Tu już gorzej niż asystent Google, który potrafi to polecenie wykonać bez problemu. Najlepsze jest jednak, że gdy sparafrazuję polecenie i poproszę Gemini o odliczenie 5 minut, to asystent się zgodzi, spyta mnie czy ma wyemitować dźwięk na koniec odliczenia i… nic się nie wydarzy, mimo informacji o odliczaniu czasu w tle.

W przypadku zawartości mieszczącej się na ekranie, Gemini może zrobić zrzut ekranu i go przeanalizować, np. rozpoznać obiekt na zdjęciu i podać informację na jego temat. Może też odnieść się do informacji w tekście wyświetlonym na ekranie. Gdy jednak poproszę o streszczenie całego artykułu, a nawet ręcznie wkleję link do niego, Gemini odpowie „Niestety nie mogę ci w tym pomóc, ponieważ jestem tylko modelem językowym” albo „nie zostałem zaprogramowany, żeby udzielić pomocy w tym zakresie” co nie ma żadnego sensu. Manipulując poleceniem można nakłonić Gemini do podjęcia próby opisu co jest w artykule, ale odpowiedzi są w połowie prawdziwe i w połowie zmyślone. 

Google Gemini

Podsumowanie 

Trudno nie odnieść wrażenia, że twórcy modeli językowych określanych jako AI nie nadążają za ich rozwojem, jeśli chodzi o jasną komunikację ich możliwości i ograniczeń, zwłaszcza w kontekście danego języka i kraju. Podobnie jak odpowiedzi generowane przez AI, część informacji udzielanych przez twórców okazuje się prawdziwa, a część nie i dotyczy to o dziwo zarówno możliwości, jak i ograniczeń. 

Gemini na telefonie rozumie język polski i może w nim odpowiadać, chociaż oficjalnie nie jest u nas dostępny. Jednocześnie, chociaż rozumie bardziej złożone polecenia i udziela bardziej złożonych odpowiedzi niż Asystent Google, nie potrafi zrobić części najprostszych rzeczy. Ale nie wszystkich, bo część jednak potrafi. A jak czegoś nie potrafi, to może zmyślić, że coś robi, np., że odlicza czas w tle, chociaż tego nie robi.

Dla osób lubiących testowanie i zabawę nowymi technologiami instalacja i używanie Gemini to niezła zabawa i zarazem przygoda. Jeśli ktoś natomiast oczekuje gotowego produktu, który robi dokładnie to co ma robić, będzie musiał jeszcze poczekać. Obawiam się, że o wiele dłużej niż sugeruje gwałtowny rozwój AI. Nowe możliwości są niczym z filmu science-fiction, ale ich dopracowanie i opakowanie jako gotowy produkt jest na etapie Windows 98 albo Androida w wersji 3.

Opinie:

Rekomendowane:

Akcje partnerskie: