Akademickie Centrum Komputerowe Cyfronet AGH udostępniło zasoby obliczeniowe dwóch najszybszych aktualnie superkomputerów w Polsce - Heliosa i Atheny - do stworzenia Bielika – polskiego modelu językowego.
Bielik powstał w efekcie prac zespołu działającego w ramach Fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH i jest polskim modelem z kategorii LLM (z ang. Large Language Models), tj. dużym modelem językowym, posiadającym 11 miliardów parametrów.
Aktualnie zasoby fundacji SpeakLeash są największym, najlepiej opisanym i udokumentowanym zbiorem danych w języku polskim.
Wsparcie zespołu ACK Cyfronet dotyczyło optymalizacji i skalowania procesów treningowych, prac nad potokami przetwarzania danych oraz rozwoju i działania metod generowania danych syntetycznych, a także prac w zakresie metod testowania modeli. Wynikiem tego jest polski ranking modeli (Polish OpenLLM Leaderboard). Doświadczenia i wiedza zebrane w wyniku tej współpracy umożliwiły zespołowi ekspertów PLGrid przygotowanie wytycznych oraz zoptymalizowanych rozwiązań w tym środowisk obliczeniowych do prac z modelami językowymi na bazie klastrów Athena i Helios dla potrzeb użytkowników naukowych.
Moc obliczeniowa Heliosa i Atheny w tradycyjnych symulacjach komputerowych to łącznie ponad 44 PFLOPS, a dla obliczeń z zakresu sztucznej inteligencji w niższej precyzji to aż 2 EFLOPS.
Równolegle z zasobów superkomputerów z ACK Cyfronet AGH korzysta kilka tysięcy naukowców reprezentujących wiele dziedzin. Zaawansowane modelowanie i obliczenia numeryczne są wykorzystywane głównie w zakresie: chemii, biologii, fizyki, medycyny i technologii materiałowej, a także astronomii, geologii i ochrony środowiska. Superkomputery w Cyfronecie dostępne w ramach infrastruktury PLGrid są również wykorzystywane na potrzeby fizyki wysokich energii (projekty ATLAS, LHCb, ALICE i CMS), astrofizyki (CTA, LOFAR), nauk o Ziemi (EPOS), europejskiego źródła spalacyjnego (ESS), badań fal grawitacyjnych (LIGO/Virgo) czy biologii (WeNMR).
Marek Magryś, zastępca Dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy podkreśla: - O ile ChatGPT potrafi mówić w języku polskim, to nasycony jest treściami w języku angielskim. W związku z tym ma nikłe pojęcie na temat np. polskiej kultury czy niuansów polskiej literatury. Nie do końca też sobie radzi ze zrozumieniem logiki bardziej skomplikowanych tekstów np. prawnych czy medycznych. Jeśli chcielibyśmy zastosować go w tych właśnie specjalistycznych obszarach i mieć model językowy, który dobrze rozumuje w języku polskim i odpowiada poprawną polszczyzną, to nie możemy opierać się wyłącznie na zagranicznych modelach językowych.
Twórcy Bielika wyjaśniają, że usługi sztucznej inteligencji funkcjonujące w internecie, w tym te najpopularniejsze jak ChatGPT, utrzymywane są na serwerach zewnętrznych. Jeśli jakaś firma czy branża rozwija rozwiązanie, które operuje na specjalistycznych danych np. medycznych lub na tekstach, które z różnych powodów nie mogą opuścić firmy, np. są poufne, to jedyną możliwością jest uruchomienie takiego modelu u siebie. Ten model nie będzie tak doskonały jak ChatGPT, ale nie musi też być tak bardzo ogólny.