Witaj Użytkowniku!
Na rozgrzewkę przyjmiemy sobie skromną dawkę Elona Muska., którego platforma X wprowadziła nową funkcję nazwaną “Stories on X”, korzystającą z sztucznej inteligencji Grok AI. Funkcja ta podsumowuje aktualne tematy i jest dostępna dla płatnych użytkowników. Grok AI, tworzony między innymi dzięki danym z platformy, generuje streszczenia oparte na reakcjach użytkowników – więc mogą niekiedy zawierać błędy. Chatbot nie zawsze oddaje dokładną treść artykułów, skupiając się raczej na komentarzach i dyskusjach społeczności. Na przykładzie sytuacji dotyczącej wypalenia zawodowego wśród inżynierów AI, system stara się skrócić rozbudowane treści do zwięzłych podsumowań. Choć funkcja ma przyciągnąć więcej płatnych subskrybentów, użytkownicy mogą mieć mieszane uczucia co do rzetelności i dokładności wygenerowanych streszczeń.
Nowe modele językowe rosną jak grzyby po deszczu; przesuwają granice możliwości sztucznej inteligencji tydzień za tygodniem. Tylko ostatnio poznaliśmy Phi-3 od Microsoft, OpenELM od Apple oraz Arctic od Snowflake.
Model Phi-3 jest częścią platformy Azure i cechuje się wyjątkową skalowalnością oraz zdolnością do rozwiązywania złożonych problemów, korzystając przy tym z mniejszych ilości danych niż wcześniejsze modele. Umożliwia zatem efektywniejsze trenowanie i wdrażanie AI w zróżnicowanych zastosowaniach biznesowych.
Z kolei Apple wprowadziło model OpenELM, podkreślając jego otwartość i efektywność. Model, zaprojektowany tak, aby być bardziej dostępnym i przyjaznym dla deweloperów, umożliwia łatwiejsze eksperymentowanie i rozwijanie nowych aplikacji opartych na sztucznej inteligencji.
A Snowflake zaprezentowało model Arctic, który wyróżnia się w kontekście zastosowań korporacyjnych. Arctic jest przykładem wykorzystania architektury MoE (Mixture of Experts), przydatnej do poprawy wydajności przy niższych kosztach operacyjnych. Model ten został zoptymalizowany, aby lepiej radzić sobie z generowaniem SQL, kodzeniem i wykonaniem skomplikowanych instrukcji.
Kilka dni temu premier Japonii, Fumio Kishida, przedstawił międzynarodowe ramy regulujące użycie AI podczas spotkania Organizacji Współpracy Gospodarczej i Rozwoju (OECD) w międzynarodowym Paryżu. Celem nowego projektu, znanego jako Hiroshima AI Process, jest promowanie bezpiecznego i godnego zaufania wykorzystania nowych technologii. Idea powstała po przewodnictwie Japonii w Grupie G7 w 2023 roku i została poparta przez 49 krajów i regionów, które zadeklarowały chęć współpracy nad wdrażaniem zasad i kodeksu postępowania. Kishida podkreślił również potrzebę konfrontacji z “ciemną stroną” AI, taką jak odmieniane przez wszystkie przypadki ryzyko dezinformacji.
W ramach ów projektu, Japonia planuje również zintensyfikować współpracę międzynarodową i dialog w ramach takich organizacji jak OECD i ONZ, by promować bezpieczne korzystanie z AI na skalę globalną. Działania te obejmują również otwarcie Instytutu Bezpieczeństwa AI i Tokyo Center of the Global Partnership on AI, mające za zadanie prowadzenie badań i analiz na ten temat.
Microsoft zaktualizował zasady korzystania z usługi Azure OpenAI Service, wprowadzając zakaz wykorzystania technologii rozpoznawania twarzy przez amerykańskie bagiety departamenty policji. Nowe regulacje jasno zabraniają integracji Azure OpenAI Service z funkcjami rozpoznawania twarzy, z modelami analizy obrazu zarówno obecnie dostępnymi, jak i przyszłymi iteracjami. Dotyczy to również zastosowań na kamerach przenośnych, takich jak kamery ciała i samochodowe, które byłyby używane do identyfikacji osób w niekontrolowanych środowiskach. Powody? Naturalnie rosnące obawy dotyczące prywatności i uprzedzenia modeli, które mogłyby niekorzystnie wpływać na mniejszości rasowe.
Apple wciąż intensyfikuje swoje zaangażowanie w dziedzinę sztucznej inteligencji, obecnie rekrutując do swojego zespołu pracowników z Google. Firma skupiła się na zatrudnianiu specjalistów od AI i uczenia maszynowego, szczególnie z Kalifornii, Seattle oraz nowego laboratorium badawczego w Zurychu. Znacząco rozszerzono zespół – dokładnie o 36 nowych ekspertów. Apple wykorzystuje okazję wynikającą z obecnych zwolnień w branży IT. Powiedziałbym więc, że gdzie Google się bije, tam Apple korzysta. Czy jakoś tak. Zatem gdy inne firmy technologiczne zmagają się z ograniczeniami budżetowymi lub redukcjami etatów; w czasach, gdy rynek pracy w technologii jest nieprzewidywalny, a zwolnienia są częste, takie ruchy mogą pozytywnie wpłynąć na ocenę firmy w oczach specjalistów.
Naukowcy ostatnio zbadali metody modyfikacji LLM-ów, aby zapewnić ich optymalną wydajność nawet przy ograniczonych zasobach obliczeniowych. Jednym z kluczowych osiągnięć jest Low-Rank Adaptation (LoRA), metoda efektywnego dostosowywania parametrów (PEFT – Parameter-Efficient Fine-Tuning), która okazała się obiecująca w ulepszaniu specjalistycznych modeli tak, aby przewyższały modele większe, choć bardziej ogólne i uniwersalne. Metoda ta redukuje liczbę parametrów uczących i obniża zużycie pamięci, zachowując przy tym dokładność.
Wyzwaniem jest utrzymanie wydajności bez nadmiernego zapotrzebowania na obliczenia. Podejście zespołu badawczego polega na wykorzystaniu LoRA, który wprowadza macierze niskiego rzędu do istniejących warstw zamrożonych wag modelu. Metoda ta pozwala specjalistycznym modelom osiągnąć poziom wydajności porównywalny z pełnym dostosowywaniem, nie wymagając przy tym dużej liczby parametrów uczących.
Zespół badawczy użył 10 bazowych modeli i 31 zadań do dostosowania 310 modeli. Zadania obejmowały klasyczne NLP, kodowanie, rozumowanie oparte na wiedzy i problemy matematyczne. Działania te wspierał LoRAX, otwartoźródłowy serwer inferencyjny zaprojektowany specjalnie do obsługi wielu dostosowanych LLM-ów LoRA. Serwer umożliwia jednoczesne używanie wielu modeli poprzez wykorzystanie wspólnych bazowych wag i dynamiczne ładowanie adapterów, co pozwala na wdrażanie licznych modeli na jednym GPU.
Aby zweryfikować proponowaną metodologię, zespół przeprowadził eksperymenty z użyciem LoRA z kwantyzacją 4-bitową na modelach bazowych, osiągając znakomite wyniki. Odkryli, że modele dostosowane za pomocą LoRA znacząco przewyższały swoje modele bazowe, z poprawą wydajności średnio o ponad 34 punkty. Niektóre modele nawet przewyższyły GPT-4 o średnio 10 punktów w różnych zadaniach. Badacze dokładnie ustandaryzowali swoje ramy testowe, zapewniając spójność w parametrach i zapytaniach, co umożliwiło sprawiedliwą ocenę modeli. Możliwości wdrażania LoRAX zostały dokładnie ocenione, podkreślając jego zdolność do efektywnego zarządzania wieloma modelami jednocześnie. Dzięki funkcjom takim jak dynamiczne ładowanie adapterów i warstwowe buforowanie wag, osiągnięto wysoki poziom współbieżności przy minimalnym opóźnieniu.
Życzę Ci miłego dnia, get_current_user(): !