Hejka po dłuższej przerwie!
Zaczynamy świeżym tematem. Raptem kilkanaście godzin temu do użytkowników trafiła, zapowiedziana 25 lipca, funkcja SearchGPT od OpenAI, umożliwiająca, w przeciwieństwie do tradycyjnych modeli językowych, na integrację z internetem w czasie rzeczywistym. SearchGPT ma dostęp do aktualnych informacji z sieci, co pozwala na udzielanie odpowiedzi opartych na najnowszych danych. Ponadto SearchGPT dostarcza odpowiedzi z wyraźnymi odniesieniami do źródeł, umożliwiając użytkownikom sprawniejszą weryfikację informacji. Narzędzie dostępne jest także w formie wtyczki do przeglądarek.
W tym miejscu warto przytoczyć, iż News Corp, właściciel takich mediów jak The Wall Street Journal i New York Post, złożył pozew przeciwko firmie Perplexity AI, oskarżając ją o naruszenie praw autorskich i znaków towarowych. Pozew zarzuca Perplexity AI masowe kopiowanie treści dziennikarskich bez zgody i rekompensaty, co ma negatywny wpływ na przychody wydawców – nie po raz pierwszy. Ale temat powraca dziś, kiedy w wyszukiwarkach internetowych dużych graczy, takich jak Google czy Bing, integracja AI zmienia sposób, w jaki użytkownicy uzyskują informacje; zamiast tradycyjnych list linków, AI generuje bezpośrednie odpowiedzi na zapytania, co może prowadzić do zmniejszenia ruchu na stronach internetowych i utraty wpływów z reklam i innych współprac. Mimo to, według analizy HubSpot, aż 75% analityków webowych uważa, że integracja AI w wyszukiwarkach wpłynie pozytywnie na ich strony, 68% przewiduje wzrost ruchu, podczas gdy tylko 9% spodziewa się spadku zainteresowania. Także funkcja SGE od Google sprawia, że wszyscy zajmujący się SEO i skupiający swoją pracę wokół stron internetowych, muszą intensywnie poszerzać swoją wiedzę i przyjmować nowe strategie działania.
Według dyrektora generalnego Google, Sundar Picha, już ponad 25% nowego kodu w firmie jest generowane przez systemy sztucznej inteligencji. Mówiąc to podkreślił, że AI znacząco zwiększa produktywność i efektywność procesów programistycznych, mimo, iż kod jest następnie przeglądany i akceptowany przez inżynierów.
Nvidia wprowadziła na rynek NVLM 1.0 – rodzinę otwartoźródłowych, wielomodalnych modeli językowych. Flagowy model, NVLM-D-72B, posiada 72 miliardy parametrów, co pozwala na zaawansowane przetwarzanie i generowanie języka naturalnego oraz analizę danych wizualnych. LLM od Zielonych został przeszkolony na bogatym zbiorze danych obejmującym zarówno tekst, jak i obrazy. Proces treningu obejmował techniki takie jak RLHF (Reinforcement Learning from Human Feedback), co wpłynęło pozytywnie na dokładność i dostosowanie modelu do rzeczywistych potrzeb użytkowników.
Konkurując z wiodącymi modelami pokroju GPT-4o czy Llama 3-V 405B, w testach benchmarkowych NVLM-D-72B osiągał wyniki porównywalne lub przewyższające te modele w zadaniach związanych z przetwarzaniem języka i obrazu. Co więcej, po treningu multimodalnym model NVLM-D-72B wykazał poprawę w zadaniach tekstowych, co jest rzadkością w przypadku modeli trenowanych na danych wielomodalnych. Więcej przeczytać możecie oczywiście na platformie Hugging Face.
Żeby w rodzinie pozostała równowaga, to AMD także zaprezentowało szereg swoich innowacyjnych rozwiązań.
Nowa, piąta generacja procesorów serwerowych AMD EPYC 9005, spod nazwy kodowej Turin, wprowadza znaczące ulepszenia w architekturze Zen 5/Zen 5c. Procesory te oferują szeroki zakres od 8 do 192 rdzeni, co pozwala na elastyczne dostosowanie do różnorodnych zastosowań. W porównaniu z poprzednią generacją, nowe rdzenie Zen 5 zapewniają o 17% wyższy współczynnik IPC w typowych zadaniach biznesowych i chmurowych oraz o 37% lepszą wydajność w zadaniach związanych z AI i superkomputerami.
Zaprezentowany został również nowy akcelerator AMD Instinct MI325X, oparty na architekturze CDNA 3. Wyposażony w 256 GB pamięci HBM3E o przepustowości 6 TB/s, oferuje o 1.8x większą pojemność i 1.3x wyższą przepustowość w porównaniu do konkurencyjnych rozwiązań. Sprzęt został zaprojektowany z myślą o wymagających zadaniach AI, oferując o 30% niższe opóźnienia w porównaniu do konkurencyjnych rozwiązań w kontekście dużych modeli językowych.
Pokazano też procesory Ryzen AI PRO 300 Series, które integrują dedykowane jednostki AI, umożliwiając lokalne przetwarzanie zadań związanych ze sztuczną inteligencją. Przykładowo, model AMD Ryzen AI 7 PRO 360 oferuje do 9% wyższą wydajność w zadaniach produktywności.
Aha, swoją drogą to kilka dni temu Nvidia osiągnęła status najbardziej wartościowej firmy na świecie, prześcigając królujące dotąd Apple – kapitalizacja rynkowa Nvidii wzrosła do 3,53 biliona dolarów, przewyższając 3,52 biliona dolarów Apple. Kto kupił ich akcje po wyzbyciu się USD w szczycie końcówki ‘22 roku? Przyznawać się!
Nie mogłoby być news`ów bez informacji, co ciekawego u pana Marka Cukiergóry. Meta AI wprowadziła skwantowane wersje modeli Llama 3.2 o rozmiarach 1B i 3B, oferujące znaczące ulepszenia w zakresie wydajności i efektywności. Dzięki kwantyzacji, która redukuje precyzję reprezentacji danych w modelu, osiągnięto 2-4-krotny wzrost prędkości wnioskowania oraz zmniejszenie rozmiaru modelu o 56%, co usprawnia ich integrację z na urządzeniami o ograniczonych zasobach, takimi jak smartfony czy urządzenia IoT.
SynthID-Text to otwartoźródłowe narzędzie Google DeepMind, umożliwiające dodawanie niewidocznych dla ludzkiego oka znaków wodnych do tekstu generowanego przez sztuczną inteligencję. SynthID-Text integruje znaki wodne bezpośrednio w procesie generowania tekstu, wykorzystując do tego funkcję pseudolosową, zwaną funkcją g, która modyfikuje rozkład prawdopodobieństwa wyboru kolejnych tokenów podczas generowania tekstu. Dzięki temu w wygenerowanym tekście powstaje statystyczny wzorzec, niewidoczny dla człowieka, ale możliwy do wykrycia przez odpowiednie narzędzia. Za źródłami mądrzejszymi ode mnie:
Aby zastosować znak wodny, konieczne jest zdefiniowanie konfiguracji zawierającej kluczowe parametry:
- Keys: Lista unikalnych, losowo wygenerowanych liczb całkowitych, używanych do obliczania wartości funkcji g dla słownictwa modelu. Zaleca się użycie od 20 do 30 takich kluczy, aby zrównoważyć wykrywalność znaku wodnego z jakością generowanego tekstu.
- Ngram_len: Długość n-gramu, która wpływa na równowagę między odpornością a wykrywalnością znaku wodnego. Większa wartość zwiększa wykrywalność, ale może obniżyć odporność na modyfikacje tekstu. Zalecana wartość to 5, przy minimalnej wartości 2.
Dodatkowe parametry, takie jak rozmiar i ziarno tabeli próbkowania, pozwalają na dalsze dostosowanie konfiguracji do specyficznych potrzeb.
Do wykrywania znaków wodnych w tekście stosuje się klasyfikatory, które analizują statystyczne wzorce obecne w treści. SynthID-Text oferuje różne funkcje oceny, takie jak średnia ważona czy metoda bayesowska, które pozwalają na skuteczne rozpoznanie tekstu wygenerowanego przez AI z zastosowanym znakiem wodnym. Wykrywanie jest efektywne obliczeniowo i nie wymaga dostępu do pierwotnego modelu językowego.
A co nowego w świecie medycyny? Międzynarodowy zespół nefrologów opracował zaawansowane narzędzie o nazwie UK-DTOP (UK Deceased Donor Kidney Transplant Outcome Prediction), wycelowanego w poprawę efektów przeszczepień nerek od zmarłych dawców w Wielkiej Brytanii poprzez precyzyjne prognozowanie wyników transplantacji. Wykorzystując zaawansowane algorytmy uczenia maszynowego do analizy danych z blisko 30 000 przypadków przeszczepień nerek, obejmujących okres 15 lat, a także uwzględniając różnorodne czynniki, takie jak wiek i stan zdrowia dawcy oraz biorcy, czas zimnego niedokrwienia, a także zgodność immunologiczną, model zwiększa możliwości predykcyjne lekarzy i pomaga udoskonalić ich podejście do dopasowania dawców i biorców. Rozbudowane wyniki, metodologia i podział badań na uczenie nadzorowane jak i nie, znajdziecie tutaj. W samej tylko Polsce około 2 tysiące osób czeka na przeszczep nerki, więc miejmy nadzieję na szybkie i szerokie wdrożenie efektów wyżej wymienionego badania.
Miłego weekendu!