News #27

Hejka po dłuższej przerwie!

Zaczynamy świeżym tematem. Raptem kilkanaście godzin temu do użytkowników trafiła, zapowiedziana 25 lipca, funkcja SearchGPT od OpenAI, umożliwiająca, w przeciwieństwie do tradycyjnych modeli językowych, na integrację z internetem w czasie rzeczywistym. SearchGPT ma dostęp do aktualnych informacji z sieci, co pozwala na udzielanie odpowiedzi opartych na najnowszych danych. Ponadto SearchGPT dostarcza odpowiedzi z wyraźnymi odniesieniami do źródeł, umożliwiając użytkownikom sprawniejszą weryfikację informacji. Narzędzie dostępne jest także w formie wtyczki do przeglądarek.

W tym miejscu warto przytoczyć, iż News Corp, właściciel takich mediów jak The Wall Street Journal i New York Post, złożył pozew przeciwko firmie Perplexity AI, oskarżając ją o naruszenie praw autorskich i znaków towarowych. Pozew zarzuca Perplexity AI masowe kopiowanie treści dziennikarskich bez zgody i rekompensaty, co ma negatywny wpływ na przychody wydawców – nie po raz pierwszy. Ale temat powraca dziś, kiedy w wyszukiwarkach internetowych dużych graczy, takich jak Google czy Bing, integracja AI zmienia sposób, w jaki użytkownicy uzyskują informacje; zamiast tradycyjnych list linków, AI generuje bezpośrednie odpowiedzi na zapytania, co może prowadzić do zmniejszenia ruchu na stronach internetowych i utraty wpływów z reklam i innych współprac. Mimo to, według analizy HubSpot, aż 75% analityków webowych uważa, że integracja AI w wyszukiwarkach wpłynie pozytywnie na ich strony, 68% przewiduje wzrost ruchu, podczas gdy tylko 9% spodziewa się spadku zainteresowania. Także funkcja SGE od Google sprawia, że wszyscy zajmujący się SEO i skupiający swoją pracę wokół stron internetowych, muszą intensywnie poszerzać swoją wiedzę i przyjmować nowe strategie działania.

Według dyrektora generalnego Google, Sundar Picha, już ponad 25% nowego kodu w firmie jest generowane przez systemy sztucznej inteligencji. Mówiąc to podkreślił, że AI znacząco zwiększa produktywność i efektywność procesów programistycznych, mimo, iż kod jest następnie przeglądany i akceptowany przez inżynierów.

Nvidia wprowadziła na rynek NVLM 1.0 – rodzinę otwartoźródłowych, wielomodalnych modeli językowych. Flagowy model, NVLM-D-72B, posiada 72 miliardy parametrów, co pozwala na zaawansowane przetwarzanie i generowanie języka naturalnego oraz analizę danych wizualnych. LLM od Zielonych został przeszkolony na bogatym zbiorze danych obejmującym zarówno tekst, jak i obrazy. Proces treningu obejmował techniki takie jak RLHF (Reinforcement Learning from Human Feedback), co wpłynęło pozytywnie na dokładność i dostosowanie modelu do rzeczywistych potrzeb użytkowników. 

Konkurując z wiodącymi modelami pokroju GPT-4o czy Llama 3-V 405B, w testach benchmarkowych NVLM-D-72B osiągał wyniki porównywalne lub przewyższające te modele w zadaniach związanych z przetwarzaniem języka i obrazu. Co więcej, po treningu multimodalnym model NVLM-D-72B wykazał poprawę w zadaniach tekstowych, co jest rzadkością w przypadku modeli trenowanych na danych wielomodalnych. Więcej przeczytać możecie oczywiście na platformie Hugging Face.

Żeby w rodzinie pozostała równowaga, to AMD także zaprezentowało szereg swoich innowacyjnych rozwiązań.

Nowa, piąta generacja procesorów serwerowych AMD EPYC 9005, spod nazwy kodowej Turin, wprowadza znaczące ulepszenia w architekturze Zen 5/Zen 5c. Procesory te oferują szeroki zakres od 8 do 192 rdzeni, co pozwala na elastyczne dostosowanie do różnorodnych zastosowań. W porównaniu z poprzednią generacją, nowe rdzenie Zen 5 zapewniają o 17% wyższy współczynnik IPC w typowych zadaniach biznesowych i chmurowych oraz o 37% lepszą wydajność w zadaniach związanych z AI i superkomputerami.

Zaprezentowany został również nowy akcelerator AMD Instinct MI325X, oparty na architekturze CDNA 3. Wyposażony w 256 GB pamięci HBM3E o przepustowości 6 TB/s, oferuje o 1.8x większą pojemność i 1.3x wyższą przepustowość w porównaniu do konkurencyjnych rozwiązań. Sprzęt został zaprojektowany z myślą o wymagających zadaniach AI, oferując o 30% niższe opóźnienia w porównaniu do konkurencyjnych rozwiązań w kontekście dużych modeli językowych.

Pokazano też procesory Ryzen AI PRO 300 Series, które integrują dedykowane jednostki AI, umożliwiając lokalne przetwarzanie zadań związanych ze sztuczną inteligencją. Przykładowo, model AMD Ryzen AI 7 PRO 360 oferuje do 9% wyższą wydajność w zadaniach produktywności.

Aha, swoją drogą to kilka dni temu Nvidia osiągnęła status najbardziej wartościowej firmy na świecie, prześcigając królujące dotąd  Apple –  kapitalizacja rynkowa Nvidii wzrosła do 3,53 biliona dolarów, przewyższając 3,52 biliona dolarów Apple. Kto kupił ich akcje po wyzbyciu się USD w szczycie końcówki ‘22 roku? Przyznawać się!

Nie mogłoby być news`ów bez informacji, co ciekawego u pana Marka Cukiergóry. Meta AI wprowadziła skwantowane wersje modeli Llama 3.2 o rozmiarach 1B i 3B, oferujące znaczące ulepszenia w zakresie wydajności i efektywności. Dzięki kwantyzacji, która redukuje precyzję reprezentacji danych w modelu, osiągnięto 2-4-krotny wzrost prędkości wnioskowania oraz zmniejszenie rozmiaru modelu o 56%, co usprawnia ich integrację z na urządzeniami o ograniczonych zasobach, takimi jak smartfony czy urządzenia IoT.

SynthID-Text to otwartoźródłowe narzędzie Google DeepMind, umożliwiające dodawanie niewidocznych dla ludzkiego oka znaków wodnych do tekstu generowanego przez sztuczną inteligencję. SynthID-Text integruje znaki wodne bezpośrednio w procesie generowania tekstu, wykorzystując do tego funkcję pseudolosową, zwaną funkcją g, która modyfikuje rozkład prawdopodobieństwa wyboru kolejnych tokenów podczas generowania tekstu. Dzięki temu w wygenerowanym tekście powstaje statystyczny wzorzec, niewidoczny dla człowieka, ale możliwy do wykrycia przez odpowiednie narzędzia. Za źródłami mądrzejszymi ode mnie:


Aby zastosować znak wodny, konieczne jest zdefiniowanie konfiguracji zawierającej kluczowe parametry:

  • Keys: Lista unikalnych, losowo wygenerowanych liczb całkowitych, używanych do obliczania wartości funkcji g dla słownictwa modelu. Zaleca się użycie od 20 do 30 takich kluczy, aby zrównoważyć wykrywalność znaku wodnego z jakością generowanego tekstu.
  • Ngram_len: Długość n-gramu, która wpływa na równowagę między odpornością a wykrywalnością znaku wodnego. Większa wartość zwiększa wykrywalność, ale może obniżyć odporność na modyfikacje tekstu. Zalecana wartość to 5, przy minimalnej wartości 2.

Dodatkowe parametry, takie jak rozmiar i ziarno tabeli próbkowania, pozwalają na dalsze dostosowanie konfiguracji do specyficznych potrzeb.

Do wykrywania znaków wodnych w tekście stosuje się klasyfikatory, które analizują statystyczne wzorce obecne w treści. SynthID-Text oferuje różne funkcje oceny, takie jak średnia ważona czy metoda bayesowska, które pozwalają na skuteczne rozpoznanie tekstu wygenerowanego przez AI z zastosowanym znakiem wodnym. Wykrywanie jest efektywne obliczeniowo i nie wymaga dostępu do pierwotnego modelu językowego.

A co nowego w świecie medycyny? Międzynarodowy zespół nefrologów opracował zaawansowane narzędzie o nazwie UK-DTOP (UK Deceased Donor Kidney Transplant Outcome Prediction), wycelowanego w poprawę efektów przeszczepień nerek od zmarłych dawców w Wielkiej Brytanii poprzez precyzyjne prognozowanie wyników transplantacji. Wykorzystując zaawansowane algorytmy uczenia maszynowego do analizy danych z blisko 30 000 przypadków przeszczepień nerek, obejmujących okres 15 lat, a także uwzględniając różnorodne czynniki, takie jak wiek i stan zdrowia dawcy oraz biorcy, czas zimnego niedokrwienia, a także zgodność immunologiczną, model zwiększa możliwości predykcyjne lekarzy i pomaga udoskonalić ich podejście do dopasowania dawców i biorców. Rozbudowane wyniki, metodologia i podział badań na uczenie nadzorowane jak i nie, znajdziecie tutaj. W samej tylko Polsce około 2 tysiące osób czeka na przeszczep nerki, więc miejmy nadzieję na szybkie i szerokie wdrożenie efektów wyżej wymienionego badania. 

Miłego weekendu!

Zobacz także:

  • Piotr Szymański

    Kategoria:

    Hejka! Zapraszam na skrót z minionych dwóch tygodni, który przyswoić możecie przy ciepłej herbatce w te mroczne, szare dni. W opublikowanym przez Google 14 listopada ostrzeżeniu wskazano kilka najważniejszych rodzajów oszustw internetowych. Uwagę zwrócono między na niebezpieczne techniki ataków typu cloaking, które nabierają nowego wymiaru dzięki wykorzystaniu sztucznej inteligencji. Cloaking polega na ukrywaniu przed użytkownikiem […]
  • Piotr Szymański

    Kategoria:

    Hejson! Dzisiejsza konsumpcja mediów ma to do siebie, że odbywa się na 5-6 calowym ekranie telefonu. Ma też to do siebie, że zanim zdjęcie dotrze do Ciebie, to przejdzie przez 6 konwersacji na jedynym słusznym messengerze, zatem zostanie 6-cio krotnie skompresowane. W międzyczasie, jak będziecie mieli pecha, to jakiś wujek zrobi screena, zamiast zapisać zdjęcie […]
  • Piotr Szymański

    Kategoria:

    Hej! Robimy bardzo dużo zdjęć, a co za tym idzie – wiele z nich jest niechlujnych, z zabałagnionym tłem. Możemy jednak chcieć wykorzystać je do pochwalenia się naszym ryjkiem na jakimś publicznym profilu, gdyż np. naturalne, miękkie światło korzystnie eksponuje naszą facjatę. Podejścia mogą być dwa – albo zdecydujemy się na blur bądź zupełne usunięcie […]
  • Piotr Szymański

    Kategoria:

    Strzałeczka. Nvidia przejęła OctoAI, startup specjalizujący się w optymalizacji modeli uczenia maszynowego. To już piąta akwizycja Nvidii w 2024 roku, co czyni aktualnie nam panujący rok rekordowym pod względem liczby przejęć. OctoAI, założone w 2019 roku przez Luisa Ceze, skupiło się na tworzeniu oprogramowania zwiększającego wydajność modeli uczenia maszynowego na różnych platformach sprzętowych. Oprogramowanie OctoAI […]
  • Piotr Szymański

    Kategoria:

    Cześć i czołem! Przejdźmy od razu do rzeczy najistotniejszych, poważnych i brzemiennych w skutkach dla Nas wszystkich. Roblox właśnie pokazał nowe narzędzie AI, ubogacające możliwości platformy mocno stawiającej na sztuczną inteligencję. Zmiany mają zmienić sposób tworzenia gier i map, pozwalając na generowanie światów na bieżąco, bez potrzeby skomplikowanego programowania w języku Lua. Generatywna sztuczna inteligencja, […]