News #9

Ahoj!

Chińskie EMO

Alibaba Group to siła, której już nie powstrzymamy! Tylko tej, zdaje się, naprawdę. Chiński Holding, ulicy kojarzący się zapewne z niewiarygodnie obficie zaopatrzonymi sklepami internetowymi, w ostatnich dniach zainwestował w marketing i bez problemu jest widywany na streszczeniach najważniejszych wiadomości ze świata IT. Kreatywne podejście i zaangażowanie Sory, tworu OpenAI, jako przykładu w filmie demonstracyjnym, oddało. W przedstawionym materiale Sora śpiewa utwór autorstwa Dua Lipy, gdyż, jak powinienem zapewne wspomnieć na wstępie, EMO to całkowicie logiczne rozwinięcie skrótu Emotive Portrait Alive – to po prostu narzędzie, służące do generowania wideo na podstawie zdjęcia oraz dodanego dźwięku. Wyjątkowo skuteczne i realistyczne ma być odwzorowanie ruchu warg przez postacie – poświęcono temu cały czas antenowy. Jest to kolejne, równolegle obok Pika, narzędzie do tworzenia filmów napędzane AI, które pokazane zostało w ostatnich dniach – choć Pika skupia się na bardziej abstrakcyjnym, animowanym stylu. Co je natomiast łączy, to zamiast skupiać się na tworzeniu oryginalnych scen, Pika Lip Sync oraz EMO od Alibaby są nastawione na ulepszanie już istniejącego materiału. Postacie mogą tak śpiewać, jak i recytować swoje kwestie.

Our framework is mainly constituted with two stages. In the initial stage, termed Frames Encoding, the ReferenceNet is deployed to extract features from the reference image and motion frames. Subsequently, during the Diffusion Process stage, a pretrained audio encoder processes the audio embedding. The facial region mask is integrated with multi-frame noise to govern the generation of facial imagery. This is followed by the employment of the Backbone Network to facilitate the denoising operation. Within the Backbone Network, two forms of attention mechanisms are applied: Reference-Attention and Audio-Attention. These mechanisms are essential for preserving the character’s identity and modulating the character’s movements, respectively. Additionally, Temporal Modules are utilized to manipulate the temporal dimension, and adjust the velocity of motion.

Pozostaje mieć nadzieję, iż filmy stworzone przez EMO nie będą się cią… znaczy klatkować.

Speculative Streaming

Natknąłem się ostatnio na frazę Speculative Streaming. W dużym skrócie można powiedzieć, że jest to nowoczesne, spekulatywne podejście do zwiększania wydajności dużych modeli językowych poprzez integrację spekulacji i weryfikacji w jednym modelu – w przeciwieństwie do tradycyjnych, sekwencyjnych metod. Wykorzystując zaawansowany wielostrumieniowy mechanizm uwagi, pozwalając modelowi przewidywać i weryfikować wiele tokenów w jednym przejściu do przodu, wykorzystując równoległość w nowoczesnych architekturach obliczeniowych, w końcu modyfikując cel dostrajania z przewidywania następnego tokenu na przewidywanie przyszłego n-gramu; metodologia optymalizuje wykorzystanie zasobów obliczeniowych bez uszczerbku dla jakości modelu. Mamy też do czynienia z nowatorskim mechanizm tworzenia drzewa, równolegle przycinanego i weryfikowanego dla kandydujących sekwencji tokenów, co także zwiększa wydajność.

W porównaniu z tradycyjnymi metodami, Speculative Streaming wykazał przyspieszenie od 1,8 do 3,1 razy w różnych zadaniach, takich jak podsumowanie, ustrukturyzowane zapytania i reprezentacja znaczeń. Speculative Streaming wyróżnia się pod względem efektywności wykorzystania parametrów. W odróżnieniu od innych technik, które potrzebują dużej liczby dodatkowych parametrów, ta metoda osiąga swoje cele z minimalnym dodatkowym narzutem (obciążeniem) parametrami. Może być więc szczególnie przydatna przy urządzeniach o ograniczonych zasobach technicznych.

Language Processing Unit

Firma Groq przedstawia światu kolejny etap rozwoju akceleracji sprzętowej AI. Kolejny, gdyż to właśnie Jonathan Ross, właściciel, jest między innymi odpowiedzialny za TPU (Tensor Processing Unit), prekursora Language Processing Unit (LPU), czyli powiedzmy Jednostki przetwarzania języka – dedykowanego układu scalonego do obliczeń na potrzeby sztucznej inteligencji, który koncentruje się na zapewnieniu wydajności i szybkości dotychczas niedostępnej dla zadań przetwarzania językowego.

Już na stronie głównej jesteśmy zapewniani, że silnik zdolny jest do generowania 300 tokenów na sekundę przy modelu open source Llama-2 70B. Bazując na tym tekście, dowiadujemy się, że w warunkach przedstawionych przez autora, układ był w stanie osiągnąć nawet 525 tokenów – gdzie wartość 170, osiągana przez układ Nvidii, zdaje się skromna, choć nie potrafię znaleźć odnośnika do konkretnej specyfikacji i warunków porównawczych. Niewątpliwie jednak technologia prezentuje sobą wyjątkowo niskie opóźnienia i wysoką przepustowość. Konstrukcja oparta na jednostce jednordzeniowej z architekturą Tensor-Streaming Processor pochwalić może się przepustowością 80TB/s, a dla fanów operacji zmiennoprzecinkowych mam wartości odpowiednio 750 TOPS i 188 teraFLOPS dla INT8 i INT16. Możliwość mnożenia macierzy iloczynu kropkowego 320×320, wspierana przez pięć 120-sto wektorowych jednostek ALU i 230 MB lokalnej pamięci SRAM – brzmi smakowicie, prawda sprzętowe świry? Efektywność układu względem kart graficznych osiągana jest także przez wyeliminowanie wąskich gardeł pamięci zewnętrznej oraz zmniejszenie narzutu związanego z wieloma wątkami.

Stary problem

Unia Europejska jak zawsze staje na wysokości zadania, abyśmy mieli o czym dyskutować. Okresowe badania na prawo jazdy dla seniorów (a nawet już nie tylko dla nich) to ostatnio gorący temat. Chociaż akurat ta grupa kierowców w Polsce powoduje statystycznie najmniej wypadków, to nadal stwarzać może poważne zagrożenie na jezdni. Wspomniana statystyka wypada dosyć pozytywnie dlatego, że kierujących osób starszych jest niewiele, a poza tym – jeżdżą raczej powoli. Taka jazda może na przykład prowokować niebezpieczne wyprzedzanie przez bardziej temperamentnych użytkowników dróg. Komisja Europejska, chcąc poprawić bezpieczeństwo jazdy, ma zamiar wprowadzić obowiązkowe badania dla seniorów. A co się dzieje w tej kwestii na Starym Kontynencie?

Amerykańscy naukowcy zajmujący się pielęgniarstwem, inżynierią i neuropsychologią z Florida Atlantic University testują i oceniają łatwo i szybko dostępny, a zarazem dyskretny system wykrywania zmian poznawczych. System ten, montowany w samochodzie, pozwoliłby na ocenę zachowań na drogach dużej liczby kierowców w podeszłym wieku, tak w Stanach Zjednoczonych, jak i innych krajach.

W swoim badaniu opublikowanym w czasopiśmie BMC Geriatrics, amerykańscy badacze wskazują, w jaki sposób system ten może wykrywać nietypowe zachowania podczas jazdy wskazujące na upośledzenie funkcji poznawczych.

Naukowcy mierzą nietypowe warunki jazdy, czyli zgubienie się, ignorowanie sygnalizacji świetlnej i znaków, zdarzenia bliskie kolizji, rozproszenie uwagi i senność, czas reakcji i wzorce hamowania. Przyglądają się również wzorcom podróży, takim jak liczba wyjazdów, specyfika pokonanych kilometrów (kilometry na autostradzie, w nocy, za dnia czy w trudnych warunkach pogodowych). System zbiera dane GPS, szuka gwałtownych przeciążeń poprzez sieć czujników pokładowych; wykorzystuje komponenty sprzętowe i programowe typu open source w celu skrócenia czasu oraz zmniejszenia ryzyka i kosztów związanych z opracowaniem czujników w pojazdach. Zawiera również znacznik czasu.

Druga część systemu to jednostka wideo, która opiera się na sztucznej inteligencji. Poprzez kamerę skierowaną w stronę kierownicy, w czasie rzeczywistym analizuje jego zachowanie i mimikę. Druga kamera skierowana jest do przodu i służy do rejestrowania zdarzeń na drodze.

Wskaźniki skierowane w stronę kierowcy obejmują wykrywanie twarzy, wykrywanie oczu (otwartych lub zamkniętych), ziewanie, rozproszenie uwagi, palenie tytoniu i korzystanie z telefonu komórkowego. Pozostałe wskaźniki obejmują wykrywanie znaków drogowych (przejazd na czerwonym świetle), wykrywanie obiektów (pieszych, rowerzystów, krawężników, barier lub pobliskich pojazdów), przejeżdżanie przez pas ruchu, wykrywanie kolizji i pieszych. Pomysł jest w początkowej fazie testów.

Mam nadzieję, że dzisiejszy tekst był dla Was równie przystępny, co przestępny jest obecny rok!

The Data Game

Zobacz także:

News #28

Piotr Szymański

Kategoria:

News #27

Piotr Szymański

Kategoria:

Upscaling obrazu przy użyciu AI (feat. denoise&sharpen)

Piotr Szymański

Kategoria:

Zmiana tła Waszego zdjęcia

Piotr Szymański

Kategoria:

News #26

Piotr Szymański

Kategoria: