News #26

Strzałeczka.

Nvidia przejęła OctoAI, startup specjalizujący się w optymalizacji modeli uczenia maszynowego. To już piąta akwizycja Nvidii w 2024 roku, co czyni aktualnie nam panujący rok rekordowym pod względem liczby przejęć. OctoAI, założone w 2019 roku przez Luisa Ceze, skupiło się na tworzeniu oprogramowania zwiększającego wydajność modeli uczenia maszynowego na różnych platformach sprzętowych. Oprogramowanie OctoAI pozwalało na optymalizację modeli na GPU, CPU oraz rozwiązaniach chmurowych od AWS i innych dostawców. Obie działalności współpracowały wcześniej przy projekcie optymalizacji NIM (Nvidia Inference Microservices), co umożliwia klientom tworzenie własnych, spersonalizowanych systemów sztucznej inteligencji. Nvidia zyskuje na przejęciu nie tylko technologię, ale również wykwalifikowany zespół inżynierów.

Luis Ceze, współzałożyciel i dotychczasowy CEO OctoAI, po przejęciu objął stanowisko wiceprezesa ds. systemów oprogramowania AI w Nvidii. W ciągu zaledwie kilku lat jego dziecko zdołało pozyskać 130 milionów dolarów finansowania, a także wycenę rzędu 900 milionów dolarów już po dwóch latach. Wcześniej firma oferowała swoje usługi jako platformę chmurową, umożliwiającą optymalizację i uruchamianie modeli w różnych środowiskach. Kluczowe były rozwiązania w zakresie optymalizacji – dziś jest to coraz mocniej palący problem. Zgodnie z wypowiedziami Ceze, Nvidia ma jedną z najbardziej dojrzałych platform oprogramowania w tej branży, co czyni ją idealnym partnerem do dalszej rozbudowy technologii uczenia maszynowego. Zamknięcie usługi chmurowej OctoAI zaplanowano na 31 października 2024 roku.

Jednocześnie Nvidia musi zmierzyć się z narastającą kontrolą ze strony organów państwowych; tak liczne przejęcia mogą bowiem osłabić konkurencyjność na rynku oprogramowania i sprzętu. Wiele z ostatnich transakcji Nvidii zostało uważnie przeanalizowanych pod kątem potencjalnego wpływu na rynek.

Nie odchodząc daleko od tematu, eksperci ostrzegają, że czynna rola ONZ w regulacji nowych technologii może prowadzić do nadmiernych ograniczeń i nadzoru, które z kolei mogą wyhamować innowacje oraz zakłócić procesy adaptacji. W jego opinii działania ONZ mogą być zbyt ogólne, nieuwzględniające ani różnic w regulacjach krajowych, ani tempa rozwoju technologii. Phil Siegel obawia się, że centralizacja regulacji na poziomie ONZ może skończyć się nadzorem, który wykracza poza kwestie bezpieczeństwa i ochrony konsumentów. Proponowane rozwiązania mogłyby obejmować surowe wymagania dotyczące przejrzystości algorytmów, co mogłoby spowolnić rozwój innowacji. Dodatkowo, rozległe regulację mogą spowodować, że firmy technologiczne zostaną obciążone dodatkowymi kosztami związanymi z dostosowaniem się do międzynarodowych wymogów. Przeciwnicy takiego podejścia, w tym wspomniany wcześniej Phil Siegel, wskazują na potrzebę bardziej elastycznych i lokalnych rozwiązań, które uwzględniają specyfikę gospodarek oraz kultur prawnych różnych krajów członowskich.

Meta zaprezentowała nowy generator realistycznych filmów o nazwieMovie Gen, który może generować filmy w rozdzielczości do 1080p, z animacjami, muzyką i dźwiękiem otoczenia. Narzędzie korzysta z modelu o 30 miliardach parametrów (także 13 miliardach parametrów audio), a jego zastosowania obejmują personalizację treści i edytowanie istniejących materiałów wideo. Do trenowania modelu wykorzystano imponującą bazę licencjonowanych i publicznie dostępnych materiałów, składającą się z miliarda obrazów, 100 milionów filmów oraz miliona godzin dźwięku. Narzędzie jest w stanie generować sekwencje wideo z prędkością 16 lub 24 klatek na sekundę. Twórcy podkreślają, że narzędzie ma wspierać kreatywność i innowacyjność, a z pewnością nie pozbawiać pracy artystów i twórców. Technologia Movie Gen ma na celu ułatwienie dostępu do zaawansowanych technik multimedialnych osobom bez specjalistycznych umiejętności artystycznych lub programistycznych.

Obecnie Movie Gen nie jest jeszcze dostępny publicznie, a Meta koncentruje się na dalszych testach, aby dokładnie ocenić potencjalne zastosowania oraz ograniczenia tej technologii. Narzędzie ma rywalizować z podobnymi rozwiązaniami, takimi jak OpenAI Sora czy Runway Gen3.

Ta sama Meta, aczkolwiek teraz z kolegą – firmą Ray-Ban – spotkała się z falą krytyki związaną z prywatnością (są dziś inne fale krytyki?) po wprowadzeniu drugiej generacji inteligentnych okularów Ray-Ban Meta. Obawy tyczą się potencjalnego wykorzystania zdjęcia i filmów zbieranych przez te urządzenia. Dokładniej, mają być one wykorzystywane bez jasnego informowania użytkowników do trenowania swoich modeli AI. Chociaż Meta nie potwierdziła, czy obrazy zarejestrowane przez okulary są wykorzystywane do trenowania modeli sztucznej inteligencji, firma również nie zaprzeczyła takim praktykom – zatem odpowiedź znamy.

Dodatkowe zaniepokojenie wzbudził przypadek dwóch studentów Harvardu, którzy zmodyfikowali okulary w celu pozyskiwania danych osobowe przechodniów, w tym informacje z publicznych baz danych, tworząc coś w rodzaju narzędzia do doxxingu w czasie rzeczywistym. Wykorzystali oni technologię AI do analizowania obrazu i filmowo, w ciągu zaledwie kilku sekund, generowali pełne profile osób pojawiających się w kadrze kamery. Choć działanie to miało na celu propagację wiedzy i zwiększenie świadomości na temat zagrożeń związanych z tego typu urządzeniami, pokazało potencjał nadużycia tej technologii w rękach nieodpowiednich osób

ByteDance, właściciel TikToka (zatem i Waszych mózgow), także mierzy się aktualnie z falą krytyki dotyczącej narzędzia Bytespider, służącego do agresywnego zbierania danych z internetu. Efektem ma być oczywiście rozwój funkcji ich platformy, takich jak real-time keyword targeting (czyli dynamiczne dopasowanie wyników na podstawie wprowadzanych słów kluczowych), ale i stworzenie bardziej konkurencyjnej platformy wyszukiwania, która w przyszłości mogłaby rywalizować z innymi dużymi graczami na rynku, takimi jak Google. Bytespider wyróżniać się ma swoją prędkością, przewyższając konkurencję nawet 25-krotnie. Co najważniejsze, bot ignoruje standardowe ograniczenia dla skanerów zawarte w protokołach robots.txt. Właśnie ten fakt najbardziej zbulwersował społeczność i stawia firmę w centrum kontrowersji dotyczących prywatności i etyki zbierania danych

Depth Pro ma na celu zrewolucjonizowanie technologii widzenia 3D. Tak mówi Apple, zatem ja wierzę. Produkt wyróżnia się zdolnością do generowania wysokiej rozdzielczości map głębi na podstawie pojedynczego obrazu, bez konieczności korzystania z dodatkowych danych z czujników, kamer czy danych z systemów LIDAR. W praktyce oznacza to, że model potrafi tworzyć szczegółowe mapy głębi z obrazów pozbawionych informacji o odległości. Model składa się z wielowarstwowych sieci neuronowych o ogromnej liczbie parametrów, co pozwala na osiągnięcie doskonałej precyzji w estymacji głębi. Dzięki temu oprogramowanie jest w stanie przekształcać (w czasie rzeczywistym) obrazy w trójwymiarowe modele z rozdzielczością sięgającą nawet 1080p, eliminując przy tym artefakty typowe dla innych systemów estymacji głębi – rozmyte krawędzie czy problemy z rozpoznawaniem detali na dużych dystansach. Firma podkreśla, że Depth Pro potrafi działać na urządzeniach z serii Apple Silicon, efektywnie wykorzystując ich możliwości sprzętowe. Korzystać z tego dobrodziejstwa będziemy zatem mogli zarówno na urządzeniach mobilnych, jak i stacjonarnych.

Miłego dnia!

The Data Game

Zobacz także:

News #28

Piotr Szymański

Kategoria:

News #27

Piotr Szymański

Kategoria:

Upscaling obrazu przy użyciu AI (feat. denoise&sharpen)

Piotr Szymański

Kategoria:

Zmiana tła Waszego zdjęcia

Piotr Szymański

Kategoria:

News #24

Piotr Szymański

Kategoria: