News #15

Hejka naklejka!

Google przeprowadza restrukturyzację swojego zespołu finansowego, kładąc większy nacisk na inwestycje w sztuczną inteligencję. Zmiany, o których poinformowała główna dyrektor finansowa Google, Ruth Porat, obejmują zwolnienia oraz przeniesienia pracowników i są odpowiedzią na spowolnienie wzrostu przychodów z reklam, jednocześnie stawiając na rosnącą rolę AI. CFO zaznaczyła, że restrukturyzacja jest częścią szerszej strategii przystosowania firmy do zmieniających się realiów rynkowych. Podkreśliła też, że zmiany – choć trudne – są niezbędne dla dalszego rozwoju i konkurencyjności Google. W ramach tej strategii firma planuje również utworzenie tzw. „hubów”, czyli centrów operacyjnych , m.in. w miastach takich jak Bangalore, Meksyk, Dublin, Chicago czy Atlanta.

Ponadto Google zdecydowało się na konsolidację swoich zespołów badawczych, włączając zespół DeepMind do swojej szerszej inicjatywy AI. Reorganizacja obejmuje przeniesienie zespołów odpowiedzialnych za rozwój bezpiecznej AI do DeepMind, aby lepiej integrować ich prace z budową i skalowaniem swoich modeli. Google podjęło tę decyzję w ramach dążenia do wzmocnienia rozwoju AI, zwłaszcza po sukcesie modelu AI Gemini, który pomimo kontrowersji, przyczynił się do wzrostu wartości akcji Alphabet.

Microsoft natomiast, może dzięki zwolnieniu 2 tysięcy osób już wcześniej, zainwestował 1,5 miliarda dolarów w firmę G42, specjalizującą się w sztucznej inteligencji. Przedsiębiorstwo ma swoją siedzibę w Abu Dhabi i jest nadzorowane przez doradcę ds. bezpieczeństwa narodowego Zjednoczonych Emiratów Arabskich. Inwestycja Microsoftu umożliwi rozwój i wdrożenie zaawansowanych rozwiązań AI na platformie Microsoft Azure. W ramach tej współpracy Brad Smith, wiceprezes i prezes Microsoft, dołączy do zarządu G42, a dodatkowo partnerstwo zakłada utworzenie funduszu w wysokości miliarda dolarów, mającego wspierać programistów i rozwój umiejętności związanych z AI w ZEA oraz całym regionie. Przedsięwzięcie jest wspierane przez unikatową Umowę Międzyrządową, zapewniającą zastosowanie najlepszych światowych praktyk w zakresie bezpieczeństwa i odpowiedzialności AI. Microsoft i G42 będą także współpracować nad rozwojem infrastruktury cyfrowej i usług dla krajów rozwijających się, z naciskiem na zapewnienie równego dostępu do technologii.’

Teraz poważna, hophipowa drama z Ameryki. W swoim najnowszym utworze “Taylor Made Freestyle” Drake wywołał spore kontrowersje, przywołując wokal takich legend jak 2Pac i Snoop Dogg. – to kolejny element w trwającej rywalizacji między Drake’em a Kendrickiem Lamarem. W utworze użyto głosów wygenerowanych przy wsparciu AI, a prowokujące wersy prowokowują Kendricka do odpowiedzi, co dodatkowo podkręca atmosferę tego beefu. Jest to interesujące zastosowanie AI, które łączy technologię z kreatywnością w świecie muzyki. Równocześnie, kontrowersje dotyczą także etycznych aspektów używania AI do imitowania głosów znanych i, co istotniejsze, zmarłych artystów, co wywołuje dyskusje na temat praw autorskich i moralności takich działań.

Okienkowa omnipotencja pochwaliła się narzędziem AI o nazwie VASA-1, które jest w stanie generować bardzo realistyczne wideo przedstawiające mówiące twarze na podstawie pojedynczego zdjęcia, które mogą mówić zasymulowanym głosem, sklonowanym z innych nagrań . Pomimo wielu potencjalnych pozytywnych zastosowań, takich jak ulepszenie komunikacji zdalnej czy tworzenie edukacyjnych avatarów cyfrowych, Microsoft wyraża również obawy dotyczące możliwości nadużyć. Firma podkreśla, że technologia VASA-1 może prowadzić do produkcji tzw. deepfake’ów, które mogą być wykorzystywane do siania dezinformacji. VASA-1 jest w stanie tworzyć wideo w czasie rzeczywistym, z małym opóźnieniem startowym, co pozwala na interakcje ze wspomnianymi wirtualnymi awatarami, wyglądającymi i zachowującymi się jak prawdziwi ludzie. Gigant z Redmond, zdając sobie sprawę z etycznych i społecznych implikacji swojego narzędzia, zdecydował się zatem nie udostępniać VASA-1 szerszej publiczności ani nie opracowywać żadnych produktów komercyjnych na jej podstawie – przynajmniej na razie. Zamiast tego, koncentruje się na dalszym badaniu możliwości i ograniczeń tej technologii, a także na rozwijaniu metod wykrywania i zapobiegania nadużyciom związanym z deepfake’ami.

Żeby zachować diapazon informacji, to Google DeepMind opracowało model językowy, nazwało go RecurrentGemma i ogłosiło wydajną alternatywą dla modeli opartych na transformerach, używanych dotychczas w przetwarzaniu języka naturalnego. RecurrentGemma wykorzystuje architekturę Griffin, która łączy rekurencję liniową z lokalną uwagą, co pozwala na efektywniejsze zarządzanie pamięcią i szybsze przetwarzanie danych. Jest to szczególnie istotne w środowiskach o ograniczonych zasobach, takich jak urządzenia mobilne czy laptopy. Model ten, dzięki swojej strukturze, jest w stanie obsłużyć długie sekwencje danych bez zwiększania wymagań pamięciowych, co stanowi znaczącą przewagę nad tradycyjnymi modelami transformerowymi, które są znane z dużego zapotrzebowania na zasoby obliczeniowe. Przełom w modelu RecurrentGemma polega na zdolności do generowania sekwencji o dowolnej długości bez utraty wydajności, co otwiera nowe możliwości dla aplikacji wymagających intensywnej pracy z językiem naturalnym.

Pojawił się nowatorski system o nazwie FlowMind, wprowadzony przez J.P. Morgan AI Research, wykorzystujący możliwości modeli językowych, takich jak GPT, do automatycznego tworzenia workflow. FlowMind jest przykładem zastosowania uczenia maszynowego do dynamicznej automatyzacji zadań, które dotychczas wymagały elastycznego podejmowania decyzji, nieosiągalnego dla tradycyjnych systemów automatyzacji procesów biznesowych. Metoda ta, poprzez odpowiednie dostosowanie modelu do kontekstu zadania i funkcji API, znacząco zwiększa zdolność modelu do radzenia sobie z zadaniami o wysokim stopniu skomplikowania, co jest kluczowe w sektorze usług finansowych – wszystko, aby usprawnić zarządzanie przepływem pracy, zwiększając wydajność i redukując ryzyko błędów w krytycznych procesach.

W niedawnym badaniu opublikowanym w czasopiśmie Eye naukowcy ocenili wydajność dwóch chatbotów – Google Gemini i Bard wykazały znaczące osiągnięcia w egzaminie z okulistyki, osiągając 71% dokładność w odpowiedziach na 150 pytań z różnych dziedzin okulistyki, takich jak chirurgia plastyczna i chirurgia oczodołu, ogólna okulistyka, a także konkretne przypadki, jak jaskra czy zapalenie błony naczyniowej oka. Wyniki te zostały uzyskane w amerykańskiej wersji egzaminu, gdzie oba narzędzia AI wykazały swoje umiejętności w szybkim i spójnym odpowiadaniu na pytania medyczne.

Analiza drugorzędowa przeprowadzona w różnych krajach, takich jak Wietnam, Brazylia i Holandia, wykazała niewielkie różnice w odpowiedziach w porównaniu do wersji amerykańskiej. Dla przykładu, wietnamska wersja Barda odpowiedziała poprawnie na 67% pytań, podczas gdy Gemini odpowiedziało poprawnie na 74% pytań. Mimo to obie wersje wykazywały różnice w wyborze odpowiedzi na 15-21% pytań w porównaniu do wersji amerykańskiej. Wskazuje to na potencjalną zmienność odpowiedzi w zależności od lokalizacji użytkownika. Ponadto, oba narzędzia miały tendencję do odpowiadania na pytania w około 7 sekund, co podkreśla ich zdolność do szybkiego przetwarzania i analizowania złożonych danych medycznych. Gemini wykazał się również lepszą wydajnością w sub-specjalnościach takich jak choroby rogówki i choroby zewnętrzne, osiągając 87% dokładność, podczas gdy Bard był bardziej efektywny w chirurgii siatkówki i ciała szklistego z dokładnością 80%. Oprócz wydajności w odpowiadaniu na pytania, Gemini i Bard wykazywały zdolność do dostarczania wyjaśnień do swoich odpowiedzi, co dodatkowo zwiększa ich wartość jako narzędzi wspomagających podejmowanie decyzji dla specjalistów. Gemini dostarczył wyjaśnień do wszystkich swoich odpowiedzi, natomiast Bard do 86% swoich odpowiedzi. Wyniki są obiecujące, ale występuje nadal potrzeba dalszych badań nad poprawą dokładności i spójności modeli AI, aby mogły skuteczniej wspierać lekarzy w codziennej praktyce.

Zobacz także:

  • Piotr Szymański

    Kategoria:

    Hejka! Zapraszam na skrót z minionych dwóch tygodni, który przyswoić możecie przy ciepłej herbatce w te mroczne, szare dni. W opublikowanym przez Google 14 listopada ostrzeżeniu wskazano kilka najważniejszych rodzajów oszustw internetowych. Uwagę zwrócono między na niebezpieczne techniki ataków typu cloaking, które nabierają nowego wymiaru dzięki wykorzystaniu sztucznej inteligencji. Cloaking polega na ukrywaniu przed użytkownikiem […]
  • Piotr Szymański

    Kategoria:

    Hejka po dłuższej przerwie! Zaczynamy świeżym tematem. Raptem kilkanaście godzin temu do użytkowników trafiła, zapowiedziana 25 lipca, funkcja SearchGPT od OpenAI, umożliwiająca, w przeciwieństwie do tradycyjnych modeli językowych, na integrację z internetem w czasie rzeczywistym. SearchGPT ma dostęp do aktualnych informacji z sieci, co pozwala na udzielanie odpowiedzi opartych na najnowszych danych. Ponadto SearchGPT dostarcza […]
  • Piotr Szymański

    Kategoria:

    Hejson! Dzisiejsza konsumpcja mediów ma to do siebie, że odbywa się na 5-6 calowym ekranie telefonu. Ma też to do siebie, że zanim zdjęcie dotrze do Ciebie, to przejdzie przez 6 konwersacji na jedynym słusznym messengerze, zatem zostanie 6-cio krotnie skompresowane. W międzyczasie, jak będziecie mieli pecha, to jakiś wujek zrobi screena, zamiast zapisać zdjęcie […]
  • Piotr Szymański

    Kategoria:

    Hej! Robimy bardzo dużo zdjęć, a co za tym idzie – wiele z nich jest niechlujnych, z zabałagnionym tłem. Możemy jednak chcieć wykorzystać je do pochwalenia się naszym ryjkiem na jakimś publicznym profilu, gdyż np. naturalne, miękkie światło korzystnie eksponuje naszą facjatę. Podejścia mogą być dwa – albo zdecydujemy się na blur bądź zupełne usunięcie […]
  • Piotr Szymański

    Kategoria:

    Strzałeczka. Nvidia przejęła OctoAI, startup specjalizujący się w optymalizacji modeli uczenia maszynowego. To już piąta akwizycja Nvidii w 2024 roku, co czyni aktualnie nam panujący rok rekordowym pod względem liczby przejęć. OctoAI, założone w 2019 roku przez Luisa Ceze, skupiło się na tworzeniu oprogramowania zwiększającego wydajność modeli uczenia maszynowego na różnych platformach sprzętowych. Oprogramowanie OctoAI […]