Hejka naklejka!
Google przeprowadza restrukturyzację swojego zespołu finansowego, kładąc większy nacisk na inwestycje w sztuczną inteligencję. Zmiany, o których poinformowała główna dyrektor finansowa Google, Ruth Porat, obejmują zwolnienia oraz przeniesienia pracowników i są odpowiedzią na spowolnienie wzrostu przychodów z reklam, jednocześnie stawiając na rosnącą rolę AI. CFO zaznaczyła, że restrukturyzacja jest częścią szerszej strategii przystosowania firmy do zmieniających się realiów rynkowych. Podkreśliła też, że zmiany – choć trudne – są niezbędne dla dalszego rozwoju i konkurencyjności Google. W ramach tej strategii firma planuje również utworzenie tzw. „hubów”, czyli centrów operacyjnych , m.in. w miastach takich jak Bangalore, Meksyk, Dublin, Chicago czy Atlanta.
Ponadto Google zdecydowało się na konsolidację swoich zespołów badawczych, włączając zespół DeepMind do swojej szerszej inicjatywy AI. Reorganizacja obejmuje przeniesienie zespołów odpowiedzialnych za rozwój bezpiecznej AI do DeepMind, aby lepiej integrować ich prace z budową i skalowaniem swoich modeli. Google podjęło tę decyzję w ramach dążenia do wzmocnienia rozwoju AI, zwłaszcza po sukcesie modelu AI Gemini, który pomimo kontrowersji, przyczynił się do wzrostu wartości akcji Alphabet.
Microsoft natomiast, może dzięki zwolnieniu 2 tysięcy osób już wcześniej, zainwestował 1,5 miliarda dolarów w firmę G42, specjalizującą się w sztucznej inteligencji. Przedsiębiorstwo ma swoją siedzibę w Abu Dhabi i jest nadzorowane przez doradcę ds. bezpieczeństwa narodowego Zjednoczonych Emiratów Arabskich. Inwestycja Microsoftu umożliwi rozwój i wdrożenie zaawansowanych rozwiązań AI na platformie Microsoft Azure. W ramach tej współpracy Brad Smith, wiceprezes i prezes Microsoft, dołączy do zarządu G42, a dodatkowo partnerstwo zakłada utworzenie funduszu w wysokości miliarda dolarów, mającego wspierać programistów i rozwój umiejętności związanych z AI w ZEA oraz całym regionie. Przedsięwzięcie jest wspierane przez unikatową Umowę Międzyrządową, zapewniającą zastosowanie najlepszych światowych praktyk w zakresie bezpieczeństwa i odpowiedzialności AI. Microsoft i G42 będą także współpracować nad rozwojem infrastruktury cyfrowej i usług dla krajów rozwijających się, z naciskiem na zapewnienie równego dostępu do technologii.’
Teraz poważna, hophipowa drama z Ameryki. W swoim najnowszym utworze “Taylor Made Freestyle” Drake wywołał spore kontrowersje, przywołując wokal takich legend jak 2Pac i Snoop Dogg. – to kolejny element w trwającej rywalizacji między Drake’em a Kendrickiem Lamarem. W utworze użyto głosów wygenerowanych przy wsparciu AI, a prowokujące wersy prowokowują Kendricka do odpowiedzi, co dodatkowo podkręca atmosferę tego beefu. Jest to interesujące zastosowanie AI, które łączy technologię z kreatywnością w świecie muzyki. Równocześnie, kontrowersje dotyczą także etycznych aspektów używania AI do imitowania głosów znanych i, co istotniejsze, zmarłych artystów, co wywołuje dyskusje na temat praw autorskich i moralności takich działań.
Okienkowa omnipotencja pochwaliła się narzędziem AI o nazwie VASA-1, które jest w stanie generować bardzo realistyczne wideo przedstawiające mówiące twarze na podstawie pojedynczego zdjęcia, które mogą mówić zasymulowanym głosem, sklonowanym z innych nagrań . Pomimo wielu potencjalnych pozytywnych zastosowań, takich jak ulepszenie komunikacji zdalnej czy tworzenie edukacyjnych avatarów cyfrowych, Microsoft wyraża również obawy dotyczące możliwości nadużyć. Firma podkreśla, że technologia VASA-1 może prowadzić do produkcji tzw. deepfake’ów, które mogą być wykorzystywane do siania dezinformacji. VASA-1 jest w stanie tworzyć wideo w czasie rzeczywistym, z małym opóźnieniem startowym, co pozwala na interakcje ze wspomnianymi wirtualnymi awatarami, wyglądającymi i zachowującymi się jak prawdziwi ludzie. Gigant z Redmond, zdając sobie sprawę z etycznych i społecznych implikacji swojego narzędzia, zdecydował się zatem nie udostępniać VASA-1 szerszej publiczności ani nie opracowywać żadnych produktów komercyjnych na jej podstawie – przynajmniej na razie. Zamiast tego, koncentruje się na dalszym badaniu możliwości i ograniczeń tej technologii, a także na rozwijaniu metod wykrywania i zapobiegania nadużyciom związanym z deepfake’ami.
Żeby zachować diapazon informacji, to Google DeepMind opracowało model językowy, nazwało go RecurrentGemma i ogłosiło wydajną alternatywą dla modeli opartych na transformerach, używanych dotychczas w przetwarzaniu języka naturalnego. RecurrentGemma wykorzystuje architekturę Griffin, która łączy rekurencję liniową z lokalną uwagą, co pozwala na efektywniejsze zarządzanie pamięcią i szybsze przetwarzanie danych. Jest to szczególnie istotne w środowiskach o ograniczonych zasobach, takich jak urządzenia mobilne czy laptopy. Model ten, dzięki swojej strukturze, jest w stanie obsłużyć długie sekwencje danych bez zwiększania wymagań pamięciowych, co stanowi znaczącą przewagę nad tradycyjnymi modelami transformerowymi, które są znane z dużego zapotrzebowania na zasoby obliczeniowe. Przełom w modelu RecurrentGemma polega na zdolności do generowania sekwencji o dowolnej długości bez utraty wydajności, co otwiera nowe możliwości dla aplikacji wymagających intensywnej pracy z językiem naturalnym.
Pojawił się nowatorski system o nazwie FlowMind, wprowadzony przez J.P. Morgan AI Research, wykorzystujący możliwości modeli językowych, takich jak GPT, do automatycznego tworzenia workflow. FlowMind jest przykładem zastosowania uczenia maszynowego do dynamicznej automatyzacji zadań, które dotychczas wymagały elastycznego podejmowania decyzji, nieosiągalnego dla tradycyjnych systemów automatyzacji procesów biznesowych. Metoda ta, poprzez odpowiednie dostosowanie modelu do kontekstu zadania i funkcji API, znacząco zwiększa zdolność modelu do radzenia sobie z zadaniami o wysokim stopniu skomplikowania, co jest kluczowe w sektorze usług finansowych – wszystko, aby usprawnić zarządzanie przepływem pracy, zwiększając wydajność i redukując ryzyko błędów w krytycznych procesach.
W niedawnym badaniu opublikowanym w czasopiśmie Eye naukowcy ocenili wydajność dwóch chatbotów – Google Gemini i Bard wykazały znaczące osiągnięcia w egzaminie z okulistyki, osiągając 71% dokładność w odpowiedziach na 150 pytań z różnych dziedzin okulistyki, takich jak chirurgia plastyczna i chirurgia oczodołu, ogólna okulistyka, a także konkretne przypadki, jak jaskra czy zapalenie błony naczyniowej oka. Wyniki te zostały uzyskane w amerykańskiej wersji egzaminu, gdzie oba narzędzia AI wykazały swoje umiejętności w szybkim i spójnym odpowiadaniu na pytania medyczne.
Analiza drugorzędowa przeprowadzona w różnych krajach, takich jak Wietnam, Brazylia i Holandia, wykazała niewielkie różnice w odpowiedziach w porównaniu do wersji amerykańskiej. Dla przykładu, wietnamska wersja Barda odpowiedziała poprawnie na 67% pytań, podczas gdy Gemini odpowiedziało poprawnie na 74% pytań. Mimo to obie wersje wykazywały różnice w wyborze odpowiedzi na 15-21% pytań w porównaniu do wersji amerykańskiej. Wskazuje to na potencjalną zmienność odpowiedzi w zależności od lokalizacji użytkownika. Ponadto, oba narzędzia miały tendencję do odpowiadania na pytania w około 7 sekund, co podkreśla ich zdolność do szybkiego przetwarzania i analizowania złożonych danych medycznych. Gemini wykazał się również lepszą wydajnością w sub-specjalnościach takich jak choroby rogówki i choroby zewnętrzne, osiągając 87% dokładność, podczas gdy Bard był bardziej efektywny w chirurgii siatkówki i ciała szklistego z dokładnością 80%. Oprócz wydajności w odpowiadaniu na pytania, Gemini i Bard wykazywały zdolność do dostarczania wyjaśnień do swoich odpowiedzi, co dodatkowo zwiększa ich wartość jako narzędzi wspomagających podejmowanie decyzji dla specjalistów. Gemini dostarczył wyjaśnień do wszystkich swoich odpowiedzi, natomiast Bard do 86% swoich odpowiedzi. Wyniki są obiecujące, ale występuje nadal potrzeba dalszych badań nad poprawą dokładności i spójności modeli AI, aby mogły skuteczniej wspierać lekarzy w codziennej praktyce.