Konsumenckie porównanie generatorów grafiki feat. techniczno-sceptyczny użytkownik

Cześć!

Generowanie grafiki rastrowej to popularne wykorzystanie dobrodziejstwa sztucznej inteligencji. Mnogość rozwiązań i stopnia ich zaawansowania odwzorowuje aktualny stan tej branży. Przy okazji kontrowersyjnych komunikatów prasowych Adobe, spójrzmy, jak prezentują się możliwości najpopularniejszych obecnie narzędzi.

Zastanówmy się nad kryteriami, które powinny być spełnione przez dobry i sprawnie działający produkt. Od razu na myśl przychodzi jakość samej grafiki, jak i przyswajalność naszych oczekiwań – nie zawsze przecież oczekujemy realistycznej fotografii. Sam interfejs, sposób komunikacji z komputerem, powinien być czytelny i łatwo przyswajalny dla przeciętnego użytkownika. Ostatnim punktem, stricte technicznym, jest efektywność algorytmów; te bardziej oszczędne pozwolą na tańszy i szybszy dostęp do treści.

Z tylko najpopularniejszych produktów wymienić możemy DALL-E 3, jego pochodną czyli Copilot Designer, MidJourney, Stable Diffusion, Adobe Firefly czy Leonardo.

W tym prostym, konsumenckim porównaniu, chciałbym wykorzystać kilka uniwersalnych przykładów i po prostu, bez wgłębiania się w specyfikę każdego produktu, porównać ich przystępność. Doświadczenia i przyzwyczajenia z Midjourney mogą nie sprawdzić się w rozwiązaniach OpenAI i odwrotnie, a ciężko „wymasterować” każdą usługę. Mnogość ustawień, sztuczek pozwala uzyskać zadowalające efekty z każdego z nich, a dziś postanowiłem dać prompty do napisania swojej umiarkowanie technicznej partnerce, a parametry generatorów ustawione były możliwie domyślnie/automatycznie. Jeżeli interfejs wymagał ode mnie wybrania parametru/presetu, to starałem się dobrać go uniwersalnie. Mnogość ustawień (np. Leonardo i dziesiątki presetów) czy dokładność ich przekazywania (duży zakres liczb w MidJourney) początkowo przytłacza, a koszt wygenerowania setek prób również nie pozostaje niezauważony.

Oto zadania, o których wypełnienie poproszę każdą wymienioną wyżej usługę:

  • grafika przedstawiająca starożytnych ludzi, raczących się McDonaldem w okolicznościach erupcji wulkanicznej, która tak kiedyś spodobała się Kacprowi (abstrakcja, prawdziwa firma)
  • realistyczne zdjęcie dwóch modeli, o jasnej i ciemnej karnacji, w eleganckim wystroju tak modeli jak i otoczenia (wykluczenie rasizmu, stopień realizmu)
  • grafika przedstawiająca wnętrze restauracji, kilka obsadzonych stolików, nazwę knajpy i dania dnia zaprezentowane na ścianie (generowanie tekstu i dużej ilości osób)
  • dziecięcą laurkę dla mamy z okazji ich niedawnego święta (prosty, schematyczny rysunek)
  • góry, jezioro, jedno drzewo odbijające się w tafli wody (natura, odbicie)

Zastosowane przeze mnie prompty:

  • people in ancient costumes, eating McDonald’s, with the volcano in the background
  • realistic photo of two models, one light skin and the other one dark skin, in an elegant outfit, in the elegant surroundings
  • graphic showing the interior of the restaurant, several occupied tables, the name of the restaurant „YUMMY” and the dishes of the day presented on the wall in the background
  • child’s handmade drawing for mom on the occasion of Mother’s Day
  • realistic autumn landscape, mountains, lake, tree and its reflection on the water surface

DALL-E 3:

Model bazuje na GPT-3.5 lub nowszym, wykorzystując architekturę transformatorów do generowania obrazów na podstawie opisów tekstowych. Dokładna liczba parametrów DALL-E 3 nie została ujawniona, a GPT-3 pochwalić się może liczbą 175 miliardów parametrów.

Copilot Designer:

Opracowany przez Microsoft, wykorzystuje technologię GPT-4 od OpenAI. Tutaj także liczba parametrów nie jest znana, choć wiadomo, że na możliwości GPT-4 składać się ma ponad 1.7 miliarda parametrów.

MidJourney:

Narzędzie wykorzystujące zaawansowane modele głębokiego uczenia, które mogą łączyć różne techniki, w tym aspekty z technologii dyfuzyjnych i transformatorowych. Ponownie, dokładna liczba parametrów nie jest publicznie dostępna.

Stable Diffusion: 3

Korzysta z dyfuzyjnych modeli probabilistycznych, które generują obrazy poprzez iteracyjne przekształcanie losowego szumu w docelowy obraz. Stable Diffusion posiada około 890 milionów parametrów.

Adobe Firefly:

Adobe Firefly wykorzystuje algorytmy podobne jak MidJourney, zintegrowane z całym ekosystemem Adobe Creative Cloud, a sama firma nie chwali się wieloma technicznymi detalami.

Leonardo:

Opiera się na zaawansowanych modelach głębokiego uczenia oraz transformerach, które są trenowane na dużych zbiorach danych obrazów. Zgadliście – nie znamy liczby parametrów.

Zobacz także:

  • Piotr Szymański

    Kategoria:

    Hejka! Zapraszam na skrót z minionych dwóch tygodni, który przyswoić możecie przy ciepłej herbatce w te mroczne, szare dni. W opublikowanym przez Google 14 listopada ostrzeżeniu wskazano kilka najważniejszych rodzajów oszustw internetowych. Uwagę zwrócono między na niebezpieczne techniki ataków typu cloaking, które nabierają nowego wymiaru dzięki wykorzystaniu sztucznej inteligencji. Cloaking polega na ukrywaniu przed użytkownikiem […]
  • Piotr Szymański

    Kategoria:

    Hejka po dłuższej przerwie! Zaczynamy świeżym tematem. Raptem kilkanaście godzin temu do użytkowników trafiła, zapowiedziana 25 lipca, funkcja SearchGPT od OpenAI, umożliwiająca, w przeciwieństwie do tradycyjnych modeli językowych, na integrację z internetem w czasie rzeczywistym. SearchGPT ma dostęp do aktualnych informacji z sieci, co pozwala na udzielanie odpowiedzi opartych na najnowszych danych. Ponadto SearchGPT dostarcza […]
  • Piotr Szymański

    Kategoria:

    Hejson! Dzisiejsza konsumpcja mediów ma to do siebie, że odbywa się na 5-6 calowym ekranie telefonu. Ma też to do siebie, że zanim zdjęcie dotrze do Ciebie, to przejdzie przez 6 konwersacji na jedynym słusznym messengerze, zatem zostanie 6-cio krotnie skompresowane. W międzyczasie, jak będziecie mieli pecha, to jakiś wujek zrobi screena, zamiast zapisać zdjęcie […]
  • Piotr Szymański

    Kategoria:

    Hej! Robimy bardzo dużo zdjęć, a co za tym idzie – wiele z nich jest niechlujnych, z zabałagnionym tłem. Możemy jednak chcieć wykorzystać je do pochwalenia się naszym ryjkiem na jakimś publicznym profilu, gdyż np. naturalne, miękkie światło korzystnie eksponuje naszą facjatę. Podejścia mogą być dwa – albo zdecydujemy się na blur bądź zupełne usunięcie […]
  • Piotr Szymański

    Kategoria:

    Strzałeczka. Nvidia przejęła OctoAI, startup specjalizujący się w optymalizacji modeli uczenia maszynowego. To już piąta akwizycja Nvidii w 2024 roku, co czyni aktualnie nam panujący rok rekordowym pod względem liczby przejęć. OctoAI, założone w 2019 roku przez Luisa Ceze, skupiło się na tworzeniu oprogramowania zwiększającego wydajność modeli uczenia maszynowego na różnych platformach sprzętowych. Oprogramowanie OctoAI […]