Midjourney a lansat în decembrie modelul de bază V6, care promite o mai bună înțelegere a mesajelor din prompturi și o mai generare de text mai bună decât modelul anterior. Cu o săptămână înainte, Meta lansase un nou generator de imagini AI, pe care foarte mulți îl ridică în slăvi, dar care nu e accesibil momentan în România.
De aceea, ne-am gândit că ar fi un moment bun pentru o comparație între cele mai populare generatoare de imagini AI de pe piață: DALL-E 3, Midjourney, Firefly (de la Adobe) și Stable Diffusion. Câștigătorul – din punctul nostru de vedere – îl vei afla la final.
Am folosit același prompt pentru fiecare imagine, pentru a avea un echilibru perfect între cele patru programe de generare de imagini AI. Am scris prompt-urile în limba englezî, pentru a avea rezultate cât mai bune.
De asemenea, am generat mai multe tipuri de imagine, făcând comparația între cele patru programe pentru diverse utilizări și scenarii. Hai să vedem ce-a ieșit!
Portrete
Prompt folosit:
close-up portrait of an old woman in cuba, wrinkles around her eyes, beads in her hair, smoking cigar, hyperrealistic textures, cinematic lighting
Toate cele patru portrete generate sunt interesante, dar fiecare dintre acestea are propriile „erori”, mai mult sau mai puțin vizibile. La Stable Diffusion și Firefly trabucul e poziționat deloc natural. Femeia de la Firefly are trăsături extrem de realiste. Cubaneza de la Dall-E are ridurile exagerate. Stable Diffusion nu s-a decis la culoarea pielii, în vreme ce Midjourney ne-a livrat o fumătoare de trabuc autentică și apropiată de realitate, chiar dacă nici la ea trabucul nu stă foarte hotărât.
Câștigător: Midjourney
Peisaje
Prompt folosit:
a tranquil landscape scene at sunset with a cozy wooden cabin with lit windows, nestled on the edge of a calm lake, reflecting the golden hues of the sunset sky. A small jetty extends into the water. Surrounding the cabin are lush green pine trees. The background is dominated by majestic snow-capped mountains that rise dramatically against the vibrant sunset.
Am compus un prompt mai elaborat, în dorința de a vedea dacă programele respectă în totalitate indicațiile. Cea mai simplistă imagine a fost generată de Firefly, care nu a produs nici un munte prea reușit. Dall-E a venit cu o variantă dramatică și colorată, dar a plasat greșit soarele. Stable Diffusion a făcut un peisaj plăcut la prima vedere, însă are câteva elemente bizare pe mal. Cel mai complet peisaj, totodată foarte armonios, a fost generat de Midjourney – l-ai folosi oricând pe o carte poștală.
Câștigător: Midjourney
Sport
Prompt folosit:
freeze the action as a Romanian football player scores a goal to win the World Cup tournament
Un task destul de dificil, se pare, pe care programele nu prea au știut să-l interpreteze. Midjourney a creat poate cea mai frumoasă imagine – una dinamică și artistică, ba chiar e o urmă de Cristiano Ronaldo acolo. Deși a creat un tricou galben-roșu, nu a nimerit echipamentul României. Din acest punct de vedere, dezastrul a venit de la Firefly, care a creat mai degrabă un fotbalist polonez, pe un maidan înghețat. Dall-E și Stable Diffusion au „prins” echipamentul cât de cât. Dall-E a generat cea mai bună atmosferă, dar a considerat că golul României e marcat dintr-un corner bizar, în vreme ce Stable Diffusion a mers pe varianta cuminte a unui jucător cu mingea la picior.
Câștigător: Dall-E-3
Fashion
Prompt folosit:
a stylish young woman, in the style of pastel pink and blue, ocean elements, postmodern photography, shadow play, elegant figures, art nouveau fashion
Când vine vorba de fashion, exemplele create de programele generatoare de imagini AI sunt extrem de interesante și cu cât promptul e mai elaborat, cu atât surprizele sunt mai plăcute. Nu am exagerat cu promptul, dar am primit patru imagini frumoase, de la „mood”-ul lui Midjourney la compoziția lui Dall-E, la realismul lui Stable Diffusion și „ilustrativul” lui Firefly.
Câștigător: Midjourney
Arhitectură
Prompt folosit:
a realistic living room, interior design, golden hour, urban, atmospheric
Arhitectura e altă zonă în care AI-ul face minuni și chiar dacă erorile sunt prezente cam în orice imagine, probabil că foarte curând vom avea parte de generări fabuloase pe această zonă. Pentru promptul nostru, am remarcat că trei programe au „văzut” living-ul cu ferestre pe tot peretele (fără ca acest lucru să fie specificat). Firefly s-a bâlbâit la copacii din exterior, Dall-E a creat o bibliotecă la care ajungi cu scara, Midjourney a armonizat destul de bine elementele din interior, iar Stable Diffusion a adus plusul de realism, care îl face, din punctul nostru de vedere, câștigător.
Câștigător: Stable Diffusion
Randare de produs
Prompt folosit:
commercial photography of a perfume bottle, pastel orange background, dreamy, soft lighting, centered, lemon peels
Randarea de produs comercial e zona în care aceste programe de generare de imagini AI se pot folosi cu mare succes. Un prompt inspirat produce rezultate perfecte. Parfumul nostru a fost generat corect, iar promptul a fost simplu și fără mari pretenții. În aceste condiții, cea mai interesantă imagine a venit de la Midjourney, deși prezintă mici erori care s-ar fi corectat prin generarea de versiuni.
Câștigător: Midjourney
Mâncare
Prompt folosit:
A very realistic burger on a fancy kitchen table
Am preferat să folosim și aici un prompt simplu și un preparat foarte popular. Nu am fost foarte mulțumiți de imaginile primite, deși din multe alte teste anterioare știm că poți avea rezultate fabuloase dacă ai un prompt inspirat. Burgerul lui Dall-E e de plastic, iar farfuria e ciudată. Cel al lui Firefly e de-a dreptul Lego, pe-al lui Stable Diffusion te-ai gândi de două ori înainte să-l mănânci, în vreme ce Midjourney – fără să se străduiască prea tare – câștigă detașat proba gastronomică.
Câștigător: Midjourney
Text pe poză
Prompt folosit:
close-up of a book with a very beautiful cover, on a table in a living room. The book’s title is ”In love with Dracula”
Hmmm. Cea mai grea sarcină! În condițiile în care, odată cu V6, Midjourney se lăuda că s-a pus la punct cu textul pe imagini, a reușit să o facă în mod corect într-una dintre cele 4 imagini generate, doar că a pus titlul pe cotor (înghițind o literă), nu pe copertă. Stable Diffusion și Firefly sunt eșecuri totale, în vreme ce Dall-E a propus o variantă corectă și chiar interesantă.
Câștigător: Dall-E-3
Fotografie de context
Prompt folosit:
A stunning girl at the purple neon city under the red sky, wearing holographic clothes. She appears otherworldly, with an ethereal glow surrounding her. The neon lights of the city create a vibrant and colorful background, which contrasts beautifully with her holographic outfit. The girl stands in a regal pose, exuding grace and elegance. Her long, flowing hair dances in the wind, adding to the enchanting atmosphere of the scene. Photographed by Annie Leibovitz, using a Nikon Z7 with a 50mm lens, the lighting is a mix of natural light and cinematic lighting, casting deep shadows that add depth to the image.
Un prompt foarte elaborat, care include multe elemente, e ca un cal nărăvaș, pe care programele generatoare de imagini AI se chinuie să-l stăpânească. Am generat promptul pornind de la o idee, apoi l-am servit celor patru cavaleri. Dall-E ne-a oferit un fel de Barbie, Firefly și-a bătut joc de mâna fetei, Stable Diffusion s-a străduit destul de bine, dar Midjourney și-a spulberat din nou concurenții cu această imagine de-a dreptul senzuală.
Câștigător: Midjourney
Logo
Prompt folosit:
An impact logo for a travel website called ”TukTuk.ro”, clean background, minimalist
Să recunoaștem: e destul de greu să concepi un logo cu adevărat bun, iar pentru asta e nevoie de multe încercări și șlefuiri ale promptului. De aceea, nu aveam așteptări foarte mari de la programele noastre de generare de imagini AI pentru variantele la prima mână. Dovadă că rezultatele sunt modeste, în special în cazul Firefly și Stable Diffusion. Midjourney a creat un vizual frumuțel, i-a ieșit textul pe poză, dar a livrat o dubiță, nu un TukTuk. Dall-E-3 a generat cea mai apropiată idee de logo, măcar una pe care se poate lucra.
Câștigător: Dall-E 3
Rezultat final
Am avut, așadar, zece zone în care am testat cele patru generatoare de imagini AI. În general, acestea și-au făcut treaba și, dacă am fi îmbunătățit prompturile respective, am fi putut avea parte de rezultate superioare. Însă ne-am dorit să arătăm cum se descurcă aceste instrumente la prima mână, pentru a vedea în care poți avea cea mai mare bază.
Midjourney a câștigat șase dintre cele zece „probe”, Dall-E 3 are medalia de aur în alte trei, în vreme ce Stable Diffusion a câștigat una. Firefly nu ne-a convins atât de tare în niciuna dintre cele zece zone. Dar aici trebuie spus că atât Stable Diffusion cât mai ales Firefly au o sumedenie de setări la care poți apela, unele dintre ele foarte interesante. Încă o dată, noi am folosit tool-urile fără a apela la vreo setare, introducând direct promptul, ca în descriere.
În aceste condiții, favoritul nostru rămâne Midjourney. Am constatat însă că Dall-E a făcut progrese fantastice odată cu lansarea versiunii 3. În același timp, Dall-E e un instrument foarte mofturos – uneori trebuie să repeți promptul (cum a fost în cazul celui contextual), fiindcă i se pare că nu respecți regulile etice. La a doua încercare nu i s-a mai părut.
Stable Diffusion rămâne o opțiune de calibru, chiar dacă imaginile generate de el sunt mai soft, fără acele detalii spectaculoase care-l transnformă pe Midjourney în campion. Firefly e foarte bun pentru generarea de imagini rapide, însă trebuie să te joci un pic cu setările pentru a obține fix ceea ce-ți dorești.
Sunt instrumentele generatoare de imagini AI gratuite?
Trebuie spus că Midjourney este singurul instrument dintre cele patru care nu este gratuit, la prima vedere. În cazul lui, planurile pornesc de la 10$ pe lună. Deși gratuit, Stable Diffusion are și el un plan Pro, de 9,99$ pe lună, cu mai multe avantaje evidente. În principiu, Dall-E 3 nu este gratis, el putând fi accesat prin intermediul planului Pro de la OpenAI (ChatGPT), însă via Bing Image Creator, îl poți folosi gratis. Firefly, de la Adobe, este și el gratuit, instrumentul având mai multe caracteristici interesante, pe care nu le găsești prin alte părți și pe care le poți testa aici.
Pingback: Știri pe scurt - 9 ianuarie 2024 | ComputerBlog.Ro
Hmm, cam prematura si slabuta comparatia… in primul rand versiunea 6 a lui Midjourney este in faza alpha, de test. Nu-i finala, deci vor apare modificari. Apoi in ce priveste Stable Diffusion, ce versiune a fost inclusa in test? 1.5? XL? Ce model s-a folosit, ca-s tone, unele mai bune decat altele si mai specializate pe diverse vizualuri.
Nu ne-am propus o comparație mega-profesionistă, ci una de suprafață, care să reflecte posibilitățile ACTUALE ale principalelor instrumente de generare de imagini.