DALL-E 3: az AI új verziója, amely azt hozza létre, amit elképzel

Egy másik alkalommal már beszéltünk róla DALL-E. Ebből az alkalomból megjelenik a harmadik verziója. DALL-E3 a mesterséges intelligencia új verziójának neve OpenAI amely szövegből képeket hoz létre. Ez a DALL-E evolúciója, amelyet 2021 januárjában mutattak be, és máris meglepte a világot azzal a képességével, hogy ilyen változatos koncepciókról képes képeket generálni. mint egy kalapos pingvin vagy egy szék alakú avokádó. A DALL-E 3 jelentősen javítja elődje teljesítményét és képességeit, valósághűbb, részletesebb és konzisztensebb képeket kínálva a szöveggel együtt.

Ezen túlmenően, natívan integrálódik a ChatGPT-vel, a GPT-3 alapú chatbot, amely lehetővé teszi, hogy a mesterséges intelligenciával chateljen, és megkérje, hogy az utasításaink szerint készítsen képeket. Ebben a cikkben elmondjuk hogyan működik a DALL-E 3, milyen új funkciókat hoz a DALL-E-vel kapcsolatban, milyen típusú képeket tud létrehozni, és milyen következményekkel jár ez a technológia a tervezés és a kommunikáció jövője szempontjából.

Hogyan működik a DALL-E 3?

DALL-E3 Ez egy mesterséges intelligencia modell, amelyen alapul mesterséges idegi hálózat, különösen az úgynevezett transzformátorokban, amelyek képesek adatsorok, például szövegek vagy képek feldolgozására és a köztük lévő kapcsolatok megtanulására.

Ez a modell nagyszámú szöveg-kép párral lett kiképezve, amelyet az internetről kinyertek, hogy megtanulják a vizuális fogalmakat szavakkal társítani. Így, ha adott egy szöveget, saját kreativitását és fantáziáját felhasználva tud olyan képet generálni, amely azt illusztrálja.

Szöveg és kép fogadása egyetlen adatfolyamként, amely legfeljebb 1280 tokenből áll. A token egy diszkrét szókincs bármely szimbóluma; Például az ábécé minden betűje egy token. A DALL-E 3 szókincse rendelkezik tokenekkel a szöveghez és a képhez is. A szöveg legfeljebb 256 BPE-vel (Byte Pair Encoding) kódolt tokennel, a kép pedig 1024 kóddal kódolt token használatával jeleníthető meg. VQ-VAE (Vector Quantized Variational Autoencoder).

A DALL-E 3 képzése a maximum likelihood módszerrel történik, amely abból áll, hogy az összes tokent egymás után generálja, maximalizálva az előzőek valószínűségét. Ily módon a DALL-E 3 a semmiből készíthet képet, vagy regenerálja egy meglévő kép bármely részét, amely a jobb alsó sarokhoz nyúlik, amennyiben az összhangban van a szöveggel.

Milyen hírt hoz?

A DALL-E 3 feltételezi nagy előrelépés a DALL-E-hez képest több szempontból is. Először is, a DALL-E 3 nagyobb felbontású és minőségi képeket készít. Míg a DALL-E képeket készített róla 256 × 256 képpont, a DALL-E 3 képeket készít 512 × 512 képpont, amely lehetővé teszi a részletek és a textúrák jobb értékelését.

Másodszor, a DALL-E 3 rendelkezik a nagyobb megértés és pontosság a közölt szöveg értelmezésekor. Jobban képes megragadni a szöveg árnyalatait, specifikációit, valamint a képet alkotó elemek közötti kapcsolatokat. Például, képeket készíthet szöveggel belül, például poszterek vagy címkék, tiszteletben tartva a szöveg nyelvét és formátumát. Valósághűbb és arányosabb emberi testrészeket, például kezet vagy lábat tartalmazó képeket is készíthet.

Harmadszor, DALL-E 3 nagyobb integrációval és könnyebbséggel rendelkezik a ChatGPT-vel való kapcsolatának köszönhetően használható. A ChatGPT az OpenAI csevegőbotja, amely a világ legfejlettebb nyelvi modelljén, a GPT-3-on alapul, és lehetővé teszi, hogy mesterséges intelligenciával csevegjen, és arra kérje fel a dolgokat. A ChatGPT-vel integrálva a DALL-E 3 részletesebb utasításokat kaphat és tiszta képeket a képek létrehozásához, valamint természetesebb és gördülékenyebb visszajelzést ad a felhasználónak.

Milyen képeket készíthet a DALL-E 3?

DALL-E3 sokféle, természetes nyelven kifejezhető fogalomról tud képet alkotni. Néhány példa:

Antropomorfizált tárgyak vagy állatok képei, vagyis emberi tulajdonságokkal. Például egy macska öltönyben és nyakkendőben, vagy egy elefánt szemüvegben és sapkában.
Hibrid tárgyak vagy állatok képei, azaz két vagy több faj együttes jellemzőivel. Például egy pillangószárnyú kutya, vagy egy oroszlánfejű kígyó.
Módosított tárgyak vagy állatok képei, azaz megváltozott vagy hozzáadott jellemzőkkel. Például egy autó sajt kerekekkel, vagy egy virág üvegszirmokkal.
Képzeletbeli tárgyak vagy állatok képei, vagyis a valóságban nem léteznek. Például egy rózsaszín egyszarvú, vagy egy tűzsárkány.
Kitalált jelenetek vagy tájak képei, vagyis nem felelnek meg semmilyen valós helynek. Például egy lebegő város az égen, vagy egy elvarázsolt erdő.
Képek a meglévő képek átalakításából vagy manipulációiból, azaz megváltoztatják az eredeti kép valamely aspektusát. Például egy személy haja vagy szeme színének megváltoztatása, vagy valami hozzáadása vagy eltávolítása a képről.

Milyen következményei vannak a DALL-E 3-nak?

A DALL-E 3 egy példa arra, hogy a mesterséges intelligencia milyen hatalmas lehetőségeket rejt magában tervezés és kommunikáció. A DALL-E 3-mal megnyílik a lehetőség személyre szabott és eredeti képek létrehozására, pusztán egy kifejezés írásával, amely többféle gyakorlati alkalmazása is lehet és kreatív.

Például a DALL-E 3 a következőkre használható:

Készítsen illusztrációkat könyvekhez, magazinok vagy blogok.
Készítsen logókat vagy plakátokat márkákhoz vagy eseményekhez.
Hozzon létre avatarokat vagy hangulatjeleket közösségi hálózatokhoz vagy játékokhoz.
Hozzon létre mémeket vagy matricákat megosztani a barátokkal.
Készítsen vázlatokat vagy prototípusokat művészi vagy szakmai projektekhez.
Készítsen oktatási képeket vagy informatív az összetett fogalmak magyarázatához.

A DALL-E 3 azonban bizonyos kihívásokat és kockázatokat is rejt magában, amelyeket figyelembe kell venni. Egyrészt a DALL-E 3 hatással lehet a munkára valamint emberi tervezők és művészek elismerése, akik látták kreativitásukat és eredetiségüket egy gép által veszélyeztetve. Másrészt a DALL-E 3 elősegítheti hamis vagy félrevezető tartalmak, például mélyhamisítások vagy álhírek létrehozását és terjesztését, amelyek negatív következményekkel járhatnak a társadalomra nézve.

A képzeleted, immár korlátok nélkül

A DALL-E 3 az új verzió OpenAI mesterséges intelligencia amely szövegből képeket hoz létre. A DALL-E 3 javítja az általa generált képek minőségét és pontosságát, valamint a ChatGPT-vel való integrációját. Hihetetlen képeket készíthet a legkülönfélébb fogalmakról, amelyek természetes nyelven is kifejezhetők. A DALL-E 3 rendelkezik nagy lehetőség a tervezésben és a kommunikációban, de bizonyos kihívásokat és kockázatokat is jelent, amelyeket figyelembe kell venni.

CreativosOnline

DALL-E 3: az AI új verziója, amely bármit létrehoz, amit csak képzel

Hogyan működik a DALL-E 3?

Milyen hírt hoz?

Milyen képeket készíthet a DALL-E 3?

Milyen következményei vannak a DALL-E 3-nak?

A képzeleted, immár korlátok nélkül

Hagyja megjegyzését Mégsem válaszát