DALL-E 3: ang bagong bersyon ng AI na lumilikha ng anumang naiisip mo

Iba't ibang larawan ni dall e

Napag-usapan na namin sa ibang pagkakataon TILAD. Sa pagkakataong ito ay lilitaw ang ikatlong bersyon nito. DALL-E3 ay ang pangalan ng bagong bersyon ng artificial intelligence OpenAI na lumilikha ng mga larawan mula sa teksto. Ito ay isang ebolusyon ng DALL-E, na ipinakita noong Enero 2021 at nagulat na ang mundo sa kakayahan nitong bumuo ng mga larawan ng iba't ibang konsepto. parang penguin na may sombrero o avocado na hugis upuan. Ang DALL-E 3 ay makabuluhang nagpapabuti sa pagganap at mga kakayahan ng hinalinhan nito, na nag-aalok ng mas makatotohanan, detalyado at pare-parehong mga larawan sa tekstong ibinigay dito.

Bukod dito, katutubong isinasama sa ChatGPT, ang chatbot na nakabase sa GPT-3 na nagbibigay-daan sa iyong makipag-chat sa artificial intelligence at hilingin itong lumikha ng mga larawan ayon sa aming mga tagubilin. Sa artikulong ito sasabihin namin sa iyo kung paano gumagana ang DALL-E 3, anong mga bagong feature ang hatid nito patungkol sa DALL-E, anong uri ng mga larawan ang maaari nitong gawin at kung ano ang implikasyon ng teknolohiyang ito para sa kinabukasan ng disenyo at komunikasyon.

Paano gumagana ang DALL-E 3?

Dall e larawan ng isang astronaut

DALL-E3 Ito ay isang modelo ng artificial intelligence batay sa artipisyal na mga neural network, partikular sa tinatawag na mga transformer, na may kakayahang magproseso ng mga pagkakasunud-sunod ng data, tulad ng teksto o mga imahe, at pag-aaral ng mga ugnayan sa pagitan ng mga ito.

Ang modelong ito ay sinanay na may malaking bilang ng mga pares ng text-image, kinuha mula sa internet, upang matutong iugnay ang mga visual na konsepto sa mga salita. Sa ganitong paraan, kapag binigyan siya ng isang teksto, nakakagawa siya ng isang imahe na naglalarawan dito, gamit ang kanyang sariling pagkamalikhain at imahinasyon.

Tumanggap ng parehong teksto at larawan bilang isang solong stream ng data, na binubuo ng maximum na 1280 token. Ang token ay anumang simbolo ng isang discrete na bokabularyo; Halimbawa, ang bawat titik ng alpabeto ay isang token. Ang bokabularyo ng DALL-E 3 ay may mga token para sa parehong teksto at larawan. Ang teksto ay kinakatawan gamit ang maximum na 256 token na naka-encode sa BPE (Byte Pair Encoding), at ang imahe ay kinakatawan gamit ang 1024 token na naka-encode ng VQ-VAE (Vector Quantized Variational Autoencoder).

Ang DALL-E 3 ay sinanay gamit ang maximum na paraan ng posibilidad, na binubuo ng pagbuo ng lahat ng mga token, nang paisa-isa, na pinalaki ang posibilidad ng bawat ibinigay sa mga nauna. Sa ganitong paraan, ang DALL-E 3 maaaring lumikha ng isang imahe mula sa simula, o muling buuin ang anumang bahagi ng isang umiiral na larawan na umaabot sa kanang sulok sa ibaba, hangga't naaayon ito sa teksto.

Anong balita ang dala nito?

Isang tore na ginawa ni Dall e

Ipinapalagay ng DALL-E 3 isang mahusay na pag-unlad kumpara sa DALL-E sa ilang aspeto. Una sa lahat, ang DALL-E 3 ay may mas mataas na resolution at kalidad sa mga imaheng nabuo nito. Habang ang DALL-E ay lumikha ng mga larawan ng 256 × 256 mga pixel, ang DALL-E 3 ay lumilikha ng mga larawan ng 512 × 512 mga pixel, na nagbibigay-daan sa iyong mas pahalagahan ang mga detalye at texture.

Pangalawa, ang DALL-E 3 ay may a higit na pag-unawa at katumpakan kapag binibigyang kahulugan ang tekstong ibinigay. Nagagawa nitong mas mahusay na makuha ang mga nuances at mga detalye ng teksto, pati na rin ang mga ugnayan sa pagitan ng mga elemento na bumubuo sa imahe. Halimbawa, maaari kang lumikha ng mga imahe na may teksto sa loob, tulad ng mga poster o label, na may paggalang sa wika at format ng teksto. Maaari ka ring lumikha ng mga larawan na may mas makatotohanan at proporsyonal na mga bahagi ng katawan ng tao, gaya ng mga kamay o paa.

Pangatlo, DALL-E 3 ay may higit na pagsasama at kadalian ng paggamit salamat sa koneksyon nito sa ChatGPT. Ang ChatGPT ay ang chatbot ng OpenAI batay sa GPT-3, ang pinaka-advanced na modelo ng wika sa mundo, na nagbibigay-daan sa iyong makipag-chat sa artificial intelligence at hilingin dito na gumawa ng mga bagay. Sa pamamagitan ng pagsasama sa ChatGPT, DALL-E 3 maaari kang makatanggap ng mas detalyadong mga tagubilin at malinaw na mga larawan upang lumikha ng mga larawan, pati na rin ang pag-aalok ng mas natural at tuluy-tuloy na feedback sa user.

Anong uri ng mga imahe ang maaaring gawin ng DALL-E 3?

Isang dall e painting

DALL-E3 maaaring lumikha ng mga larawan ng iba't ibang uri ng mga konsepto na maaaring ipahayag sa natural na wika. Ang ilang mga halimbawa ay:

  • Mga larawan ng anthropomorphized na bagay o hayop, ibig sabihin, may mga katangian ng tao. Halimbawa, isang pusa na nakasuot ng suit at kurbata, o isang elepante sa salamin at isang sumbrero.
  • Mga larawan ng hybrid na bagay o hayop, iyon ay, na may pinagsamang katangian ng dalawa o higit pang mga species. Halimbawa, isang aso na may pakpak ng butterfly, o isang ahas na may ulo ng isang leon.
  • Mga larawan ng binagong bagay o hayop, ibig sabihin, may mga binago o idinagdag na katangian. Halimbawa, isang kotse na may mga gulong ng keso, o isang bulaklak na may mga petals na salamin.
  • Mga larawan ng mga haka-haka na bagay o hayop, ibig sabihin, wala sila sa realidad. Halimbawa, isang pink na unicorn, o isang fire dragon.
  • Mga larawan ng kathang-isip na mga eksena o landscape, ibig sabihin, hindi sila tumutugma sa anumang tunay na lugar. Halimbawa, isang lumulutang na lungsod sa kalangitan, o isang enchanted forest.
  • Mga larawan mula sa mga pagbabago o manipulasyon ng mga kasalukuyang larawan, ibig sabihin, binabago nila ang ilang aspeto ng orihinal na larawan. Halimbawa, ang pagpapalit ng kulay ng buhok o mata ng isang tao, o pagdaragdag o pag-alis ng isang bagay mula sa larawan.

Ano ang mga implikasyon ng DALL-E 3?

Isang makulay na sopas na gawa sa AI

Ang DALL-E 3 ay isang halimbawa ng napakalaking potensyal na mayroon ang artificial intelligence para sa larangan ng disenyo at komunikasyon. Sa DALL-E 3, ang posibilidad ng paglikha ng personalized at orihinal na mga imahe ay bubukas sa pamamagitan lamang ng pagsulat ng isang parirala, na maaaring magkaroon ng maraming praktikal na aplikasyon at malikhain.

Halimbawa, ang DALL-E 3 ay maaaring gamitin sa:

  • Gumawa ng mga guhit para sa mga aklat, mga magazine o blog.
  • Gumawa ng mga logo o poster para sa mga tatak o kaganapan.
  • Gumawa ng mga avatar o emoji para sa mga social network o laro.
  • Gumawa ng mga meme o sticker upang ibahagi sa mga kaibigan.
  • Gumawa ng mga sketch o prototype para sa masining o propesyonal na mga proyekto.
  • Lumikha ng mga larawang pang-edukasyon o nagbibigay-kaalaman upang ipaliwanag ang mga kumplikadong konsepto.

Gayunpaman, ang DALL-E 3 ay nagdudulot din ng ilang hamon at panganib na dapat isaalang-alang. Sa isang banda, ang DALL-E 3 maaaring makaapekto sa trabaho at ang pagkilala sa mga taong taga-disenyo at artista, na nakikita ang kanilang pagkamalikhain at pagka-orihinal na banta ng isang makina. Sa kabilang banda, maaaring mapadali ng DALL-E 3 ang paglikha at pagpapakalat ng mali o mapanlinlang na nilalaman, tulad ng mga deepfakes o pekeng balita, na maaaring magkaroon ng negatibong kahihinatnan para sa lipunan.

Ang iyong imahinasyon, ngayon ay walang mga hadlang

robot na binuo ng AI

Ang DALL-E 3 ay ang bagong bersyon ng OpenAI artificial intelligence na lumilikha ng mga larawan mula sa teksto. Pinapabuti ng DALL-E 3 ang kalidad at katumpakan ng mga larawang nabubuo nito, pati na rin ang pagsasama nito sa ChatGPT. Maaari kang lumikha ng hindi kapani-paniwalang mga larawan ng iba't ibang uri ng mga konsepto na maaaring ipahayag sa natural na wika. Ang DALL-E 3 ay mayroon malaking potensyal para sa disenyo at komunikasyon, ngunit nagdudulot din ito ng ilang hamon at panganib na dapat isaalang-alang.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.