ნანუკა კოხოძე მსოფლიო 6 დეკემბერი 2022, 16:36

DALL·E 2 - ხელოვნური ინტელექტის მხატვრობა სიტყვებით

ადამიანები გამოქვაბულების დროიდან ხატავენ. მსოფლიოში უძველესი ნახატი სულ მცირე, 45 500 წლისაა. ადამიანები გადმოსცემდნენ ემოციებს, აღწერდნენ საგმირო ამბებს და ჯერ კიდევ მაშინ, როდესაც დამწერლობა მსოფლიოსთვის უცნობი იყო, ქმნიდნენ ისტორიულ მატიანეს მომავალი თაობებისთვის.

მხატვრობა თანდათან განვითარდა. გაჩნდა ფურცელი, ტილო, საღებავი, ფერადი ფანქარი, მარკერი. თანამედროვე სამყაროში გამოჩნდა სპეციალური მოწყობილობები და სახატავი პროგრამები, რომლითაც შესაძლებელია ნამუშევრის ციფრულად შესრულება.

დღეს კი ხელოვნური ინტელექტის დახმარებით ფუნჯები, ფერები და ფორმები სრულებითაც აღარ არის საჭირო. საკმარისია მხოლოდ სიტყვები და პროგრამა DALL·E 2, რომელიც გამოსახულებას თქვენი სურვილისამებრ შექმნის.

კომენტარის დატოვება

DALL·E 2 - ხელოვნური ინტელექტის მხატვრობა სიტყვებით

ადამიანები გამოქვაბულების დროიდან ხატავენ. მსოფლიოში უძველესი ნახატი სულ მცირე, 45 500 წლისაა. ადამიანები გადმოსცემდნენ ემოციებს, აღწერდნენ საგმირო ამბებს და ჯერ კიდევ მაშინ, როდესაც დამწერლობა მსოფლიოსთვის უცნობი იყო, ქმნიდნენ ისტორიულ მატიანეს მომავალი თაობებისთვის.

მხატვრობა თანდათან განვითარდა. გაჩნდა ფურცელი, ტილო, საღებავი, ფერადი ფანქარი, მარკერი. თანამედროვე სამყაროში გამოჩნდა სპეციალური მოწყობილობები და სახატავი პროგრამები, რომლითაც შესაძლებელია ნამუშევრის ციფრულად შესრულება.

დღეს კი ხელოვნური ინტელექტის დახმარებით ფუნჯები, ფერები და ფორმები სრულებითაც აღარ არის საჭირო. საკმარისია მხოლოდ სიტყვები და პროგრამა DALL·E 2, რომელიც გამოსახულებას თქვენი სურვილისამებრ შექმნის.

DALL·E 2 არის ხელოვნური ინტელექტის პროგრამა, რომელსაც შეუძლია შექმნას ნახატები მხოლოდ აღწერისა და ენის გამოყენებით. პროგრამას შეუძლია, დააკავშიროს ცნებები, ატრიბუტები და სტილი.

მას ასევე შეუძლია, გააფართოოს სურათები — გააცილოს ტილოები ჩარჩოებს და შექმნას ახალი კომპოზიციები.

DALL·E 2-ს შეუძლია, შეიტანოს რეალისტური ცვლილებები ნახატში. ჩაამატოს ან ამოიღოს ელემენტები ჩრდილების, ანარეკლისა და ტექსტურის გათვალისწინებით.

პროგრამას ასევე შეუძლია, ორიგინალ გამოსახულებებს სხვადასხვა სახე მისცეს, შეცვალოს მათი ხასიათი, ემოცია, თუმცა შინაარსი იგივე დატოვოს.

როგორ მუშაობს DALL·E 2

სანამ დეტალურად ავხსნიდეთ, როგორ მუშაობს DALL·E 2, გავიგოთ, როგორ ახდენს ის გამოსახულების გენერირებას.

ერთი შეხედვით, DALL·E 2 საკმაოდ ადვილად მუშაობს:

ტექსტი შეგვყავს ტექსტის შიფრატორში, რომელიც გაწვრთნილია მოთხოვნის გამოსახატავად კონკრეტულ სივრცეში.
მოდელი, რომელსაც ეწოდება წინასწარი (prior) ასახავს ტექსტის დაშიფვრას შესაბამის გამოსახულებაში, რომელიც პასუხობს ტექსტში მოცემულ სემანტიკურ ინფორმაციას.
სურათის დეკოდერი შემთხვევითი ალბათობით წარმოქმნის სურათს, რომელიც წარმოადგენს მოცემული სემანტიკური ინფორმაციის ვიზუალურ გამოვლინებას.

უფრო სიღრმისეული ახსნისას კი ვაწყდებით დეტალებს, რომლებიც რეალურად ქმნის გამოსახულებას:

ნაბიჯი 1 — ტექსტუალური და ვიზუალური სემანტიკის დაკავშირება.

როდესაც პროგრამაში შეგვყავს სიტყვები «დათუნია სკეიტბორდით ტაიმ სკვერზე» DALL·E 2 ამ სურათს გვიჩვენებს:

ტექსტუალური სემანტიკისა და ვიზუალური გამოსახულების დაკავშირებას DALL·E 2 სხვა ღია ხელოვნური ინტელექტის მოდელით სწავლობს, რომელსაც CLIP ეწოდება.

CLIP არის გაწვრთნილი მილიონობით სურათზე და მათთან დაკავშირებულ აღწერებზე. სწავლობს, როგორ შეიძლება პატარა ტექსტით სურათის აწყობა. ეს არის უფრო მეტად კონტრასტული, ვიდრე წინასწარმეტყველური მიდგომა, რომელიც CLIP-ს საშუალებას აძლევს, ისწავლოს კავშირები. DALL·E 2-ის მოდელი ითავსებს CLIP-ის უნარს, ისწავლოს სემანტიკა ბუნებრივი ენისგან.

CLIP მნიშვნელოვანია DALL·E 2-თვის იქიდან გამომდინარე, რომ ის პირდაპირ განსაზღვრავს, როგორ უკავშირდება სემანტიკა — ენის პატარა ნაწილი — ვიზუალურ კონცეფციას.

ნაბიჯი 2 — გამოსახულების გენერირება ვიზუალური სემანტიკიდან

CLIP-ის მოდელის შესწავლის შემდეგ DALL·E 2 იწყებს გამოსახულების შეცვლის შესწავლას. ამაში DALL·E 2-ის კიდევ ერთი ღია ხელოვნური ინტელექტის პროგრამა GLIDE ეხმარება, რომელიც გაწვრთნილია სურათების ინვერსიაზე, რათა მოხდეს CLIP-ის მიერ ჩაშენებული გამოსახულების შემთხვევითობის პრინციპით დეკოდირება. ანუ, GLIDE სახეს უცვლის პირვანდელ სურათს და გვთავაზობს მის ახალ ვარიანტს პირველადი ელემენტების შენარჩუნებით.

ამ დავალების შესასრულებლად GLIDE დიფუზიის მოდელს იყენებს. დიფუზიის მოდელი თერმოდინამიკით ინსპირირებული გამოგონებაა, რომლის პოპულარობაც უკანასკნელ წლებში განსაკუთრებით გაიზარდა. დიფუზიის მოდელი სწავლობს მონაცემთა გენერირებას ე.წ. ხმაურის ეტაპობრივი შეცვლით.

DALL·E 2 GLIDE-ის მოდიფიცირებულ მოდელს იყენებს, რომელიც თავის თავში CLIP-ის ტექსტის ჩაშენებას მოიცავს.

GLIDE მნიშვნელოვანია DALL·E 2-თვის, რადგან შეცვლილი GLIDE სწავლობს სემანტიკურად თანმიმდევრული სურათების გენერირებას, რომელიც განპირობებულია CLIP გამოსახულების კოდირებით.

ნაბიჯი 3 — ტექსტური სემანტიკიდან შესაბამის ვიზუალურ სემანტიკამდე

სანამ შეცვლილი GLIDE-ის მოდელი სურათს აგენერირებს, საჭიროა გავიგოთ, როგორ შევიყვანოთ ინფორმაცია ტექსტის კონკრეტული ფორმით გამოყენებაზე სურათის გენერირების პროცესში. CLIP გამოსახულებასთან ერთად ტექსტის დაშიფვრასაც სწავლობს. DALL·E 2 იყენებს მოდელს, რომელსაც წინასწარი (prior), ეწოდება რათა განსაზღვროს აღწერილობითი ტექსტის დაშიფვრა გამოსახულების აღწერაში. DALL·E 2-ის ავტორები ექსპერიმენტებს ატარებენ როგორც ავტორეგრესიულ მოდელებზე, ასევე დიფუზიურ მოდელებზე წინასწარი მოდელისთვის და ადარებენ მათ ერთმანეთს. დიფუზიის მოდელი, ხშირ შემთხვევაში, უფრო ეფექტურია, ამიტომ ის გამოიყენება, როგორც DALL·E 2-ის წინასწარი მოდელი.

ნაბიჯი 4 — ყველაფრის გაერთიანება

CLIP-ის შიფრატორი ასახავს გამოსახულების აღწერას.
ხდება დიფუზია CLIP ტექსტების კოდირებიდან შესაბამის გამოსახულებამდე.
GLIDE-ის შეცვლილი მოდელი გამოსახულების სივრცეში უკუ-დიფუზიის საშუალებით წარმოქმნის ერთ-ერთ შესაძლო სურათს, რომელიც გადმოსცემს სათაურში შეყვანილ სემანტიკურ ინფორმაციას.

DALL·E 2 ქმნის გამოსახულებას სიტყვების საშუალებით და გაძლევთ საშუალებას გახდეთ მხატვარი მაშინაც კი, თუ ამის ნიჭი არ გაქვთ. ამ ეტაპზე პროგრამის გამოყენება უფასოა, თუმცა უფასოდ გამოყენების შემთხვევაში, პირველი თვის განმავლობაში მხოლოდ 50, ხოლო შემდეგ 15 გამოსახულების შექმნა შეგიძლიათ.

DALL·E 2 კრძალავს ისეთ გამოსახულების შექმნას, რომელიც შეიცავს საზიანო ან პოლიტიკურ შინაარსს. Deep Fake-ის თავიდან აცილების მიზნით, იკრძალება საჯარო ფიგურების გამოსახულებების შექმნა. DALL·E 2-დან გენერირებული სურათის ჩამოწერის შემთხვევაში, სურათის ქვედა მარჯვენა კუთხეში პატარა ლოგოს შეამჩნევთ.

სანამ სურათების შექმნას დაიწყებთ დაგჭირდებათ პროფილის შექმნა. ამის საშუალებას DALL·E 2 გაძლევთ როგორც კომპიუტერის, ისე მობილურის საშუალებით.

თორნიკე ქარჩხაძე და ხელოვნური ინტელექტის მელოდია

Deepfake - ვიდეოებით მანიპულაციის ხელოვნება და საფრთხეები

კომენტარის დატოვება

ტექსტი: ნანუკა კოხოძე ტეგები: glide, clip, ხელოვნური ინტელექტი, ai, dall·e 2

ტექსტში შეცდომა იპოვეთ - გამოყავით და დააჭირეთ Ctrl+Enter. ტექსტში შეცდომა იპოვეთ - გამოყავით და დააჭირეთ ღილაკს „შეტყობინება შეცდომის შესახებ“

Mediakit

როგორ შეიძლება, ხელოვნურმა ინტელექტმა შეცვალოს LGBTQIA+ ადვოკატირება

ახალი AI Comes Out of the Closet — «AI კარადიდან გამოდის» სისტემა მიზნად ისახავს ხელოვნური ინტელექტისა და LGBTQIA+ მხარდაჭერის შერწყმას. ავტორი: დევიდ სვინი, MIT

AI-ის დამსახურებით, Nvidia-ს მოგება 600%-ით გაიზარდა

Truecaller და Microsoft მომხმარებლებს ზარებზე პასუხის გასაცემად AI ხმის შექმნის ნებას მისცემს

რა წერია ევროპული საბჭოს მიერ მიღებულ AI აქტში

დღეს, 21 მაისს ევროპულმა საბჭომ მიიღო ხელოვნური ინტელექტის აქტი — კანონი, რომელიც «მიზნად ისახავს ხელოვნური ინტელექტის წესების ჰარმონიზაციას». ევროპული საბჭო აცხადებს, რომ აქტი მიჰყვება რისკებზე დაფუძნებულ მიდგომას — რაც უფრო მაღალია საზოგადოებისთვის ზიანის მიყენების რისკი, მით უფრო მკაცრია წესები. ეს არის პირველი კანონმდებლობა მსოფლიოში, რომელსაც შეუძლია, დააწესოს ხელოვნური ინტელექტის რეგულირების გლობალური სტანდარტი.

1 კომენტარი

რეკლამის განთავსება

მთავარი მოვლენები და მნიშვნელოვანი ბმულები ნახეთ ჩვენს ფეისბუქ-გვერდზე

გინდათ, შეგვატყობინოთ მნიშვნელოვანი ამბავი? მოგვწერეთ

კომენტარები ჯერ არაა.

შედით, რათა დატოვოთ კომენტარი