DALL·E 2 - ხელოვნური ინტელექტის მხატვრობა სიტყვებით

ადამიანები გამოქვაბულების დროიდან ხატავენ. მსოფლიოში უძველესი ნახატი სულ მცირე, 45 500 წლისაა. ადამიანები გადმოსცემდნენ ემოციებს, აღწერდნენ საგმირო ამბებს და ჯერ კიდევ მაშინ, როდესაც დამწერლობა მსოფლიოსთვის უცნობი იყო, ქმნიდნენ ისტორიულ მატიანეს მომავალი თაობებისთვის.

მხატვრობა თანდათან განვითარდა. გაჩნდა ფურცელი, ტილო, საღებავი, ფერადი ფანქარი, მარკერი. თანამედროვე სამყაროში გამოჩნდა სპეციალური მოწყობილობები და სახატავი პროგრამები, რომლითაც შესაძლებელია ნამუშევრის ციფრულად შესრულება.

დღეს კი ხელოვნური ინტელექტის დახმარებით ფუნჯები, ფერები და ფორმები სრულებითაც აღარ არის საჭირო. საკმარისია მხოლოდ სიტყვები და პროგრამა DALL·E 2, რომელიც გამოსახულებას თქვენი სურვილისამებრ შექმნის.

კომენტარის დატოვება
DALL·E 2 - ხელოვნური ინტელექტის მხატვრობა სიტყვებით

ადამიანები გამოქვაბულების დროიდან ხატავენ. მსოფლიოში უძველესი ნახატი სულ მცირე, 45 500 წლისაა. ადამიანები გადმოსცემდნენ ემოციებს, აღწერდნენ საგმირო ამბებს და ჯერ კიდევ მაშინ, როდესაც დამწერლობა მსოფლიოსთვის უცნობი იყო, ქმნიდნენ ისტორიულ მატიანეს მომავალი თაობებისთვის.

მხატვრობა თანდათან განვითარდა. გაჩნდა ფურცელი, ტილო, საღებავი, ფერადი ფანქარი, მარკერი. თანამედროვე სამყაროში გამოჩნდა სპეციალური მოწყობილობები და სახატავი პროგრამები, რომლითაც შესაძლებელია ნამუშევრის ციფრულად შესრულება.

დღეს კი ხელოვნური ინტელექტის დახმარებით ფუნჯები, ფერები და ფორმები სრულებითაც აღარ არის საჭირო. საკმარისია მხოლოდ სიტყვები და პროგრამა DALL·E 2, რომელიც გამოსახულებას თქვენი სურვილისამებრ შექმნის.

DALL·E 2 არის ხელოვნური ინტელექტის პროგრამა, რომელსაც შეუძლია შექმნას  ნახატები მხოლოდ აღწერისა და ენის გამოყენებით. პროგრამას შეუძლია, დააკავშიროს ცნებები, ატრიბუტები და სტილი.

მას ასევე შეუძლია, გააფართოოს სურათები — გააცილოს ტილოები ჩარჩოებს და შექმნას ახალი კომპოზიციები.

DALL·E 2-ს შეუძლია, შეიტანოს რეალისტური ცვლილებები ნახატში. ჩაამატოს ან ამოიღოს ელემენტები ჩრდილების, ანარეკლისა და ტექსტურის გათვალისწინებით.

პროგრამას ასევე შეუძლია, ორიგინალ გამოსახულებებს სხვადასხვა სახე მისცეს, შეცვალოს მათი ხასიათი, ემოცია, თუმცა შინაარსი იგივე დატოვოს.

როგორ მუშაობს DALL·E 2

სანამ დეტალურად ავხსნიდეთ, როგორ მუშაობს DALL·E 2, გავიგოთ, როგორ ახდენს ის გამოსახულების გენერირებას.

ერთი შეხედვით, DALL·E 2 საკმაოდ ადვილად მუშაობს:

  1. ტექსტი შეგვყავს ტექსტის შიფრატორში, რომელიც გაწვრთნილია მოთხოვნის გამოსახატავად კონკრეტულ სივრცეში.
  2. მოდელი, რომელსაც ეწოდება წინასწარი (prior) ასახავს ტექსტის დაშიფვრას შესაბამის გამოსახულებაში, რომელიც პასუხობს ტექსტში მოცემულ სემანტიკურ ინფორმაციას.
  3. სურათის დეკოდერი შემთხვევითი ალბათობით წარმოქმნის სურათს, რომელიც წარმოადგენს მოცემული სემანტიკური ინფორმაციის ვიზუალურ გამოვლინებას.

უფრო სიღრმისეული ახსნისას კი ვაწყდებით დეტალებს, რომლებიც რეალურად ქმნის გამოსახულებას:

ნაბიჯი 1 — ტექსტუალური და ვიზუალური სემანტიკის დაკავშირება.

როდესაც პროგრამაში შეგვყავს სიტყვები «დათუნია სკეიტბორდით ტაიმ სკვერზე» DALL·E 2 ამ სურათს გვიჩვენებს:

ტექსტუალური სემანტიკისა და ვიზუალური გამოსახულების დაკავშირებას DALL·E 2 სხვა ღია ხელოვნური ინტელექტის მოდელით სწავლობს, რომელსაც CLIP ეწოდება.

CLIP არის გაწვრთნილი მილიონობით სურათზე და მათთან დაკავშირებულ აღწერებზე. სწავლობს, როგორ შეიძლება პატარა ტექსტით სურათის აწყობა. ეს არის უფრო მეტად კონტრასტული, ვიდრე წინასწარმეტყველური მიდგომა, რომელიც CLIP-ს საშუალებას აძლევს,  ისწავლოს კავშირები. DALL·E 2-ის მოდელი ითავსებს CLIP-ის უნარს, ისწავლოს სემანტიკა ბუნებრივი ენისგან.

CLIP მნიშვნელოვანია DALL·E 2-თვის იქიდან გამომდინარე, რომ ის პირდაპირ განსაზღვრავს, როგორ უკავშირდება სემანტიკა — ენის პატარა ნაწილი — ვიზუალურ კონცეფციას.

ნაბიჯი 2 — გამოსახულების გენერირება ვიზუალური სემანტიკიდან

CLIP-ის მოდელის შესწავლის შემდეგ DALL·E 2 იწყებს გამოსახულების შეცვლის შესწავლას. ამაში DALL·E 2-ის კიდევ ერთი ღია ხელოვნური ინტელექტის პროგრამა GLIDE ეხმარება, რომელიც გაწვრთნილია სურათების ინვერსიაზე, რათა მოხდეს CLIP-ის მიერ ჩაშენებული გამოსახულების შემთხვევითობის პრინციპით დეკოდირება. ანუ, GLIDE სახეს უცვლის პირვანდელ სურათს და გვთავაზობს მის ახალ ვარიანტს პირველადი ელემენტების შენარჩუნებით.

ამ დავალების შესასრულებლად GLIDE  დიფუზიის მოდელს იყენებს. დიფუზიის მოდელი თერმოდინამიკით ინსპირირებული გამოგონებაა, რომლის პოპულარობაც უკანასკნელ წლებში განსაკუთრებით გაიზარდა.  დიფუზიის მოდელი სწავლობს მონაცემთა გენერირებას ე.წ. ხმაურის ეტაპობრივი შეცვლით.

DALL·E 2 GLIDE-ის მოდიფიცირებულ მოდელს იყენებს, რომელიც თავის თავში CLIP-ის ტექსტის ჩაშენებას მოიცავს.

GLIDE მნიშვნელოვანია DALL·E 2-თვის, რადგან შეცვლილი GLIDE სწავლობს სემანტიკურად თანმიმდევრული სურათების გენერირებას, რომელიც განპირობებულია CLIP გამოსახულების კოდირებით.

ნაბიჯი 3 — ტექსტური სემანტიკიდან შესაბამის ვიზუალურ სემანტიკამდე

სანამ შეცვლილი GLIDE-ის მოდელი სურათს აგენერირებს, საჭიროა გავიგოთ, როგორ შევიყვანოთ ინფორმაცია ტექსტის კონკრეტული ფორმით გამოყენებაზე სურათის გენერირების პროცესში. CLIP გამოსახულებასთან ერთად ტექსტის დაშიფვრასაც სწავლობს. DALL·E 2 იყენებს მოდელს, რომელსაც წინასწარი (prior), ეწოდება რათა განსაზღვროს აღწერილობითი ტექსტის დაშიფვრა გამოსახულების აღწერაში. DALL·E 2-ის ავტორები ექსპერიმენტებს ატარებენ როგორც ავტორეგრესიულ მოდელებზე, ასევე დიფუზიურ მოდელებზე წინასწარი მოდელისთვის და ადარებენ მათ ერთმანეთს. დიფუზიის მოდელი, ხშირ შემთხვევაში, უფრო ეფექტურია, ამიტომ ის გამოიყენება, როგორც DALL·E 2-ის წინასწარი მოდელი.

ნაბიჯი 4 — ყველაფრის გაერთიანება

  • CLIP-ის შიფრატორი ასახავს გამოსახულების აღწერას.
  • ხდება დიფუზია CLIP ტექსტების კოდირებიდან შესაბამის გამოსახულებამდე.
  • GLIDE-ის შეცვლილი მოდელი გამოსახულების სივრცეში უკუ-დიფუზიის საშუალებით წარმოქმნის ერთ-ერთ შესაძლო სურათს, რომელიც გადმოსცემს სათაურში შეყვანილ სემანტიკურ ინფორმაციას.

DALL·E 2 ქმნის გამოსახულებას სიტყვების საშუალებით და გაძლევთ საშუალებას გახდეთ მხატვარი მაშინაც კი, თუ ამის ნიჭი არ გაქვთ. ამ ეტაპზე პროგრამის გამოყენება უფასოა, თუმცა უფასოდ გამოყენების შემთხვევაში, პირველი თვის განმავლობაში მხოლოდ 50, ხოლო შემდეგ 15 გამოსახულების შექმნა შეგიძლიათ. 

DALL·E 2 კრძალავს ისეთ გამოსახულების შექმნას, რომელიც შეიცავს საზიანო ან პოლიტიკურ შინაარსს. Deep Fake-ის თავიდან აცილების მიზნით, იკრძალება საჯარო ფიგურების გამოსახულებების შექმნა. DALL·E 2-დან გენერირებული სურათის ჩამოწერის შემთხვევაში, სურათის ქვედა მარჯვენა კუთხეში პატარა ლოგოს შეამჩნევთ.

სანამ სურათების შექმნას დაიწყებთ დაგჭირდებათ პროფილის შექმნა. ამის საშუალებას DALL·E 2 გაძლევთ როგორც კომპიუტერის, ისე მობილურის საშუალებით.

თორნიკე ქარჩხაძე და ხელოვნური ინტელექტის მელოდია
თორნიკე ქარჩხაძე და ხელოვნური ინტელექტის მელოდია
თემის მიხედვით
თორნიკე ქარჩხაძე და ხელოვნური ინტელექტის მელოდია
Deepfake - ვიდეოებით მანიპულაციის ხელოვნება და საფრთხეები
Deepfake — ვიდეოებით მანიპულაციის ხელოვნება და საფრთხეები
თემის მიხედვით
Deepfake — ვიდეოებით მანიპულაციის ხელოვნება და საფრთხეები


ასევე წაიკითხეთ
Bard VS chatGPT — Google-მა თანამშრომლებს
Bard VS chatGPT — Google-მა თანამშრომლებს "სრული მობილიზაციისკენ" მოუწოდა
Bard VS chatGPT — Google-მა თანამშრომლებს "სრული მობილიზაციისკენ" მოუწოდა
Gen-1 —  AI, რომელსაც არსებული ვიდეოების შეცვლა ტექსტური ბრძანებით შეუძლია
Gen-1 — AI, რომელსაც არსებული ვიდეოების შეცვლა ტექსტური ბრძანებით შეუძლია
Gen-1 — AI, რომელსაც არსებული ვიდეოების შეცვლა ტექსტური ბრძანებით შეუძლია
Google ChatGPT-ის კონკურენტ AI ჩატბოტს უშვებს, სახელწოდებით — Bard
Google ChatGPT-ის კონკურენტ AI ჩატბოტს უშვებს, სახელწოდებით — Bard
Google ChatGPT-ის კონკურენტ AI ჩატბოტს უშვებს, სახელწოდებით — Bard
Chat&Create — DALL-E და Davinci’s AI-სთან ინტეგრირებული ჩატბოტი Rakuten ​Viber-ისგან
Chat&Create — DALL-E და Davinci’s AI-სთან ინტეგრირებული ჩატბოტი Rakuten ​Viber-ისგან
Chat&Create — DALL-E და Davinci’s AI-სთან ინტეგრირებული ჩატბოტი Rakuten ​Viber-ისგან
Rakuten Viber მომხმარებლებს ახალ ჩატბოტს სთავაზობს. Chat&Create მომხმარებლებს საშუალებას აძლევს, Viber აპლიკაციის საშუალებით ხელოვნურ ინტელექტს კითხვები დაუსვან და შექმნან ფოტო-სურათები. ჩატბოტი ინტეგრირებულია DALL-E და Davinci’s AI გენერატორებთან. 
განხილვა
კომენტარები ჯერ არაა.