თორნიკე ქარჩხაძე სან დიეგოს უნივერსიტეტში AI-ს მუსიკის წერას ასწავლის
ადამიანმა მუსიკის შექმნა დაახლოებით 35 ათასი წლის წინ დაიწყო. ათასწლეულებთან, საუკუნეებთან ერთად ჩნდებოდა ახალი ინსტრუმენტები, ხმები და ემოციები, რომლებიც ცვლიდა მუსიკის აღქმას, მის შინაარსს. კომპიუტერების გამოჩენასთან ერთად მუსიკის ისტორიაში ხელახალი გარდატეხა მოხდა. მსმენელს საშუალება მიეცა, მოესმინა ნებისმიერი მელოდია ნებისმიერ დროს. თუმცა, მუსიკის წერა ხანგრძლივი პერიოდის მანძილზე მხოლოდ ადამიანების საქმე იყო. მათ უნდა დაეწერათ, შეესრულებინათ, ედირიჟორათ, ერთმანეთთან დაეკავშირებინათ ფრაგმენტები. თუმცა, დღეს მუსიკალურ სამყაროში ახალი მოთამაშე — ხელოვნური ინტელექტი გაჩნდა, რომელიც მუსიკას ქმნის.
თორნიკე ქარჩხაძე კალიფორნიის უნივერსიტეტის სანდიეგოს ფილიალის კომპიუტერული მუსიკის ფაკულტეტის დოქტორობის კანდიდატი და ასისტენტ-მასწავლებელია, რომელიც ხელოვნურ ინტელექტთან მუშაობს და მას მუსიკას აწერინებს.
თორნიკეს ცხოვრებაში მუსიკას დიდი როლი უჭირავს. მისი და სფეროს სიყვარული ბავშვობიდან დაიწყო, თუმცა საბჭოური სტერეოტიპებიდან გამომდინარე, ტექნიკური უნარების მქონე ბიჭს საშუალება არ მიეცა, მუსიკალური განათლება მიეღო.
მიუხედავად ამისა, მან შექმნა ჯგუფი «პორნოპოეზია», რომელსაც მოყვა ჯგუფი «ყველა» და პროექტი «ერთ-ერთი დირექტორი». გამოცდილების დაგროვების და მიღწეული წარმატებების მიუხედავად, თორნიკეს მუსიკის სიღრმისეული შესწავლის სურვილი ჰქონდა, ამიტომ კონსერვატორიაში ჩააბარა. სწორედ კონსერვატორიაში აღმოაჩინა, რომ მუსიკას და ტექნიკურ საგნებს ბევრი საერთო აქვთ.
კალიფორნიის უნივერსიტეტის სან დიეგოს ფილიალში მუსიკის ერთ-ერთი საუკეთესო ფაკულტეტია, კომპიუტერული მუსიკის განყოფილება კი კომპიუტერულ მეცნიერებებს და მუსიკას აერთიანებს.
შუა საუკუნეებიდან მუსიკა იმის გათვალისწინებით იქმდებოდა, რომ არსებობდა ვიოლინო, ჩელო, დასარტყამი და სხვა ინსრტრუმენტები, რომლისთვისაც ნოტების დაწერა იყო საჭირო.
1940-იანი წლებიდან დაიწყო ფირების გამოყენება და მაგნიტური ლენტი იქცა საკომპოზიციო ხელსაწყოდ, რომელზეც შესაძლებელი იყო როგორც მუსიკალური ნოტის, ასევე რაიმე სხვა ხმის, მაგალითად მატარებლის გადაადგილების ჩაწერა.
1950-იანი წლების მეორე ნახევრიდან გაჩნდა და გავრცელდა სინთეზატორები და შესაძლებელი გახდა ხმის შექმნა ელექტროობით, იმავე ათწლეულის ბოლოს კი შეიქმნა კომპიუტერები, რომლითაც მუსიკის დაწერა გახდა შესაძლებელი.
თუმცა, მაშინ კომპიუტერები ძალიან ნელა მუშაობდა და მცირე მეხსიერება ჰქონდა, რაც მუსიკის შექმნის შესაძლებლობას აქრობდა.
თორნიკე გვეუბნება, რომ მუსიკის კომპიუტერში გატარება საკმაოდ რთული პროცესია.
«ტალღაში ბევრი მონაცემია და თან დროში ზუსტად უნდა დაუკრა, რომ გაჟღერდეს ისე, როგორც საჭიროა». — ამბობს ის.
კომპიუტერმა მუსიკის დაკვრა 90-იან წლებში დაიწყო. ეს იყო რვა ბიტიანი მუსიკა რობოტული ხმით.
«კომპიუტერთან ერთად მუსიკაში რევოლუცია მოხდა. ცოცხლად მუსიკას წერ თუ ისე აკეთებ კომპოზიციას — ელექტრონულ ტრეკს თუ ნებისმიერ სხვას, ნებისმიერ შემთხვევაში კომპიუტერზე აკეთებ ყველაფერს». — ყვება მუსიკოსი.
თორნიკე სან დიეგოს უნივერსიტეტში ხელოვნური ინტელექტის თემატიკას იკვლევს. მისი კვლევა ხმის გენერაციას და ხელოვნური ინტელექტის მუსიკაში გამოყენებას ეხება — რამდენად არის შესაძლებელი მუსიკის შექმნა ღრმა მანქანური სწავლების მეთოდებით.
ხელოვნური ინტელექტის როლი მუსიკაში ახალი არ არის. მცდელობები 1950-იანი წლებიდან დაიწყო. 1980-იან წლებში ამერიკელმა ავტორმა, მეცნიერმა, კომპოზიტორმა, სანტა კრუზის უნივერსიტეტის პროფესორმა დევიდ ქოუფმა ხმის უამრავი სიმულაცია გააკეთა, იოჰან სებასტიან ბახის და ფრედერიკ შოპენის მუსიკის ჩათვლით. მისმა EMI (Experiments in Musical — ექსპერიმენტები მუსიკალურ ინტელექტში) პროგრამამ შექმნა ნაწარმოებები სხვადასხვა კომპოზიტორის სტილში — დაწყებული მოკლე ნაწარმოებებიდან სრულმეტრაჟიან ოპერებამდე. არსებობს ზოგიერთი მათგანის კომერციული ჩანაწერიც. დევიდ ქოუფის ყველა ორიგინალური კომპოზიცია კომპიუტერის, კომპიუტერული ალგორითმის დახმარებით დაიწერა.
დროსთან ერთად ხელოვნური ინტელექტის როლი ყველა ინდუსტრიაში გაიზარდა, მათ შორის, მუსიკაში.
«ახალი რევოლუციის მომსწრენი ვართ, რომელიც რამდენიმე წელიწადში კიდევ უფრო კარგად გამოჩნდება. პირველად 2016 წელს გახდა შესაძლებელი, ნეირონულ ქსელს პირდაპირ ხმა დაეგენერირებინა. ფაქტობრივად, სინთეზის ახალი მეთოდი გაჩნდა, რომელიც აქამდე არ არსებობდა. Google-ისა და Apple-ის ხმოვანი ასისტენტები ამაზე მუშაობენ და ბევრი რაღაც ხდება, თუმცა პოტენციალი ბოლომდე გამოყენებული ჯერ კიდევ არ არის». — გვიყვება თორნიკე ქარჩხაძე.
შესაძლოა, წლების შემდეგ, ნეირონულ ქსელებში ხმის ჩაწერა იმდენად განვითარდეს, რომ ჩვეულებრივი მეთოდით ხმის ჩაწერა საჭირო აღარ იყოს.
ამ ეტაპზე შესაძლებელია, ტექსტი დაიწეროს და შემდეგ მოხდეს მისი გენერირება. შესაძლებელია მისი ისე დახვეწა, რომ უფრო ემოციური გახდეს და ნაკლებად ჰგავდეს რობოტულ ხმას.
თუმცა, შესძლოა, დადგეს ეტაპი, როცა აღარ იქნება საჭირო ფილმების გახმოვანება და ჩიტის გადაფრენის ან მანქანის გავლის გასახმოვანებლად მხოლოდ სიტყვების აკრეფა იქნება საკმარისი.
თორნიკე ქარჩხაძე გვეუბნება, რომ მუსიკალური ხელოვნური ინტელექტი ვიზუალურ ხელოვნურ ინტელექტს შედარებით ჩამორჩება, რაც იმით აიხსნება, რომ მუსიკის სიტყვებით აღწერა რთულია.
«მუსიკის 100%-ით სიტყვიერი აღწერა შეუძლებელია. საკვლევი სფერო საკმაოდ ფართოა. თუმცა, მისი შექმნა მრავალი გზით შეიძლება.
ახლა რასაც ვაკეთებ, მაგალითად, არის ის, რომ მაქვს სხვადასხვა რაღაცის 10-წამიანი აუდიოჩანაწერები — შეიძლება იყოს მუსიკაც შეიძლება და გარემოს ხმებიც. ხელოვნურ ინტელექტს მათ ვასწავლი და ვცდილობ, ავაწყო სისტემა, რომელსაც შეეძლება, დაიწყოს ბავშვის ტირილის ხმიდან და გადავიდეს ბაქნის ხმაზე, ან ვიოლინოს ხმაზე. ამ ხმებს შორის მოხდეს ინტერპოლაცია. ხელოვნურმა ინტელექტმა ისწავლოს ამ ხმების გარჩევა, გენერირება და ერთმანეთში გადაყვანა. ბავშვისა და ვიოლინოს ხმას შორის რაღაც ახალი არარსებული ხმაც შექმნას». — ამბობს თორნიკე.
საქართველოში 2000-იანი წლების დასაწყისში იყვნენ ადამიანები, რომლებიც ეცნობოდნენ ტექნოლოგიებს და ხელოვნურ ინტელექტთან ისე მუშაობდნენ, რომ შეიძლება მის შესახებ ინფორმაცია არც ჰქონოდათ.
თორნიკემ 2006 წელს ერთ-ერთ ბანკში მუშაობისას სქორ ქარდები შექმნა, რაც იმას გულისხმობდა, რომ კომპიუტერი მომხმარებელს გარკვეული კრიტერიუმების მიხედვით აფასებდა და «წინასწარმეტყველებდა», შეეძლებოდათ თუ არა მათ სესხის გადახდა.
«მაშინ არც კი ვიცოდი, რომ თურმე ხელოვნურ ინტელექტზე ვმუშაობ. ეს არის ლოგარითმული რეგრესიის მეთოდი, რომელიც ითვლება მანქანური სწავლების ერთ ერთ საწყისად. როდესაც დავუბრუნდი სფეროს, მერე გავიაზრე, რომ თურმე ამას უკვე ვაკეთებდი 2007 წელს. მანქანური სწავლება არის მილიონობით რეგრესიის გაერთიანება ერთ დიდ მოდელში და მას შეუძლია სტატისტიკის სწავლა. ფაქტობრივად, ახლა, იმის ნაცვლად, რომ ვიწინასწარმეტყველო, კლიენტი სესხს გადაიხდის თუ არა, ვწინასწარმეტყველებ შემდეგ წერტილს აუდიოტალღაში». — ყვება თორნიკე ქარჩხაძე.
თორნიკეს მოდელი აუდიოტალღას სწავლობს და შემდეგ ხელახლა აგენერირებს მას წინა ტალღის წერტილებზე დაფუძნებით.
მუსიკა კომპიუტერში ციფრებადაა გადაკეთებული. ეს არის აუდიო ნიმუშები. მუსიკალური ტალღა წერტილებისგან შედგება. თავის მხრივ, აუდიო ტალღა ჰაერის რხევას წარმოადგენს, რომელიც წნევის ცვალებადობას იწევს, ხოლო ხმის აუდიო ნიმუშები კომპიუტერში ამ ცვალებადობის აღწერაა.
«უნდა გაკეთდეს, როგორც მინიმუმ, 44 100 ან 48 000 ანათვალი წამში, რომ ხმა აღიწეროს კარგად, სრულყოფილად, რომ ხმა შეინახოს და დაუკრას. ხმა კომპიუტერში ინახება, როგორც რიცხვების ტაბულა, წნევის ცვალებადობის აღრიცხვა. ჩემი ხელოვნური ინტელექტი სწავლობს ამ რიცხვებს და ყოველ ჯერზე აგენერირებს. იღებს რაღაც აუდიო ტალღას, მაგალითად, ბოლო 10 წამს უსმენს და შემდეგ აუდიო ტალღის წერტილებს წინასწარმეტყველებს». — გვიყვება თორნიკე ქარჩხაძე.
თორნიკეს მოდელი მელ სპექტოგრამებს სწავლობს. სპექტოგრამა არის აუდიოტალღის ჩაწერის ერთ-ერთი ვარიანტი, როდესაც აუდიოტალღის დაწერის ნაცვლად მას სპექტრულად გამოსახავ. გამოიყენება ვექტორულად კვანტიზირებული შიფრატორი და დეკოდერი. შიფრატორის საშუალებით მიღებული ინფორმაციის სივრცე მცირდება, ანუ იზღუდება გამოყენებული მონაცემების რაოდენობა, ხოლო დეკოდერის მეშვეობით პირიქით — დაკომპენსირებული ინფორმაციიდან ამოდის საჭირო სპექტოგრამა.
«ეს ადამიანებშიც ხდება. ჩვენ 33 ასოთი ვლაპარაკობთ საერთოდ ყველაფერზე. 33 ასოს სხვადასხვანაირად გადალაგება გვეხმარება, რომ ვილაპარაკოთ ნებისმიერ თემაზე. აქაც იგივე ხდება, ფაქტობრივად შენ ასწავლი ნეირონულ ქსელს, რომ, მაგალითად, 128 ვექტორით აღწეროს ნებისმიერი ხმა. მერე უკვე იმ 128 ცალ ვექტორზე მანიპულირება უფრო ადვილია». — ამბობს ქარჩხაძე.
ხელოვნური ინტელექტით უკვე შესაძლებელია ხმის პირდაპირი გენერაცია, რაც საზღვრებს აფართოებს. უკვე შესაძლებელია, ხელოვნურ ინტელექტს ნებისმიერი ჟანრის მუსიკა დავაწერინოთ. თუმცა, გასათვალისწინებელია, რომ ხელოვნური ინტელექტი ვერ შექმნის მუსიკას ისე, თუ მას ამას არ ასწავლი.
«კრეატიულობას თუ ვარქმევთ სრულიად ახალი რაღაცის გამოგონებას, ხელოვნურ ინტელექტს ჯერჯერობით ეს არ შეუძლია». — ამბობს თორნიკე.
მისი თქმით, ადამიანსაც სჭირდება სწავლება იმისთვის, რომ შექმნას რაიმე ახალი და გამორჩეული. თუმცა, ადამიანის უპირატესობა ისაა, რომ ჩვენ ინსპირაციის მიღება ნებისმიერი წყაროდან შეგვიძლია, ხოლო ხელოვნური ინტელექტი, რომელიც მუსიკაზე მუშაობს, მხოლოდ მუსიკის სფეროში დარჩება.
«ადამიანს შეუძლია წაიკითხოს რამე კარგი წიგნი და აქედან ინსპირირებულმა დაწეროს მუსიკა. ხელოვნურ ინტელექტს ეს ჯერ არ შეუძლია. შეუძლია, ისწავლოს მუსიკა და მისი მსგავსი დააიგენერიროს, თუმცა, ტექსტი წაიკითხოს და მისგან შთაგონებულმა მუსიკა შექმნას — მისი შესაძლებლობების საზღვრებს ცდება». — გვიყვება თორნიკე ქარჩხაძე.
ბუნებრივია, ხელოვნური ინტელექტი ემოციურ დონეზე შორს დგას ადამიანის მიერ დაწერილი მუსიკისგან.
«მუსიკა ემოციის ენაა. ის რომ შეადარო სალაპარაკო ენას, ბევრ მსგავსებას იპოვი. მიუხედავად ამისა, ერთი მნიშვნელოვანი განსხვავებაა — მუსიკას არ აქვს შინაარსი, მას აქვს ემოციის გამოწვევის უნარი, რომლითაც ბევრ რამეს მიხვდები, ოღონდ ემოციურ სივრცეში. ემოციური სივრცე ძალიან ადამიანური მოვლენაა და კომპიუტერმა ეს არ იცის.» — ამბობს თორნიკე ქარჩხაძე.
ადამიანებს აქვთ ისტორიები, საუბრის მანერა, ქცევები, რომლებიც კომპიუტერს არ გააჩნია.
ხელოვნური ინტელექტი ამ ეტაპზე ვერ განიხილება, როგორც დამოუკიდებელი კომპოზიტორი ან არტისტი. ის არის კომპოზიტორის დამხმარე ხელსაწყო, რომელიც ეხმარება მას მუსიკის დაწერაში, ფილმის გაფორმებაში. ხელოვნური ინტელექტი დამხმარე ხელსაწყოა და არა დამოუკიდებელი აქტორი.
როგორ შეიძლება, ხელოვნურმა ინტელექტმა შეცვალოს LGBTQIA+ ადვოკატირება
ახალი AI Comes Out of the Closet — «AI კარადიდან გამოდის» სისტემა მიზნად ისახავს ხელოვნური ინტელექტისა და LGBTQIA+ მხარდაჭერის შერწყმას.
ავტორი: დევიდ სვინი, MIT