Google ათასენოვანი AI მოდელის შექმნას ერთი ნაბიჯით მიუახლოვდა
2022 წლის ნოემბერში Google-მა ათასენოვანი AI მოდელის შექმნა დააანონსა, რაც მანქანათმცოდნეობაში, ხელოვნურ ინტელექტსა და სხვადასხცა ტექნოლოგიურ პროცესებში გაცილებით მეტი ადამიანის ჩართულობას გამოიწვევდა.
ათასი ენიდან ზოგიერთი ფართოდ გავრცელებული არ არის. ამიტომ, კომპანიის მთავარი გამოწვევა იმის ამოხსნაა, როგორ დაუჭიროს მხარი ისეთ ენებს, რომლებსაც ბევრი მოსაუბრე არ ჰყავს და შეზღუდული ხელმისაწვდომი მონაცემები გააჩნია.
«ჩვენს უნივერსალურ მეტყველების მოდელს არასაკმარისი რესურსის მქონე ენების ამოცნობა თავისუფლად შეუძლია. უფრო მეტიც, ჩვენი მოდელის სასწავლო პროცესი ახალ ენებთან და მონაცემებთან ადაპტაციისთვის ეფექტურია». — განაცხადეს კომპანიაში.
გამოწვევები ASR-ში (საუბრის ავტომატური ამოცნობა)
ამ ამბიციური მიზნის მისაღწევად, Google-ის იმ ორი მნიშვნელოვანი გამოწვევის დაძლევა მოუწევს, რომლებიც ASR-ში — საუბრის ავტომატური ამოცნობის საქმეში არსებობს:
პირველი მასშტაბურობის ნაკლებობაა. ბევრი ენისთვის არ არსებობს საკმარისი მონაცემები, რაც ხელს უშლის მაღალი ხარისხის მოდელების შექმნას. ტრადიციული მიდგომის მიხედვით, აუდიო მონაცემებს ყველაფერი ხელით უნდა მიეწოდოს, რაც რთული, შრომატევადი და ძვირია, განსაკუთრებით პატარა ენებთან დაკავშირებით.
Google კიდევ ერთ გამოწვევად მოდელების ეფექტური გზით გაუმჯობესებას მიიჩნევს, რაც ალგორითმის მოქნილობას მოითხოვს. უფრო კონკრეტულად, ასეთ ალგორითმს სხვადასხვა წყაროდან დიდი რაოდენობით მონაცემების გამოყენება და მოდელების განახლება სრული გადამზადების გარეშე უნდა შეეძლოს.
Google-ის მიდგომა
უნივერსალური მეტყველების მოდელი სტანდარტულ ენკოდერ-დეკოდერის (encoder-decoder) არქიტექტურას იყენებს, რომელშიც დეკოდერი შეიძლება CTC, RNN-T ან LAS იყოს.
უნივერსალური მეტყველების მოდელი ენკოდერისთვის Conformer-ს ან კონვოლუციით გაძლიერებულ ტრანსფორმატორს იყენებს. Conformer-ის ძირითადი კომპონენტი ბლოკია, ყურადღების, მიწოდებისა და კონვოლუციური მოდულებისგან შედგება.
Google იდეის სრულყოფისთვის სამ ეტაპს გადის. როგორც თავად ამბობენ, პირველი ნაბიჯისთვის BEST-RQ-ს იყენებენ, რომელმაც დამაიმედებელი შედეგები უკვე აჩვენა და დაამტკიცა, რომ უკონტროლო აუდიო მონაცემების ძალიან დიდი რაოდენობით გამოყენებისას ეფექტურია. კომპანიამ მეორე საფეხურზე დამატებითი ტექსტური მონაცემების ჩასართავად მრავალმიზნობრივი ზედამხედველობითი წინასწარი ტრენინგი გამოიყენა. ხოლო ბოლო, მესამე ეტაპზე USM უკვე დახვეწილია. წინასწარი ტრენინგების დროს შეძენილი ცოდნით ისინი უმაღლეს ხარისხს აღწევენ. კომპანიას უბრალოდ მცირე დაკვირვება და უმნიშვნელო დეფექტების შესწორებაღა ევალება.
ძირითადი მიზანი და გამოყენება
კომპანია ამბობს, რომ განსაზღვრული არ აქვს, მოდელს სად გამოიყენებს — მხოლოდ ის არის ცნობილი, რომ მას გამოყენების ფართო სპექტრი Google-ის პროდუქტებში ექნება, Google Translate-დან Youtube-ის სუბტიტრებამდე და სხვა.
«ერთსა და იმავე ენობრივ მოდელს შეუძლია, რობოტის ბრძანებები კოდად აქციოს. მას მათემატიკური ამოცანების ამოხსნა და ყველაფრის თარგმნა შეუძლია. ენობრივი მოდელები მართლაც საინტერესო რამეა, ისინი ეტაპობრივად ცოდნის საცავებად იქცვიან და მათი შესწავლით სხვადასხვა სასარგებლო ინფორმაციისა და ფუნქციის მიღება შეგიძლიათ». — ამბობს Google AI-ის კვლევის ვიცე-პრეზიდენტი, ზუბინ ღაჰრამანი.
Google-ის საბოლოო სურვილი და მიზანია, რომ მსოფლიო ინფორმაციას თავი მოუყაროს და ის საყოველთაოდ ხელმისაწვდომი გახადოს.
«ჩვენ გვჯერა, რომ USM-ის საბაზისო მოდელის არქიტექტურა და სასწავლო მილსადენი საფუძველს წარმოადგენს, რომელზეც შეგვიძლია მეტყველების მოდელირების გაფართოება მომდევნო 1000 ენაზე ავაშენოთ». — ნათქვამია კომპანიის ბლოგში.
როგორ შეიძლება, ხელოვნურმა ინტელექტმა შეცვალოს LGBTQIA+ ადვოკატირება
ახალი AI Comes Out of the Closet — «AI კარადიდან გამოდის» სისტემა მიზნად ისახავს ხელოვნური ინტელექტისა და LGBTQIA+ მხარდაჭერის შერწყმას.
ავტორი: დევიდ სვინი, MIT
დღეს, 21 მაისს ევროპულმა საბჭომ მიიღო ხელოვნური ინტელექტის აქტი — კანონი, რომელიც «მიზნად ისახავს ხელოვნური ინტელექტის წესების ჰარმონიზაციას». ევროპული საბჭო აცხადებს, რომ აქტი მიჰყვება რისკებზე დაფუძნებულ მიდგომას — რაც უფრო მაღალია საზოგადოებისთვის ზიანის მიყენების რისკი, მით უფრო მკაცრია წესები. ეს არის პირველი კანონმდებლობა მსოფლიოში, რომელსაც შეუძლია, დააწესოს ხელოვნური ინტელექტის რეგულირების გლობალური სტანდარტი.