ჩვენ ვაკანსიების სერვისი გავუშვით: გამოაქვეყნეთ ვაკანსიები და მიიღეთ უკუკავშირი!

Google ათასენოვანი AI მოდელის შექმნას ერთი ნაბიჯით მიუახლოვდა

2022 წლის ნოემბერში Google-მა ათასენოვანი AI მოდელის შექმნა დააანონსა, რაც მანქანათმცოდნეობაში, ხელოვნურ ინტელექტსა და სხვადასხცა ტექნოლოგიურ პროცესებში გაცილებით მეტი ადამიანის ჩართულობას გამოიწვევდა.

ათასი ენიდან ზოგიერთი ფართოდ გავრცელებული არ არის. ამიტომ, კომპანიის მთავარი გამოწვევა იმის ამოხსნაა, როგორ დაუჭიროს მხარი ისეთ ენებს, რომლებსაც ბევრი მოსაუბრე არ ჰყავს და შეზღუდული ხელმისაწვდომი მონაცემები გააჩნია.

კომენტარის დატოვება
Google ათასენოვანი AI მოდელის შექმნას ერთი ნაბიჯით მიუახლოვდა

2022 წლის ნოემბერში Google-მა ათასენოვანი AI მოდელის შექმნა დააანონსა, რაც მანქანათმცოდნეობაში, ხელოვნურ ინტელექტსა და სხვადასხცა ტექნოლოგიურ პროცესებში გაცილებით მეტი ადამიანის ჩართულობას გამოიწვევდა.

ათასი ენიდან ზოგიერთი ფართოდ გავრცელებული არ არის. ამიტომ, კომპანიის მთავარი გამოწვევა იმის ამოხსნაა, როგორ დაუჭიროს მხარი ისეთ ენებს, რომლებსაც ბევრი მოსაუბრე არ ჰყავს და შეზღუდული ხელმისაწვდომი მონაცემები გააჩნია.

«ჩვენს უნივერსალურ მეტყველების მოდელს არასაკმარისი რესურსის მქონე ენების ამოცნობა თავისუფლად შეუძლია. უფრო მეტიც, ჩვენი მოდელის სასწავლო პროცესი ახალ ენებთან და მონაცემებთან ადაპტაციისთვის ეფექტურია». — განაცხადეს კომპანიაში.

გამოწვევები ASR-ში (საუბრის ავტომატური ამოცნობა)

ამ ამბიციური მიზნის მისაღწევად, Google-ის იმ ორი მნიშვნელოვანი გამოწვევის დაძლევა მოუწევს, რომლებიც ASR-ში — საუბრის ავტომატური ამოცნობის საქმეში არსებობს:

პირველი მასშტაბურობის ნაკლებობაა. ბევრი ენისთვის არ არსებობს საკმარისი მონაცემები, რაც ხელს უშლის მაღალი ხარისხის მოდელების შექმნას. ტრადიციული მიდგომის მიხედვით, აუდიო მონაცემებს ყველაფერი ხელით უნდა მიეწოდოს, რაც რთული, შრომატევადი და ძვირია, განსაკუთრებით პატარა ენებთან დაკავშირებით. 

Google კიდევ ერთ გამოწვევად მოდელების ეფექტური გზით გაუმჯობესებას მიიჩნევს, რაც ალგორითმის მოქნილობას მოითხოვს. უფრო კონკრეტულად, ასეთ ალგორითმს სხვადასხვა წყაროდან დიდი რაოდენობით მონაცემების გამოყენება და მოდელების განახლება სრული გადამზადების გარეშე უნდა შეეძლოს.

Google-ის მიდგომა

უნივერსალური მეტყველების მოდელი სტანდარტულ ენკოდერ-დეკოდერის (encoder-decoder) არქიტექტურას იყენებს, რომელშიც დეკოდერი შეიძლება CTC, RNN-T ან LAS იყოს.

უნივერსალური მეტყველების მოდელი ენკოდერისთვის Conformer-ს ან კონვოლუციით გაძლიერებულ ტრანსფორმატორს იყენებს. Conformer-ის ძირითადი კომპონენტი ბლოკია, ყურადღების, მიწოდებისა და კონვოლუციური მოდულებისგან შედგება. 

Google იდეის სრულყოფისთვის სამ ეტაპს გადის. როგორც თავად ამბობენ, პირველი ნაბიჯისთვის BEST-RQ-ს იყენებენ, რომელმაც დამაიმედებელი შედეგები უკვე აჩვენა და დაამტკიცა, რომ უკონტროლო აუდიო მონაცემების ძალიან დიდი რაოდენობით გამოყენებისას ეფექტურია. კომპანიამ მეორე საფეხურზე დამატებითი ტექსტური მონაცემების ჩასართავად მრავალმიზნობრივი ზედამხედველობითი წინასწარი ტრენინგი გამოიყენა. ხოლო ბოლო, მესამე ეტაპზე USM უკვე დახვეწილია. წინასწარი ტრენინგების დროს შეძენილი ცოდნით ისინი უმაღლეს ხარისხს აღწევენ. კომპანიას უბრალოდ მცირე დაკვირვება და უმნიშვნელო დეფექტების შესწორებაღა ევალება.

ძირითადი მიზანი და გამოყენება

კომპანია ამბობს, რომ განსაზღვრული არ აქვს, მოდელს სად გამოიყენებს — მხოლოდ ის არის ცნობილი, რომ მას გამოყენების ფართო სპექტრი Google-ის პროდუქტებში ექნება, Google Translate-დან Youtube-ის სუბტიტრებამდე და სხვა. 

«ერთსა და იმავე ენობრივ მოდელს შეუძლია, რობოტის ბრძანებები კოდად აქციოს. მას მათემატიკური ამოცანების ამოხსნა და ყველაფრის თარგმნა შეუძლია. ენობრივი მოდელები მართლაც საინტერესო რამეა, ისინი ეტაპობრივად ცოდნის საცავებად იქცვიან და მათი შესწავლით სხვადასხვა სასარგებლო ინფორმაციისა და ფუნქციის მიღება შეგიძლიათ». — ამბობს Google AI-ის კვლევის ვიცე-პრეზიდენტი, ზუბინ ღაჰრამანი.

Google-ის საბოლოო სურვილი და მიზანია, რომ მსოფლიო ინფორმაციას თავი მოუყაროს და ის საყოველთაოდ ხელმისაწვდომი გახადოს.

«ჩვენ გვჯერა, რომ USM-ის საბაზისო მოდელის არქიტექტურა და სასწავლო მილსადენი საფუძველს წარმოადგენს, რომელზეც შეგვიძლია მეტყველების მოდელირების გაფართოება მომდევნო 1000 ენაზე ავაშენოთ». — ნათქვამია კომპანიის ბლოგში. 

dev.ge-ზე ვაკანსიების სერვისი ამოქმედდა
dev.ge-ზე ვაკანსიების სერვისი ამოქმედდა
თემის მიხედვით
dev.ge-ზე ვაკანსიების სერვისი ამოქმედდა
Google-მა ჟურნალისტებისა და აქტივისტების კიბერუსაფრთხოების დაცვის პროგრამა წარადგინა
Google-მა ჟურნალისტებისა და აქტივისტების კიბერუსაფრთხოების დაცვის პროგრამა წარადგინა
თემის მიხედვით
Google-მა ჟურნალისტებისა და აქტივისტების კიბერუსაფრთხოების დაცვის პროგრამა წარადგინა
თანამშრომლები Google-ის CEO-ს Bard-ის შესახებ ნაჩქარევი განცხადებების გამო აკრიტიკებენ
თანამშრომლები Google-ის CEO-ს Bard-ის შესახებ ნაჩქარევი განცხადებების გამო აკრიტიკებენ
თემის მიხედვით
თანამშრომლები Google-ის CEO-ს Bard-ის შესახებ ნაჩქარევი განცხადებების გამო აკრიტიკებენ


ასევე წაიკითხეთ
18 აპრილს Meta-მ AI მოდელის, Llama 3-ის ადრეული ვერსია გამოუშვა 
18 აპრილს Meta-მ AI მოდელის, Llama 3-ის ადრეული ვერსია გამოუშვა 
18 აპრილს Meta-მ AI მოდელის, Llama 3-ის ადრეული ვერსია გამოუშვა 
Limitless — ახალი AI ინსტრუმენტი თქვენი შეხვედრებისთვის
Limitless — ახალი AI ინსტრუმენტი თქვენი შეხვედრებისთვის
Limitless — ახალი AI ინსტრუმენტი თქვენი შეხვედრებისთვის
Limitless, ყოფილი Rewind, ახალი AI ინტრუმენტია, რომელიც თქვენი შეხვედრებისთვის იდეალურია. თუ თქვენ კონკრეტული სატარებელი (wearable) AI მოწყობილობის ბოლოდროინდელი მიმოხილვებით იმედგაცრუებული ხართ, Limitless შეეცდება, ეს განწყობა შეგიცვალოთ. 
Viber-ის AI-ით გაძლიერებული ფუნქცია ჯგუფური ჩატების მოკლე შინაარს მყისიერად შეაჯამებს
Viber-ის AI-ით გაძლიერებული ფუნქცია ჯგუფური ჩატების მოკლე შინაარს მყისიერად შეაჯამებს
Viber-ის AI-ით გაძლიერებული ფუნქცია ჯგუფური ჩატების მოკლე შინაარს მყისიერად შეაჯამებს
Apple ქმნის ChatGPT-ის კონკურენტს, რომელსაც უკეთ ესმის ადამიანებს
Apple ქმნის ChatGPT-ის კონკურენტს, რომელსაც უკეთ ესმის ადამიანებს
Apple ქმნის ChatGPT-ის კონკურენტს, რომელსაც უკეთ ესმის ადამიანებს
განხილვა
კომენტარები ჯერ არაა.