ჩვენ ვაკანსიების სერვისი გავუშვით: გამოაქვეყნეთ ვაკანსიები და მიიღეთ უკუკავშირი!

რა არის PaLM-E — მულტიმოდალური ვიზუალური ენის ახალი მოდელი

6 მარტს Google-ისა და ბერლინის ტექნიკური უნივერსიტეტის ხელოვნური ინტელექტის მკვლევართა ჯგუფმა PaLM-E წარადგინა. ეს მულტიმოდალური ვიზუალური ენის მოდელია (VLM) — 562 მილიარდი პარამეტრით, რომელიც რობოტული კონტროლისთვის ხედვასა და ენას აერთიანებს. Google ამბობს, რომ PaLM-E ისტორიაში ყველაზე დიდი VLM-ია და შეუძლია, სხვადასხვა ამოცანები გადამზადების გარეშე შეასრულოს.

კომენტარის დატოვება
რა არის PaLM-E — მულტიმოდალური ვიზუალური ენის ახალი მოდელი

6 მარტს Google-ისა და ბერლინის ტექნიკური უნივერსიტეტის ხელოვნური ინტელექტის მკვლევართა ჯგუფმა PaLM-E წარადგინა. ეს მულტიმოდალური ვიზუალური ენის მოდელია (VLM) — 562 მილიარდი პარამეტრით, რომელიც რობოტული კონტროლისთვის ხედვასა და ენას აერთიანებს. Google ამბობს, რომ PaLM-E ისტორიაში ყველაზე დიდი VLM-ია და შეუძლია, სხვადასხვა ამოცანები გადამზადების გარეშე შეასრულოს.

Google-ის თანახმად, როდესაც  PaLM-E-ს მაღალი დონის ბრძანებას აძლევენ, როგორიცაა, მაგალითად, «მომიტანე ბრინჯის ჩიფსები უჯრიდან», ის მობილური რობოტის პლატფორმისთვის სამოქმედო გეგმას ქმნის (შემუშავებული Google Robotics-ის მიერ) და მოქმედებას თავად ასრულებს.

PaLM-E ამას რობოტის კამერის მონაცემების ანალიზით, წინასწარ დამუშავებული სცენის წარმოდგენის საჭიროების გარეშე აკეთებს. ეს ადამიანის მიერ მონაცემების წინასწარ დამუშავების ან ანოტაციის აუცილებლობას გამორიცხავს და უფრო ავტონომიური რობოტული კონტროლის საშუალებას იძლევა.

PaLM-E საკმაოდ მოქნილია და გარემოზე რეაგირებაც შეუძლია. მაგალითად, თუ თქვენ მას ჩანთის მოტანას კონკრეტული ადგილიდან მოსთხოვთ და შემდეგ ჩანთას ადგილს შეუცვლით ან საერთოდ დამალავთ, PaLM-E მას მაინც იპოვის და რობოტს თქვენამდე აუცილებლად მოატანინებს.

PaLM-E რობოტს რთული თანმიმდევრობით ამოცანების მეშვეობით, ავტონომიურად აკონტროლებს, რაც ადრე ადამიანების დახმარებით ხდებოდა. Google კვლევით ნაშრომში განმარტავს, თუ როგორ აქცევს PaLM-E ინსტრუქციებს ქმედებად.

«ჩვენ დიდწილად Ahn et al. (2022) მივყვებით, სადაც რობოტს ნავიგაციისა და მანიპულაციის მოქმედებების თანმიმდევრობის დაგეგმვა ადამიანის ინსტრუქციის საფუძველზე სჭირდება. მაგალითად, მოცემული ინსტრუქციის მიხედვით: «სასმელი დავღვარე, შეგიძლია მომიტანო რამე გასაწმენდად?», რობოტმა შემდეგი თანმიმდევრობა უნდა დაგეგმოს: «1. იპოვე ღრუბელი, 2. აიღე ღრუბელი, 3. მომიტანე, 4. დადე ღრუბელი».

PaLM-E-ის «PaLM-E» ეწოდა,  რადგან ის Google-ის დიდ ენობრივ მოდელზეა დაფუძნებული, რომელსაც (LLM) «PaLM» ჰქვია(ის ChatGPT-ის მიღმა არსებული ტექნოლოგიის მსგავსია). Google-მა PaLM სენსორული ინფორმაციისა და რობოტული კონტროლის დამატებით საინტერესო პროდუქტად აქცია.

ვინაიდან PaLM-E ენის მოდელზეა დაფუძნებული, ის უწყვეტ დაკვირვებას ანხორციელებს, როგორიცაა სურათები ან სენსორული მონაცემები, და მათ ვექტორების თანმიმდევრობაში შიფრავს. ეს მოდელს საშუალებას აძლევს, სენსორულ ინფორმაციას ჩასწვდეს და ენა დაამუშაოს.

Google Robotics ერთადერთი კვლევითი ჯგუფი არ არის, რომელიც რობოტულ კონტროლზე ნერვული ქსელებით მუშაობს. ეს კონკრეტული ნამუშევარი Microsoft-ის ბოლოდროინდელ ნაშრომს «ChatGPT for Robotics"-ს წააგავს, რომელიც ვიზუალური მონაცემებისა და დიდი ენობრივი მოდელების გაერთიანებით ანალოგიურ ექსპერიმენტებს ატარებდა.

რობოტიკის გარდა, Google-ის მკვლევრებმა რამდენიმე საინტერესო ეფექტი შენიშნეს. მაგალითად, PaLM-E «პოზიტიურ ტრანსფერს» ავლენს, რაც ნიშნავს, რომ მას მიღებული ცოდნისა და უნარების ერთი ამოცანიდან მეორეზე გადატანა შეუძლია.

ასევე, მათ მოდელის მასშტაბურობის ტენდენციაც გამოკვეთეს: «რაც უფრო დიდია ენის მოდელი, ენობრივ შესაძლებლობებს მით უფრო მეტად ინარჩუნებს — რაოდენობრივად, 562B PaLM-E მოდელი თავის ენობრივ შესაძლებლობებს, ფაქტობრივად, სრულად ინარჩუნებს». — განმარტა Google-მ.

მკვლევრები ამტკიცებენ, რომ PaLM-E ისეთ შესაძლებლობებს ავლენს, როგორიცაა აზროვნების მულტიმოდალური ჯაჭვის მსჯელობა (მოდელს საშუალებას აძლევს, შეყვანის თანმიმდევრობა გააანალიზოს,  რომელიც როგორც ენას, ასევე ვიზუალურ ინფორმაციას მოიცავს) და მრავალგამოსახულებიანი კონტროლი, მიუხედავად იმისა, რომ მას მხოლოდ ერთი გამოსახულების კონტროლისთვის წვრთნიდნენ.

Google-ის მკვლევრები გეგმავენ, რომ  PaLM-E სახლის ავტომატიზაციისთვის ან სამრეწველო რობოტებისთვის გამოიყენოს. ისინი იმედოვნებენ, რომ PaLM-E მულტიმოდალური მსჯელობისა და განსახიერებული ხელოვნური ინტელექტის კიდევ უფრო განვითარებას შეუწყობს ხელს.

dev.ge-ზე ვაკანსიების სერვისი ამოქმედდა
dev.ge-ზე ვაკანსიების სერვისი ამოქმედდა
თემის მიხედვით
dev.ge-ზე ვაკანსიების სერვისი ამოქმედდა
პარიზის მოდის კვირეულის ფარგლებში Coperni-მ პოდიუმზე Boston Dynamics-ის რობოტები გამოიყვანა
პარიზის მოდის კვირეულის ფარგლებში Coperni-მ პოდიუმზე Boston Dynamics-ის რობოტები გამოიყვანა
თემის მიხედვით
პარიზის მოდის კვირეულის ფარგლებში Coperni-მ პოდიუმზე Boston Dynamics-ის რობოტები გამოიყვანა


განხილვა
კომენტარები ჯერ არაა.