Ինչպե՞ս ռոբոտը սովորեց տիրել պինգ-պոնգի սեղանին

Ինչպե՞ս ռոբոտը սովորեց տիրել պինգ-պոնգի սեղանին

Google DeepMind-ը հասել է նշանակալի հաջողության ռոբոտաշինության և արհեստական բանականության ոլորտում՝ վարժեցնելով ռոբոտին խաղալ սեղանի թենիս բարձր սիրողական մակարդակով, MIT Technology Review-ի հրապարակած հոդվածի համաձայն։ Նրանք պնդում են, որ սա առաջին անգամն է, երբ ռոբոտին սովորեցրել են մարդկանց հետ սպորտ խաղալ մարդկային մակարդակով։


Հետազոտողներին հաջողվել է ստիպել 3D տպված թիակ պահող ռոբոտական թևին հաղթել 29 խաղից 13-ը՝ տարբեր ունակությունների մարդ մրցակիցների դեմ մրցակցային պինգ-պոնգի լիարժեք խաղերում։ 


Համակարգը հեռու է կատարյալ լինելուց։ Թեև պինգ-պոնգի ռոբոտը կարողացավ հաղթել սկսնակ մակարդակի բոլոր մարդ մրցակիցներին, որոնց հետ առերեսվել էր, և սիրողական մակարդակով խաղացողների 55%-ին, այն պարտվեց առաջադեմ խաղացողների դեմ բոլոր խաղերում։ Այնուամենայնիվ, սա տպավորիչ առաջընթաց է։


«Նույնիսկ մի քանի ամիս առաջ մենք կանխատեսում էինք, որ իրականում ռոբոտը չի կարողանա հաղթել մարդկանց, որոնց հետ նախկինում չէր խաղացել։ Համակարգը, անշուշտ, գերազանցեց մեր սպասելիքները»,- ասում է Փաննագ Սանկետին՝ Google DeepMind-ի ավագ աշխատակից ծրագրային ապահովման ինժեները, ով ղեկավարել է նախագիծը։ «Այն, թե ինչպես ռոբոտը գերազանցեց նույնիսկ ուժեղ մրցակիցներին, ցնցող էր»։


Եվ հետազոտությունը միայն զվարճանք և խաղեր չէ։ Իրականում, այն քայլ է դեպի այնպիսի ռոբոտների ստեղծում, որոնք կարող են հմտորեն և անվտանգ կատարել օգտակար առաջադրանքներ իրական միջավայրերում, ինչպիսիք են տները և պահեստները, ինչը ռոբոտաշինության համայնքի երկարատև նպատակն է։ Google DeepMind-ի մեքենաների ուսուցման մոտեցումը կիրառելի է ոլորտի շատ այլ բնագավառներում, ասում է Լերրել Պինտոն՝ Նյու Յորքի համալսարանի համակարգչային գիտության հետազոտողը, ով չի աշխատել այս նախագծի վրա։


«Ես մեծ երկրպագու եմ ռոբոտային համակարգերի, որոնք իրականում աշխատում են իրական մարդկանց հետ և շուրջը, և սա դրա հիանալի օրինակ է»,- ասում է նա։ «Գուցե դա ուժեղ խաղացող չէ, բայց հում բաղադրիչները կան՝ շարունակելու բարելավվել և ի վերջո հասնել այդտեղ»։

Որպեսզի դառնան հմուտ պինգ-պոնգի խաղացող, մարդիկ պահանջում են գերազանց աչք-ձեռք կոորդինացիա, արագ շարժվելու և արագ որոշումներ կայացնելու ունակություն՝ արձագանքելով իրենց մրցակցին, որոնք բոլորն էլ մեծ մարտահրավերներ են ռոբոտների համար։ Google DeepMind-ի հետազոտողներն օգտագործել են երկմաս մոտեցում՝ համակարգին վարժեցնելու համար՝ նմանակելու այս ունակությունները. նրանք օգտագործել են համակարգչային մոդելավորումներ՝ համակարգին սովորեցնելու տիրապետել իր հարվածի հմտություններին, այնուհետև հղկել են այն՝ օգտագործելով իրական աշխարհի տվյալները, ինչը թույլ է տալիս այն բարելավել ժամանակի ընթացքում։

Հետազոտողները կազմել են պինգ-պոնգի գնդակի վիճակների տվյալների հավաքածու, ներառյալ դիրքի, պտտման և արագության վերաբերյալ տվյալները։ Համակարգը օգտվել է այս գրադարանից մոդելավորված միջավայրում, որը նախագծված էր ճշգրտորեն արտացոլելու պինգ-պոնգի խաղերի ֆիզիկան՝ սովորելու այնպիսի հմտություններ, ինչպիսիք են մատուցման վերադարձը, ֆորհենդ թոփսփին կամ բեքհենդ հարվածը։ Քանի որ ռոբոտի սահմանափակումները նշանակում էին, որ այն չէր կարող մատուցել գնդակը, իրական աշխարհի խաղերը ձևափոխվել էին՝ հարմարեցվելով դրան։


Մարդկանց դեմ իր խաղերի ընթացքում ռոբոտը հավաքում է տվյալներ իր կատարողականի մասին՝ օգնելու հղկել իր հմտությունները։ Այն հետևում է գնդակի դիրքին՝ օգտագործելով տվյալներ, որոնք գրանցվում են տեսախցիկների զույգի կողմից, և հետևում է իր մարդ մրցակցի խաղաոճին շարժման գրանցման համակարգի միջոցով, որն օգտագործում է LED-եր մրցակցի թիակի վրա։ Գնդակի տվյալները հետ են սնուցվում մոդելավորման մեջ՝ ուսուցման համար, ստեղծելով շարունակական հետադարձ կապի օղակ։


Այս հետադարձ կապը թույլ է տալիս ռոբոտին փորձարկել նոր հմտություններ՝ փորձելով հաղթել իր մրցակցին, ինչը նշանակում է, որ այն կարող է ճշգրտել իր մարտավարությունը և վարքագիծը ճիշտ այնպես, ինչպես կաներ մարդը։ Սա նշանակում է, որ այն դառնում է առաջադիմաբար ավելի լավը՝ և՛ տվյալ խաղի ընթացքում, և՛ ժամանակի ընթացքում, որքան ավելի շատ խաղեր է խաղում։


Համակարգը դժվարանում էր հարվածել գնդակին, երբ այն հարվածվում էր կա՛մ շատ արագ, կա՛մ իր տեսադաշտից դուրս (սեղանից վեց ոտնաչափից ավելի բարձր), կա՛մ շատ ցածր՝ արձանագրության պատճառով, որը հրահանգում է այն խուսափել բախումներից, որոնք կարող են վնասել իր թիակը։ Պտտվող գնդակները դժվարություն էին ներկայացնում, քանի որ այն չուներ պտույտը ուղղակիորեն չափելու կարողություն՝ սահմանափակում, որից առաջադեմ խաղացողները արագ օգտվեցին։


Մոդելավորված միջավայրում ռոբոտին բոլոր հնարավորությունների համար վարժեցնելը իրական մարտահրավեր է, ասում է Քրիս Ուոլթին՝ Mytra ռոբոտաշինական ընկերության հիմնադիրը և նախկինում Tesla-ի ռոբոտաշինության թիմի ղեկավարը, ով ներգրավված չէր նախագծում։

«Շատ, շատ դժվար է իրականում մոդելավորել իրական աշխարհը, քանի որ կան այնքան շատ փոփոխականներ, ինչպես քամու հոսանքը կամ նույնիսկ փոշին [սեղանի վրա]»,- ասում է նա։ «Եթե չունեք շատ իրատեսական մոդելավորումներ, ռոբոտի կատարողականությունը սահմանափակված է լինելու»։


Google DeepMind-ը հավատում է, որ այս սահմանափակումները կարող են լուծվել մի շարք եղանակներով, ներառյալ՝ մշակելով կանխատեսող AI մոդելներ, որոնք նախագծված են կանխատեսելու գնդակի հետագիծը, և ներմուծելով ավելի լավ բախման հայտնաբերման ալգորիթմներ։


Կարևոր է, որ մարդ խաղացողները վայելել են իրենց խաղերը ռոբոտական թևի դեմ։ Նույնիսկ առաջադեմ մրցակիցները, ովքեր կարողացան հաղթել դրան, ասացին, որ փորձառությունը զվարճալի և գրավիչ էր, և ասացին, որ այն ունի դինամիկ մարզման գործընկերոջ պոտենցիալ՝ օգնելու իրենց հղկել իրենց հմտությունները։


«Ես անպայման կսիրեի ունենալ այն որպես մարզման գործընկեր, մեկը, ում հետ ժամանակ առ ժամանակ կարելի է խաղալ մի քանի խաղ»,- ասաց ուսումնասիրության մասնակիցներից մեկը։


ստեմնյուզտեխնոլոգիաdeepmindնվաճումտեխնոլոգիանմարդուդեմռոբոտաշինությանապագան