×
Google учит роботов обучать друг друга

Поэт Джон Донн как-то сказал: «Ни один человек не является островом, отделенным от других», и это еще более верно для роботов. В то время как мы, люди, можем поделиться своим опытом и знаниями с помощью языка и демонстраций, роботы имеют потенциал, чтобы мгновенно поделиться всеми своими навыками, которым они научились, с помощью простой передачи информации по сети. Именно поэтому «облако робототехники» так перспективно для Google, и над ним работает целый дивизион компании Google Research.

 

Человеческий мозг имеет миллиарды нейронов, а между ними образуется непостижимое количество соединений. Нейроны взаимодействуют друг с другом и определяют, как мы думаем и учимся. Закрепление приобретенных рефлексов или рабочих навыков также зависит от них. Но теперь уже мы влияем на обучаемость роботов, методики их обучения. И эти усилия окупятся в будущем.

 

Искусственные нейронные сети имеют структуру, аналогичную человеческой, только в меньшем масштабе. Роботы могут получить задание и решать его методом проб и ошибок, пока не придут к лучшему решению. А затем они делятся этим решением с другими роботами, и тем уже не нужно проходить тот же путь.

 

На раннем этапе поведение роботов при решении поставленной задачи может выглядеть совершенно случайным для стороннего наблюдателя. Но, пробуя разные вещи, с течением времени они узнают, какие действия приближают их к результату, и сосредотачивают свое внимание на нем. Поиск наиболее эффективного способа достижения для каждого робота в отдельности занимает больше времени, чем с той же задачей справился бы человек, но целом коллектив роботов, работая на благо «облака робототехники», решает поставленные задачи быстрее, чем разобщенная группа людей.

 

Проще говоря, если получилось у одного робота, то через несколько секунд это будут уметь все роботы, подключенные к облаку. Фаза экспериментов минуется, и сторонний робот сразу становится «экспертом». Один робот учит других, к примеру, правильно открывать двери, перемещать объекты. Периодически роботы загружают то, чему они научились, на сервер и скачивают себе последнюю версию положительного опыта прочих роботов. После обновления каждый из них имеет более полную картину, чем любой с его индивидуальным опытом.

 

Используя эти облачные знания, команда Google Research провела три различных типа экспериментов, обучая роботов по-разному, чтобы найти наиболее эффективный и точный способ для них, чтобы построить общую модель навыка.

 

Во-первых, несколько роботов, подключенных к общей нейронной сети, получили задачу открыть дверь методом проб и ошибок. В одиночку. Как показывает видео ниже, сначала они, кажется, слепо шарят вокруг, затем начинают выяснять, какие из действий приближают их к цели.

 

 

Через несколько часов экспериментов роботы уже работают вместе, чтобы открыть дверь: тянутся к ручке, поворачивают ее и тянут. Они понимают, что эти действия приводят к успеху, без необходимости построения явной модели, почему это так работает.

 

 

Во втором эксперименте исследователи протестировали модель прогнозирования. Роботы получили поднос, полный повседневных предметов для игры, и принялись их использовать, развивая базовое понимание причинно-следственных связей. Опять же их выводы являются общими, и группа может затем использовать индивидуальный опыт, постоянно совершенствуя причинно-следственную модель, чтобы предсказать, какие действия приведут к лучшему результату.

 

Используя компьютерный интерфейс, показывающий место испытания, исследователи могли бы сказать, где и когда роботы совершат следующее действие. Поскольку робот опирается лишь на положительный опыт своих коллег, он довольно предсказуем в плане решения поставленной задачи. Если он научился открывать дверь одним эффективным способом, он не будет изобретать что-то новое, как может человек. И вторая задача, которая стоит перед человеком, – это заставить робота придумать другие ходы. То есть не повторяться, а приходить к тому же результату, но иначе. 

 

 

Роботы вынуждены менять свою политику и вносить поправки в достижение цели. И вот тут облако начинает уже обновляться интенсивнее. В запасе растет количество трюков для выполнения поставленных задач, а значит, увеличивается эффективность робота.

 

В чем смысл всего этого? В развитии искусственных нейронных сетей. Чем больше данных получает робот, тем лучше работает команда роботов, одновременно обучая друг друга и множа накопленные знания, то есть опять же загружая новые данные. Это лавинообразное обучение и приводит к тому, что роботы умнеют буквально на глазах, исходя из заложенного в них потенциала.

 

Автор: Степан Мазур

 

Оригинал фото: newatlas