×
Как искусственный интеллект от Google просчитывает ходы, о которых человек бы и не догадался

Сеул, Южная Корея – этот ход ничего не значил для людей, собравшихся на шестом этаже отеля Four Seasons. Но машина от Google думала иначе. Машина знала, что люди думают, что этот ход не важен для этих людей. Да, она знала. И все-таки она его сделала, ведь эта машина просчитала столько ходов вперед, сколько бы не продумал ни один человек.

 

Во время второй партии исторической игры в го между Ли Седолем (Lee Sedol), одним из лучших игроков в го, и AlphaGo, искусственным интеллектом, созданным небольшой командой разработчиков из компании Google, эта невероятно умная машина сделала ход, который удивил абсолютно всех присутствующих: толпы репортеров и фотографов, комментаторов игры и, конечно же, самого Ли Седоля. «Это очень странный ход», – сказал тогда один из комментаторов, чрезвычайно талантливый игрок в го (по его же собственному мнению). «Я думал, это ошибка», – говорил другой.  И даже Ли Седолю, после того как он ненадолго покинул комнату после матча, потребовалось пятнадцать минут, чтобы собраться с мыслями.

 

Фань Хуэй, трехкратный чемпион Европы по игре в Го, проигравший AlphaGo пять партий подряд в прошлом октябре, также был совершенно ошеломлен.

 

«Это ход не человека. Я никогда не видел, чтобы кто-то делал такой ход», – сказал он.

 

Однако он все же назвал этот ход «прекрасным». И в самом деле, этот ход изменил весь ход партии и в конечном итоге позволил AlphaGo выйти победителем. Затем машина выиграла и третью игру, безоговорочно победив в игре до трех побед, однако Ли Седоль все-таки смог выиграть четвертую партию, что позволило ему сохранить хоть немного человеческой гордости.

 

AlphaGo

 

Этот ход продемонстрировал всю мощь современного искусственного интеллекта (ИИ), и не только того, который управлял машиной, игравшей в эту старейшую игру на беспрецедентном уровне, а одновременно всех, изобретенных компанией Google, – и это не говоря уж о проектах от Facebook, Microsoft, Twitter, Tesla и SpaceX. После завершения второй партии Фань Хуэй очень красноречиво объяснил, почему этот ход был так важен и прекрасен. Сейчас он является советником команды, разработавшей AlphaGo, он провел последние пять месяцев, играя партию за партией против этой машины, и он полностью осознает, насколько машина сильна в го. Однако есть и другой игрок, который понимает смысл этого хода лучше всех остальных: AlphaGo.

 

Я не мог спросить машину об этом ходе. Но я спросил Дэвида Сильвера (David Silver), человека, руководящего разработкой AlphaGo.

 

«Трудно понять, кому же верить»

 

Сильвер – исследователь из лондонской лаборатории по разработке ИИ под названием DeepMind, которую приобрела компания Google в 2014 году. Он и его команда приехали в Корею задолго до игры, чтобы подготовить к ней машину – и настроить подключение к интернету – всё последующее время они работали, не выходя из отеля, чтобы убедиться в исправности машины и в том, что она готова к каждой партии. Попутно они давали интервью репортерам со всего света.

 

Руководитель разработки Дэвид Сильвер

 

Но все-таки они здесь, чтобы увидеть игру – так же, как и все присутствующие. Один из исследователей из лаборатории DeepMind Айа Хуань (Aja Huang) находился в комнате, где проходил матч, и физически совершал ходы, которые делала AlphaGo. Однако другие члены команды разработчиков, включая Сильвера, были всего лишь зрителями. Во время игры AlphaGo действовала самостоятельно.

 

Однако нельзя сказать, что Сильвер был спокоен во время партий.

 

«Я не могу передать, насколько это был волнующий момент», – сказал мне Сильвер перед третьей партией.

 

Во время партий он сидел в «комнате управления» AlphaGo и следил на экранах компьютеров за целостностью систем машины, наблюдал за тем, что должно произойти по «ожиданиям» машины, и сравнивал эти предсказания с тем, что говорили комментаторы дальше по коридору.

 

«Трудно понять, кому же верить, – говорит он. – С одной стороны ты слушаешь комментаторов, а с другой видишь расчет ходов AlphaGo. И комментаторы чаще всего не правы».

 

Тем не менее во время второй партии, когда был совершен 37-й ход, Сильвер не понимал, что же произошло, так же как и все в отеле Four Seasons – так же как и не понимали миллионы людей, наблюдавшие за игрой в интернете. Но после партии и всеобщего восхваления этого хода он решил вернуться в комнату управления и немного покопаться в расчетах машины.

 

Играя против себя самой

 

Чтобы понять, что же он нашел, вы сначала должны понять, как работает AlphaGo. Первоначально Сильвер и его команда обучали систему играть, используя то, что называется глубокой нейронной сетью, – сеть различного программного и аппаратного обеспечения, имитирующую нейронную сеть человеческого мозга. Эта же технология идентифицирует лица на фотографиях, загружаемых в Facebook, или распознает команды, произнесенные телефонам на базе Android. Если вы «скормите» нейронной сети достаточно фотографий льва, она научится распознавать льва. И если «скормить» ей миллионы различных ходов профессионалов по игре в го, она научится играть в го – игру, которая намного сложней, чем шахматы. Но затем Сильвер и его команда решили пойти дальше.

 

Они решили использовать еще одну технологию, которая называется «обучение с подкреплением». И начали проводить партии, в которых несколько различных версий AlphaGo играли друг против друга. Пока они играли, система оценивала, какие ходы были более успешны – позволяли занять больше места на игровой доске.

 

«AlphaGo научилась сама разрабатывать новые стратегии игры, играя миллионы игр, фактически сама с собой, при этом ее игра постоянно улучшалась», – рассказывал Сильвер, когда DeepMind впервые продемонстрировала такой подход к обучению ранее в этом году.

 

Ли Седоль против AlphaGo

 

Затем они пошли еще дальше. Они стали «скармливать» ходы из партий между двумя AlphaGo другой нейронной сети, еще более совершенствуя ее игру. И именно эта сеть обучила систему просчитывать результаты каждого хода. Благодаря этому машина с высокой точностью смогла определять, какой ход будет более результативным.

 

И в итоге система научилась не только «людским» ходам, но и ходам, которые совершала она сама. Результатом этого является то, что машина стала способна на что-то вроде того, что она сделала во время 37-го хода.

 

Вероятность одна десятитысячная

 

После игры Сильвер смог просмотреть расчеты, которые AlphaGo провела перед 37-м ходом. Опираясь на миллионы возможных ходов, которые сделал бы человек, машина фактически просчитала, какими будут следующие ходы. Вероятность 37-го хода была 0,0001. Другими словами, AlphaGo знала, что профессиональный игрок в го не сделал бы такой ход.

 

Однако, опираясь на ходы, которые машина делала при игре сама с собой, она решила взглянуть на 37-й ход по-другому. Она поняла, что хоть профессионал и не сделал бы этот ход, он все равно окажется довольно результативным.

 

«Система сама пришла к этому выводу, – говорит Сильвер, – благодаря процессу интроспекции и анализу».

 

Уместно ли здесь слово «интроспекция»? Решать вам. Однако Фань Хуэй все же был прав. Этот ход «нечеловеческий». Но все равно прекрасный.

 

Перевод: Вячеслав Гладков

 

Оригинал фото: wired, cbc, dustmoon