ИИ от Google научили быть «крайне агрессивным» при стрессовых ситуациях
В прошлом году знаменитый физик-теоретик Стивен Хокинг заявил, что совершенствование искусственного интеллекта станет «либо лучшим, либо худшим событием для всего человечества». Все мы смотрели «Терминатора» и все мы отлично представляем, каким апокалиптическим адом может стать наше существование, если такая обладающая самосознанием ИИ-система, как «Скайнет», однажды решит, что в человечестве она больше не нуждается. И последние результаты работы новой ИИ-системы от компании DeepMind (принадлежит Google) лишь очередной раз напоминают нам о необходимости быть крайне осторожными при производство роботов будущего.
В исследованиях, проводившихся в конце прошлого года, ИИ от DeepMind обрел и продемонстрировал возможность своего обучения независимо от того, что заложено в его память, а еще победил лучших в мире игроков в логическую игру го. Помимо этого, он совершенствовал свои навыки в чтении по губам и имитировании человеческого голоса.
В рамках же последних испытаний системы исследователи проверяли «ее стремление» к сотрудничеству. Тесты показали, когда ИИ DeepMind «чувствует», что вот-вот проиграет, то для избегания проигрыша он начинает выбирать новые и «крайне агрессивные» стратегии. Команда Google провела с ИИ 40 миллионов сессий в простой компьютерной игре Gathering, где от игрока требовалось собрать как можно больше нужных фруктов. ИИ DeepMind управлял двумя «игроками-агентами» (синим кубиком и красным кубиком). Инженеры Google дали системе задачу устроить соревнование между «агентами» и собрать столько виртуальных яблок (зеленых квадратиков), сколько получится.
До поры до времени, пока «агенты» могли без проблем собирать фрукты, имеющиеся в большом количестве, все шло гладко. Но как только запас яблок сокращался, поведение «агентов» становилось «агрессивным». Они стали активнее использовать средство (лазерный луч), которое помогало выбить противника за игровой экран и затем самому собрать все яблоки:
Что интересно, за выбивание противника с поля с помощью лазерного луча никакой дополнительной награды не предлагалось. Выбитый противник лишь некоторое время находится за пределами экрана, в то время как более успешный противник имел возможность беспрепятственно собрать побольше виртуальных яблок.
Если бы «агенты» не использовали лазерные лучи, то теоретически количество собранных ими яблок было бы одинаковым. Это в принципе и происходило, когда в качестве «агентов» использовались более низкоуровневые и «менее интеллектуальные» варианты DeepMind. Более агрессивное поведение, вредительство и жадность стали проявляться только тогда, когда команда Google стала использовать более и более сложные формы DeepMind.
Когда исследователи использовали в качестве «агентов» более простые сети DeepMind, то между ними отмечалось наличие «атмосферы более дружелюбного сосуществования на игровом поле». Однако, когда управление агентами передавалось все более и более сложным формам сетей, ИИ становился агрессивнее и стал пытаться заранее выбить оппонента с игрового поля, чтобы первым быстрее добраться до львиной доли добычи из виртуальных яблок. Ученые Google предполагают, что чем умнее «агент», тем он эффективнее способен обучаться, адаптироваться к условиям среды и доступных методов, и в конечном итоге приходить к использованию наиболее агрессивной тактики для победы.
«Эта модель показывает, что результатом обучения и адаптации к условиям окружающей среды является проявление некоторых аспектов, свойственных человеческому поведению», — говорит Джоэль З. Лейбо, один из исследователей, проводивших этот эксперимент.
«Менее агрессивное поведение проявлялось только при обучении и нахождении в относительно безопасной среде, с меньшей вероятностью последствий после тех или иных действий. Жадность же, в свою очередь, отражалась в стремлении обогнать соперника и самостоятельно собрать все яблоки».
После «сбора урожая» DeepMind предложили сыграть в другую игру, под названием Wolfpack. На сей раз в ней присутствовали сразу три ИИ-агента: два играли роль волков, а оставшийся – роль добычи. В отличие от игры Gathering, новая игра всячески способствовала сотрудничеству между волками. Во-первых, так легче поймать добычу, а во-вторых, если оба «волка» находились рядом с загнанной добычей, они оба получали некую награду, в независимости от того, кто именно ее поймал.
«Идея заключается в том, что добыча может быть опасной. Кроме того, может одинокий волк и способен ее загнать, но есть риск ее потери в результате нападения падальщиков», — объясняет команда.
«Но если оба волка загоняют добычу вместе, то они способны лучше ее защищать от падальщиков и благодаря этому получают повышенную награду».
В общем и целом из игры Gathering ИИ DeepMind уяснил, что агрессия и эгоизм являются наиболее эффективными стратегиями для получения нужного результата в конкретно взятой среде. Из Wolfpack та же система поняла, что сотрудничество, в отличие от индивидуальных попыток, может стать ключом к более ценной награде в определенных ситуациях. И хотя описанные выше тестовые среды являются лишь элементарными компьютерными играми – основной посыл понятен уже сейчас. Возьмите разные ИИ, обладающие конкурирующими интересами в реальной ситуациях, поместите в одну среду, и, возможно, если их задачи не компенсируются общей целью, результатом может стать настоящая война. Особенно если человек, как один из звеньев в достижении этой цели, будет исключен.
В качестве примера просто представьте себе светофоры, управляемые ИИ, и беспилотные автомобили, пытающиеся самостоятельно найти быстрейший маршрут. Каждый выполняет свои задачи с целью получения наиболее безопасного и наиболее эффективного результата для общества.
Несмотря на «младенческие» годы DeepMind и отсутствие какого бы то ни было стороннего критического анализа его возможностей, результаты его испытаний наводят на следующие мысли: даже если мы их и создаем, это совсем не означает, что в роботах и ИИ-системах будет автоматическим образом заложено стремление ставить наши человеческие интересы выше их собственных. Поэтому нам самим необходимо «закладывать доброжелательность» в природу машин и предвидеть любые «лазейки», которые могут позволить им добраться до тех самых лазерных лучей.
Один из основных тезисов инициативной группы OpenAI, направленной на изучение вопросов этики искусственного интеллекта, как-то прозвучал в 2015 году следующим образом:
«Сегодняшние ИИ-системы обладают удивительными, но узкоспециализированными возможностями. И вероятнее всего, мы еще долгое время не будем их сдерживать в своем совершенствовании. По крайней мере до тех пор, пока их возможности в решении практически каждой интеллектуальной задачи не станут превосходить человеческие. Сложно представить, какой именно уровень пользы сможет принести ИИ человеческого уровня для общества, равно как и сложно представить, какой урон он сможет нанести обществу при халатном отношении к его созданию и использованию».