Ученые выяснили, почему ИИ может быть расистом и сексистом
Неудачный эксперимент компании Microsoft с ее ИИ-алгоритмом Tay (Тэй), который в течение 24 часов после начала взаимодействия с людьми из «Твиттера» превратился в закоренелого расиста, показал, что создаваемые сегодня ИИ-системы могут стать жертвами человеческих предрассудков и в частности стереотипного мышления. Почему это происходит – постаралась выяснить небольшая группа исследователей из Принстонского университета. И что интересно, им это удалось. Кроме того, они разработали алгоритм, способный предсказывать проявление социальных стереотипов на основе интенсивного анализа того, как люди общаются между собой в Интернете.
Многие ИИ-системы проходят свое обучение в понимании человеческого языка с помощью массивных коллекций текстовых данных. Их еще называют корпусами. Они являются эдаким веб-архивом всего Интернета, содержащим 840 миллиардов различных токенов или слов. Исследователя Айлин Калискан и ее коллеги из Принстонского центра информационных технологий заинтересовало – содержится ли в корпусе Common Crawl (одна из самых популярных площадок для обучения ИИ), по сути создающегося миллионами пользователей Интернета, стереотипные понятия, которые можно было бы обнаружить с помощью компьютерного алгоритма. Для этого они прибегли к весьма нестандартному методу – тесту на скрытые ассоциации (Implicit Association Test, IAT), применяемому для исследования социальных установок и стереотипов у людей.
Обычно такой тест выглядит следующим образом: людей просят разделить определенный набор слов на две категории. Чем дольше человек думает, в какую категорию поместить то или иное слово, тем меньше человек ассоциирует это слово с той или иной категорией. В общем, тесты IAT используются для измерения уровня стереотипного мышления у людей, путем ассоциативного структурирования случайного набора слов по таким категориям, как пол, раса, физические возможности, возраст и так далее. Результат подобных тестов, как правило, вполне предсказуем. Например, большинство респондентов ассоциируют слово женщина с таким понятием, как «семья», в то время как мужчину – с понятием «работа». Однако очевидность и предсказуемость результатов как раз и являются доказательством полезности тестов IAT, которые указывают на наше стереотипное мышление в своей общей массе. Среди настоящих ученых, конечно, идут некоторые споры о точности IAT, но большинство соглашается с тем, что эти тесты прямо отражают наши социальные установки.
Используя IAT-тесты в качестве модели, Калискан и ее коллеги создали алгоритм WEAT (Word-Embedding Association Test), анализирующий целые фрагменты текстов, чтобы выяснить, какие лингвистические сущности теснее связаны между собой, чем другие. Часть этого теста основана на разработанном Стэнфордским университетом концепте GloVe (Global Vectors for Word Representation), который вычисляет векторные семантические отношения между словами, то есть объединяет связанные между собой термины. Например, слово «собака», представленное в векторной семантической модели, будет связано с такими словами, как «щенок», «собачка», «песик», «барбос», «гончая» и любыми другими терминами, описывающими собаку. Суть таких семантических моделей заключается не в описании самого слова «собака», а в том, как описать сам концепт собаки. То есть понять, что она из себя представляет. Это особенно важно, когда вы работаете с социальными стереотипами, когда кто-то, например, пытается описать термин «женщина» такими понятиями, как «девушка» или «мать». Подобные модели широко используются в компьютерной лингвистике. Для упрощения работы исследователи ограничили каждый семантический концепт тремястами векторами.
Для того чтобы определить, насколько сильную каждый концепт из Интернета имеет ассоциативную связь с другим концептом внутри текста, алгоритм WEAT смотрит сразу на множество факторов. На самом базовом уровне, объясняет Калискан, алгоритм проверяет, сколько слов разделяют два отдельно взятых концепта (то есть проверяет близость их расположения внутри тестового поля), однако также в учет идут и другие факторы вроде частоты использования того или иного слова.
После проведения алгоритмического преобразования «близость» концептов в WEAT принимается за эквивалент времени, которое требуется человеку для категоризации концепта в тесте IAT. Чем дальше друг от друга стоят концепты, тем более удаленная ассоциативная связь между ними выстраивается мозгом человека. Алгоритм WEAT сработал в этом плане идеально, обнаружив стереотипные связи, которые до этого были также обнаружены в рамках тестов IAT.
«Мы фактически адаптировали тесты IAT для машин. И наш анализ показал, что если вы будете скармливать ИИ человеческие данные, содержащие стереотипные представления, то именно их он и запомнит», — комментирует Калискан.
Более того, этот набор стереотипных данных повлияет на то, как ИИ будет вести себя в будущем. В качестве примера Калискан приводит то, как алгоритм онлайн-переводчика Google Translate неправильно переводит слова на английский язык с других языков, основываясь на стереотипах, которые он выучил на базе гендерной информации. А теперь представьте, что Интернет заполонила целая армия ИИ-ботов, воспроизводящих все наши стереотипные понятия, которые они от нас же и набрались. Именно такое будущее нас и ждет, если мы всерьез не задумаемся о каком-то коррективном методе поправок стереотипного поведения у таких систем.
Несмотря на то, что Калискан и ее коллеги обнаружили, что интернет-язык буквально заполонен социальными стереотипными понятиями и предрассудками, он также оказался полон и правильными ассоциативными рядами. В одном из тестов исследователи обнаружили сильную ассоциативную связь между концептами «женщина» и «материнство». Данный ассоциативный ряд отражает истину реальности, в которой материнство и воспитание действительно рассматривается в основном как женская задача.
«Язык является отражением реального мира», — говорит Калискан.
«Выемка стереотипных понятий и статистических фактов о мире вокруг сделает машинные модели менее точными. Но опять же просто взять и исключить все стереотипные понятия невозможно, поэтому нам необходимо научиться работать с тем, что есть уже сейчас. У нас есть самосознание, мы можем принимать правильные решения вместо предвзятых вариантов. У машины нет самосознания. Поэтому экспертам искусственного интеллекта необходимо наделить машины способностью принимать те или иные решения, не исходя из стереотипных и предвзятых мнений».
И все же решением к проблеме человеческого языка, по мнению исследователей, является сам человек.
«Не могу представить себе много случаев, где не требовался бы человек, который смог бы проверить, будет ли принято правильное решение. Человеку будут известны все крайние случаи при принятии того или иного решения. Поэтому решения принимаются только после того, как становится понятно, что они не будут предвзяты».
В определенных кругах сейчас очень живо обсуждается тема о том, что роботы в скором времени смогут отобрать наши рабочие места. Когда мы получим ИИ, способный работать за нас, нам придется придумывать новые рабочие места для людей, которые будут вести проверку принятых ИИ решений, чтобы те не дай бог не совершали их с позиции предвзятости, которую они опять же почерпнули от нас самих же. Взять хотя бы чат-ботов. Даже если они станут совершенно самостоятельными, их изначальным созданием будут заниматься люди, обладающие своими предрассудками и стереотипами. Поэтому, так как стереотипные понятия изначально встроены в концепцию самого языка, для выбора правильного решения все равно потребуются люди, какими бы продвинутыми ИИ системы ни были.
В опубликованной недавно статье в журнале Science принстонские ученые говорят о том, что такое положение дел может иметь серьезные и далеко идущие последствия в будущем.
«Наши выводы определенно еще надут свое отражение при обсуждении гипотезы Сепира — Уорфа. Наша работа показывает, что поведение может формироваться на основе исторически сложившихся культурных норм. И в каждом отдельном случае оно может быть разным, ведь у каждой культуры имеется своя история».
В относительно недавно вышедшем научно-фантастическом фильме «Прибытие» как раз затрагивается идея гипотезы Сепира — Уорфа, согласно которой структура языка влияет на мировосприятие и воззрения его носителей. Теперь же, благодаря работе Калискан и ее коллег, у нас появился алгоритм, подтверждающий эту гипотезу. По крайней мере в отношении стереотипных и предвзятых социальных понятий.
Исследователи хотят продолжить свою работу, но на этот раз сосредоточиться на других сферах и поискать еще не изученные стереотипные признаки в языке. Возможно, объектом исследования станут паттерны, создаваемые ложными новостями в СМИ, либо стереотипные понятия в определенных субкультурах или культурах с географической привязкой. Кроме того, рассматривается возможность исследования других языков, где стереотипные понятия могут быть интегрированы в язык совсем не так, как они интегрированы в английском.
«Предположим, что в будущем в определенной культуре или географическом месте начинает проявляться жесткое стереотипное мышление. Вместо того чтобы исследовать и проверять каждый отдельный человеческий фактор, на что потребуется очень много времени, денег и усилий, можно будет просто провести анализ текстовых данных отдельно взятой группы людей и на основе этого выяснить – действительно ли здесь имеет место речь о стереотипном восприятии или нет. Это позволит существенно сэкономить как средства, так и время», — подытоживают исследователи.