Машинное обучение учится не только "говорить", но и перенимает стереотипы

Машинное обучение - это средство для получения искусственного интеллекта путем обнаружения закономерностей в существующих данных. Новая работа показала, что применение машинного обучения к обыденному человеческому языку приводит к перенятию ценностей и стереотипов. Результаты показывают, что текстовые собрания содержат «отпечатки» наших исторических пристрастий, независимо от того, нейтральны ли они по (например, ассоциации насекомые – цветы), проблематичны (отношение к расе или полу) или даже просто правдивы (распределение карьеры и профессий по полу или имени). Учёные надеются устранить предвзятое отношение не только в культуре, но и в искусственном интеллекте.

Поиск имен, носителями которых чаще всего являются женщины. Aylin Caliskan

Идея о том, что семантика текстов связана с культурными стереотипами и ассоциациациями, давно известна в лингвистике, но в новой работе учёные дополнили эту информацию. Во-первых, авторы использовали слова-вложения как мощный инструмент «вызова» ассоциаций. Во-вторых, копирование документированных человеческих предубеждений может помочь понять изучения предрассудки и поведение людей. В-третьих, новая работа показывает, что культурные стереотипы распространяются даже на технологии искусственного интеллекта (ИИ).

Оказалось, что машинное обучение «поглощает» стереотипные предубеждения так же легко, как и любые другие. Было установлено, что связка имен, ассоциированных с европейцами, была гораздо чаще связана с приятными, чем с неприятными терминами, по сравнению со связкой афроамериканских имен.

В одном широко известном исследовании Бертран и Муллайнатан отправили почти 5000 идентичных резюме в ответ на 1300 объявлений о вакансиях, варьируя только имена кандидатов. Они обнаружили, что европейско-американские кандидаты на 50% чаще могут получить возможность пройти собеседование.

Обращаясь к гендерным предубеждениям, учёные повторили открытие, что женские имена больше связаны с семьей, чем со словами карьеры, по сравнению с мужскими именами. Этот IAT (тест на неосознанные ассоциации) был проведен онлайн и, следовательно, имеет гораздо больший объем тематических пулов, но гораздо меньше ключевых слов. Кроме того, воспроизвели онлайн-вывод IAT о том, что женские слова (например, «женщина» и «девушка») больше связаны с искусством, а мужские с математикой.

Предполагалось, что скрытые гендерные предубеждения связаны с половыми различиями при выборе профессии. Чтобы лучше понять взаимосвязь, мы исследовали зависимость между гендерной ассоциацией с профессией и данными о рабочих местах. Данные получены из Бюро статистики труда США, в котором представлена информация о количестве женщин (в процентах), занятых в определённой профессии.

Ассоциации традиционно женских имен с профессиями из списка - от редкого к частому. Credit: Aylin Caliskan

Точно так же мы смотрели на достоверную связь пола с андрогинными именами, то есть именами, используемыми в отношении обоих полов. В этом случае самой последней информацией, которую мы смогли найти, была перепись 1990 года и гендерная статистика.

Наши результаты также предполагают нулевую гипотезу для объяснения происхождения предвзятого поведения у людей, а именно, неявную передачу информации об идентичности внутри / вне группы с помощью языка. То есть, прежде чем предоставить явное или институциональное объяснение того, почему люди принимают предвзятые решения, нужно показать, что это не был простой результат бездумного воспроизведения статистических закономерностей, поглощенных языком. Аналогичным образом, прежде чем ставить сложные модели того, как стереотипные отношения сохраняются от одного поколения к другому или от одной группы к другой, мы должны проверить, достаточно ли просто выучить язык, чтобы объяснить (некоторые) наблюдаемые передачи предрассудков.

Наша работа важна для понимания искусственного интеллекта и машинного обучения из-за опасения, что эти технологии могут сохранить культурные стереотипы. Наши результаты говорят о том, что, если мы построим интеллектуальную систему, которая будет достаточно изучать свойства языка, чтобы понимать и производить его, в процессе она также приобретет исторические культурные ассоциации, некоторые из которых могут быть неприемлемыми. Если бы технологии машинного обучения, используемые для, скажем, скрининга резюме, впитают культурные стереотипы, это может привести к предвзятым результатам.