Искусственный интеллект всё ещё не понимает действий Гомера Симпсона

Кажется, искусственный интеллект уже достиг невероятного развития: игры в го, покер, восстановление фотографий и многое – многое другое. Но одно даётся ему до сих пор с трудом: распознавание многих обычных типов поведения Гомера Симпсона, например, как тот пьёт пиво, ест чипсы или пончики, зевает и многое другое. Именно поэтому DeepMind создал огромный новый набор данных клипов из YouTube, чтобы обучить ИИ выявлять в видео обычные человеческие действия. Но понимание Гомера всё еще не по силам искусственному интеллекту.

Самый популярный ИИ, используемый Google, Facebook, Amazon и другими компаниями за пределами Силиконовой долины, основан на алгоритмах глубокого обучения, которые могут научиться находить «шаблоны» в огромных объемах данных. Чтобы помочь улучшить способность искусственного интеллекта распознавать действия человека в движении, DeepMind представила свой набор данных Kinetics, состоящий из 300 000 видеоклипов и 400 видов человеческих действий.

«ИИ сегодня очень хорошо распознают объекты в изображениях, но все еще имеют ряд проблем с восприятием видео. Одной из основных причин этого является то, что исследовательскому сообществу до сих пор не хватало большого высококачественного набора видеоданных», - говорит пресс-секретарь DeepMind.

Каждое из 400 действий в наборе данных Kinetics содержит как минимум 400 видеоклипов, каждый клип длится около 10 секунд и берется из отдельных видеороликов на YouTube.

Новый набор данных Kinetics, по-видимому, будет представлять собой новый ориентир для учебных наборов данных. У него гораздо больше видеороликов и классов действий, чем в прошлых наборах HMDB-51 и UCF-101. DeepMind также поставила задачу не включать в набор разные отрывки из одних и тех же роликов.

Раннее обучение и тестирование с помощью Kinetics привело к интересным результатам. Например, алгоритмы глубокого обучения показали точность 80% и более при классификации таких действий, как «игра в теннис», «ползанье ребенка», «представление прогноза погоды», «резка арбуза» и «боулинг». Но точность классификации снизилась до 20% или менее для действий Гомера Симпсона, включая похлопывание и поворот головы, а также множество других действий, таких как «изготовление торта», «бросание монеты» и «приглаживание волос».

ИИ сталкивается с особыми проблемами с классификацией таких действий, как «еда», потому что он не в состоянии точно идентифицировать конкретную пищу, особенно если хот – дог или гамбургер уже частично съедены или кажутся очень маленькими в кадре. Танцевальные классы и действия, ориентированные на определенную часть тела, также могут оказаться сложными. По словам представителя DeepMind, некоторые действия также происходят довольно быстро и видны только в небольшом количестве кадров в видеоролике.

DeepMind также хотел узнать, имеет ли новый набор данных Kinetics достаточный гендерный и этнический баланс, чтобы обеспечить точное обучение ИИ. Прошлые случаи показали, как несбалансированные учебные наборы данных могут привести к тому, что алгоритмы глубокого обучения работают хуже при распознавании лиц определенных этнических групп. Исследователи также показали, как такие алгоритмы могут отображать гендерные и расовые предубеждения.

Предварительное исследование показало, что новый набор данных Kinetics, по-видимому, достаточно сбалансирован. Исследователи DeepMind обнаружили, что ни один гендер не доминировал в 340 из 400 классов действий, иначе невозможно было определить пол в этих действиях. В набор не вошли видео действий, особенных лишь для определённого пола, такие как «бритьё бороды» или «игра в баскетбол» (свойственна для мужчин) и «окрашивание бровей» или «черлидинг» (чаще связана с женщинами).

Но даже классы действий, которые имели гендерный дисбаланс, не ухудшили эффективность анализа. Это означает, что ИИ не предвзят в определении действий, в которых участвуют в основном мужчины, например, «игра в покер» или «бросок молота». До сих пор алгоритмы глубокого обучения не могли распознать участников-женщин, совершающих те же действия (игру в покер или другие «мужские» действия).

«Понимание видео представляет собой серьезную проблему для исследовательского сообщества, и мы находимся на самом раннем этапе развития технологии», - сказал представитель DeepMind.