Как программистам приходится бороться со сложностями при распознавании лиц. | SHIFU.IO
Переводы
Как программистам приходится бороться со сложностями при распознавании лиц.
Редакция 05.04.2018

Источник: Tom Simonite, wired.com

Прошлым летом Генри Ган был крайне удивлён, когда он протестировал на коллегах новую систему распознавания лиц от Gfycat. Программа успешно справилась с большинством людей, но не смогла различить азиатских сотрудников, в том числе самого Гана. Его мог бы утешить тот факт, что с похожими проблемами сталкиваются и гораздо более крупные компании. В этом феврале было опубликовано исследование, которое показало, что сервисы по распознаванию лиц, которые предлагают Microsoft и IBM, были, как минимум, на 95% точнее при распознавании женщин с более светлой кожей, но при исследовании изображений чернокожих женщин ошибались в 10 раз чаще. Обе компании утверждают, что улучшили свои системы, но не раскрывают, как именно. Ещё раньше было замечено, что сервис Google’s Photos не выдает результаты на запросы «горилла», «шимпанзе» или «обезьяна». Оказался, что такая цензура необходима для предотвращения неприятных инцидентов, когда поисковик ошибочно мог принять фотографии чернокожих людей за обезьян.

Такая опасность при использовании искусственного интеллекта привлекает всё большее внимание как коммерческих, так и научных исследователей. Машинное обучение показывает перспективы для разнообразных применений, вроде расширения клиентских продуктов или повышения эффективности компаний. Но вместе с тем копятся и доказательства того, что это, предположительно умное программное обеспечение может как нефиг делать вырастить или укрепить социальные предрассудки.

Это становится более серьёзной проблемой, поскольку такое ПО распространяются всё более широко, и всё больше предприятий экспериментируют с искусственным интеллектом. Однако в целом понимание того, как тестировать, измерять и предотвращать предвзятость, не распространяется вместе с такими программами.

  • «Многие компании сейчас серьезно относятся к этим вещам, но учебник по их исправлению все еще написан», - Мередит Уиттакер, содиректор AI Now (института, который специализируется на этике и искусственном интеллекте в Нью-Йоркском университете).

Gfycat погрузилась в распознавание лица, чтобы помочь людям найти идеальную анимированную реакцию для чатов с друзьями. Вообще эта веб-платформа для загрузки и размещения короткого видеоконтента от котенка до забавной мимики больших шишек. Добавляя распознавание лиц, руководители посчитали, что они смогут улучшить качество поиска общественных деятелей, вроде звезд кино или музыки.

Но поскольку Gfycat – это стартап из 17 человек, у неё нет огромной ИИ-лаборатории, которая бы изобретала новые средства машинного обучения. Компания использовала ПО для распознавания лиц с открытым исходным кодом, основанным на исследованиях Microsoft, и загрузила в него миллионы фотографий. Но наравне с невозможностью различить простых коллег, система оказалась неспособной различить азиатских знаменитостей, таких как Констанс Ву и Люси Лью. Плюс, она плохо распознавала людей с более тёмными тонами кожи. Ган понял, что, хотя сейчас и легко получить доступ к мощнейшим компонентам машинного обучения, но сделать их одинаково хорошо работающими для разных этнических групп уже не так просто.

Сначала он попытался решить проблему, собрав больше примеров тех лиц, где ПО не справилось. Свободные наборы данных, используемые для обучения систем состояли из фотографий знаменитостей и общественных деятелей из интернета; там было одинаково много фотографий и мужчин, и женщин, но белых людей та было больше, чем других рас. Добавление в азиатские и чернокожие наборы лиц знаменитостей из собственной коллекции изображений Gfycat помогло лишь незначительно. Распознаватель лиц всё ещё путал азиатов, типа звёзд K-Pop (одна из самых популярных категорий GIF на Gfycat). Больше не путает:


Исправление, которое в конечном итоге сделало надежную универсальную систему распознавания лиц Gfycat, заключалось в том, чтобы построить своего рода азиато-детектор. Когда в систему загружается новое фото, которое система считает похожим на кластер азиатских лиц в своей базе, она переключается в более чувствительный режим, применяя более строгие требования до объявления соответствия. «Само проговаривание этого звучит слегка как предрассудок, но это был единственный способ заставить приложение не отмечать каждого азиатского человека, как Джеки Чан, или что-то в этом роде», - говорит Ган. В самой компании утверждают, что сейчас система точна на 98% для белых, и на 93% для азиатов.

Заставлять искусственный интеллект специально выискивать расовые различия на первый взгляд может показаться странным и не очень этичным способом уравнивания отношения к разным этническим группам. Но поскольку технологии распознавания лиц используются всё более широко, разброс в точности для разных групп стал более очевидным, и может быть полезным управлять программой путём предоставления ей информации о физических различиях между людьми, таких как тон кожи или структура лица.

Эту идею поддерживают и другие компании. Исследователи Google в декабре опубликовали отчёт, в котором сообщается о новой контрольной точке точности для программного обеспечения, распознающего улыбки. Они сделали это, построив систему, которая ищет признаки того, что человек - мужчина или женщина, принадлежит к одной из четырёх рас. Но в документе также содержится этическое предупреждение об отказе от ответственности, в котором говорится, что ИИ-систему не следует использовать для определения расы, и что использование только двух гендерных и четырёх расовых категорий может быть недостаточно для некоторых случаев.

Конкурентоспособное давление на развертывание ИИ повсюду и быстро, имеет компании большие и малые схватки с такими сложными проблемами, как распознавание лиц и гонка на лету.

Над вопросом работает также компания Modiface из Торонто. Она представила технологию, которая в реальном времени наносит виртуальный макияж на видео на смартфоне. Технология используется в приложениях косметических брендов, типа Sephora, недавно её также приобрёл L'Oreal. Modiface утверждают, что проработали её настолько тщательно, что технология работает одинаково хорошо на всех типах лиц любой расы. Для этого Modiface изначально объединил несколько открытых наборов данных, таких же какие были использованы Gfycat, но этого оказалось недостаточно. Сейчас у Modiface около четверти миллиона изображений не менее 5000 человек из ключевых этнических групп (ближневосточной, испаноязычной и азиатской). У компании также большой опыт в том, как определенные черты лица отличаются в зависимости от человеческой расы.


В будущем предпринимателям потребуются ещё большие ресурсы, чтобы справляться с такими проблемами, и они могут столкнуться с требованиями раскрывать, как работает их система распознавания в разных демографических группах. Некоторые исследователи, работающие над предвзятостью в ИИ, предложили отраслевые стандарты, чтобы требовать прозрачности в отношении ограничений и производительности данных машинного обучения и программного обеспечения. Например, чтобы организации, занимающиеся распознаванием лиц, типа Facebook или ФБР, раскрывали статистические данные о точности своих систем для разных групп людей. Это поможет уменьшить риск того, что люди случайно сделают что-то неэтичное со свободными инструментами машинного обучения.

Редакция 05.04.2018