Цифровое распознавание мимики.

Когда Пол Экман, американский психолог, прототип главного героя из «Обмани меня», доктора Кэла Лайтмана, в 1967 году отправился в Папуа Новую Гвинею изучать невербальные реакции людей в изолированных племенах юго-восточного нагорья, все еще пребывающих на этапе Каменного века, он убедился в правдивости тезиса Дарвина о том, что человеческая мимика универсальна и не зависит от возраста, пола, расы и т. д. Вместе с другим ученым, Уоллесом Фризеном, он разработал систему объективного измерения движений черт лица, — классификацию мимических жестов, с помощью которой можно закодировать практически любой из них, например, знаменитую американскую улыбку.

Тест Алана Тьюринга, ученого, заинтересовавшегося способностью компьютера к мышлению, создан более 50 лет назад. Стандартный вариант этого испытания заключается в том, что человек, после письменного общения, делает вывод, переписывался ли он с машиной, или с другим человеком. Именно для того чтобы определить это было сложнее, вопросы и ответы излагаются на бумаге.

Цифровое распознавание мимики
Цифровое распознавание мимики

Пространство взаимодействия человека и компьютера расширяется, технические способы постановки задачи перед машиной упрощаются. Работы по распознаванию тембров голоса, ритмов и его интенсивности, проходят наряду с теми, которые направлены на считывание информации с жестов, в том числе, мимических. Выражение лица сообщает другому человеку дополнительную информацию о настроении собеседника, а по некоторым оценкам, мимика даже важнее вербальных жестов.

Компания Affectiva, заявившая, что располагает данными почти 3 млн. лиц полученных из видеозаписей, возможно, наиболее успешна в области распознавания человеческих реакций по мимическим и физиологическим сигналам. Чтобы участвовать в их исследовании, достаточно зайти на сайт компании, перейти на приложение, и посмотреть небольшой видеоролик при включенной веб-камере.

«Программное обеспечение использует алгоритмы для считывания выражений. Однако не хранит кадров», — говорит Главный научный сотрудник и соучредитель основанной в 2009 году компании, Рана эль Калиоби о беспокойствах в связи с конфиденциальностью полученных сведений.

Если камера снимает несколько человек, программа выделит их профили, затем определит главные области лица: нос, рот, глаза, брови, приписывая каждой определенное количество очков. Собирается информация и о движениях морщин, будь то расположенных вокруг рта или над бровями, — Affdex, приложение, объединит ее с бесчисленными другими сведениями.

Видеоролики, которые смотрит добровольный участник — это реклама, концепции презентаций продуктов, другой медиа-контент. Таким нехитрым способом Affectiva продолжает бесплатно собирать данные о мимике, принимая заказы от Coca-Cola, Mars, Unilever, рекламных агентств. Приложение использовал CBS в лаборатории при тестировании новых шоу, команда Affectiva работает с конкурентом Google, Oovoo, для внедрения системы в видео звонки.

«Люди все чаще и чаще связываются через видеоконференции, — говорит Калиоби, — но все эти данные не анализируют».

Программное обеспечение может показывать то, что человек не заметил во время деловых переговоров, как во время беседы, так и по завершению.

«Технология скажет: «ОК, Мистер Кто-то демонстрирует признаки вовлечения, или просто ухмыльнулся, так что его не убедили».

Помимо рекламы, подобное распознавание уместно в образовании, видеоиграх, и конечно, медицине, особенно в аутизме, больные которым не могут интуитивно понимать жесты здоровых людей.

«Мы можем точно в срок давать информацию, которая время от времени на протяжении всей жизни будет помогать отдельным людям», — говорит Уинслоу Барлесон, доцент кафедры человеко-машинного взаимодействия Аризонского университета.

Несмотря на то, что Калиоби постоянно подчеркивает: Affdex распознает мимику, а не отгадывает мысли, приложение часто воспринимают как такое, что делает надежные выводы об эмоциональных реакциях. Человеческое лицо — это сложный набор элементов, которые постоянно двигаются, так что компьютер сложно запрограммировать для такого объема вычислений, без усилий совершаемых человеком во время разговора. В цифровом изображении, кроме самих черт лица, есть еще угол, освещение; мимика может быть нечеткой, слишком быстрой, и сочетаться по-разному. Создатели программы пытаются научить компьютер делать то же, что и человек, используя для интерпретации данных готовые шаблоны.

«Идея о том, что компьютер может помочь нам взаимодействовать друг с другом — это то, что затянуло меня», — говорит Калиоби об окончании Американского университета в Каире.

Рана эль Калиоби - программист
Рана эль Калиоби - программист

Тогда она работала программистом в одном из египетских технических стартапов, и только что поступила в аспирантуру Кембриджа. Она получила книгу Розалинд Пикард, ученого, известного работами над распознаванием компьютером человеческих эмоций и его способностью к симулированию эмпатии.

«Тогда я сделала нечто несвойственное молодым замужним египтянкам. При поддержке мужа, который остался в Египте, я упаковала чемоданы и отправилась в Англию».

Книга воодушевила девушку на собственные исследования, которым она посвятила следующие 15 лет.

В Кембридже есть специальный исследовательский центр, занимающийся аутизмом. Когда Калиоби оказалась в университете, в нем работали над описанием эмоций каждого выражения человеческого лица; с помощью каталога мимических жестов больным аутизмом хотели помочь в социальном взаимодействии. Ко времени получения докторской степени, Калиоби создала программу MindReader, которая могла распознавать некоторую мимику при относительно различных параметрах. Она узнала, что Пикард собирается посетить лабораторию, в которой работала девушка, уделяя по 10 минут каждому исследователю. С Калиоби она проговорила час, а позже Национальный научный фонд выделил двум ученым почти 1 млн. $ на прототип распознающего устройства.

Это был 2006 год. Среди предложенных для разработки вариантов устройства была компьютерная мышь, а также аппарат, размещаемый на теле, который мог бы считывать реакции по движениям кожи. Однако остановились на очках. Носимые очки, считывающие информацию с лица собеседника и передающие сигнал в устройство на руке, вот что было удобно для детей. В том году «эмоциональный слуховой аппарат» вошел в топ-100 инноваций года The New-York Times.

Калиоби - разработчик системы распознавания мимики
Калиоби - разработчик системы распознавания мимики

Перейдя научным сотрудником в Массачусетский университет, где она работала в медиа-лаборатории, Калиоби загрузила MindReader на сервер, куда приглашали инвесторов для знакомства с разработками университета. К удивлению Калиоби, программа стала самой загружаемой позицией. Ей заинтересовалась Pepsi, Toyota захотела понять, сможет ли она помочь определять состояние водителя. От крупнейших компаний мира приходили запросы, и сфер, в которых систему можно было бы применить, оказалось значительно больше, чем предполагал разработчик.

Хотя Калиоби не хотела покидать университет, она понимала, что в составе лаборатории проект будет развивать труднее, чем в виде стартапа. С частью инвесторов она сразу отказалась сотрудничать, например, ряд государственных учреждений спрашивали о возможности слежения за работниками.

«Это сложно, когда ты еще на стадии небольшого стартапа, и кто-то хочет тебе платить, а ты говоришь, чтобы они уходили», — говорит она.

MindReader создавали с помощью актеров, мимика которых четкая, так что к использованию для рядовых людей программа не годилась. Affdex была новым этапом.

В марте 2011 года Калиоби вместе со своей командой сделала презентацию программы перед директорами Millward Brown, международной компании, исследующей рынки. Несмотря на недостатки программы в области распознавания, в Millward Вrown заинтересовались ею, предложив провести испытание: если для четырех объявлений система покажет успешное оценивание реакций, компания станет инвестором и клиентом стартапа.

Р.Калиоби с командой разработчиков системы распознавания мимики
Р.Калиоби с командой разработчиков системы распознавания мимики

Одним из роликов, которые выбрала компания, был ролик «Нападение» для Dove, содержащий множество видеокадров с валящимися от пил деревьями, мертвыми обезьянами, картинами экологической катастрофы в тропических лесах. В компании знали, что смотреть этот ролик неприятно. Соответствующие негативным эмоциям выражения лиц зафиксировала и Affdex, испытав более сотни зрителей. Родительская компания Millward Brown, WWP, инвестировала 4, 5 млн. $, а улучшенное приложение с тех пор анализирует тысячи реклам в год.

«Я хочу, чтобы устройства, разделившие нас, собрали бы нас вместе, — говорит Калиоби. — Путем очеловечивания технологий мы получаем блестящую возможность переосмыслить наше взаимодействие с машинами, а значит и то, как мы, будучи людьми, связаны друг с другом».

Сегодня Affectiva сосредоточилась на коммерческом использовании технологии.