Фото AP / TASS
Как компьютерное зрение и искусственный интеллект позволяют распознавать удовлетворенность клиента, и почему улыбка — это не всегда признак хорошего настроения
Социологи считают, что слова передают только 7-10% эмоционального состояния человека. Около 35-40% передает тон голоса, а оставшиеся 50-60% — мимика и жесты, которые делает человека. Технология, которая считывает состояние человека — это эмоциональный искусственный интеллект или же аффективные вычисления. Это междисциплинарная область, которая охватывает психологию, компьютерные и когнитивные науки.
Специалисты выделяют шесть базовых эмоций человека: счастье, грусть, отвращение, удивление, гнев и страх. Но если система распознает, что человек два раза улыбнулся и один раз расстроился, большой бизнес-выгоды от этих знаний не получить. Такой подход к распознаванию используют, например, в интерактивной рекламе. Человек остановился напротив демонстрационного стенда или рекламной панели и смотрит на нее, система просит его улыбнуться или зевнуть — и выполняет какое-то действие. В таких случаях можно обойтись распознаванием простых эмоций. Но этого недостаточно, чтобы удовлетворять большинству бизнес-требованиям.
Почему распознавание базовых эмоций — не лучшее решение для бизнеса
Сейчас компании ставят кнопочные устройства, где можно отметить: вы удовлетворены обслуживанием, не удовлетворены или относитесь нейтрально. Такие системы можно встретить в МФЦ, на почте, в отделении банка. Конечный результат, который важен для бизнеса — степень удовлетворенности клиента обслуживанием. Если человек человек два раза улыбнулся и один раз нахмурился совсем не значит, что ему обслуживание понравилось. Может быть, это была саркастическая улыбка. Поэтому нужно использовать решение, которое помогает определять степень удовлетворенности клиента. Это не совсем то же самое, что эмоция.
Мы занимаемся более глубоким анализом поведения людей на базе анализа паттернов. При распознавании паттернов поведения алгоритм анализирует лицо человека на основании около 60 микросостояний мимики лица, так называемых facial actions units. Далее уже принимается решение на основе проведенного анализа. В зависимости от сферы применения необходимо выявлять различные паттерны поведения.
Кроме того, анализ паттернов должен учитывать менталитет людей. Улыбка в США и в России — это совсем разные вещи. И поведение, которое означает удовлетворенность, в Китае, США, России или в другой стране может быть разным. Поэтому в зависимости от локации следует подбирать решение, которое учитывает локальные особенности. Во всем мире люди улыбаются одинаково, но не всегда улыбка означает одно и то же. Это можно учесть, если помимо исходных данных фотографии или набора видео, есть еще есть статистика.
Например, после обслуживания клиента спросили: был ли он удовлетворен обслуживанием или нет. Он отвечает, что не был удовлетворен. И затем на основе тысячи или десятков тысяч таких примеров можно тренировать классификатор, который позволит камере точно интерпретировать впечатления клиента. Такой подход в машинном обучении называется ground truth или основополагающая истина. Он означает информацию, которую получают в ходе наблюдения. В основном его используют, чтобы доказать или опровергнуть исследовательскую гипотезу.
Как использовать эмоциональный искусственный интеллект в реальных проектах
Пока никто не предоставляет готовый массовый продукт, который можно достать из коробки и использовать. Мы работаем над созданием типовых сценариев, где могли бы предоставлять готовую функциональность прямо из коробки — готовый продукт. Чтобы достигнуть цели, проводим ряд пилотных проектов в сфере HR, ритейла и банковского обслуживания, где отрабатываем функциональность и понимаем, какое качество можем достигнуть.
HR. Важно понимать, человек говорит правду или врет, насколько он нервничает. Например, клиент проводит собеседование с человеком на должность в службу безопасности или для работы с финансами, при этом испытуемый ведет себя нервно: крутится на стуле, постоянно вертит головой, что-то ищет. Возможно, он не очень подходит на должность, так как у него нет нужных качеств. Но все зависит от конкретного сценария, может кандидат просто нервничает.
Сейчас на интервью нельзя со стопроцентной точностью сказать, подходит кандидат или нет. В большинстве случаев нужно смотреть, как человек проявит себя на испытательном сроке, затратив средства на его обучения и зарплату. Искусственный интеллект служит системой поддержки принятия решений и помогает отсекать точно не подходящих кандидатов на ранней стадии. Пока что это не полная автоматизация в HR, но эта проблема решается количеством статистических данных. Чтобы сделать систему более совершенной нужно собрать большую статистику, например, по итогам 100 тысяч собеседований и такого же количества результатов прошел ли человек испытательный срок, если не прошел, то почему. Эта информация поможет скорректировать классификатор.
Ритейл. Нужно оценивать удовлетворенность посетителя: человек доволен обслуживанием или нет. Потому что если он не удовлетворен обслуживанием, то сотруднику или управляющему стоит предпринять действия для сохранения лояльности клиентов. Дообучить классификатор можно на опросах посетителей. Например, заказчик спросил сто тысяч клиентов, что им понравилось, а что — нет. А затем включил эти данные в классификатор.
Финансовый сектор. Сотрудник банка или магазина может отслеживать реакции в режиме реального времени. Ему сразу же придет информация, что кто-то недоволен и позволит на это вовремя среагировать. Но система может ошибаться, поэтому необходимо постоянно совершенствуем качество и быстродействие. Для этого важно собирать и использовать статистику, чтобы знать, насколько автоматические результаты совпадают с реальностью.
Безопасность. Также подобные системы могут добавить новый уровень безопасности. За рубежом ряд компаний проводят исследования по выявлению буйно настроенных посетителей в местах массового скопления людей. Например, если человек агрессивно себя ведет или сильно нервничает, то это может оказаться потенциальный преступник. На таких людей обращают внимание.
Сейчас в ряде аэропортов используются другие методы, чтобы выявлять потенциальных преступников или террористов. Это либо специализированное оборудование, либо специально обученное животное, которое реагирует на запах адреналина. Выброс которого означает, что человек сильно нервничает или готов совершить нечто нехорошее. Поэтому если будет возможность определять это визуально, то это в целом повысит уровень безопасности и автоматизирует работу служб безопасности на транспорте.
Как внедряется технология эмоционального искусственного интеллекта в компании
Для распознавания подойдет любая видеокамера. Мы не требуем специального оборудования, потому что иначе решение не имеет смысла. Большинство заказчиков предпочитают использовать существующие камеры, которые достаточно направить на человека, и подключить к ним систему.
Поступающую информацию можно обрабатывать локально. Это актуально для магазина или отделения банка. Камера подключается к небольшой вычислительной системе или существующем в отделении серверу, локально обрабатывает видеопоток и потом отправляет централизованное решение в центр обработки данных. Как правило этот вариант подходит сетевым компаниям: ритейлу, банкам, где важно отслеживать информацию не по отдельной точке, а по совокупности. Поэтому есть некий бэкенд — сервер в центральном офисе — который собирает результаты со всех точек продаж, сравнивает результаты с контрольными списками, правилами и ведет общую статистику и участвует в принятии решений. Также есть облачное решение — данные отправляются не на центральный сервер, а в публичное облако. Облачный сервис выбирают малый и средний бизнес.
Большинству клиентов подходит локальное решение, потому что они предпочитают контролировать полный цикл распознавания и отчеты на своей стороне. Так называемые on-premise решения предоставляются крупным клиентам: все технологии и доступ к ним находятся в физических пределах предприятия.