Жан Понс Фото DR
По подсчетам MarketsandMarkets, глобальный рынок систем компьютерного зрения (подробнее об их работе — в материале Forbes) к 2020 году пройдет отметку в около $12,5 млрд, показывая ежегодный рост в более чем 9%. Аналитики компании Tractica сравнивают технологии компьютерного зрения с новичком-«квотербеком», который принес своей команде победу в чемпионате и, очевидно, принесет ей новые кубки и медали. Сегодня технологии компьютерного зрения (все те, которые позволяют машинам получать изображения объектов реального мира, интерпретировать их и принимать автономные решения на основе полученных данных) позволяют «видеть» промышленным роботам, первым беспилотным автомобилям, охранным системам и, например, «виртуальным примерочным», с которыми начинают экспериментировать ритейлеры. О том, как нейросети сделали компьютерное зрение одним из самых перспективных направлений искусственного интеллекта, как машины учатся распознавать окружающую реальность, Forbes поговорил с исследователем Жаном Понсом. Понс, автор трех книг по компьютерному зрению (самая известная, «Компьютерное зрение: современный подход», переведена на русский язык), профессор МIT и глава лаборатории computer science парижской Ecole Normale Sup?rieure, приехал на несколько дней в Москву на саммит «Машины могут видеть», организованный VisionLabs, венчурным фондом Sistema_VC и «Стрелкой».
» style=»display: none»>
Исследовательская группа Понса работает над тремя задачами. Во-первых, это разработка систем для «понимания» изображений и видео. Для этого нужно «узнать» объекты (например, отличить банан от собаки), действия (пьет ли человек воду или улыбается), элементы интерьера или экстерьера (скажем, фонари или шторы), а также научить систему «ориентироваться» — узнавать стены, улицы,небо и т.д. Во-вторых, группа Жана развивает решения для формирования 3D-изображений и моделирования сцен. Такие системы ученые отдают, например, археологам, ведущим раскопки в Помпеях, и голливудским режиссерам — для спецэффектов и постпродакшн. Третье направление работы — восстановление изображений и видео, когда первоначальные данные повреждены или очень «зашумлены».
Понс ведет исследования совместно с исследователями других групп в использовании алгоритмов машинного обучения, рассказывает Понс. Например, распознавание естественного языка может повысить качество распознавания видео: например, идентификацию смеха в видео сделать легче, если система определяет в качестве признака и звук, и положение рта. Пока системы компьютерного зрения определяют: на картинке — кошка, и для нее это только набор буквенных символов. Но вскоре мы сможем научить машины понимать, что «кошка» — это мяукающее существо на четырех лапах, прогуливающееся по двору. Работа исследователей машинного обучения именно с разными типами данных приведет нас к эре семантического анализа видео, уверен Понс.
— Каковы достижения технологий компьютерного зрения в последние годы? Об их прогрессе много говорят, вспоминая, например, то, как соцсети научились идентифицировать пользователей по загруженным фото или то, как в нашу жизнь вошли жестовые интерфейсы и автономные автомобили.
— Технологии искусственного интеллекта в целом переживают вторую волну развития в течение последних десяти лет. С 1960-х они проходили взлеты и падения. На какое-то время дискуссии затихали, потом возобновлялись снова. Но именно в последнее десятилетия мы видим огромное расширение возможностей их применения. В этом смысле то, как оценили достижения, например, Mobileye (компания разрабатывает хардверные и софтверные решения для беспилотников, приобретена Intel за $15 млрд — Forbes) показательно. Безусловно, компании в сфере рекламных технологий и соцсети тоже внесли вклад: теперь многие из загруженных в Facebook или Instagram фотографий попадают в выборку для обучения нейронных сетей. Системы анализируют снимки с Google Street View, спутниковые данные, информацию с камер в городах. То, что так быстро растет база изображений и видео для «тренирововк» действительно способствует успехам компьютерного зрения. Но все же основные проблемы развития технологий все еще остаются в академическом поле. Мы имеем дело с научными проектами, а не столько со все новыми задачами, выдвигаемыми бизнесом для создания все новых готовых решений. Мы решили базовые проблемы развития компьютерного зрения, но до широких индустриальных применений еще далеко. Корпорации открывают R&D-лаборатории, они вынуждены работать пока над исследовательскими проектами, а не сугубо коммерческими продуктами.
— Что можно считать индикатором столь быстрого прогресса систем компьютерного зрения?
— Если сопоставить то, что они умеют сейчас, и что они умели десять лет назад, мы увидим колоссальный рост сложности решаемых задач. В то время машины могли различать только общие контуры, разделить фон и объект. Теперь они умеют идентифицировать объекты разных классов в очень многодетальных изображениях. Например, теперь у нас есть методы обнаружения лиц, распознавания движений тех или иных черт лица. К тому же, сообщество разработчиков вводит «бенчаркинг» — количественные критерии по точности и качеству распознавания, которые устанавливают в качестве требований для прохождения тестов различные исследовательские группы.
— Какие проблемы все еще предстоит решить?
— Сегодня системы компьютерного зрения используют в основном обучение с учителем. Такой подход предполагает, что для распознавания образов машины получают изображения или кадры видео, уже размеченные людьми. Нейросеть получает «правильный ответ»: действительно ли на фото, например, собака или банан, как она предположила. Далее система учитывает, верно ли она сделала вывод, — и переходит к новому фото. Сегодня сотни тысяч изображений предварительно вручную обрабатываются людьми — обычно с привлечением краудсорсинга. Поэтому масштабировать такой процесс сложно: нужно будет все больше людей и все больше времени. Это сдерживающий фактор для многих областей потенциального применения компьютерного зрения. Есть два пути его преодоления. Во-первых, нужно активнее развивать методы машинного обучения без учителя. Тогда системы научатся принимать решения полностью самостоятельно. Тогда мы сможем все увеличивать объем обрабатываемых изображений, фактически он будет безлимитным. Во-вторых, можно работать с метаданными фотографий и видео. Мы пошли во многом по второму пути и смогли перейти на обучение с частичным привлечением учителя. В этом случае мы даем добровольцам размечать только ограниченный набор изображений (в нашем примере- около 2000) и впоследствии уже автоматически соотносим отдельные объекты. Постепенно, за счет эффективных алгоритмов, система учится все лучше и лучше устанавливать связи между объектами, изначально названными людьми, и образами. В целом, все еще остается «вызовом» развитие все более качественных алгоритмов для глубинного обучения и их все более «результативных тренировок», это все еще «открытая территория».
К тому же, многое предстоит сделать в разработке систем для распознавания трехмерных объектов. Сегодня большинство исследователей сосредоточены на распознавании визуальных образов в работе с фотографиями, на повышении детализации. Но многие забывают, что мы воспринимаем мир объемно, поэтому нам нужно учить машины не сводить картинки, а «видеть» объемно.
— Технологии компьютерного зрения выходят из стен академических институтов на рынок, компании от Microsoft до Facebook открывают подразделения для работы с ними. Как научное сообщество работает с бизнесом?
— Могу сказать, что с машинным зрением активно работают не только интернет-корпорации, которые хотят улучшить в том числе качество поиска по изображениям, но и игроки в сфере hardware — например, Intel и Qualcomm. Но все компании все еще не могут проводить полностью самостоятельные исследования, большинство значимых научных результатов выходят из академической среды. У меня встречи с представителями тех или иных компаний примерно раз в неделю — кто-то спрашивает о сотрудниках для своих подразделений, кто-то хочет заказать разработки. Мы часто отправляем в лаборатории корпораций студентов и аспирантов, а вот браться за многие задания я не могу — не хватает ресурсов сотрудников, хотя я продолжаю давать консультации. Уверен, корпорации могут использовать наши наработки, финансировать новые исследования, привлекать кадры. Я не рисую радужной картинки, это искренняя оценка: взаимодействие науки и бизнеса очень «здоровое».
Кстати, к нам обращаются и стартапы. Работа моей небольшой команды (около 20 человек) уже дала жизнь четырем стартапам. Интересно то, что они не просто взяли наши готовые разработки для коммерциализации, а использовали наши глубокие базовые знания технологий компьютерного зрения, объединившись со студентами, и запустили проекты с собственными идеями. Например, одна из наших разработок для археологии стала основой для рыночного продукта. Это очень вдохновляет. Я думаю, что и дальше стартапы, инвесторы и ученые будут работать совместно. На мой взгляд, хотя венчурный капитал сосредоточен в Кремниевой Долине, перспективные стартапы будут появляться и в Европе — по крайней мере, во Франции я вижу для начинающих компаний в этой сфере много возможностей работы с инкубаторами, с частными инвесторами. Но все же они будут продолжать работать с академическими институтами — именно здесь сосредоточены люди, глубоко понимающие технологии.
— В каких сферах технологии машинного зрения сегодня применяются наиболее эффективно? Где вы видите перспективы наиболее серьезных прорывов с точки зрения внедрений?
— Я ученый и, пожалуй, не смогу прогнозировать скорость внедрения этих технологий в тех или иных отраслях. Я могу отметить, что, безусловно, мы живем в век умных машин и если мы хотим, чтобы они все активнее входили в жизнь, мы должны научить их восприятию. Одной из серьезнейших задач, безусловно, будет интегрировать компьютерное зрение в автономные роботизированные системы для «дикой среды». Я имею в виду, что пока мы тренируем системы компьютерного зрения, например, для промышленных роботов — мы можем учить их в условиях, которые при моделировании максимально приближаем к тем, что они встретят, скажем, на той или иной фабрике. Создать же «тренировочный полигон» для систем компьютерного зрения для будущих роботов на улице будет намного сложнее. Открытые пространства для машин означают очень широкий набор меняющихся параметров — разная погода, разные показатели видимости, разные шумы, разные городские ландшафты. Нам еще предстоит разработать системы, способные подстраиваться одновременнно под самую разную обстановку.