Лёгким движением руки…

Материал подготовила Юлия Смирнова.

Не вставая с дивана, включить телевизор кнопкой на пульте — четверть века назад это казалось верхом комфорта. По мере наполнения наших домов бытовой техникой с дистанционным управлением стало ясно, что пульты теряются почти так же часто, как очки, что в них садятся батарейки и что иной раз вместо устройства, регулирующего громкость, под руку попадается нечто похожее, но запускающее кондиционер. А нельзя ли управлять техникой, ни к чему не прикасаясь, не используя никаких кнопок и тумблеров, просто взмахнув рукой?

Наука и жизнь // Иллюстрации
Азбука жестов для управления телевизором или презентацией.
«Умные очки» пока что выглядят громоздко, но зато позволяют не только дополнять реальность, но и управлять информацией с помощью жестов.

Компьютеры уже умеют делать многое из того, что относится к сфере человеческих функций и навыков: распознавать текст и изображения, воспринимать звук и произносить вполне осмысленные фразы, слушаться голосовых команд и реагировать на прикосновение пальцев. Научить компьютер понимать язык телодвижений оказалось более сложной задачей. Сегодня распознавание жестов (а в более общем виде — распознавание формы и направления движения любых объектов) — приоритетная тема в области информационных технологий и интеллектуальных систем.

Ещё несколько лет назад появились технологии, которые позволяют следить за движением руки. На сегодняшний момент они реализованы в первую очередь в индустрии развлечений. Пример — игровые контроллеры PlayStation Move от Sony и Wii Remote от Nintendo. Человек держит в руке контроллер — похожее на пульт устройство, оснащённое светодиодами и акселерометрами, а камера и датчики отслеживают его перемещение в пространстве и передают движения игрока персонажу на экране монитора. Эта и подобные технологии позволили осуществить много интересных игровых проектов, но всё же они требуют дополнительного устройства, которое нужно удерживать в руках.

Другая популярная технология распознавания жестов — Kinect от компании Microsoft. Она основана на определении расстояния до объекта с помощью источников инфракрасного излучения и сенсоров, которые регистрируют отражённый свет.

Специалисты по интеллектуальным системам из Санкт-Петербурга предложили своё решение для распознавания жестов — ViTechnology. Вместо радарного метода вычисления расстояния до объектов здесь используется параллакс — явление, благодаря которому мы видим мир объёмным, а не плоским.

О том, как работает система распознавания жестов, кому и зачем такие технологии нужны, рассказывает генеральный директор компании «Системы компьютерного зрения» Владимир Уфнаровский.

— Разработкой системы распознавания жестов я начал заниматься в 1994 году, когда пришёл студентом на кафедру системного программирования СПбГУ. Теоретической основой технологии стала работа немецкого исследователя Йенса Шика «Одновременная оценка формы и движения с помощью монокулярного зрения».

Вначале возможностью распознавания движущихся объектов в режиме реального времени заинтересовались представители автомобильной промышленности, в частности компании Mercedes-Benz, для разработки алгоритмов ночного зрения и создания активной системы безопасности автомобилей. Сейчас есть уже готовые приложения и их устанавливают на некоторых моделях машин. Система безопасности способна заметить, что на дорогу неожиданно выбежал человек, и моментально остановить автомобиль. Но если перед машиной появится животное, детская коляска или человек в инвалидном кресле, система может и не сработать. Потому что бортовой компьютер действует, опираясь на набор заданных шаблонов, — примерно так, как работает фотоаппарат в режиме распознавания улыбки.

Необходимость развития системы активной безопасности послужила толчком к разработке технологии безмодельного распознавания. Такое распознавание осуществимо, если использовать стереоскопическое зрение, то есть максимально приблизиться к тому, как видит и, главное, как определяет расстояние до точки человеческий глаз. Получив с двух камер изображение движущегося объекта и использовав заданный алгоритм, компьютер рассчитывает, на каком расстоянии от автомобиля находится объект, каковы его скорость и траектория движения. В считаные мгновения происходит оценка ситуации, и в случае возникновения опасности столкновения машина остановится. Методы распознавания движений могут быть востребованы не только в автомобильной промышленности.

— А как научить компьютер распознавать жесты?

— Сначала надо определить, что такое жест. Им может быть любое движение человеческого тела. Одна из первых задач, которую нам пришлось решать, — увидеть и распознать жест в объёме некоего контролируемого пространства. Следующим этапом стало «отсеивание» жестов, не относящихся к управлению. И третья задача — определить разновидность жеста и превратить его в команду.

Две камеры фиксируют движение, и система получает информацию о пространственном параллаксе, то есть о разнице между углами, под которыми две камеры видят один и тот же объект (как правый и левый глаз человека).

Алгоритмы, входящие в состав ViTechnology, анализируя изображение, выбирают ряд признаков, которые могут быть использованы для идентификации определённой точки. Точки, окрестности которых обладают достаточной уникальностью в изображении, то есть окружающей зоной с текстурой, отличающейся от окружающих текстур, получают идентификатор. Для каждого конкретного кадра подбираются признаки, которые дают наибольшее количество информации, но при этом остаются устойчивыми к естественным различиям яркости и контрастности.

У стереозрения есть существенное ограничение: оно работает только в одной, чётко заданной зоне. И так как мы имеем точную информацию о расстоянии до всех объектов, то можем так же чётко ограничить рабочее пространство. Компьютер понимает, в каком ракурсе он должен видеть руки пользователя, и другие, случайные, жесты не воспринимает. ViTechnology может работать не только в помещении, но и на улице: ни яркий свет, ни дождь не создают помех.

Сегодня эта технология требует наличия компьютера для обработки данных, но мы усиленно работаем над созданием маленького электронного чипа, который можно будет установить, например, в мобильный телефон, очки, а также встроить в бытовую технику. Самый простой пример — управление телевизором без дополнительных устройств. Например, используя пульт, мы направляем его на телевизор. Этот вполне типичный жест может быть основой жеста активации: телевизор начинает «понимать», что сейчас им будут управлять — переключать каналы, устанавливать уровень громкости и так далее.

— Желающему приобщиться к высоким технологиям, наверное, придётся покупать какой-то специальный телеприёмник?

— Нет, все современные модели оснащены ИК-портом, который принимает сигналы от пульта. Небольшое устройство позволит перенастроить прибор так, что через тот же самый порт телевизор начнёт понимать жесты.

Подобная технология может быть использована в интерактивных витринах, демонстрирующих те или иные товары. Она позволит витрине среагировать на проходящего мимо человека, попробовать распознать его пол и возраст и показать именно то, что, по мнению маркетологов, интересно представителю той или иной группы людей. Если человек проявляет интерес к товару, то так же, при помощи жестов, не прикасаясь к экрану, он сможет получить дополнительную информацию и, в перспективе, даже купить интересующую его вещь.

— Устройства наподобие «умных очков» или датчика включения телевизора без пульта сегодня воспринимаются, скорее, как игрушки. Есть ли какие-то области, где подобные технологии могут оказаться незаменимыми?

— Пока что технологии «умного дома» и подобные им разработки не относятся к вещам первой необходимости. Но многое зависит от менталитета. Например, в Японии, на Тайване, в Южной Корее они становятся всё доступнее и популярнее, на них есть спрос. Уже не редкость, когда японцы в ванных устанавливают телевизоры, чтобы ни на минуту не выпадать из информационного пространства. Пользоваться в ванной пультом непрактично, да и сенсорные экраны не вполне удобны. А вот бесконтактное управление телевизором с помощью жестов — именно то, что надо. Кроме того, мы разработали систему управления самой ванной — бесконтактную регулировку уровня воды, температуры.

— А вы сами готовы использовать свои разработки в быту?

— Нет, я консерватор. Мне кажется, что самая удобная из всех разработок — интерактивная витрина. Я не люблю ходить по магазинам, а такое устройство сводит к минимуму общение с продавцами и время на то, чтобы обойти огромный торговый центр.

— Какие разработки на основе распознавания жестов сейчас наиболее востребованы и сколько это стоит?

— Чаще речь идёт о дорогостоящих имиджевых проектах — вроде интерактивных комнат для совещаний. Представьте, что во время презентации вам не нужны лазерная указка и кнопка для перелистывания слайдов, всё делается только руками.

— А чем вы планируете заниматься в дальнейшем, какие идеи ждут своего часа?

— Мы разрабатываем систему представления информации, в которой распознавание жестов сочетается с популярной техникой mind maps (интеллект-карт). Мы уже предложили эту разработку Министерству образования. Ещё одна тема, которая лично мне кажется перспективной, — помощь слепым и слабовидящим людям. Сейчас уже есть технологии, позволяющие имитировать шрифт Брайля на сенсорном экране. Если соединить их с устройствами безмодельного распознавания объектов, то человек сможет получать информацию о том, что находится перед ним, с помощью текста или голоса. Фактически такая система способна избавить слепого от тросточки, с помощью которой он определяет, есть ли впереди препятствие. Она сможет также передавать пользователю информацию о надписях — вывесках, указателях, чтобы ему было легче ориентироваться. Конечно, пока это ещё только идея, и если мы дойдём до её реализации, то будем привлекать в качестве экспертов людей со слабым зрением, чтобы понять, насколько им удобно пользоваться таким устройством.

— Будет ли это устройство доступно для людей с ограниченными возможностями?

— Думаю, со временем оно будет стоить не дороже мобильного телефона. Кроме того, есть страны, например Швеция, которые готовы реализовывать подобные проекты за государственный счёт.

В 2011 году компания «Системы компьютерного зрения» стала резидентом «Сколково». Разработчики уверены, что устройства, которые позволяют с помощью жестов управлять компьютером, станут более востребованными с выходом новой операционной системы Windows-8. В общественных местах, где люди пользуются сенсорными информационными панелями — в аэропортах, магазинах, — бесконтактное управление может быть полезным. Ведь не все любят прикасаться к предметам, которые до этого трогал кто-то ещё. А тут всё гигиенично и безопасно. Есть спрос и на разработку системы управления жестами в салоне автомобиля: например, окно можно будет открывать не кнопкой, а взмахом руки.

***

Цитата

Михаил Цыганков, главный управляющий инвестиционным портфелем ОАО «РВК».

На протяжении последних лет мы наблюдаем устойчивый интерес к разработке естественного интерфейса взаимодействия человек—компьютер. Уже достигли достаточной зрелости системы распознавания голоса и жестов, они реализованы в игровых приставках от Microsoft и Nintendo, что открывает новый уровень в области игровых развлечений. Среди инвестиционных проектов в данную сферу стоит отметить биометрические проекты по распознаванию голоса и лиц на видео, отпечатков пальцев. Такие проекты, как правило, находят первое применение в области безопасности, затем распространяются в более привычные обычным пользователям сферы. Например, в портфеле фондов Российской венчурной компании есть проект системы удостоверения личности на основе голосовой биометрии в противоугонных и охранных системах и проект по разработке и внедрению биометрической идентификации.

***

«Умные очки» — находка для шпиона?

Когда в 1984 году на экраны вышел фильм «Терминатор», кадры, где прямо перед электронным глазом киборга появлялась дополнительная информация о том, чтó за объект перед ним, поражали воображение зрителя. Мало кому приходило в голову, что пройдёт совсем немного времени и подобные технологии перестанут быть фантастикой. Сейчас целый ряд компаний занимается разработками очков с функцией дополненной реальности (см. «Наука и жизнь» № 3, 2012 г. — Ред.). Компания «Системы компьютерного зрения» продемонстрировала свои «умные очки» на международной выставке «Комплексная безопасность» в мае 2012 года в Москве. Очки представляют собой прикреплённую к оправе комбинацию двух видеокамер и проектора, формирующего изображение непосредственно на сетчатке глаза.

Надев такие очки, человек увидит примерно в полуметре перед собой виртуальный экран, которым можно управлять при помощи жестов, примерно так, как мы управляем сенсорным экраном смартфона или планшетного компьютера. Видеокамеры, встроенные в очки, «видят» то же самое, что и человек. Подсказки о распознанных объектах оперативно появляются в поле зрения. Разработчики считают, что стадия, когда от мобильных устройств требовалась миниатюрность, уже пройдена. Сейчас есть потребности, с одной стороны, в компактном устройстве, а с другой — в большом экране. «Умные очки» могут решить эту проблему.

Кроме того, подобные устройства обеспечивают конфиденциальность — сторонние наблюдатели не подсмотрят, заглядывая через плечо, чтó именно видит на экране человек. Правда, непонятные пассы руками в воздухе могут привлечь излишнее внимание. Да и рабочий вариант устройства пока что довольно сильно отличается от обычных очков: две довольно крупные камеры делают человека похожим на хирурга в бинокулярных очках. В перспективе их заменят маленькие веб-камеры вроде тех, что встраиваются в ноутбуки, то есть выглядеть они будут, как две крохотные точки на оправе очков. Вот только проектор, который передаёт изображение на сетчатку, пока трудно спрятать.

Другие статьи из рубрики «Новые технологии»

Портал журнала «Наука и жизнь» использует файлы cookie и рекомендательные технологии. Продолжая пользоваться порталом, вы соглашаетесь с хранением и использованием порталом и партнёрскими сайтами файлов cookie и рекомендательных технологий на вашем устройстве. Подробнее