№10 октябрь 2024

Портал функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций.

Аватар Капицы: очевидное и невероятное

В Сколтехе создают цифрового двойника Сергея Петровича Капицы. Об этой новости не сообщил только ленивый. Мы решили поинтересоваться, как идёт процесс и зачем это нужно, у Евгения Бурнаева, научного руководителя проекта, профессора, директора Центра искусственного интеллекта Сколтеха, ведущего научного сотрудника Научно-исследовательского института искусственного интеллекта AIRI.

Первый прототип 3D-аватара Сергея Капицы, собранный на платформе MetaHuman. Илл: пресс-служба Сколтеха.

— Евгений, кому пришла в голову идея проекта «Цифровая копия Сергея Петровича Капицы – Kapitsa.AI»?

— Это коллективное творчество. Предыстория его такова: в Сколтехе работает Инесса Григалюнене, руководитель направления имиджевых проектов Департамента коммуникаций. Под её руководством были изданы несколько книг по поляризации науки – в частности, по математике, физике и биологии. И возник вопрос – если заниматься популяризацией искусственного интеллекта (ИИ), то как лучше это делать? Будет ли так же эффективен подход на основе тех же интервью с учёными, работающими в этой области?

Сложность тут вот в чём. В области ИИ, конечно, есть определённые фундаментальные результаты, используются сложные математические концепции, что позволяет строить алгоритмы и модели реального мира, но при этом всё равно требуется использовать огромное число различных инженерных решений, чтобы реализовать технологии ИИ на практике и получать работающие приложения. То есть, ИИ в настоящее время – это инженерная наука. Как об этом рассказывать людям? Если делать это в виде обычного интервью, то, скорее всего, получится скучно.

— И вы решили создать «голову профессора Капицы?»

— Не совсем так. Мы пришли к тому, что лучше заниматься популяризацией этой области через демонстрацию того, как, используя технологии ИИ, можно разработать какое-то сложное приложение. При этом показывать процесс разработки приложения «в динамике» – как постепенно, шаг за шагом строится решение и получается результат. Бытует мнение, что технологии ИИ – это некоторая волшебная палочка, которая легко позволяет получить любое решение. На самом деле построение любого нового приложения – это непростой процесс выбора конкретных технологий, их сопряжения и построения конечного решения. Всё это требует и компетенций и времени. В общем, мы подумали так: если мы хотим донести результаты исследований в области ИИ до широкой публики, это надо сделать на каком-то примере.

Аватар – отличный пример такого приложения. Его может оценить, «пощупать» абсолютно любой человек. Сергей Петрович Капица в этом плане отличный кандидат: популяризатор науки, его личность известная многим, а значит, его аватар может привлечь внимание. Так родилась идея – давайте попробуем сделать аватар известного человека – такого, как Капица.

Я недавно вернулся с международной конференции по машинному обучению (International Conference on Machine Learning), которая проходила в Вене. В конференции участвовало порядка 7 тысяч человек, каждый что-то докладывал, люди обсуждали друг с другом постерные доклады, слушали доклады пленарные. Эта область сейчас очень сильно «нагрета». Коллективы соревнуются, обмениваются опытом, выкладывая в открытый доступ те или иные решения, модели, чтобы другая научная группа могла проверить, хуже она или лучше – это позволяет соревноваться между собой и очень сильно активизирует развитие области ИИ в фундаментальном плане. Соответственно, в открытом доступе много технологий для имитации голоса, мимики и так далее. Их можно использовать для сборки аватара.

— Этого достаточно, чтобы собрать аватар?

— Дальше остаётся чисто инженерная работа: мы говорим, что хотим клонировать голос, и мимика губ должна соответствовать тому, что говорится. Исходя из своих имеющихся наработок, того, что имеется в открытом доступе, сравниваем и выбираем наиболее эффективные на данный момент технологии. По отдельности эти технологии могут работать очень хорошо, но мы же хотим все это сопрячь, и тут начинаются проблемы. Изображение лица может получаться неплохим, но при этом мимика может не сочетаться с голосом. Поэтому здесь надо отобрать решения по отдельности, а потом мы объединяем результаты их работы вместе.

Есть ещё одна проблема: мы говорим о конкретной личности, фото- и видео-материалов которой много, но все они не очень высокого качества. И здесь приходится применять дополнительные ухищрения – повышать разрешение, искать части видео в хорошем качестве, где голова Капицы повернута тем или иным образом, причём все эти материалы должны соответствовать примерно одному возрастному промежутку. Соответственно, получается много разных вариантов, и нам надо их все попробовать. В итоге иллюстрацию области ИИ мы показываем в динамике, шаг за шагом: как происходит разработка конкретного приложения, какие трудности приходится преодолевать и так далее.

— Что вы хотите получить в результате?

— Цель этого проекта, поддержанного грантом Минобранауки РФ, – популяризация ИИ. Люди зачастую думают, что ИИ дошёл уже до того, что в компьютере нажимаешь кнопку, и сразу всё делается. Это не так. Для того чтобы сделать конкретный сервис или разработку, требуются усилия ряда программистов и инженеров, которые используют существующие технологии, модифицируют и комбинируют их, дополняют решениями. Это первая мысль, которую мы хотим проиллюстрировать, показав, как, применяя отдельные технологии и инструменты, мы получаем работающий результат.

Если мы будем демонстрировать какое-то стандартное приложение, например, сервис, который рекомендует какие-то услуги или осуществляет работу с документами, – это скучно, это неинтересно. Другое дело аватар. Если он может взаимодействовать с человеком, с ним можно поговорить, послушать его – это любопытно, это можно оценить. Но аватар не произвольного человека, который мало кому интересен, а известной личности. Для этого надо попытаться скопировать какие-то отдельные аспекты этой личности.

— Есть ли у вас задача каким-то образом «оживить» Сергея Петровича?

— Никоим образом. Мы только хотим проиллюстрировать, как происходит работа с технологиями искусственного интеллекта. А ещё разработка полезна с чисто образовательной точки зрения. На этом аватаре мы можем обучать студентов: если есть работающая система, дальше можно заниматься совершенствованием её отдельных компонентов, чтобы в совокупности она работала лучше. Например, у нас есть студенты, которые пишут дипломы по языковым моделям, умеющим обрабатывать тексты. Если мы сможем обучить языковую модель более эффективно генерировать ответы на вопросы, чтобы она лучше воспроизводила обороты речи, свойственные Капице, то от встраивания такой языковой модели наш аватар только выиграет. Получается неплохой тестовый стенд, на котором можно отрабатывать научные и инженерные задачи. Также аватар можно использовать для демонстрации технологий ИИ, чтобы мотивировать ребят, которые выбирают будущее направление обучения. Так что приложений тут немало.

— Тема ИИ до сих пор остаётся чрезвычайно противоречивой. Я много общаюсь с учёными, мы часто обсуждаем эту тему, в том числе об опасностях, которые несут эти технологии. Что они всё-таки дают человечеству?

— Прежде всего, опасен сам человек. Все насмотрелись фантастических фильмов про терминаторов и киборгов, когда машины начинают воевать с человеком. Но по факту текущий уровень развития ИИ даже близко не подходит к тому, что показывают в кино. Теперь по поводу второй части вопроса – зачем это нужно в принципе. Учёными движет интерес: получится-не получится, это главное.

— Допустим, у вас получилось, это работает. Что дальше?

— Есть множество полезных технологий ИИ, которые нужны, например, для того чтобы работать с речью, с языком. Давайте посмотрим на ту же обработку текстов. Многие уже пользуются Яндекс- или Гугл-переводчиком, и качество у них уже вполне приличное. Текст, который не слишком запутан, легко можно перевести с одного языка на другой. Я часто бываю в командировках в Китае, и переводчик с английского или с русского на китайский очень помогает. Более того, соединив технологии перевода с технологией распознавания и генерации речи, что тоже сейчас делается с помощью нейросетей, можно получить, например, такое полезное приложение: ваш собеседник говорит, а вам в режиме онлайн идёт перевод. Такие приложения уже есть либо на телефонах, либо в виде отдельных устройств. Хотя совсем недавно это было только в фантастических фильмах: человек вставляет наушник и может общаться с человеком из другой страны. Сейчас это уже работает. То же самое с видео. Практически онлайн можно переводить и понимать, что происходит.

Другой пример – из индустрии. Понятно, что обустройство месторождения какого-нибудь полезного ископаемого – это сложная инженерная задача. Надо разместить много объектов, например, электростанции, насосное оборудование. Это всё надо расставить в соответствии с техническими требованиями и с учётом требований по безопасности. Раньше такое проектирование полностью делалось вручную, но сейчас с помощью ИИ можно перебрать гораздо больше вариантов, чем это способен делать человек, и увязать гораздо больше разных переменных – одновременно оптимизировать и прокладку коммуникаций, и размещение сооружений и дорог, и проектировать сами сооружения. Рассмотреть огромное число вариантов человеку сложно, и он следует шаблонному решению, что не всегда хорошо, особенно для конкретных площадок. Существует генеративное проектирование, это активно сейчас развивающееся прикладное направление в ИИ, которое позволяет проектировщикам таких крупных инфраструктурных объектов делать работу быстрее и точнее.

Или, к примеру, вы вызываете такси через онлайн сервис, в нём уже есть планировщиков маршрутов, автоматическое ценообразование на основе равновесия спроса и предложения, прогнозирование пробок – всё это так или иначе использует алгоритмы машинного обучения и ИИ, просто мы об этом не задумываемся.

— На какой стадии сейчас находится аватар Капицы?

— Аватар мы «собрали», теперь задача нашего эксперимента – совершенствовать различные его части, чтобы прийти к более качественному результату. Вообще говоря, есть два варианта, как действовать: дип-фейки, когда вы определённым образом оживляете существующее изображение, добавляя туда движения, мимику и так далее. Либо есть подходы, которые позволяют сделать 3D-модель человека на основе фотографий с разных ракурсов, и на основе алгоритмов определённым образом анимировать полученную модель. Мы сейчас проводим исследования в рамках обоих направлений, чтобы выбрать наиболее качественный результат. Именно за этим процессом мы предлагаем понаблюдать, чтобы лучше понять, как устроены технологии искусственного интеллекта.

— Члены семьи Капицы видели результаты вашей работы? Что они говорят?

— Мы с ними подписали соглашение, что они согласны на реализацию проекта и дали «добро» на использование образа Капицы. Одна из его дочерей сказала, что Сергей Петрович сам бы обязательно поучаствовал в такой «авантюре». Более того, мы нашли в одной из программ его рассуждения насчёт того, что люди будут создавать новые приложения, используя такого типа методы анализа данных, и это очень интересно. Кстати, есть ещё статья выдающегося математика Андрея Николаевича Колмогорова, в которой он пишет о будущем кибернетики и о том, почему люди опасаются ИИ: по его мнению, причина в том, что психологически сложно допустить существование чего-либо, в некоторых аспектах превосходящего нас самих. В общем, я думаю, что если применять инструменты на основе ИИ и соответствующие разработки правильным образом, то будет только польза.

— Есть ли у вас планы продолжить каким-то образом это направление, создать цифровых двойников других известных людей? Вот, скажем, Николая Дроздова – он жив, с ним можно поговорить, заснять со всех сторон.

— Мы счастливы, что Николай Николаевич с нами! Что касается построения аватаров других известных людей, то я не вижу смысла этим заниматься. Всё-таки мы – организация, которая разрабатывает технологии, инструменты, решает сложные и нужные человеку задачи – в том числе, для общественных сервисов. Я не думаю, что мы будем заниматься «клепанием» таких двойников. К тому же, на данном этапе развития ИИ задача построения качественного аватара – достаточно трудоёмкая, не полностью автоматизированная. Возможно, занимаясь конкретной задачей с аватаром Сергея Капицы, мы дополнительно сформулируем для себя какую-то нишу, где можно будет разработать полезный сервис, требующий каких-то новых технологий ИИ. Мы на это надеемся.

Над проектом работает команда Сколтеха, Института искусственного интеллекта AIRI и Института искусственного интеллекта Самарского университета им. Королёва.

Автор: Наталия Лескова


Портал журнала «Наука и жизнь» использует файлы cookie и рекомендательные технологии. Продолжая пользоваться порталом, вы соглашаетесь с хранением и использованием порталом и партнёрскими сайтами файлов cookie и рекомендательных технологий на вашем устройстве. Подробнее