Люди используют зрение каждый день, чтобы узнавать знакомые лица, замечать препятствия на пути и расширять свой кругозор. Мы живем в визуальном мире: ориентируемся в пространстве с помощью дорожных знаков и указателей в магазинах, пользуемся интерфейсами и читаем тексты. Развитие искусственного интеллекта и машинного обучения позволило совершить прорыв в компьютерном зрении: теперь не только люди и суперкомпьютеры, но и смартфоны способны понять, что изображено на фотографии и что происходит вокруг.
Компания Huawei одной из первых начала производить процессоры c алгоритмами искусственного интеллекта, которые превращают обычный телефон в многофункциональный гаджет с компьютерным зрением. К примеру, смартфон Honor 10 оборудован процессором, специально адаптированным для механизмов искусственного интеллекта. Это позволяет ему делать удивительные вещи: от адаптации к привычкам владельца до улучшения фотографий и увеличения срока автономной работы.
Если совсем просто, то компьютерное зрение работает так: система фиксирует изображение, анализирует его и превращает в набор данных, которые можно затем использовать. Для того чтобы научить компьютер видеть, исследователи используют наборы из миллионов изображений: изучив их, машина постепенно учится находить соответствия и распознавать объекты даже в незнакомой среде. Это очень похоже на обучение ребенка: чтобы объяснить разницу между яблоком и грушей, нужно сначала показать ему оба фрукта, после чего он сможет узнавать их в будущем.
Сегодня примеры внедрения компьютерного зрения можно найти в самых обычных продуктах: от игровых приставок, которыми можно управлять жестами, до смартфонов, камеры которых автоматически фокусируются на лицах.
Пожалуй, одна из отраслей, которая стоит на пороге революции, — это ритейл и связанный с ним маркетинг. Низкий порог входа (не нужно получать разрешения регуляторов, как в случае с медициной или транспортом) привел к тому, что регулярно появляются новые проекты по применению компьютерного зрения в торговле.
Большинство проектов связаны с поиском похожих товаров. Например, технология Sentient Aware находит вещи, визуально похожие на интересующие пользователя. Вместо того, чтобы настраивать фильтры, достаточно выбрать одни очки или футболку — и получить десятки похожих продуктов. Pinterest запустил приложение Lens для навигации по визуальному миру. Оно позволяет навести камеру на объект и увидеть загруженные другими пользователями изображения других похожих на него объектов.
И, конечно, все ближе мечта маркетологов — виртуальная примерочная. Одна из самых последних и успешных попыток — британский стартап Metail —использует компьютерное зрение, чтобы создавать цифровые трехмерные модели пользователей. С их помощью можно «примерить» на себя весь ассортимент магазина, не покидая свою квартиру.
Искусственный интеллект пригодится и после шопинга. Фронтальная камера Honor 10 способна имитировать эффекты студийного освещения и мэйкапа для отличных селфи.
Но четкие снимки еще не все плюсы Honor 10:
Наконец, компьютерное зрение проникло даже на кухни. Smarter FridgeCam — это камера, которую нужно установить в свой старый холодильник. Она определит, какие из продуктов заканчиваются, а какие вот-вот подойдут к предельному сроку годности. Специальное приложение сообщит об этом владельцу и даже предложит рецепты для оставшихся в холодильнике продуктов.
От дронов до беспилотных автомобилей — без компьютерного зрения невозможно представить будущее транспорта. Именно компьютерное зрение позволяет машинам самостоятельно ориентироваться в пространстве и ассистировать водителю при управлении автомобилем. К примеру, Tesla, Volvo, BMW и другие автогиганты уже внедряют в своих беспилотных и полуавтономных автомобилях разработанную компанией Nvidia платформу Drive PX 2. Технологии искусственного интеллекта, которые внедрены в платформу, обрабатывают информацию с камер и сенсоров, распознавая дорожную разметку и другие автомобили. В режиме реального времени система понимает, что происходит вокруг, точно определяет свое место в пространстве и планирует безопасный маршрут. Другая технология использует компьютерное зрение для определения выражения лица водителя и предупреждает, когда он начинает засыпать.
Суть технологии отлично демонстрирует сервис Drive.ai. Он превращает сырые изображения в структурированный набор данных, отмечая дорожные знаки, светофоры и пешеходов. Такие обогащенные информацией изображения помогают обучать системы управления беспилотным автомобилем.
Недавно Яндекс впервые в мире провел испытания своего прототипа беспилотного автомобиля в зимних условиях. По словам разработчиков, зимой сенсоры «беспилотника» воспринимают выхлопные газы как стену. Чтобы автомобиль мог проехать по заснеженному полигону, пришлось адаптировать алгоритмы, учить машину лучше «видеть».
Возможности компьютерного зрения не ограничиваются проезжей частью. Компания SlantRange разработала технологию, которая позволяет дронам автоматически отслеживать состояние сельскохозяйственных посевов, замечая нарушения роста или болезни растений. Дроны других компаний умеют определять ржавчину и повреждения на металлических конструкциях и даже инспектировать стройки, оценивая качество и скорость строительства.
Компания Vivacity применяет компьютерное зрение для оценки заполняемости парковочных мест и общественного транспорта, помогая городским администрациям лучше управлять транспортными потоками.
Устройства, которые способны делать подобные вещи, уже очень компактны. Они помещаются в смартфон. Например, Honor 10 распознает объекты и оптимизирует их изображения на фотографиях. Он не только отличает портрет от пейзажа (это уже не новость для цифровой фотографии). В зависимости от объекта в кадре он изменяет режим съемки и наиболее выгодным образом налету редактирует изображение, избавляя его от шумов или воспроизводя эффект боке на портретах. Более того, он умеет «видеть» текст. И переводить надписи на иностранных языках. Достаточно направить камеру на любой текст, как он определит язык и выдаст перевод.
Образование долгое время оставалось очень консервативной сферой, но и его меняет компьютерное зрение. Новые технологии могут повысить как эффективность онлайн-курсов, так и сделать традиционное обучение в классах более удобным и адаптивным.
В Университете Сан-Паоло используют недорогой трекер, который опирается на технологию компьютерного зрения, чтобы следить за положением и ориентацией глаз студентов для оценки уровня их внимания и вовлечения. Внедрение таких трекеров помогает преподавателям понимать, как студенты усваивают материал и при необходимости адаптировать программу. Авторы изобретения полагают, что их технология повысит гибкость образовательного процесса и сделает его эффективнее.
Несколько американских Монтессори-школ внедрили в классах похожую систему. Камеры и сенсоры отслеживают передвижения детей по классу, позволяя педагогам определять, что именно притягивает внимание учеников, и это помогает им лучше понимать мотивацию и поведение детей.
В Гарварде тоже экспериментируют с внедрением компьютерного зрения в традиционном классе. Там используют компьютерное зрение для анализа поведения студентов и их взаимодействия при работе в группах. Система изучает все действия студентов, находя паттерны в их позах, жестах и выражениях лиц.
Чтобы опробовать подобные технологии вне стен Гарварда, владельцам Honor 10 достаточно достать смартфон. Трехмерное распознавание лиц в камере смартфона определяет около 100 характерных точек, позволяя снимать более выразительные фото.
Компьютерное зрение совершит революцию в медицине. До сих пор мы полагались на органы чувств врачей, которые осматривают пациентов и ставят диагноз. Медики ищут аномалии на коже, слушают сердечный ритм и изучают рентгеновские снимки, чтобы определить, чем болен человек и как его лечить. Развитие технологий предоставляет врачам новые возможности: теперь они могут использовать компьютерных ассистентов для диагностики и операций.
Некоторые медицинские учреждения уже используют компьютерное зрение, чтобы повышать качество томографии, ультразвука, рентгена и других процедур. Даже лучший врач за свою жизнь видит только тысячи рентгеновских снимков. Компьютер может обучаться на миллионах. К примеру, проект Microsoft InnerEye помогает онкологам находить опухоли на снимках МРТ с более высокой точностью, чем сколь угодно квалифицированный врач.
Компания Gauss Surgical разработала систему, которая сканирует хирургические губки, оценивая в режиме реального времени потерю крови во время операции. Это не только спасает жизни, но и экономит ресурсы: исследования показали, что до 40% переливаний крови можно было бы не делать. Разработанные Gauss Surgical алгоритмы точно оценивают потерю крови и предлагают сделать переливание только тогда, когда это действительно нужно.
Компьютерное зрение применяется и при проведении операций. Роботы-хирурги используют его, чтобы определять расстояния до тканей или находить определенную часть тела.
Новые технологии приходят и в страховую отрасль. Страховые компании начинают использовать компьютерное зрение для оценки ущерба: вместо того чтобы отправлять на место происшествия агента, они автоматически анализируют изображения, полученные дронами. Это повышает эффективность бизнес-процессов, а люди получают страховые премии быстрее, чем раньше. Скоро такие методы будут использовать и в медицинском страховании.
А X Labs, исследовательское подразделение компании Huawei, работает над шлемом для незрячих, который будет понимать окружающую обстановку и рассказывать человеку, что он «видит». Шлем оборудован подключенными к интернету «умными» камерами, которые сканируют пространство вокруг, распознавая объекты, людей и надписи. Пока это прототип, но компания планирует выпустить продукт на рынок в ближайшем будущем.