Поиск по сайту Поиск

Нейросеть описывает мир незрячим людям

Голосовые ассистенты могут не только играть в «города» и рассказывать о погоде — они способны на гораздо большее! Например, помогать незрячим людям ориентироваться в современном мире. Для этого используются специальные вопросно-ответные системы Visual Question Answering (VQA). В этой статье мы расскажем, что лишённые зрения люди хотят узнать и как научить нейросеть отвечать на их вопросы.

Поиск ответов на вопросы незрячих людей

Цель систем VQA — дать правильный ответ на вопрос о заданном изображении, взаимодействуя с человеком на естественном языке. Для этой (как и для любой другой) задачи машинного обучения важно собрать достаточное количество данных. 

В последнее время стали набирать популярность искусственные датасеты, создаваемые генеративными сетями. Но для VQA они не подходят: незрячие люди часто могут делать размытые фотографии, закрывать объектив посторонними предметами или снимать при недостаточном освещении. Из-за этого на некоторые задаваемые ими вопросы нельзя найти ответ. Поэтому группа исследователей создала новый набор данных VizWiz, состоящий более чем из 31000 визуальных вопросов от слепых людей, каждый из которых делал снимок с помощью мобильного телефона и записывал устный вопрос о нем. На все вопросы также дано 10 краудсорсинговых ответов.

Примеры фотографий с задаваемыми слепыми людьми вопросами, а также записанными ответами на них. Изображения снизу демонстрируют вопросы, на которые нельзя ответить.

VizWiz создан для разработки более эффективных алгоритмов, которые смогут помочь слепым. Например, решения от современных частных компаний TapTapSee и CamFind уже позволяют делать снимки объекта и узнавать, что это такое и где это можно купить. Социальные сети помогают поддерживать связь с друзьями, предоставляя возможность автоматически отмечать людей на опубликованных фотографиях. Следующий шаг — позволить человеку напрямую задавать естественные вопросы об окружающем мире. 

Как создавался VizWiz

Датасет построен на основе предыдущей работы исследователей, в ходе которой было разработано специальное приложение VizWiz для сбора визуальных вопросов (доступно на смартфонах с iOS и Android). Люди спрашивали о своих повседневных бытовых заботах, делая снимки и записывая голосовые сообщения. Приложение выпущено в мае 2011 года и активно использовалось 11 045 людьми в течение эксперимента. Для разработки набора данных были анонимно выгружены 48 669 визуальных вопросов. 

Основное отличие VizWiz от существующих датасетов — все вопросы задаются незрячими людьми, которые могут не видеть то, о чём спрашивают. Из-за этого в наборе оказалось большое число «вопросов без ответа» (“unanswerable”). Чтобы датасет был эффективным, необходимо проанализировать его и узнать:

  1. Насколько разнообразны задаваемые вопросы, изображения и ответы;
  2. Как часто визуальные вопросы остаются без ответа.

Разнообразие задаваемых вопросов исследовалось с помощью визуализации частоты, с которой вопросы начинаются с разных слов / фраз. Оказалось, что большинство вопросов начинаются со слова «что». На диаграмме ниже можно увидеть общий результат:

Анализ изображений показал, что 28% фотографий помечены как «неподходящие» (“unsuitable image”). Результаты анализа ответов визуализированы с помощью карты наиболее популярных слов, которая исключает варианты “unanswerable” и “unsuitable image”:

Можно увидеть, что самыми распространёнными оказались ответы «да» и «нет».

Без ответа остаётся примерно столько же вопросов, сколько и неподходящих фотографий: 28.63%. Этот вывод подтверждает практическую важность дополнения существующих наборов данных. Более того, VizWiz позволяет автоматически определять, связана ли проблема с плохим качеством фотографии (“unsuitable image”) или с тем, что на ней изображено (“unanswerable”).

Пришло время обучить нейросеть

Не так давно исследователи из Amazon разработали новую нейросеть для задач VQA, анализирующую вопросы с помощью механизма внимания (Question Type-guided Attention, QTA). Обобщённая архитектура показана на рисунке:

Для прогнозирования ответа важно знать тип вопроса независимо от того, соответствует ли ему изображение. Например, на вопросы, начинающиеся со «сколько», обычно даются ответы в виде чисел. Чтобы глубже понять, каким образом различные типы вопросов связаны с фотографиями, авторы попытались соотнести их с помощью механизма внимания (QTA). Для этого они извлекали признаки изображений, используя предварительно обученные нейросети (ResNet, VGG и Faster R-CNN). Затем признаки сопоставлялись с типами вопросов и весами внимания. Типы вопросов определялись с помощью нейросети Word2Vec и энкодера Neural Machine Translation (NMT) от Google. Веса внимания рассчитывались, исходя из соотношения между текстовыми и визуальными признаками.

Очевидное ограничение QTA — чтобы ответить на вопрос, необходимо заранее знать его тип. В процессе реального применения нейросеть не знает, к какому типу относится вопрос. Но можно попытаться спрогнозировать его из текста и использовать в качестве входных данных для сети QTA. Таким образом, авторы разработали многозадачную модель, которая фокусируется как на VQA, так и на прогнозировании типа вопроса. Модель работает в условиях, когда типы вопросов доступны только во время обучения.

Архитектура многозадачной модели

Эксперименты

Набор данных

Учёные из Amazon проводили эксперименты на наборе данных TDIUC (Task Directed Image Understanding Challenge). Он содержит более 1.6 миллиона визуальных вопросов 12 различных типов и включает в себя датасеты VQA v1, Visual Genome, а также дополнение из некачественных фотографий и вопросов без ответа. Точность модели рассчитывались отдельно для каждого типа вопроса.

Модели

Для сравнения результатов использовались две модели QTA: MLP (CATL-QTA) и MCB (MCB-QTA). Первая относится к классу многослойных перцептронов (multilayer perceptron), а вторая использует концепцию Multimodal Compact Bilinear Pooling

Чтобы проверить, улучшает ли механизм внимания работу нейросети, авторы дополнительно обучили две архитектуры, которые анализируют только тип вопроса без весов внимания. Первая, CAT-QT, использует для этих целей Word2Vec, а вторая, CATL-QT, применяет механизм долгой краткосрочной памяти (Long short-term memory, LSTM). 

И, наконец, многозадачная модель для определения метки типа вопроса, о которой упоминалось выше — CATL-QTA-M, основанная на CATL-QTA и применяющая обратное распространение.

Результаты

На рисунке ниже можно увидеть, что механизм внимания действительно повышает точность модели. С использованием одинаковых текстовых и визуальных признаков и примерно такого же числа параметров эффективность сети QTA оказалась на 3-5% выше, чем QT:

Наилучшие результаты были достигнуты у архитектуры, использующей объединение взвешенных признаков изображения с выходными признаками LSTM и Word2Vec (CATL-QTAw). Её точность увеличилась на 5% по сравнению с такими сетями как RAU и MCBA:

Многозадачная модель CATL-QTA-M смогла достичь 84.33% точности, что оказалось ниже, чем у CATL-QTAw. В таблице можно увидеть сравнение результатов (Символ «*» означает обучение и тестирование на наборе данных, не содержащем вопросы без ответа и неподходящие изображения):

При этом распознавание типа вопроса в среднем достигает около 95% точности для 12 типов: 

1. Другие признаки 

2. Настроение

3. Спорт

4. Местоположение

5. Возможности/свойства объекта

6. Вид активности

7. Классификация сцены

8. Цвет

9. Объект

10. Наличие объекта

11. Подсчёт объектов

12. Вопросы без ответа

Что такое роялти, как их рассчитать и кому они выгодны

Чтобы легально пользоваться результатами чужого труда в своем бизнесе, нужно за это заплатить. И неважно, идет ли речь о дизайне...
Read More

Франшиза: что это, как работает и стоит ли начинать такой бизнес

Франшизы предоставляют предпринимателям возможность использовать популярные бренды, эффективные бизнес-модели и поддержку со стороны материнской компании. Но за эти привилегии придется...
Read More

Какие компании называют вендорами и как они работают

Некоторые компании сосредотачивают в своих руках и производственные мощности, и права на то, что на них производят, и репутацию, которой...
Read More

Обособленное подразделение: как открывать и ставить на учет части компании

У любой компании есть адрес, по которому она «прописана», то есть зарегистрирована в ЕГРЮЛ. Но склад и офис с бухгалтерами...
Read More

С какого возраста можно открыть ИП и как это правильно сделать

Подросток может заниматься бизнесом, но с учетом важных условий, прописанных в законе. Разбираемся, как несовершеннолетнему стать предпринимателем, что такое эмансипация,...
Read More

Коносамент — главный документ морских грузоперевозок

Ежедневно по морю перевозят десятки, а то и сотни тысяч контейнеров с грузами. Чтобы партия товара, изготовленная, например, в Китае,...
Read More

Лучшая система налогообложения для вашего бизнеса. Как выбрать?

Одна из главных головных болей любого предпринимателя — уплата налогов. И дело даже не в том, что кому-то не хочется...
Read More

Фискальный чек — что это, зачем нужен и что будет, если его не выдать

Кто-то выкидывает их сразу возле кассы, кто-то тщательно собирает, чтобы потом проанализировать траты за месяц, кто-то даже не забирает их...
Read More

Расчет заработной платы по окладу в 2024 году: как понять, сколько заработал сотрудник

Вряд ли будет преувеличением сказать, что для многих самое важное в работе — это цифры в сообщении о начислении зарплаты....
Read More

Общество с ограниченной ответственностью: что это, как работает, как открыть ООО

При создании бизнеса предпринимателям важно принимать обоснованные решения, которые помогут минимизировать финансовые риски. Разберемся, как понимание особенностей ООО обеспечивает защиту...
Read More