Голосовой помощник Apple, которому можно доверять
Мы гораздо больше доверяем тем людям, общаться с которыми нам легко и приятно. Обычно так происходит, когда их стиль и манера разговора похожи на наши собственные. Этот факт послужил для Apple толчком к созданию голосового ассистента, который учитывает предпочтительный образ общения пользователя и тем самым вызывает доверие. Сегодня мы расскажем, что получилось из этого эксперимента.
Цифровые ассистенты становятся всё более продвинутыми и используются в разных сферах жизни. Но, согласитесь, в некоторых случаях нам важен не просто сам факт наличия помощника, а степень доверия к нему и его способностям. Например, больному человеку хотелось бы быть уверенным в том, что программа правильно подскажет ему принять нужные лекарства в определённое время.
В человеческих взаимоотношениях люди используют особенные типы поведения для установления взаимопонимания. Один из них — «отражение», когда мы копируем манеру общения партнёра, например, позу, интонации или выражение лица. Это явление также упоминается под названиями мимикрия, социальный резонанс, координация, синхронность, подстройка, эффект хамелеона и так далее. Apple предположили, что эффективный метод повышения доверия к цифровым ассистентам — отражение разговорного стиля запросов, в частности, их степень «болтливости». Чтобы проверить свою гипотезу, они провели исследование среди пользователей и установили, что людям больше нравится общение с более похожим на них помощником.
Почему и зачем
Как сказано выше, люди могут заслужить первоначальное доверие, подражая поведению собеседника. Отражение помогает выявить качественные меры оценки взаимодействия между людьми, а его степень показывает, насколько естественным будет взаимопонимание. Эти характеристики вызывают растущий интерес в областях человеко-компьютерного взаимодействия, робототехнике и машинном обучении. Например, процесс отражения использовался для модели прогнозирования тем разговора, к которым приведёт беседа нескольких людей. Такая система обычно объединяет последовательность действий собеседников и пытается предсказать их высказывания.
В робототехнике отражение может послужить обучению роботов человеческому языку. Наблюдая за людьми, они научатся копировать их действия и общаться с ними на равных. Этот метод использовался для разработки социальных роботов. Людям с ограниченными возможностями очень важно иметь условия, помогающие реабилитироваться и вливаться в общественную жизнь.
Эксперименты
Авторы описали два опыта: интерактивное обучение пользователей под названием «Волшебник страны Оз» (Wizard-of-Oz, WOZ) и автоматическое прогнозирование предпочтительного стиля разговора с учётом запросов, ответов и отзывов участников.
Привет, Сири, как дела?
Исследователи из Apple предположили, что взаимодействие с цифровым помощником, который копирует вашу манеру общения, повысит степень доверия к нему. Также они проверили, предпочитают ли болтливые люди взаимодействовать с разговорчивыми собеседниками, а тихони — с такими же, как они, молчунами. Участники заполнили анкету, предназначенную для оценки их уровня «болтливости» и других черт характера (для выявления экстравертов и интровертов). Это позволило выбрать группы пользователей, сбалансированные по определённым особенностям. После этого каждый из участников прошёл опрос об использовании голосовых помощников (частота использования, типы запросов, стиль взаимодействия, надёжность, привлекательность и тому подобное).
Эксперимент проходил в три этапа взаимодействия:
- с разговорчивым ассистентом;
- с неразговорчивым ассистентом;
- с цифровым помощником-отражателем.
Во всех случаях цифровой ассистент контролировался «волшебником» (то есть экспериментатором), которому было дано указание не взаимодействовать с участниками напрямую. Если вы помните сказку «Волшебник страны Оз», примерно так в ней происходило общение чародея с главными героями: он представал перед ними в разных формах, но не показывал себя.
Во время экспериментов авторы записывали аудио и видео с каждым участником. Испытуемые сидели на расстоянии примерно 2.5 метра от настенного экрана. Волшебник находился за разделительной стеной и управлял цифровым помощником и дисплеем, а также синхронизировал оборудование и собирал данные с помощью ROS.
В разговорчивой и неразговорчивой обстановке участникам было предложено (с помощью инструкций на ТВ-экране) сделать устные запросы помощнику для выполнения задач в каждой из следующих областей: таймеры / будильники, календари / напоминания, навигация / маршруты, погода, новости и поиск в интернете. Для каждого запроса на экране всплывала текстовая подсказка, например: «Будильник на 8 утра». Подсказки были намеренно короткими, чтобы ограничить возможность повторять одни и те же фразы.
Ответы ассистента генерировались для каждого запроса одинаково и не различались между участниками. Например, в подсказке написано: «Время следующей встречи». Тогда развёрнутый ответ будет: «Похоже, следующая встреча у вас после обеда в 2 часа дня», а короткий: «В 2 часа дня». Выслушав ответ, участники должны были устно оценить его качество: хороший, не по теме, неверная информация, невежливый, небрежный и тому подобное. Все показания фиксировались «волшебником» в текстовом виде.
После погружения в разговорчивую и неразговорчивую обстановку участники ответили на вопросы о том, какая им больше пришлась по душе. Затем они приступили к взаимодействию с помощником-отражателем.
Поведение отражателя было разработано таким образом, чтобы выглядеть максимально естественно в рамках WOZ. Тот же «волшебник», что и в предыдущих опытах, снова незримо контролирует процесс. Обратите внимание, что в первых двух экспериментах ему не надо было оценивать степень развёрнутости ответа, поскольку она была задана по умолчанию в зависимости от обстановки. Здесь же его роль заключается как раз в том, чтобы дать оценку «разговорчивости» помощника для каждого его высказывания.
Каков вопрос — таков ответ
Чтобы сформировать естественный разговор, участников попросили разыграть сценарий «вечернего отдыха», который включал встречу с друзьями, поход в театр и ужин. «Волшебник» двигал сюжет, побуждая пользователей делать запросы с помощью изображений (примеры на рисунке ниже), текстовые подсказки при этом не использовались.
Изображения отсылали к воображаемым вечерним событиям, а значки указывали, какую из функций помощника участник должен использовать (например, над картинкой с одеждой был значок погоды). Набор возможных ответов для каждой подсказки был фиксирован, а уровень разговорчивости выбирался волшебником. Вот примеры ответов для запроса о погоде в порядке увеличения «болтливости»:
- 23, ясно.
- Будет 23 градуса, ясно.
- Будет тепло, 23 градуса и солнечное небо.
- Должно быть 23 градуса и ясно, так что можете не брать с собой свитер.
- Мои источники сообщают, что будет 23 градуса и ясно. Вам определённо не нужно брать с собой куртку.
Так же, как в разговорчивой и неразговорчивой обстановке, участники оценивали каждый ответ ассистента. После завершения испытания они снова отвечали на вопросы о его привлекательности и надёжности.
Результаты
Всего в исследовании приняли участие 20 человек (3 женщины и 17 мужчин), продолжительность сеанса варьировалась от 17 до 56 минут. Большинство людей (70%) сделали выбор в пользу общительного помощника. Согласно предварительным опросам, 60% участников были довольно болтливы, а 40% не отличались общительностью. Это говорит о том, что стиль общения не всегда указывает на то, что собеседник должен полностью ему соответствовать. Но в целом, участники-экстраверты предпочитали разговорчивого помощника, а интроверты — немногословного.
Влияние отражения на мнение о привлекательности ассистента было проверено с помощью одностороннего дисперсионного анализа. Авторы сравнили рейтинги доверия участников до исследования (среднее = 4.0, стандартное отклонение = 0.48) и после (среднее = 4.46, стандартное отклонение = 0.31). Пользователей попросили оценить, насколько они согласны с утверждением, что им нравится или не нравится взаимодействовать с ассистентом по семибалльной шкале Ликерта (1 — совсем не нравится, 4 — нейтрально, 7 — очень нравится). Разница между средними показателями до и после взаимодействия оказалась статистически значительной (f-мера = 7.12, p ≤ 0.01). Это означает, что отражение оказывает положительное влияние на доверие.
После исследования участники делились комментариями и отмечали, что им больше понравился помощник-отражатель. В связи с этим авторы приступили к созданию классификаторов, чтобы определить, можно ли использовать особенности речи пользователя для установки соответствующего уровня разговорчивости.
Классифицируем болтунов и молчунов
Авторы создали два вида классификаторов: speaker-independent (не зависящий от говорящего) и multi-speaker (для множества говорящих). Они должны определить, указывает ли высказывание на болтливость или молчаливость и какой из ответов будет предпочтительнее: развёрнутый или короткий. Классификация «разговорчивый или нет» основывается исключительно на особенностях речи и не анализирует длительность высказывания. Продолжительность фразы далеко не всегда соотносится с тем, как много мы успели сказать.
Метки пользователя «разговорчивый» и «неразговорчивый» были извлечены из результатов опросов, а метки ответа «развёрнутый» и «короткий» получены из оценок участников. Каждому высказыванию присваивалось две метки, где одна указывала на болтливость говорящего, а вторая — на предпочтительный ответ. Из речи извлекалось 95 акустических характеристик: среднее значение, стандартное отклонение, минимум и максимум основной частоты, энергия, первые 12 MFCC (мел-кепстральных коэффициентов) и первые 5 формант.
Десять классификаторов были обучены на задачах бинарной классификации: логистическая регрессия, теорема Байеса, искусственная нейронная сеть, случайный лес с коэффициентом Джини, случайный лес с энтропией, SVM с различными ядрами. Для всех задач использовались стандартные реализации из scikit-learn. Данные были разделены для обучения и тестирования в соотношении 80/20 (multi-speaker), а также для перекрёстной проверки (speaker-independent). Эффективность оценивалась с помощью F1-меры.
Количественные оценки
Оценки классификации показаны в таблице, которая демонстрирует, что результаты оказались хорошими для обеих задач.
Это говорит о том, что можно вполне надёжно определить как степень разговорчивости говорящего, так и его предпочтения в ответных репликах. Эффективность разделения 80/20 указывает на то, что классификаторам не требуется большое число примеров для обучения, а эффективность перекрёстной проверки — что модели можно обобщить на новых говорящих.
⌘⌘⌘
Исследователи Apple не собираются останавливаться на этом: для будущих голосовых помощников они планируют ввести целые диапазоны разговорчивости. Тогда развёрнутые и забавные ответы цифровых ассистентов смогут не только поднять нам настроение, но и повысить комфорт общения для самых разных людей.
С оригинальной статьёй можно ознакомиться на сайте arxiv.org.