Эмоции в цифре: как лингвисты НИУ ВШЭ — Санкт-Петербург создали новый словарь для AI

Исследователи из НИУ ВШЭ — Санкт-Петербург, Анастасия Колмогорова и Елизавета Куликова, создали эмоциональный словарь, который предназначен для обучения систем искусственного интеллекта.

Ранее основным способом организации языковых данных служили стандартные словари, однако для нейросетей требуется совершенно иной подход к представлению информации. Новый датасет является альтернативной версией лингвистического справочника, специально разработанной для цифровой эпохи, подчеркивают создатели.

«Большие языковые модели способны улавливать скрытые паттерны, которые мы ощущаем на подсознательном уровне, но не можем четко сформулировать. Наш датасет представляет собой тщательно организованные и адекватно размеченные данные, подходящие для работы с нейросетями. То, что раньше выполнял лингвист с использованием словаря, сейчас заменяется вычислительными моделями, для которых структура словаря должна быть иной. Вместо традиционной пары „слово — определение“ здесь используется пара „текстовый фрагмент — эмоциональная метка“», — поясняет заведующая Лабораторией языковой конвергенции НИУ ВШЭ — Санкт-Петербург, Анастасия Колмогорова.

В этот датасет вошли 909 видеофрагментов общей длительностью 173 минуты. Каждый из фрагментов был оценен разметчиками по шести основным эмоциям. При этом использовались четыре формата: целый видеоматериал, только звук, лишь текст и видеоряд без звукового сопровождения. Затем ученые проанализировали, насколько согласны были участники эксперимента в оценке одних и тех же эмоциональных фрагментов. Выяснилось, что чаще всего мнения зрителей совпадали при чтении обычного текста. В то время как при прослушивании речи мнения разошлись больше всего. Худший уровень согласованности был зафиксирован при просмотре немого видео.

Детальный анализ отметил, что разные эмоции были представлены в различных форматах по-разному. Радость и удивление лучше всего распознаются через звучащую речь, где важна интонация. В то же время злость наиболее точно определяется по тексту: 72,9% понимания по сравнению с 67,4% для аудиоформата. Страх оказался самой “словесной” эмоцией, распознаваемой в 87% случаев как на основе текста, так и звука.

На основе проведенного эксперимента ученые разработали датасет, который уже нашел практическое применение.

«Недавно мы завершили проект для Владимиро-Суздальского музейного заповедника, где анализировали отзывы посетителей с различных платформ с помощью большой языковой модели. Ранее для таких задач требовались значительные размеченные объемы данных и мощные вычислительные ресурсы для первоначального обучения модели. Теперь достаточно предоставить нейросети несколько десятков качественных образцов из нашего датасета», — рассказывает Анастасия Колмогорова.

Еще один проект с использованием данного датасета — создание эмпатичного чат-бота для Эрмитажа.

«Мы нацелены на развитие виртуального помощника, который сможет распознавать эмоции в сообщениях пользователей. Если пользователь выражает радость — бот разделит его радость, если нет — проявит сочувствие», — описывает возможности применения заведующая лабораторией.

Датасет также стал доступен для исследовательского сообщества и продолжает расширяться. Команда планирует нарастить коллекцию, тестировать новые подходы к обучению моделей и исследовать взаимодействие со смешанными эмоциями. Результаты исследования опубликованы в журнале «Вопросы лексикографии».