Новые горизонты дипломатии: как бенчмарк UNBench позволяет языковым моделям моделировать политические решения

Исследования, касающиеся использования крупных языковых моделей (LLM) в сфере политики, начинают набирать силу. Несмотря на значительные достижения в области обработки естественного языка, до сих пор не было создано единого бенчмарка, который охватывал бы все аспекты политического принятия решений. Это упущение было устранено благодаря разработке UNBench — всеобъемлющего бенчмарка для оценки LLM на базе данных Совета Безопасности ООН (СБ ООН).

Резолюции, принимаемые Советом Безопасности, могут иметь серьезные последствия, включая санкции, военные действия или внедрение миротворческих операций. Ошибки в таких решениях могут вызвать глобальные катастрофы.

В отличие от традиционных задач обработки естественного языка, таких как разработка чат-ботов или перевод, политический анализ требует внимания к таким аспектам, как коалиции, интересы государств, неоднозначные формулировки дипломатического языка и потенциальные вето постоянных членов Совета.

Существующие бенчмарки (такие как MMLU, BIGBench и другие) не нацелены на политическую науку и не охватывают полный цикл политических задач — от разработки проекта резолюции до итоговых выступлений.

В исследовании было собрано и структурировано более 1900 проектных документов, результаты свыше 17 тысяч голосований и несколько тысяч стенограмм заседаний для оценки языковых моделей.

Данные содержат проекты резолюций с текстовыми формулировками, информацией об их авторах и инициаторах, а также записи голосований (кто, когда и как голосовал: “за”, “против” или “воздержался”) и дипломатические заявления, где представители государств аргументируют свои позиции после голосования.

Датасет позволяет объединить все стадии процесса принятия решения в одном бенчмарке: подготовка, голосование и обсуждение.

Оценка выбора соавторов
На данном этапе модель получает текст проекта резолюции и список потенциальных стран-соавторов с задачей выбрать наиболее подходящего. Это позволяет проверить, насколько хорошо модель может соотносить содержание резолюции с стратегическими интересами и альянсами.

Оценка симуляции голосования представителей
Следующий этап заключается в имитации голоса представителя определенной страны по конкретному проекту. Это тестирует способность модели учитывать национальные интересы, историю голосований и дипломатические приоритеты (например, право вето постоянных членов).

Оценка прогнозирования принятия проекта резолюции
Модель должна предсказать, будет ли проект резолюции принят или отклонен, учитывая возможное вето. Это позволяет оценить способность модели понимать общую расстановку сил в Совете и тенденции голосования.

Оценка сгенерированного заявления представителя
После голосования представители стран делают официальные заявления. Модели должны генерировать такие речи, учитывая итог голосования, позиции и стилистику дипломатической речи. Здесь оцениваются навыки генерации содержательных текстов, их стилистическая точность и соответствие национальным интересам.

Исследователи протестировали как традиционные модели NLP (такие как BERT, DeBERTa), так и современные LLM: GPT-4o, Llama, Mistral-7B, DeepSeek-V3, Qwen2.5-7B и другие.

В итоге, в задаче выбора соавтора лучшие результаты продемонстрировали GPT-4o и DeepSeek-V3. При увеличении числа вариантов выбора модели меньшего размера теряли точность, тогда как GPT-4o стабильно оставалась на высоте.

При симуляции голосования представителей GPT-4o показала наиболее точные результаты, учитывая как национальные приоритеты, так и политический контекст. По итоговому принятию резолюции лучше всех справились GPT-4o и Llama-3.2-3B.

DeepSeek-V3 и Qwen2.5-7B продемонстрировали способности к формулировке речей, близких к реальным дипломатическим выступлениям (высокие оценки по метрикам схожести), хотя GPT-4o также показала высокий уровень.

В данной работе не были исследованы модели, обладающие рассуждающими способностями, поэтому будет интересно протестировать их на бенчмаке UNBench и сравнить результаты.

UNBench является первым комплексным бенчмарком для оценки больших языковых моделей в политике и дипломатии. Он демонстрирует, что языковые модели способны решать сложные политические задачи, но при этом остаются проблемы с учетом скрытых факторов и стилистических нюансов.

Важно отметить, что датасет основан на данных с 1994 по 2024 год, что может не учитывать изменившиеся условия взаимодействия между государствами в современной политике.

Кроме того, автоматизированные модели могут неадекватно отражать все нюансы дипломатической риторики и специфические условия голосований, что может привести к искажению результатов.

Необходимо подчеркнуть, что если модели будут дообучены на исторических данных, это может привести к усугублению существующих стереотипов и предвзятости.

В конечном итоге, результаты работы моделей не должны являться единственной основой для принятия политических решений, а служить вспомогательным инструментом для экспертного анализа, учитывая высокие риски и сложность международной политики.

Доступ к датасету и бенчмарку можно найти в репозитории UNBench на GitHub. Давайте использовать искусственный интеллект разумно и ответственно, так как последствия его применения полностью зависят от нас.

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — здесь я регулярно делюсь инсайтами о внедрении ИИ в бизнес, запуску ИИ-стартапов и разъясняю, как работают все эти ИИ-новшества.