SWE-Lancer от OpenAI: ИИ на пути к замене разработчиков в фриланс-программировании на миллионы долларов?

Сегодня OpenAI представили новый бенчмарк SWE-Lancer, предназначенный для оценки возможностей современных языковых моделей (LLM) в решении реальных фриланс-задач в области программирования. Этот бенчмарк включает 1488 задач, взятых с платформы Upwork, с общей стоимостью в $1 миллион. Он охватывает как отдельные инженерные задачи, так и управленческие, что добавляет интерес, оценив навыки не только в программировании, но и в менеджменте.

Разработчики провели оценку моделей в двух направлениях: IC SWE, где ИИ решает инженерные задачи, и SWE Manager, где ИИ выбирает наилучшее техническое предложение из нескольких вариантов. Для проверки полученных результатов использовались end-to-end тесты, которые были разработаны и проверены профессионалами.

Результаты испытаний показали, что современные модели пока не могут успешно справляться с большим количеством заданий. Лучшая среди протестированных моделей, Claude 3.5 Sonnet, смогла заработать $208 050, выполняя часть задач на сумму $500 800, но её достижения остаются ограниченными.

Исследователи считают, что SWE-Lancer поможет более глубоко понять экономическое влияние ИИ в сфере программирования, а также его потенциал в качестве инструмента для фрилансеров. Часть данных бенчмарка доступна для исследований, полный доступ можно получить по запросу.

Представители OpenAI отметили, что SWE-Lancer также будет полезен для разработчиков в оценке безопасности автономных ИИ-агентов в программировании и выявлении рисков, связанных с автоматизацией сложных инженерных процессов.

Как говорится, “что можно измерить – можно улучшить”.

На мой взгляд, этот бенчмарк действительно представляет собой отличную платформу, максимально приближенную к реальности. Проверка ИИ на задачах из LeetCode или олимпиадной алгебре – это, конечно, увлекательно, но умение разобраться в бизнес-требованиях и решить реальные прикладные задачи – это уже совершенно другое.

Мы можем заметить, что сейчас ИИ уже справился с задачами на сумму $400k из $1m, то есть 40% от общей стоимости. И это не просто индивидуальные задачи по написанию кода, а полноценные реализация фриланс заказов. Поэтому мне будет особенно приятно прочитать комментарии в духе “да он не заменит никого, посмотрите, как он руки генерирует или считает количество букв в словах” 🙂

P.S. В моем телеграм-канале я заставляю ИИ писать код, обсуждаю последние новости в сфере технологий, а также публикую их раньше других. Регулярно делаю глубокую аналитику по отрасли и событиям, а также делюсь опытом создания собственных ИИ-агентов и приложений с ИИ. И ещё много интересного. Присоединяйтесь!