Википедия под атакой: как AI-скраперы угрожают свободному доступу к знаниям

Опубликовано: April 3, 2025

Фонд Викимедиа, главный оператор Википедии и ряда других проектов по сбору знаний на основе краудсорсинга, сообщил в среду о том, что потребление полосы пропускания для загрузки мультимедиа с Wikimedia Commons увеличилось на 50% с января 2024 года. Как отметила организация в своем блоге во вторник, увеличение не связано с растущим интересом пользователей, а обусловлено активностью автоматизированных скрапера, стремящихся использовать данные для обучения ИИ.

“Наша инфраструктура спроектирована так, чтобы справляться с резкими всплесками трафика во время крупных событий, однако объем, создаваемый ботами-скрейперами, достиг беспрецедентного уровня и представляет собой возрастающие риски и затраты,” – сказала организация.

Wikimedia Commons служит открытым хранилищем для изображений, видео и аудио, доступных под открытыми лицензиями или находящихся в общественном достоянии.

При более детальном изучении, Wikimedia сообщает, что почти 65% трафика, который требует наибольших ресурсов, генерируется ботами, хотя они составляют лишь 35% общего числа просмотров страниц. Это расхождение объясняется тем, что часто использованный контент остается в кэше ближе к пользователю, в то время как менее популярный контент хранится дальше в “основном дата-центре”, доступ к которому более затратен. Боты, в свою очередь, часто обращаются к такому контенту.

“В то время как пользователи склонны искать конкретные — и часто похожие — темы, поисковые роботы просматривают гораздо больше страниц, включая менее посещаемые,” – поясняет Wikimedia.

“Это подразумевает, что подобные запросы с большей вероятностью перенаправляются в основной дата-центр, что делает обращение к нему более затратным для нас.”

Таким образом, команда по обеспечению надежности сайта Фонда Викимедиа вынуждена тратить значительные ресурсы на блокировку краулеров, чтобы предотвратить перебои в работе для обычных пользователей. И это еще до учета расходов на облачные вычисления, с которыми сталкивается Фонд.

Эта ситуация является частью быстро развивающейся тенденции, угрожающей существованию открытого интернета. В прошлом месяце разработчик и сторонник открытого кода Дрю ДеВолт выразил свои опасения по поводу того, что AI-краулеры не учитывают файлы «robots.txt», предназначенные для блокировки автоматизированного трафика. Также “прагматичный инженер” Гергей Орос на прошлой неделе отметил, что AI-скраперы от компаний, таких как Meta*, увеличивают нагрузки на серверы его проектов.

Несмотря на угрозу со стороны AI-краулеров, разработчики пытаются противостоять им с “умом и местью”, как сообщалось на прошлой неделе в TechCrunch. Некоторые технологические компании, такие как Cloudflare, начали разработку решений — например, они запустили AI Labyrinth, замедляющий работу поисковых роботов с помощью AI-сгенерированного контента.

Тем не менее, это в значительной степени схватка в “кошки-мышки”, которая может заставить многих издателей перейти на платный доступ или авторизацию, что негативно скажется на пользователях интернета.

Примечание: Продукты Meta* (Facebook, Instagram) запрещены в Российской Федерации.

[Источник](https://techcrunch.com/2025/04/02/ai-crawlers-cause-wikimedia-commons-bandwidth-demands-to-surge-50/)