Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.
Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.
Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030
#ai #archives #internetarchive #outage
Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.
Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030
#ai #archives #internetarchive #outage
X (formerly Twitter)
Internet Archive (@internetarchive) on X
Sorry, but https://t.co/rvOhn0c6zM is down temporarily-- working to restore service.
(details: this is our second blast of abusive traffic from an AWS customer today apparently from an AI company harvesting Internet Archive texts at an extreme rate)
(details: this is our second blast of abusive traffic from an AWS customer today apparently from an AI company harvesting Internet Archive texts at an extreme rate)
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives