Вайб-кодинг

10.3K views20:10

This media is not supported in your browser

Гений закрыл серьёзную слепую зону в недавно вышедшем skill для fine-tuning от HuggingFace

HuggingFace выпустили skill, который можно подключить к Claude или любому кодинг-агенту, и он позволяет дообучать open-source LLM-ки на обычном тексте.

Агент сам делает выбор GPU, сабмитит джобу, мониторит прогресс и пушит готовую модель на Hub.

Но есть нюанс.

Он предполагает, что у тебя уже есть чистый датасет на HuggingFace Hub.

А в реальности данные, на которых чаще всего хочется дообучаться, живут в Twitter, LinkedIn, Reddit, Amazon и на других платформах за антибот-защитой.

Поэтому гений интегрировал Bright Data Web MCP в этот skill, чтобы кодинг-агент мог собирать данные из веба перед тем, как запускать обучение:

- Скрапить данные с платформ вроде YouTube, Amazon или Reddit, при этом CAPTCHA и антибот-системы обрабатываются автоматически.
- Преобразовывать собранный контент в датасет для fine-tuning в нужном формате.
- Валидировать датасет, подобрать GPU-железо и отправить training job в HuggingFace.
- Следить за ходом обучения и пушить готовую модель на Hub.

С этим обновлением теперь можно сказать Claude что-то вроде:
"Собери топ-500 обсуждений про Python с Reddit, конвертни их в instruction-response пары и дообучи Qwen3-0.6B на этом датасете через SFT."

И агент дальше сам сделает сбор данных, форматирование, обучение и деплой в одном пайплайне.

Оригинальный skill от HuggingFace отлично закрывал часть с обучением, её и не трогали.

Чувак просто добавил недостающий слой сбора данных через Bright Data MCP, который поддерживает 60+ web data tools для 40+ платформ.

Почему именно Bright Data?

Агентам в вебе часто прилетают IP-блокировки и CAPTCHA. Bright Data берёт это на себя за кулисами.

Это позволяет масштабировать скрейпинг без постоянных блоков, симулировать действия реального пользователя на сложных сайтах и работать как с real-time, так и с историческими данными с 40+ платформ.

100% опенсорс

💼

Please open Telegram to view this post