Data Science | Machinelearning [ru]
19.9K subscribers
688 photos
47 videos
28 files
3.55K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin


РКН: https://vk.cc/cJPGXD
Download Telegram
Forwarded from xCode Journal
🤣 Надёжность инфраструктуры 100%

💥 xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁21
ИТ-специалисты Москвы, хотите поделиться опытом?

Есть возможность рассказать студентам о том, что вы не услышали в свое время. Центральный университет как раз проводит интенсив для будущих преподавателей ИТ-специальностей — это возможность попробовать себя в роли наставника и понять, подходит вам эта деятельность или нет.

Там вы сможете:
— Связать преподавание с личными и карьерными целями.
— Отработать техники презентаций и вовлечения аудитории.
— Спроектировать и провести пару на площадке Центрального университета.
— Заручиться поддержкой экспертов с опытом в крупных ИТ-компаниях.
— Получить шанс попасть в команду преподавателей Центрального университета.

Интенсив пройдет с 22 марта по 5 апреля. Будут онлайн-встречи и очные занятия. Еще успеваете зарегистрироваться.
This media is not supported in your browser
VIEW IN TELEGRAM
OpenClaw + RL

Агенты OpenClaw адаптируются с помощью файлов памяти и навыков (skills), но веса базовой модели на самом деле не меняются.

Как OpenClaw-RL решает эту проблему?

Он оборачивает самостоятельно размещённую модель в API, совместимый с OpenAI, перехватывает живые диалоги из OpenClaw и обучает политику в фоновом режиме с помощью RL (обучения с подкреплением).

Архитектура полностью асинхронная. Это означает, что:

обработка запросов,

оценка награды (reward scoring),

и обучение

выполняются параллельно.

После завершения обучения веса модели "hot" подменяются (hot-swap) после каждого батча, при этом агент продолжает отвечать без остановки.

В настоящее время поддерживаются два режима обучения:

Binary RL (GRPO): модель награды оценивает каждый ход диалога как хороший, плохой или нейтральный. Эта скалярная награда используется для обновления политики через PPO-подобную функцию цели с клиппингом.

On-Policy Distillation: когда появляются конкретные исправления, например
"тебе нужно было сначала проверить тот файл",
эта обратная связь используется как более богатый направленный сигнал обучения на уровне токенов.


Когда стоит использовать OpenClaw-RL?

Честно говоря, большую часть поведения агента уже можно улучшить через более грамотный дизайн памяти и навыков.

Существующая экосистема навыков OpenClaw и созданные сообществом навыки самоулучшения покрывают широкий спектр задач без изменения весов модели.

Если агент постоянно забывает предпочтения пользователя - это проблема памяти.
Если он не знает, как обработать конкретный рабочий процесс - это проблема навыков.

Обе задачи решаются на уровне промптов и контекста.

RL становится действительно интересным, когда источник ошибки лежит глубже - в самом механизме рассуждения модели.

Например:

систематически плохой порядок выбора инструментов,

слабое многошаговое планирование,

неспособность правильно интерпретировать неоднозначные инструкции так, как ожидает конкретный пользователь.

Исследования в области agentic RL (например, ARTIST и Agent-R1) показывают, что такие поведенческие паттерны достигают потолка, если использовать только промпт-подходы. Особенно это заметно в сложных многошаговых задачах, где модели нужно:

восстанавливаться после ошибок инструментов,

или менять стратегию прямо во время выполнения.
Именно этот уровень и является целью OpenClaw-RL - и это ключевое отличие от того, что предлагает обычный OpenClaw.
3
Как бороться с переобучением в нейросетях

Переобучение — это момент, когда модель:
👉 отлично знает train
👉 и вообще не понимает реальный мир

Она запоминает, а не обобщает.
Разберём, как с этим бороться 👇

1. Больше данных (самый честный способ)

Чем больше данных — тем сложнее модели заучить шум.

Что можно сделать:
👉 собрать новые данные
👉 использовать data augmentation
👉 синтетически расширить выборку

В CV и NLP это часто даёт лучший эффект, чем любые трюки с архитектурой.

2. Regularization (штраф за “слишком умную” модель)

👉 L1 / L2 регуляризация
→ штрафуют большие веса

Интуитивно:
модель становится проще и меньше переобучается

3. Dropout — случайное “забывание” нейронов

Во время обучения случайные нейроны отключаются.

Что это даёт:
👉 модель не может опираться на конкретные нейроны
👉 учится быть более устойчивой

Обычно:
👉 0.2 – 0.5 dropout rate

4. Early Stopping — остановись вовремя

Следим за валидацией:

👉 train loss ↓
👉 val loss сначала ↓, потом ↑

Как только val начинает расти — останавливаем обучение

Это один из самых эффективных и недооценённых методов.

5. Упростить модель

Иногда решение самое простое:

👉 меньше слоёв
👉 меньше параметров
👉 проще архитектура

Большая модель = больше шанс переобучения.

6. Batch Normalization

Помогает:
👉 стабилизировать обучение
👉 немного снижает переобучение

Но это не silver bullet — скорее бонус.

7. Data Augmentation

Особенно важно для:

👉 CV (повороты, шум, кропы)
👉 NLP (перефразирование, замены)

Модель видит больше вариантов одного и того же объекта.

8. Правильная валидация

Если у тебя плохой split —
ты даже не поймёшь, что модель переобучилась.

Используй:
👉 train / val / test
👉 k-fold (если мало данных)

Главный инсайт

Переобучение — это не ошибка модели.

Это сигнал, что:
👉 либо мало данных
👉 либо модель слишком сложная
👉 либо процесс обучения настроен плохо

В одном предложении

Чтобы победить переобучение —
либо добавь информации (данные), либо убери сложность (модель).
🔥8👀1
Уверенное владение математическим аппаратом — ключевой фактор для решения сложных задач в Data Science, ML и других it-специальностях.

Преподаватели МФТИ и создатели проекта Popmath приглашают вас на бесплатный вебинар "Как выучить математику во взрослом возрасте?"

На вебинаре вы получите ответы на ключевые вопросы:

🔴 Прикладная математика: Какие разделы наиболее критичны для современных IT-специальностей

🔵 Эффективность обучения: Почему академический подход часто не работает и как выстроить процесс с максимальным КПД

🟠 Актуальные методики: Какие образовательные технологии позволяют в сжатые сроки восстановить и систематизировать знания

Дата: 23 марта
Время: 20:00 по МСК
Длительность: 1 час + ответы на вопросы

➡️ Для регистрации пишите нам!

или ознакомьтесь со страницей вебинара и оставьте заявку там

🔻 Всем участникам вебинара скидка 10% на 4-х месячный онлайн-курс "Математика с нуля для взрослых", который начнётся уже 26 марта🔺
🐳1
Секунда уверенности → полгода страданий
😁22