💡 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
Почему политики в RL "зависают" и как это исправить?
Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:
📉 Политика слишком рано "замыкается" и перестаёт исследовать новые действия.
Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.
🔬 Учёные обнаружили:
🔗 Есть закономерность:
Когда энтропия падает, качество (reward) тоже перестаёт расти.
Формула:
То есть: меньше разнообразия → предсказуемый потолок качества.
🤔 Почему так происходит?
Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.
В результате:
- Энтропия падает
- Модель перестаёт исследовать
- Качество "застывает"
💡 Как это исправить?
Авторы предложили 2 простых приёма:
1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена
2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие
📈 Результат:
Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.
🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.
📌 Читать
Почему политики в RL "зависают" и как это исправить?
Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:
📉 Политика слишком рано "замыкается" и перестаёт исследовать новые действия.
Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.
🔬 Учёные обнаружили:
🔗 Есть закономерность:
Когда энтропия падает, качество (reward) тоже перестаёт расти.
Формула:
R = -a * e^H + b
То есть: меньше разнообразия → предсказуемый потолок качества.
🤔 Почему так происходит?
Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.
В результате:
- Энтропия падает
- Модель перестаёт исследовать
- Качество "застывает"
💡 Как это исправить?
Авторы предложили 2 простых приёма:
1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена
2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие
📈 Результат:
Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.
🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.
📌 Читать
❤6👍4🔥3
Forwarded from Machinelearning
Мэри Микер, легендарная "Королева интернета", вернулась с первым за 5 лет тренд-отчетом и целиком посвятила его ИИ.
В нем проанализированы темпы внедрения ИИ, снижение затрат на вычисления, рост конкуренции между компаниями и странами и перспективы достижения AGI.
Мери Микер - венчурный инвестор, фаундер BOND, бывший аналитик по ценным бумагам Morgan Stanley . В феврале 1996 года в соавторстве с Крисом Депюи опубликовала «The Internet Report» - знаменательный отраслевой отчет, который стал известен как «библия» для инвесторов в период бума доткомов. В 2022 году она заняла 2 место в списке женщин-инвесторов Forbes.
Но не все так радужно. Финансовая отдача ИИ пока не обгоняет прошлые технологические волны. Венчурные фонды льют деньги в ИИ, но сами компании (и облачные провайдеры) сжигают кэш с запредельной скоростью.
Держитесь крепче — революция будет стремительной и неспокойной!
@ai_machinelearning_big_data
#ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤4👍2💩2
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Как автоматизировать создание миллионов карточек товаров и сэкономить тысячи часов?
Саша Воронцов, руководитель службы ML в Маркете, рассказал, как они внедрили YandexGPT, чтобы:
— Извлекать характеристики из хаотичных описаний с точностью 98%.
— Сократить ручную работу продавцов в разы.
— Ускорить вывод товаров в продажу даже при постоянных изменениях категорий.
Главный результат: вместо громоздкого «Формализатора» — гибкая модель, которая учится на лету и почти не требует ручных правок.
📌 Хотите детали? Читайте статью Саши — там всё о борьбе с опечатками продавцов, обучении нейросети и планах по автоматическому исправлению ошибок в карточках.
Саша Воронцов, руководитель службы ML в Маркете, рассказал, как они внедрили YandexGPT, чтобы:
— Извлекать характеристики из хаотичных описаний с точностью 98%.
— Сократить ручную работу продавцов в разы.
— Ускорить вывод товаров в продажу даже при постоянных изменениях категорий.
Главный результат: вместо громоздкого «Формализатора» — гибкая модель, которая учится на лету и почти не требует ручных правок.
📌 Хотите детали? Читайте статью Саши — там всё о борьбе с опечатками продавцов, обучении нейросети и планах по автоматическому исправлению ошибок в карточках.
❤4👍1🔥1
Forwarded from Just Xor
Physics-based Deep Learning
Это практическое руководство по применению глубокого обучения в физическом моделировании.
Вместо сухой теории — акцент на реальных задачах: каждую концепцию сопровождает интерактивный Jupyter-ноутбук, чтобы можно было сразу пробовать и понимать.
📌 Что внутри:
🔹 Физически-осмысленные функции потерь
🔹 Дифференцируемые симуляции
🔹 Диффузионные модели для генеративной физики
🔹 Обучение с подкреплением в задачах динамики
🔹 Современные архитектуры нейросетей для симуляций
🔹 Связь с научными foundation-моделями нового поколения
🧠 Это книга о том, как AI меняет подход к вычислительной науке: от классических симуляций — к гибриду машинного обучения и физики.
🌍 Идеально подойдёт исследователям, инженерам, data scientists и всем, кто работает на стыке науки и ИИ.
#DeepLearning #Physics #ScientificML #DifferentiableSimulation #AI #FoundationModels
https://arxiv.org/pdf/2109.05237
Это практическое руководство по применению глубокого обучения в физическом моделировании.
Вместо сухой теории — акцент на реальных задачах: каждую концепцию сопровождает интерактивный Jupyter-ноутбук, чтобы можно было сразу пробовать и понимать.
📌 Что внутри:
🔹 Физически-осмысленные функции потерь
🔹 Дифференцируемые симуляции
🔹 Диффузионные модели для генеративной физики
🔹 Обучение с подкреплением в задачах динамики
🔹 Современные архитектуры нейросетей для симуляций
🔹 Связь с научными foundation-моделями нового поколения
🧠 Это книга о том, как AI меняет подход к вычислительной науке: от классических симуляций — к гибриду машинного обучения и физики.
🌍 Идеально подойдёт исследователям, инженерам, data scientists и всем, кто работает на стыке науки и ИИ.
#DeepLearning #Physics #ScientificML #DifferentiableSimulation #AI #FoundationModels
https://arxiv.org/pdf/2109.05237
❤4
Это практическое руководство по применению глубокого обучения в физическом моделировании. Вместо сухой теории — акцент на реальных задачах: каждую концепцию сопровождает интерактивный Jupyter-ноутбук, чтобы можно было сразу пробовать и понимать.
📌 Что внутри:
🔹 Физически-осмысленные функции потерь
🔹 Дифференцируемые симуляции
🔹 Диффузионные модели для генеративной физики
🔹 Обучение с подкреплением в задачах динамики
🔹 Современные архитектуры нейросетей для симуляций
🔹 Связь с научными foundation-моделями нового поколения
🧠 Это книга о том, как AI меняет подход к вычислительной науке: от классических симуляций — к гибриду машинного обучения и физики.
🌍 Идеально подойдёт исследователям, инженерам, data scientists и всем, кто работает на стыке науки и ИИ.
#DeepLearning #Physics #ScientificML #DifferentiableSimulation #AI #FoundationModels
📚 Книга
@machinelearning_books
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Работаете в Data Science и хотите стать Middle+? Проверьте свои знания быстрым тестом — и узнайте, готовы ли к следующему шагу!
🔥 ПРОЙТИ ТЕСТ: ссылка
Пройдите тест и проверьте, готовы ли вы к повышению квалификации на курсе «Machine Learning. Advanced». В программе — AutoML, Байесовские методы, обучение с подкреплением и многое другое. Вы научитесь деплоить модели, собирать end-to-end пайплайны и претендовать на позиции Middle+/Senior ML Engineer.
🎁 Успешное прохождение теста — ваш пропуск к записям открытых уроков и скидке на большое обучение.
👉 Оцените свой уровень прямо сейчас: ссылка
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🔥 ПРОЙТИ ТЕСТ: ссылка
Пройдите тест и проверьте, готовы ли вы к повышению квалификации на курсе «Machine Learning. Advanced». В программе — AutoML, Байесовские методы, обучение с подкреплением и многое другое. Вы научитесь деплоить модели, собирать end-to-end пайплайны и претендовать на позиции Middle+/Senior ML Engineer.
🎁 Успешное прохождение теста — ваш пропуск к записям открытых уроков и скидке на большое обучение.
👉 Оцените свой уровень прямо сейчас: ссылка
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤3😁2🗿2
🧠 SHAP — как понять, что “думает” ваша модель на деревьях решений
Если используешь XGBoost, LightGBM или Random Forest — не обязательно работать вслепую.
SHAP (SHapley Additive exPlanations) помогает объяснить, почему модель приняла то или иное решение.
🔍 В кратком гайде от Machine Learning Mastery разобрано:
• как посчитать вклад каждого признака в конкретное предсказание
• как визуализировать это через summary и waterfall-графики
• как сравнить SHAP с обычной feature importance
• и почему SHAP — это больше, чем просто красивая картинка
📊 Особенно полезно, если работаешь в финтехе, медицине или любой сфере, где важно обосновывать модельные выводы.
📖 Гайд
@machinelearning_books
Если используешь XGBoost, LightGBM или Random Forest — не обязательно работать вслепую.
SHAP (SHapley Additive exPlanations) помогает объяснить, почему модель приняла то или иное решение.
🔍 В кратком гайде от Machine Learning Mastery разобрано:
• как посчитать вклад каждого признака в конкретное предсказание
• как визуализировать это через summary и waterfall-графики
• как сравнить SHAP с обычной feature importance
• и почему SHAP — это больше, чем просто красивая картинка
📊 Особенно полезно, если работаешь в финтехе, медицине или любой сфере, где важно обосновывать модельные выводы.
📖 Гайд
@machinelearning_books
🔥4👍1😁1🤡1🥴1
🔢 PGVector: векторный поиск прямо в PostgreSQL — гайд
Если ты работаешь с embedding'ами (OpenAI, HuggingFace, LLMs) и хочешь делать семантический поиск в SQL — тебе нужен
📦 Установка PGVector (Linux)
Или просто:
• macOS:
• Docker:
• PostgreSQL 13+ (через APT/YUM)
🔌 Подключение расширения в базе
После этого ты можешь использовать новый тип данных
🧱 Пример использования
Создаём таблицу:
Добавляем данные:
Поиск ближайшего вектора:
🧠 Операторы сравнения
PGVector поддерживает несколько видов расстояний между векторами:
-
-
-
-
-
-
Также можно усреднять вектора:
🚀 Индексация для быстрого поиска
HNSW (лучшее качество):
Параметры можно настраивать:
#### IVFFlat (быстрее создаётся, но чуть менее точный):
🔍 Проверка версии и обновление
📌 Особенности
- Работает с PostgreSQL 13+
- Поддержка до 2000 измерений
- Расширяемый синтаксис
- Можно использовать
- Подходит для RAG-пайплайнов, NLP и встраивания LLM-поиска в обычные SQL-приложения
🔗 Подробнее
💡 Храни embedding'и прямо в PostgreSQL — и делай семантический поиск без внешних векторных БД.
Если ты работаешь с embedding'ами (OpenAI, HuggingFace, LLMs) и хочешь делать семантический поиск в SQL — тебе нужен
pgvector
. Это расширение позволяет сохранять и сравнивать векторы прямо внутри PostgreSQL.📦 Установка PGVector (Linux)
git clone --branch v0.8.0 https://github.com/pgvector/pgvector.git
cd pgvector
make
sudo make install
Или просто:
• macOS:
brew install pgvector
• Docker:
pgvector/pgvector:pg17
• PostgreSQL 13+ (через APT/YUM)
🔌 Подключение расширения в базе
CREATE EXTENSION vector;
После этого ты можешь использовать новый тип данных
vector
.🧱 Пример использования
Создаём таблицу:
CREATE TABLE items (
id bigserial PRIMARY KEY,
embedding vector(3)
);
Добавляем данные:
INSERT INTO items (embedding) VALUES ('[1,2,3]'), ('[4,5,6]');
Поиск ближайшего вектора:
SELECT * FROM items
ORDER BY embedding <-> '[3,1,2]'
LIMIT 5;
🧠 Операторы сравнения
PGVector поддерживает несколько видов расстояний между векторами:
-
<->
— L2 (евклидово расстояние)-
<#>
— скалярное произведение-
<=>
— косинусное расстояние-
<+>
— Manhattan (L1)-
<~>
— Хэммингово расстояние (для битовых векторов)-
<%>
— Жаккар (для битовых векторов)Также можно усреднять вектора:
SELECT AVG(embedding) FROM items;
🚀 Индексация для быстрого поиска
HNSW (лучшее качество):
CREATE INDEX ON items USING hnsw (embedding vector_l2_ops);
Параметры можно настраивать:
SET hnsw.ef_search = 40;
#### IVFFlat (быстрее создаётся, но чуть менее точный):
CREATE INDEX ON items USING ivfflat (embedding vector_l2_ops) WITH (lists = 100);
SET ivfflat.probes = 10;
🔍 Проверка версии и обновление
SELECT extversion FROM pg_extension WHERE extname='vector';
ALTER EXTENSION vector UPDATE;
📌 Особенности
- Работает с PostgreSQL 13+
- Поддержка до 2000 измерений
- Расширяемый синтаксис
- Можно использовать
DISTINCT
, JOIN
, GROUP BY
, ORDER BY
и агрегации- Подходит для RAG-пайплайнов, NLP и встраивания LLM-поиска в обычные SQL-приложения
🔗 Подробнее
💡 Храни embedding'и прямо в PostgreSQL — и делай семантический поиск без внешних векторных БД.
🔥5❤3👍2
📄 Это исследование оценивает 14 техник prompt-инжиниринга для 10 задач в области Software Engineering, используя 4 разных LLM.
Методология 🔧:
● Эффективность оценивалась с помощью метрик:
● Анализировались лингвистические характеристики prompt'ов:
● Применялась
📌 Выводы помогут понять, какие типы prompt'ов реально работают в инженерных задачах и почему.
Читать
Методология 🔧:
● Эффективность оценивалась с помощью метрик:
Accuracy
, F1 score
, CodeBLEU
, BLEU
.● Анализировались лингвистические характеристики prompt'ов:
лексическое разнообразие
, число токенов
и их связь с качеством ответа.● Применялась
контрастивная интерпретация
, чтобы выявить ключевые факторы, влияющие на результативность техник.📌 Выводы помогут понять, какие типы prompt'ов реально работают в инженерных задачах и почему.
Читать
❤7❤🔥2👍1
📚 9 AI-гайдов от OpenAI, Google и Anthropic
🚀 Всё — про агентов, промпты, бизнес и реальные use-case’ы. Сохрани себе!
1. AI в бизнесе (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf
2. Практика: как строить агентов (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
3. Prompting 101 (Google)
📄 https://services.google.com/fh/files/misc/gemini-for-google-workspace-prompting-guide-101.pdf
4. Как масштабировать AI use-case’ы (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/identifying-and-scaling-ai-use-cases.pdf
5. Building Effective Agents (Anthropic)
🔗 https://www.anthropic.com/engineering/building-effective-agents
6. Prompt Engineering (Anthropic)
🔗 https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview
7. Agents Companion (whitepaper)
📄 https://kaggle.com/whitepaper-agent-companion
8. 601 AI Use Cases (Google)
📄 https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders
9. Prompt Engineering от Google
📄 https://kaggle.com/whitepaper-prompt-engineering
Лучшие практики от лидеров индустрии.
🚀 Всё — про агентов, промпты, бизнес и реальные use-case’ы. Сохрани себе!
1. AI в бизнесе (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf
2. Практика: как строить агентов (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
3. Prompting 101 (Google)
📄 https://services.google.com/fh/files/misc/gemini-for-google-workspace-prompting-guide-101.pdf
4. Как масштабировать AI use-case’ы (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/identifying-and-scaling-ai-use-cases.pdf
5. Building Effective Agents (Anthropic)
🔗 https://www.anthropic.com/engineering/building-effective-agents
6. Prompt Engineering (Anthropic)
🔗 https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview
7. Agents Companion (whitepaper)
📄 https://kaggle.com/whitepaper-agent-companion
8. 601 AI Use Cases (Google)
📄 https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders
9. Prompt Engineering от Google
📄 https://kaggle.com/whitepaper-prompt-engineering
Лучшие практики от лидеров индустрии.
❤10👍3🔥3💩1
🔥 Успех в IT = скорость + знания + окружение
Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!
AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat
💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!
Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!
AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat
💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!
❤3👍1🔥1
Forwarded from Машинное обучение digest
📘 «Компьютерное зрение коротко и ясно» — книга, которую вы действительно прочитаете
Эта книга охватывает основы computer vision с точки зрения обработки изображений и машинного обучения. Цель — не просто объяснить, а сформировать интуицию у читателя. В книге много наглядных визуализаций и минимум лишних слов.
👥 Для кого:
• студенты бакалавриата и магистратуры, которые только входят в область
• практики, которым нужен быстрый и содержательный обзор
📏 Идея была простой: написать небольшую книгу с максимумом пользы — по 5 страниц на главу, только с самыми важными идеями.
Но… увы, и это не удалось — тема слишком широка, чтобы уместиться в малый формат.
📚 Получилось то, что нужно: сильная, визуальная и сжатая книга по компьютерному зрению, которую не страшно открыть и приятно дочитать.
✔️ Книга
@data_analysis_ml
Эта книга охватывает основы computer vision с точки зрения обработки изображений и машинного обучения. Цель — не просто объяснить, а сформировать интуицию у читателя. В книге много наглядных визуализаций и минимум лишних слов.
👥 Для кого:
• студенты бакалавриата и магистратуры, которые только входят в область
• практики, которым нужен быстрый и содержательный обзор
📏 Идея была простой: написать небольшую книгу с максимумом пользы — по 5 страниц на главу, только с самыми важными идеями.
Но… увы, и это не удалось — тема слишком широка, чтобы уместиться в малый формат.
📚 Получилось то, что нужно: сильная, визуальная и сжатая книга по компьютерному зрению, которую не страшно открыть и приятно дочитать.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🔥1🤔1
Хотите войти в одну из самых востребованных и высокооплачиваемых IT-профессий, но кажется, что ML — это сложно и требует только высшего образования?
Приглашаем на бесплатный вебинар, где развеем мифы и покажем реальный путь с нуля до конкурентоспособного ML-инженера!
Спикер вебинара: Савелий Батурин, Senior ML-Engineer в Postgres Professional, а также преподаватель нашего курса-симулятора «Инженер машинного обучения».
На вебинаре вы узнаете:
Бонусы для участников: готовый роадмап обучения.
🕗 Встречаемся 17 июня в 18:30 по МСК
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥2
💡 Обучение больших языковых моделей (LLM) — очень дорогое удовольствие.
Но есть ещё одна проблема: выводы с небольших экспериментов почти не помогают предсказать результат на реальных, больших моделях. Это мешает разрабатывать новые подходы и оптимизировать обучение.
🔬 Решение — Farseer: новая улучшенная формула масштабирования, которая точнее прогнозирует, как будет вести себя модель при увеличении объёма данных и числа параметров.
Что делает Farseer?
▪️ Строит точную карту зависимости потерь от размера модели (N) и данных (D)
▪️ Применяет более гибкий способ подгонки (differential piecewise fitting), который справляется даже со сложными графиками ошибок
▪️ Позволяет получать надёжные прогнозы для крупных LLM, снижая ошибку в 4 раза по сравнению с предыдущими подходами (например, законом Чинчиллы)
📊 Проверено на ~1000 моделях и 3 миллионах GPU-часов: новая формула действительно лучше работает на практике и помогает эффективнее масштабировать языковые модели.
Итог:
Farseer помогает предсказывать результат для больших моделей, экономить ресурсы и ускорять разработку — всё благодаря более точной математике и умному учёту зависимости потерь от размера модели и объёма данных.
📌 Читать
Но есть ещё одна проблема: выводы с небольших экспериментов почти не помогают предсказать результат на реальных, больших моделях. Это мешает разрабатывать новые подходы и оптимизировать обучение.
🔬 Решение — Farseer: новая улучшенная формула масштабирования, которая точнее прогнозирует, как будет вести себя модель при увеличении объёма данных и числа параметров.
Что делает Farseer?
▪️ Строит точную карту зависимости потерь от размера модели (N) и данных (D)
▪️ Применяет более гибкий способ подгонки (differential piecewise fitting), который справляется даже со сложными графиками ошибок
▪️ Позволяет получать надёжные прогнозы для крупных LLM, снижая ошибку в 4 раза по сравнению с предыдущими подходами (например, законом Чинчиллы)
📊 Проверено на ~1000 моделях и 3 миллионах GPU-часов: новая формула действительно лучше работает на практике и помогает эффективнее масштабировать языковые модели.
Итог:
Farseer помогает предсказывать результат для больших моделей, экономить ресурсы и ускорять разработку — всё благодаря более точной математике и умному учёту зависимости потерь от размера модели и объёма данных.
📌 Читать
❤9👍2🤔2
🚀 Туториал от Google: как развернуть удалённый MCP-сервер на Cloud за 10 минут
🔧 Пошаговое руководство:
• Создание собственного удалённого MCP‑сервера
• Развёртывание в Google Cloud Run
• Быстрый запуск без настройки серверной инфраструктуры
• Поддержка мультиплатформенности и удалённого доступа
Идеально для разработки, тестирования и продакшена в облаке.
📄 Полный гайд: https://cloud.google.com/blog/topics/developers-practitioners/build-and-deploy-a-remote-mcp-server-to-google-cloud-run-in-under-10-minutes
🔧 Пошаговое руководство:
• Создание собственного удалённого MCP‑сервера
• Развёртывание в Google Cloud Run
• Быстрый запуск без настройки серверной инфраструктуры
• Поддержка мультиплатформенности и удалённого доступа
Идеально для разработки, тестирования и продакшена в облаке.
📄 Полный гайд: https://cloud.google.com/blog/topics/developers-practitioners/build-and-deploy-a-remote-mcp-server-to-google-cloud-run-in-under-10-minutes
❤6👍2
Forwarded from Machinelearning
Microsoft Research представила методы, усиливающие способность языковых моделей, от компактных до гигантских к сложным рассуждениям. Технологии фокусируются на 3 направлениях: архитектура малых моделей, математическая строгость и кросс-доменное обобщение.
Ключ для маленьких моделей (1.5–7 млрд параметров) в имитации человеческого пошагового мышления.
rStar-Math использует алгоритм MCTS в цикле самообучения: сначала декомпозиция задачи на шаги, затем Process Preference Model (PPM), который учит модель оценивать качество каждого шага через "метки награды", и наконец — итеративная доработка. За 4 цикла MCTS, стратегия и PPM совместно улучшают результат.
Logic-RL — это фреймворк обучения с подкреплением, который награждает модель только при идеально оформленном ходе рассуждений и верном ответе, исключая любые попытки выбора обходных путей.
Для математической надежности разработан LIPS, гибрид ИИ и символьных движков. LIPS распределяет задачи: языковая модель распознает паттерны и переформулирует условия (например, неравенства), а символьный решатель выполняет точные преобразования (масштабирование, упрощение).
Чтобы ИИ понимал условия без ошибок, создан нейро-символический фреймворк генерации данных: символьные системы создают задачи, а языковые модели переводят их в "человеческий" текст. Для проверки выводов используются символьная эквивалентность (сравнение формул) и семантическая согласованность (анализ смысла через эмбеддинги), повышая точность на 35%.
Дополнительный бонус — неожиданное обобщение. Тренировка на математике резко улучшила результаты моделей в программировании и естественных науках.
Для унификации подходов создан Chain-of-Reasoning (CoR), позволяющий гибко комбинировать текстовые, программные и символьные рассуждения в одном решении. А Critical Plan Step Learning (CPL) учит ИИ стратегическому планированию: разбивать проблему, выделять ключевые шаги и отбрасывать слабые варианты через комбинацию Plan-based MCTS и Step-APO.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Reasoning #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2🥰1