Forwarded from Dealer.AI
GRPO на самом деле DPO и это многое упрощает 😱
Не буду приводить доказательства, вся зубодробительная математика тут. Скажу лишь, что GRPO было развитием PPO от команды DeepSeek при создании R семейства. Данный метод также исследует политику на разных траекториях, только сводит все в группы. Т.к. это ppo-like подход мы наследуем все те же проблемы стабилизации и настройки алгоритма, мало у кого кроме таких топ игроков он завелся для LLM предсказуемо. Поэтому модификация в виде dpo like (оч подробно писал тут про это) нам дает более простой, стабильный и надёжный вариант RLHF чисто на уровне sft.
Поэтому данная статья считаю оч важна и упростит жизнь AI-engineer при обучении моделек. Модификацию к dpo-like лосса GRPO приложу на скринах ниже.
Не буду приводить доказательства, вся зубодробительная математика тут. Скажу лишь, что GRPO было развитием PPO от команды DeepSeek при создании R семейства. Данный метод также исследует политику на разных траекториях, только сводит все в группы. Т.к. это ppo-like подход мы наследуем все те же проблемы стабилизации и настройки алгоритма, мало у кого кроме таких топ игроков он завелся для LLM предсказуемо. Поэтому модификация в виде dpo like (оч подробно писал тут про это) нам дает более простой, стабильный и надёжный вариант RLHF чисто на уровне sft.
Поэтому данная статья считаю оч важна и упростит жизнь AI-engineer при обучении моделек. Модификацию к dpo-like лосса GRPO приложу на скринах ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Pavel Zloi
Давно мечтал разобраться с тем как конвертировать в GGUF без потерь в качестве, чтобы оного добиться необходимо использовать калибровочный датасет, но как подружить датасет, GGUF и инструменты квантизации для меня было неведомо.
Поэтому решил изучить тему сам и рассказать вам в моей новенькой публикации "GGUF: квантизация с калибровкой (imatrix)" на Хабр.
UPD. На примере модельки ai-sage/GigaChat-20B-A3B-instruct
#habr #gguf
Поэтому решил изучить тему сам и рассказать вам в моей новенькой публикации "GGUF: квантизация с калибровкой (imatrix)" на Хабр.
UPD. На примере модельки ai-sage/GigaChat-20B-A3B-instruct
#habr #gguf
Forwarded from Базы данных & SQL
Хранение временных данных в PostgreSQL
Временные (промежуточные) данные - те, которые нужны для обработки в течение транзакции, сессии или ограниченное время. После истечения срока такие данные не нужны. Причина использования временных данных в том, что в одном запросе не всегда можно обработать все данные. Логика приложения может предусматривать обработку данных по частям - разными запросами. В статье рассматриваются и сравниваются способы хранения временных данных в:
1) обычных таблицах;
2) нежурналируемых таблицах;
3) материализованных представлениях;
4) временных таблицах;
5) в памяти серверного процесса, используя расширение pg_variables
Читать статью
Временные (промежуточные) данные - те, которые нужны для обработки в течение транзакции, сессии или ограниченное время. После истечения срока такие данные не нужны. Причина использования временных данных в том, что в одном запросе не всегда можно обработать все данные. Логика приложения может предусматривать обработку данных по частям - разными запросами. В статье рассматриваются и сравниваются способы хранения временных данных в:
1) обычных таблицах;
2) нежурналируемых таблицах;
3) материализованных представлениях;
4) временных таблицах;
5) в памяти серверного процесса, используя расширение pg_variables
Читать статью
Forwarded from Awesome DL (оleg)
Привет! Меня зовут Олег, я исследую, как оптимально скейлить языковые модели в Jülich Supercomputing Centre. Пока Андрей подзаряжается энергией для будущих постов, делюсь нашей новой работой — “Optimal Scaling Needs Optimal Norm”. Всем, кто задумывался о правильном тюнинге гиперпараметров — будет интересно!
Главная проблема в скейлинге — как подбирать гиперпараметры (learning rate, batch size и т.д.) на масштабе >1B параметров и >100B токенов, когда перебор брутфорсом уже не вариант. Известные подходы вроде muP и других параметризаций гарантируют оптимальность при скейлинге модели, но не объясняют, что делать при увеличении размера датасета — скажем, с 1B до 1T токенов. Эмпирические scaling laws (пример или наша прошлая работа) помогают, но теории объединяющей всё вместе пока не существует.
Мы подошли к этой проблеме со стороны norm-based optimization. Сейчас на хайпе Muon, который бьёт Adam, а в основе всего лежит теория Jeremy Bernstein (Modular Duality) — очень советую глянуть, это прям база. Также этот подход позволяет отслеживать эволюцию норм по слоям, и именно в них оказывается кроется секрет оптимального скейлинга!
С Scion (улучшенная версия Muon) мы показали: чтобы достичь оптимального скейлинга одновременно модели и(!) датасета, нужно удерживать веса на одном и том же manifold’е — то есть сохранять норму весов постоянной при любом масштабе. Кроме того, мы вывели, как оптимально подбирать batch size и learning rate в этом сэтапе, выпустили Distributed Scion для тренировки на множестве GPU + открыли логи 2000+ экспериментов.
В общем, всех инсайтов вкратце не описать, так что гляньте статью — буду рад обсудить идеи и услышать ваши мысли в комментах 😌
И апвоутните нас на Hugging Face! Было бы круто попасть в топ Daily Papers, мы уже очень близко 🚀
Главная проблема в скейлинге — как подбирать гиперпараметры (learning rate, batch size и т.д.) на масштабе >1B параметров и >100B токенов, когда перебор брутфорсом уже не вариант. Известные подходы вроде muP и других параметризаций гарантируют оптимальность при скейлинге модели, но не объясняют, что делать при увеличении размера датасета — скажем, с 1B до 1T токенов. Эмпирические scaling laws (пример или наша прошлая работа) помогают, но теории объединяющей всё вместе пока не существует.
Мы подошли к этой проблеме со стороны norm-based optimization. Сейчас на хайпе Muon, который бьёт Adam, а в основе всего лежит теория Jeremy Bernstein (Modular Duality) — очень советую глянуть, это прям база. Также этот подход позволяет отслеживать эволюцию норм по слоям, и именно в них оказывается кроется секрет оптимального скейлинга!
С Scion (улучшенная версия Muon) мы показали: чтобы достичь оптимального скейлинга одновременно модели и(!) датасета, нужно удерживать веса на одном и том же manifold’е — то есть сохранять норму весов постоянной при любом масштабе. Кроме того, мы вывели, как оптимально подбирать batch size и learning rate в этом сэтапе, выпустили Distributed Scion для тренировки на множестве GPU + открыли логи 2000+ экспериментов.
В общем, всех инсайтов вкратце не описать, так что гляньте статью — буду рад обсудить идеи и услышать ваши мысли в комментах 😌
И апвоутните нас на Hugging Face! Было бы круто попасть в топ Daily Papers, мы уже очень близко 🚀
arXiv.org
Optimal Scaling Needs Optimal Norm
Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that...
Forwarded from Sinекура
Завтра уже следующий доклад на семинаре лаборатории Маркова, но вот вам пока предыдущий:
Семинар Markov Lab — 2025.10.01—- RL для дообучения LLM
(Слайды на странице семинара)
Кирилл Тыщук в этом докладе дал обзор современных RL-алгоритмов (в основном из класса policy gradient, конечно), которые используются для дообучения LLM: PPO, DPO, GRPO и другие далее по списку. Фактически это была отличная обучающая лекция, так что ей особенно рад поделиться.
Надеюсь, удастся заманить Кирилла прочитать такую гостевую лекцию и в моём курсе deep learning на МКН.) Там как раз времени в этом семестре наконец-то стало побольше, и для этого есть все возможности.
Семинар Markov Lab — 2025.10.01—- RL для дообучения LLM
(Слайды на странице семинара)
Кирилл Тыщук в этом докладе дал обзор современных RL-алгоритмов (в основном из класса policy gradient, конечно), которые используются для дообучения LLM: PPO, DPO, GRPO и другие далее по списку. Фактически это была отличная обучающая лекция, так что ей особенно рад поделиться.
Надеюсь, удастся заманить Кирилла прочитать такую гостевую лекцию и в моём курсе deep learning на МКН.) Там как раз времени в этом семестре наконец-то стало побольше, и для этого есть все возможности.
Forwarded from Не AБы какие тесты
Привет, товарищи-статистики!
Поговорим про доверительные интервалы.
По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.
Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?
Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.
Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.
Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.
Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.
Ссылка на симуляцию (там надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)
Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.
P.S. Спрашивать на собеседовании я это, конечно, не буду.
Поговорим про доверительные интервалы.
По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.
Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?
Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.
Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.
Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.
Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.
Ссылка на симуляцию (там надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)
Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.
P.S. Спрашивать на собеседовании я это, конечно, не буду.
Forwarded from Пристанище Дата Сайентиста (TelepostBot)
Написал новую статью: как стать AI-first специалистом
Последний год я работаю как Data Science консультант и полностью перестроил все процессы под AI-инструменты. Результат — продуктивность выросла
Что внутри:
📚 NotebookLM — превращает любые документы в интерактивную базу знаний. Недавно проанализировал 50-страничный контракт за 10 минут вместо часов
💻 Cursor — пишет код
🧠 Claude — лучший аналитик среди всех LLM.
⚡ v0 APP — генерирует готовые интерфейсы одним промптом. От идеи до working prototype за 15-30 минут
Бонус: честно рассказал об инструментах, которые не прижились (n8n и почему no-code оказался сложнее обычного кода)
Читать
Кто уже интегрировал AI в работу? Поделитесь опытом в комментах
Последний год я работаю как Data Science консультант и полностью перестроил все процессы под AI-инструменты. Результат — продуктивность выросла
Что внутри:
📚 NotebookLM — превращает любые документы в интерактивную базу знаний. Недавно проанализировал 50-страничный контракт за 10 минут вместо часов
💻 Cursor — пишет код
🧠 Claude — лучший аналитик среди всех LLM.
⚡ v0 APP — генерирует готовые интерфейсы одним промптом. От идеи до working prototype за 15-30 минут
Бонус: честно рассказал об инструментах, которые не прижились (n8n и почему no-code оказался сложнее обычного кода)
Читать
Кто уже интегрировал AI в работу? Поделитесь опытом в комментах
Персональный блог Рената Алимбекова - Data Science, ML и Analytics Engineering
Как стать AI-first специалистом прямо сейчас
Как стать AI-first специалистом прямо сейчас NotebookLM. Cursor: VibeCodig. Claude. Repomix. v0.app - генерация интерфейсов одним промптом. n8n .
Forwarded from Пристанище Дата Сайентиста (TelepostBot)
startup_technical_guide_ai_agents_final.pdf
25.4 MB
Google выпустил гайд для стартапов о том, как создавать ИИ-агентов
Что там есть интересного:
1. Обеспечьте Grounding ответов агента через RAG (Retrieval-Augmented Generation)
2. Масштаб и Безопасность: Внедрите методологию AgentOps (Agent Operations) для автоматизированной оценки, CI/CD и управления недетерминированными системами.
А так там много интересных схем и подходов.
Что там есть интересного:
1. Обеспечьте Grounding ответов агента через RAG (Retrieval-Augmented Generation)
2. Масштаб и Безопасность: Внедрите методологию AgentOps (Agent Operations) для автоматизированной оценки, CI/CD и управления недетерминированными системами.
А так там много интересных схем и подходов.
Forwarded from DziS Science | Data Science
Привет всем!👋
Просто посмотрите какая красота - логотип новой версии🐍 .
Вчера официально вышел релиз Python 3.14.
- Какие изменения нас ждут в данном релизе?
1️⃣ 🔤 Прежде всего, важнейшим обновлением является тот факт, что теперь Python официально поддерживается на ОС Android.
2️⃣ 🔤 Уже традиционное улучшение сообщений об ошибке.
3️⃣ 🔤 Куча удаленных и deprecated функций.
4️⃣ 🔤 Интересным нововведением является
Код ниже даст
Напротив, код ниже отработает без сигнализации проблем
5️⃣ 🔤 Выражение
6️⃣ 🔤 В встроенную библиотеку
7️⃣ 🔤 Новые
Такие конструкции удобны для проверки входящих данных, например целых кусков HTML, ведь вводимые данные имеют тип Interpolation.
Например:
Обновление интересное, включает еще в себя кучу оптимизаций, включая freethreding, JIT, дополнительной оптимизацией по памяти, что разрушает стериотип о Python - медленный, но простой.
По традиции, 🔥, если понравилось
#ds_лайфхаки
Просто посмотрите какая красота - логотип новой версии
Вчера официально вышел релиз Python 3.14.
- Какие изменения нас ждут в данном релизе?
whille True:
pass
Traceback (most recent call last):
File "<stdin>", line 1
whille True:
^^^^^^
SyntaxError: invalid syntax. Did you mean 'while'?
SyntaxWarning при использовании операторов return, break, continue, приводящих к выходу из блока finallyКод ниже даст
SyntaxWarningdef f():
try:
...
finally:
return 42
for x in o:
try:
...
finally:
break # (or continue)
Напротив, код ниже отработает без сигнализации проблем
try:
...
finally:
def f():
return 42
try:
...
finally:
for x in o:
break # (or continue)
except теперь может вызывать несколько типов ошибок без использования скобок:try:
connect_to_server()
except TimeoutError, ConnectionRefusedError:
print('The network has ceased to be!')
compression добавлен новый метод сжатия zstdt-strings. Т строки (Template Strings), иначе говоря шаблонные, включают в себя статичную и вставочную часть, при этом результат вывода не является строкой. variety = 'Stilton'
template = t'Try some {variety} cheese!'
type(template)
<class 'string.templatelib.Template'>
list(template)
['Try some ', Interpolation('Stilton', 'variety', None, ''), ' cheese!']
Такие конструкции удобны для проверки входящих данных, например целых кусков HTML, ведь вводимые данные имеют тип Interpolation.
Например:
def lower_upper(template):
"""Render static parts lowercase and interpolations uppercase."""
parts = []
for part in template:
if isinstance(part, Interpolation):
parts.append(str(part.value).upper())
else:
parts.append(part.lower())
return ''.join(parts)
name = 'Wenslydale'
template = t'Mister {name}'
assert lower_upper(template) == 'mister WENSLYDALE'
Обновление интересное, включает еще в себя кучу оптимизаций, включая freethreding, JIT, дополнительной оптимизацией по памяти, что разрушает стериотип о Python - медленный, но простой.
По традиции, 🔥, если понравилось
#ds_лайфхаки
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LLM под капотом
Видео доклада "Schema-guided reasoning: как заставить LLM быть умнее"
Эту запись сделали и выложили ребята из @MadML_Talks
https://www.youtube.com/watch?v=0XhFB9OItqw
Разобрано очень дотошно и хорошо. Если есть какие-то вопросы к авторам, задавайте их тут или у них в чате!
Ваш, @llm_under_hood 🤗
Эту запись сделали и выложили ребята из @MadML_Talks
https://www.youtube.com/watch?v=0XhFB9OItqw
Разобрано очень дотошно и хорошо. Если есть какие-то вопросы к авторам, задавайте их тут или у них в чате!
Ваш, @llm_under_hood 🤗
YouTube
Schema-guided reasoning: как заставить LLM быть умнее
Революционный подход к управлению большими языковыми моделями через Schema-guided reasoning от Александра Брыля, ведущего ML-инженера Mad Devs. Узнайте, как заставить любую LLM рассуждать структурированно и создавать надежных агентов без сложных фреймворков.…