Интересное что-то – Telegram

Интересное что-то

522 subscribers

2.72K photos

253 videos

140 files

4.53K links

Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat

Download Telegram

About

Blog

Apps

Platform

Интересное что-то

522 subscribers

Интересное что-то

56 views16:37

Интересное что-то

Forwarded from Dealer.AI

GRPO на самом деле DPO и это многое упрощает

😱

Не буду приводить доказательства, вся зубодробительная математика тут. Скажу лишь, что GRPO было развитием PPO от команды DeepSeek при создании R семейства. Данный метод также исследует политику на разных траекториях, только сводит все в группы. Т.к. это ppo-like подход мы наследуем все те же проблемы стабилизации и настройки алгоритма, мало у кого кроме таких топ игроков он завелся для LLM предсказуемо. Поэтому модификация в виде dpo like (оч подробно писал тут про это) нам дает более простой, стабильный и надёжный вариант RLHF чисто на уровне sft.

Поэтому данная статья считаю оч важна и упростит жизнь AI-engineer при обучении моделек. Модификацию к dpo-like лосса GRPO приложу на скринах ниже.

Please open Telegram to view this post

VIEW IN TELEGRAM

60 views16:37

Интересное что-то

62 views16:46

Интересное что-то

Forwarded from Pavel Zloi

Давно мечтал разобраться с тем как конвертировать в GGUF без потерь в качестве, чтобы оного добиться необходимо использовать калибровочный датасет, но как подружить датасет, GGUF и инструменты квантизации для меня было неведомо.

Поэтому решил изучить тему сам и рассказать вам в моей новенькой публикации "GGUF: квантизация с калибровкой (imatrix)" на Хабр.

UPD. На примере модельки ai-sage/GigaChat-20B-A3B-instruct

#habr #gguf

65 views16:46

Интересное что-то

#systemdesign #database

65 views16:50

Интересное что-то

Forwarded from Базы данных & SQL

Хранение временных данных в PostgreSQL

Временные (промежуточные) данные - те, которые нужны для обработки в течение транзакции, сессии или ограниченное время. После истечения срока такие данные не нужны. Причина использования временных данных в том, что в одном запросе не всегда можно обработать все данные. Логика приложения может предусматривать обработку данных по частям - разными запросами. В статье рассматриваются и сравниваются способы хранения временных данных в:
1) обычных таблицах;
2) нежурналируемых таблицах;
3) материализованных представлениях;
4) временных таблицах;
5) в памяти серверного процесса, используя расширение pg_variables

Читать статью

68 views16:50

Интересное что-то

69 views17:12

Интересное что-то

Forwarded from Awesome DL (оleg)

Привет! Меня зовут Олег, я исследую, как оптимально скейлить языковые модели в Jülich Supercomputing Centre. Пока Андрей подзаряжается энергией для будущих постов, делюсь нашей новой работой — “Optimal Scaling Needs Optimal Norm”. Всем, кто задумывался о правильном тюнинге гиперпараметров — будет интересно!

Главная проблема в скейлинге — как подбирать гиперпараметры (learning rate, batch size и т.д.) на масштабе >1B параметров и >100B токенов, когда перебор брутфорсом уже не вариант. Известные подходы вроде muP и других параметризаций гарантируют оптимальность при скейлинге модели, но не объясняют, что делать при увеличении размера датасета — скажем, с 1B до 1T токенов. Эмпирические scaling laws (пример или наша прошлая работа) помогают, но теории объединяющей всё вместе пока не существует.

Мы подошли к этой проблеме со стороны norm-based optimization. Сейчас на хайпе Muon, который бьёт Adam, а в основе всего лежит теория Jeremy Bernstein (Modular Duality) — очень советую глянуть, это прям база. Также этот подход позволяет отслеживать эволюцию норм по слоям, и именно в них оказывается кроется секрет оптимального скейлинга!

С Scion (улучшенная версия Muon) мы показали: чтобы достичь оптимального скейлинга одновременно модели и(!) датасета, нужно удерживать веса на одном и том же manifold’е — то есть сохранять норму весов постоянной при любом масштабе. Кроме того, мы вывели, как оптимально подбирать batch size и learning rate в этом сэтапе, выпустили Distributed Scion для тренировки на множестве GPU + открыли логи 2000+ экспериментов.

В общем, всех инсайтов вкратце не описать, так что гляньте статью — буду рад обсудить идеи и услышать ваши мысли в комментах 😌

И апвоутните нас на Hugging Face! Было бы круто попасть в топ Daily Papers, мы уже очень близко 🚀

Optimal Scaling Needs Optimal Norm

Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that...

66 views17:12

Интересное что-то

68 views17:21

Интересное что-то

Forwarded from Sinекура

Завтра уже следующий доклад на семинаре лаборатории Маркова, но вот вам пока предыдущий:

Семинар Markov Lab — 2025.10.01—- RL для дообучения LLM
(Слайды на странице семинара)

Кирилл Тыщук в этом докладе дал обзор современных RL-алгоритмов (в основном из класса policy gradient, конечно), которые используются для дообучения LLM: PPO, DPO, GRPO и другие далее по списку. Фактически это была отличная обучающая лекция, так что ей особенно рад поделиться.

Надеюсь, удастся заманить Кирилла прочитать такую гостевую лекцию и в моём курсе deep learning на МКН.) Там как раз времени в этом семестре наконец-то стало побольше, и для этого есть все возможности.

69 views17:21

Интересное что-то

68 views17:23

Интересное что-то

Forwarded from Не AБы какие тесты

Привет, товарищи-статистики!
Поговорим про доверительные интервалы.

По окончанию теста мы всегда строим доверительный интервал эффекта с заданным уровнем надежности, который согласно заранее выставленной альфе равен 1 - альфа, пускай у нас он вышел 95%.

Внимание, вопрос, сколько раз такой интервал при стат. значимости охватит истинный эффект, если мощность = 80% ?

Так как уровень надежности и мощности независимы, то P(CI охватит Mu_эффект) * P(CI стат.значимый) = 0.95*0.8 = 0.76, то есть всего в 76%. Это кажется как будто контринтуитивно, но дело в том, что прочие 4% стат. значимых интервала как раз не охватывают эффект и, в таком конфиге, переоценивают эффект, см. картинку.

Почему нет интервалов между нулем и эффектом? На самом деле редко-редко, но они проскальзывают в симуляции, а их отсутствие в подавляющем объясняется так: чтобы такой CI получился, у вас должны собраться обе выборки с малой дисперсией, при этом А, которую мы берем из одного распределения, должна быть больше своего 50-го перцентиля, а B - меньше своего 50-го.

Но полезнее все-таки информации 76 на 4, как минимум это мы можем как-то учитывать при расчетах экономической модели.

Что остается нестат. значимыми интервалам? 95 - 76 = 19 из них будут охватывать интервал, а 5 - 4 = 1 - нет (эти цифры - в идеале). Это уже, как мне кажется, не так полезно, но просто интересно.

Ссылка на симуляцию (там надо играться с seed, чаще 76 будет, для сходимости ровно как на картинке, как мне кажется, надо заряжать еще больше попыток)

Пост появился благодаря Владу в том числе, спасибо тебе за комментарии и уделённое время.

P.S. Спрашивать на собеседовании я это, конечно, не буду.

70 views17:23

Интересное что-то

#llm #petproject

74 views19:16

Интересное что-то

Forwarded from Пристанище Дата Сайентиста (TelepostBot)

Написал новую статью: как стать AI-first специалистом

Последний год я работаю как Data Science консультант и полностью перестроил все процессы под AI-инструменты. Результат — продуктивность выросла

Что внутри:
📚 NotebookLM — превращает любые документы в интерактивную базу знаний. Недавно проанализировал 50-страничный контракт за 10 минут вместо часов

💻 Cursor — пишет код

🧠 Claude — лучший аналитик среди всех LLM.

⚡ v0 APP — генерирует готовые интерфейсы одним промптом. От идеи до working prototype за 15-30 минут

Бонус: честно рассказал об инструментах, которые не прижились (n8n и почему no-code оказался сложнее обычного кода)

Читать

Кто уже интегрировал AI в работу? Поделитесь опытом в комментах

Персональный блог Рената Алимбекова - Data Science, ML и Analytics Engineering

Как стать AI-first специалистом прямо сейчас

Как стать AI-first специалистом прямо сейчас NotebookLM. Cursor: VibeCodig. Claude. Repomix. v0.app - генерация интерфейсов одним промптом. n8n .

79 views19:16

Интересное что-то

#llm #agents #petproject

83 views19:17

Интересное что-то

Forwarded from Пристанище Дата Сайентиста (TelepostBot)

startup_technical_guide_ai_agents_final.pdf

Google выпустил гайд для стартапов о том, как создавать ИИ-агентов

Что там есть интересного:
1. Обеспечьте Grounding ответов агента через RAG (Retrieval-Augmented Generation)
2. Масштаб и Безопасность: Внедрите методологию AgentOps (Agent Operations) для автоматизированной оценки, CI/CD и управления недетерминированными системами.

А так там много интересных схем и подходов.

90 views19:17

Интересное что-то

82 views14:31

Интересное что-то

Forwarded from DziS Science | Data Science

Привет всем!👋

Просто посмотрите какая красота - логотип новой версии 🐍.
Вчера официально вышел релиз Python 3.14.

- Какие изменения нас ждут в данном релизе?

1️⃣

🔤 Прежде всего, важнейшим обновлением является тот факт, что теперь Python официально поддерживается на ОС Android.

2️⃣

🔤Уже традиционное улучшение сообщений об ошибке.

whille True:
    pass
Traceback (most recent call last):
  File "<stdin>", line 1
    whille True:
    ^^^^^^
SyntaxError: invalid syntax. Did you mean 'while'?

3️⃣

🔤Куча удаленных и deprecated функций.

4️⃣

🔤Интересным нововведением является SyntaxWarning при использовании операторов return, break, continue, приводящих к выходу из блока finally
Код ниже даст SyntaxWarning

 def f():
     try:
         ...
     finally:
         return 42

 for x in o:
     try:
         ...
     finally:
         break  # (or continue)

Напротив, код ниже отработает без сигнализации проблем

 try:
     ...
 finally:
     def f():
         return 42

 try:
     ...
 finally:
     for x in o:
         break  # (or continue)

5️⃣

🔤Выражение except теперь может вызывать несколько типов ошибок без использования скобок:

try:
    connect_to_server()
except TimeoutError, ConnectionRefusedError:
    print('The network has ceased to be!')

6️⃣

🔤В встроенную библиотеку compression добавлен новый метод сжатия zstd

7️⃣

🔤Новые t-strings. Т строки (Template Strings), иначе говоря шаблонные, включают в себя статичную и вставочную часть, при этом результат вывода не является строкой.

variety = 'Stilton'
template = t'Try some {variety} cheese!'
type(template)
<class 'string.templatelib.Template'>

list(template)
['Try some ', Interpolation('Stilton', 'variety', None, ''), ' cheese!']

Такие конструкции удобны для проверки входящих данных, например целых кусков HTML, ведь вводимые данные имеют тип Interpolation.
Например:

def lower_upper(template):
    """Render static parts lowercase and interpolations uppercase."""
    parts = []
    for part in template:
        if isinstance(part, Interpolation):
            parts.append(str(part.value).upper())
        else:
            parts.append(part.lower())
    return ''.join(parts)

name = 'Wenslydale'
template = t'Mister {name}'
assert lower_upper(template) == 'mister WENSLYDALE'

Обновление интересное, включает еще в себя кучу оптимизаций, включая freethreding, JIT, дополнительной оптимизацией по памяти, что разрушает стериотип о Python - медленный, но простой.

По традиции, 🔥, если понравилось
#ds_лайфхаки

Please open Telegram to view this post

VIEW IN TELEGRAM

80 views14:31

Интересное что-то

83 views16:15

Интересное что-то

Forwarded from LLM под капотом

Видео доклада "Schema-guided reasoning: как заставить LLM быть умнее"

Эту запись сделали и выложили ребята из @MadML_Talks
https://www.youtube.com/watch?v=0XhFB9OItqw

Разобрано очень дотошно и хорошо. Если есть какие-то вопросы к авторам, задавайте их тут или у них в чате!

Ваш, @llm_under_hood 🤗

Schema-guided reasoning: как заставить LLM быть умнее

Революционный подход к управлению большими языковыми моделями через Schema-guided reasoning от Александра Брыля, ведущего ML-инженера Mad Devs. Узнайте, как заставить любую LLM рассуждать структурированно и создавать надежных агентов без сложных фреймворков.…

80 views16:15

Интересное что-то

84 views10:00