Интересное что-то

Базы данных. Как выбрать идеальное решение? Полный гид по SQL, NoSQL и не только

Читать статью

Базы данных. Как выбрать подходящее решение? Полный гид по SQL, NoSQL и не только

Привет, хабр! Меня зовут Кирилл, и на протяжении последних двух лет я мечтал научиться проходить System Design интервью. Но только недавно взялся за дело всерьёз. Изучив различные хранилища данных, я...

53 views17:54

Интересное что-то

#code #courses

40 views17:55

Интересное что-то

Forwarded from Евгений Козлов пишет про IT (Eugene Kozlov)

Саморазвитие в Computer Science через практику языка Си

Есть один язык, на котором я особенно люблю писать, когда хочется по-настоящему разобраться в теме. Это язык - Си.

Постоянно нахожу годные материалы по запросу «Write X in C». За время работы и учебы накопил много классных туториалов и мини-книг, очень хочу с вами поделиться и замотивировать вас копнуть чуть глубже прикладного уровня.

Пусть этот пост будет маленьким островком романтики Computer Science в мире фреймворков и бизнес-задач.

-----

Туториалы

🔸 Указатели. База, без которой никуда
- https://github.com/jflaherty/ptrtut13
- https://cslibrary.stanford.edu/102/PointersAndMemory.pdf

🔸 Хэш-таблица. Реализация самой популярной структуры данных с нуля
- https://github.com/jamesroutley/write-a-hash-table

🔸 Минималистичный HTTP-сервер на C с fork()
- https://github.com/foxweb/pico

🔸 Собственная командная строка (shell)
- https://brennan.io/2015/01/16/write-a-shell-in-c/

🔸 Виртуальная память
Мини-книга про malloc, кучу, стек и байты:
- https://github.com/alx-tools/Hack-The-Virtual-Memory

🔸 Реализация Garbage Collector на C
- https://github.com/mkirchner/gc

🔸 Кооперативные потоки (userspace multitasking)
- https://brennan.io/2020/05/24/userspace-cooperative-multitasking/

🔸 Системные вызовы (syscalls). Как реализовать syscall в ядре Linux:
- https://brennan.io/2016/11/14/kernel-dev-ep3/

🔸 Клон SQLite - реализация базы данных
- https://cstack.github.io/db_tutorial/

🔸 TCP/IP стек на C
Реализация сетевого стека с нуля:
- https://github.com/saminiir/level-ip

-----

Книги

🔸 Мини-книги по C / Unix / сетям
- https://beej.us/guide/

🔸 ООП в C
Как реализовать принципы объектного программирования в языке без ООП:
- https://www.cs.rit.edu/~ats/books/ooc.pdf

Если заинтересовало - сохраняйте, пробуйте, читайте. А если есть свои любимые ресурсы про C, ОС, память или сети - делитесь в комментах😊

37 views17:55

Интересное что-то

#agents #security

31 views17:57

Интересное что-то

Forwarded from Борис_ь с ml

AI-агенты и мультиагентные системы, MCP и A2A. Основные угрозы и подходы к обеспечению безопасности
#иб_для_ml

⛓

https://habr.com/ru/articles/920744/

Сначала по мотивам своего выступления писал серию постов, но вскоре достаточно разрослись, и они превратились в целую статью. Так что - приглашаю к прочтению!

Про AI-агентов, мултиагентные системы, MCP, A2A, и их безопасность - местами даже чуть углубленнее, чем в самом докладе.

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

AI-агенты и мультиагентные системы, MCP и A2A. Основные угрозы и подходы к обеспечению безопасности

Всем привет! Меня зовут Борис, я веду канал «Борис_ь с ml» про информационную безопасность и машинное обучение. Сейчас мой основной вектор исследований - мультиагентные системы и их безопасность....

40 views17:57

Интересное что-то

#gan #papers

37 views17:59

Интересное что-то

Forwarded from Concise Research (Sergey Kastryulin)

Масштабирование и байесы

Для диффузионок и не только

1. Cost-Aware Routing for Efficient Text-To-Image Generation
Авторы говорят, что промты бывают разной сложности. Более сложные промты могут потребовать больше шагов семплирования для получения качественных генераций. Давайте учить классификатор сложности промтов параллельно с диффузионкой. На инференсе подберем число шагов для каждого уровня сложности так чтоб сбалансировать компьют и качество

2. Scaling Inference Time Compute for Diffusion Models
Обычно в диффузии масштабирование компьюта на инференса происходит только за счет подбора числа шагов семплирования, но качество довольно быстро насыщается. Что делать если хочется потратить больше ресурсов для получения топ картинки? Авторы предлагаю помимо прочего перебирать еще и подаваемый для генерации шум (как стартовый, так и промежуточный), а также изучают сами стратегии перебора. Качество генераций валидируют стандартными метриками и VLMкой

3. Scaling Diffusion Transformers Efficiently via μP
Показывают, что стандартный μP обобщается и на диффузионные трансформеры. За счет этого, в среднем, получают единицы процентов буста скорости обучения отмасштабированных моделей. В одном случае (DiT-XL-2) обучение ускоряется в разы. Все замеры на FID-50k

4. Why Does ChatGPT “Delve” So Much? Exploring the Sources of Lexical Overrepresentation in Large Language Models
Тест на внимательность и то читают ли посты до конца ☕️ Чуть мемный анализ того почему языковые модели склонны генерить слова из старого английского. В том что они точно склонны сомнений нет: частота появления в публикациях слов вроде delve, intricate и aligns экспоненциально выросла с появлением LLM. Гипотеза о том что модели учились на старых или очень научных текстах не подтверждается, да и в целом у авторов нет однозначного объяснения. Основное подозрение падает на RLHF, но его трудно подтвердить из-за того что многие детали этого процесса для проприетарных моделей закрыты

Please open Telegram to view this post

VIEW IN TELEGRAM

37 views17:59

Интересное что-то

#softskills

33 views18:02

Интересное что-то

Forwarded from ML Advertising

Как выработать продуктовый подход, когда ты разраб?

Есть компании с четким разделением задач и тепличными условиями для разрабов
- под каждую задачу заводятся ТЗ/ Design Doc
- есть аналитик, прикрепленный к команде
- есть тестировщик, который сам пропишет тест-кейсы и вернет детальный баг-репорт

Но правда жизни иногда бывает, что ты зачастую, как швейцарский нож. К тебе у кофе-машины подходит Engineering менеджер и говорит что-то вроде
- мы хотим добавить фичу Х, или апскейлить фичу Y на все регионы платформы. Сколько это может нам денег принести/ сэкономить?
- успеем ли мы сделать до завершения Q3?
- справимся ли мы своими силами, или нужно от смежников кого-то подключать?

И вот, не успев моргнуть глазом, ты уже тех лид проекта с нечетко поставленной задачей. Что дальше?
Дальше главное не пороть горячку, а составить список вопросов и получить на них максимально детальные ответы

- А какие проблемы мы, собственно, решаем?

- Решаем проблемы A, B. Чтобы что? (если создаем новую фичу Х, чтобы уменьшить CPM, или лучше пейсить бюджет, или улучшить availability платформы, или чтобы терять меньше денег на инцидентах, или уменьшить CPU usage машин в инфре, когда хотим заменить предикты по одному на запрос запросу в real-time на batch processing)

- Это быстрый патч проблемы или стратегическое long-term решение?

- Как это работает сейчас? И долго ли оно уже так живет?

- Если долго, то может быть нас это устраивает. Тогда еще раз спрашиваем себя, зачем нам это нужно

- Кто основные пользователи и стейкхолдеры (агенства, паблишеры, меда байеры, рекламодатели)? В чем их цели/интересы?

- По каким метрикам сможем оценить успешность (Margin, Revenue, CPM, Impressions, Network-out etc.)? как будем их отслеживать до/после?

- Какие альтернативы уже рассматривали? Какие готовые решения можно просто купить? Почему их не выбрали?

- Какие есть ограничения - по таймингам, комплаенсу, трафику, юридические...?

- Есть ли пересечения с другими проектами в параллели? Возможно наш roadmap уже забит на квартал, и новый проект будет в приоритете, начиная с Q3

- План rollout-а - страны/регионы/сегментов пользователей/ паблишеров, полная выкладка или A/B, alpha тест?

- Какие операции/ фичи мы своим новым решением можем сломать?

Здесь хорошо эти вопросы уточнять и задавать в паре со своим продактом. Он с упором на бизнес, а ты, как тех лид, с упором на технические аспекты

33 views18:02

Интересное что-то

#llm #petproject

35 views18:07

Интересное что-то

Forwarded from tldr_tany (Таня Савельева)

Из больше 1000 ответивших на опрос по GenAI более 500 людей используют GenAI тулы меньше часа в день

Спасибо за ответы. Сингулярность еще далеко. Выдыхаем
Вообще я очень удивилась тому, что в медиане по опросу время в GenAI тулах меньше часа
Я из тех людей кто проводит 5-8 часов, в какие-то дни больше 8
От этого я очень excited и scared одновременно. В моей голове сингулярность уже почти наступила
Ощущаю сетки как второй мозг рядом.
Ниже написала, что я делаю в GenAI тулах (самые частые кейсы). Поделитесь своими кейсами тоже
1) Гуглю. У меня в проектах есть специальный промпт, который смотрит англ авторитетные источники, спорит с ними, выдает мне разные версии и ссылки на них
2) Записываю калории, физическую активность, пробежки, вес, обмеры. Я кстати перешла черту в 70 кг с 94 в январе, считаю chatgpt помог
3) Думаю и обсуждаю голосом проблемы - вопросы, конфликты, стратегию, планирую разговоры с людьми, ищу мотивацию, когда нет сил
4) Пишу посты в линкедин - голосом надиктовываю в чат гпт мысли и мясо поста, потом скриню понравившийся хук у кого-то в линке и он превращает это в посты. За месяц кстати порядка 130к охватов набрала в линке
5) Разбираюсь в новых интерфейсах - например скриню рекламные кабинет, беру ссылку на сайт и скрины, прошу рассказать что значит каждая опция и какие варианты перфоманса мне можно подобрать.
6) Учусь - например сейчас изучаю армянскую духовность и класику маркетинга - Котлера,брендинг - задаю вопросы из состояния любопытства и закапываюсь в тему, подходы, авторов
7) Немного прогаю - делала лендос недавно, рисовала немного дизайна, писала sql запросы
8) Инвестирую - есть промпты которые каждый день мне ищут, что резко дропнулось и на чем можно сыграть и как захеджироваться. Из недавного успешного - акции Теслы во время конфликта Маска и Трампа
9) Планирую поездки, подбираю места, куда сходить, где тренить и тд

P:S: Пока пользовалась GenAI поняла, что особенно сейчас важно использовать сетки как второй мозг, а не вместо первого мозга. Есть такое свойство shit in - shit out. Чат гпт обучен на большом кол-ве инфы, плохо фильтрованной и часто неверной. Если спрашивать чатик вопросы в духе "как лучше делать" и "что полезнее есть" можно столкнуться с очень неожиданными результатами - цитированиями мейнстрима в лучшем случае
Если вы хотите классно развиваться, а не просто получить второй телевизор - то самый важный навык это критическое мышление, умение большой вопрос раскладывать на маленькие и понимание статистики, дизайна экспериментов и значимости

41 views18:07

Интересное что-то

#softskills #career

37 views18:09

Интересное что-то

Forwarded from Мягкие техники

Что, если у руководителя есть любимчики?

Мы же не роботы. Кого-то любим больше, кого-то меньше — это свойство людей. Это же нормально?

Руководитель — тоже человек, но

Руководитель — человек, которому платят за эффективное управление командой. Проявление руководителем деструктивных эмоций ведёт к удовлетворению его человеческих желаний, но понижает общую эффективность команды.

Руководитель, который выплёскивает эмоции и орёт на команду, в итоге работает не с лучшими, а с теми, кто ещё не сбежал от него.

Руководитель, который любит, чтобы все делали работу ровно так, как он сказал, и не задавали вопросов, окружает себя не лучшими, а согласными терпеть такой стиль.

Руководитель, который явно для всех выделяет своих любимых подчинённых и аутсайдеров, лишает команду открытости, ограничивает развитие членов команды и повышает планку стресса.

___

Как так?

Есть термин — LMX-дифференциация (Leader-Member Exchange)

Высокий LMX — максимальная поддержка, низкий LMX — игнор или абьюз.

Если интересно, пройдите опросник LMX-7,

разработанный в рамках теории LMX

Он измеряет три параметра во взаимоотношениях лидера и последователя: уважение, доверие и чувство долга. Опросник показывает, насколько лидер и последователь уважают и ценят способности друг друга, насколько глубоко доверяют друг другу и в какой степени испытывают чувство долга по отношению друг к другу. Эти три аспекта и являются залогом прочного партнёрства.
https://psytests.org/work/northF.html

Если у руководителя появляются любимчики (высокий LMX), то следом часто появляются аутсайдеры (низкий LMX), потому что внимание и любовь руководителя конечны — и если кому-то давать внимания больше, то кого-то приходится его лишать. В итоге с одними на «ты», с другими на «ты чего так долго?».

⸻

К чему это приводит?

1. Нестабильность
Чем сильнее лидер «делит» подчинённых на «приближённых» и «остальных» (высокая LMX-дифференциация), тем слабее гармония и координация внутри группы.

2. Появляется деление на «мы vs они» и внутренние конфликты
Чем больше людей вовлечено в такое противостояние, тем активнее возникают кланы и усиливаются политические игры внутри коллектива.

3. Начинается скрытие знаний и торможение инноваций
Есть исследования, которые показывают связь фаворитизма с сознательным knowledge hiding — сотрудники удерживают информацию от коллег, что бьёт по обучению и креативности.

4. Повышается стресс и риск выгорания у «аутсайдеров»
Если есть сотрудники с очень высоким LMX (руководитель обожает сотрудника) и очень низким (руководитель игнорит или занимается Petty tyranny / «мелкой тиранией»), то последний страдает от постоянно растущего стресса и либо увольняется, либо выгорает, либо переходит в режим quiet quitting — делает минимум, чтобы только не уволили.

5. Нарушается цикл мотивации
Если руководитель оценивает работу не по достижениям (принцип меритократии), а по личной симпатии (фаворитизм), это нарушает причинно-следственную связь приложенных усилий и полученного вознаграждения.

6. Репутационные потери самого руководителя
Когда решения кажутся предвзятыми, подчинённые меньше доверяют лидеру и чаще сопротивляются переменам.

Вывод

Идеальный руководитель знает, когда проявлять эмоции — к месту, а не по настроению. Он не сливает на команду накопившийся негатив, не выделяет любимчиков и не делает из остальных аутсайдеров. Он стремится к тому, чтобы вся команда в равной мере чувствовала себя ценными участниками общего дела.

___

Понравилась заметка? Жмакните лайк. Я не размещаю рекламу и не делаю интеграции. Благодарность для меня — ваши лайки, комменты и репосты в других каналах. Подписывайтесь всей семьёй, и коллегам скиньте ссылку.

36 views18:09

Интересное что-то

#llm #petproject

33 views18:10

Интересное что-то

Forwarded from От идеи до продукта B2B & B2C | Виктор Чертков (Viktor Chertkov)

Привет, друзья! На прошлой неделе мы с командой провели крутую презентацию о том, как ускорить процесс Discovery с помощью AI-инструментов🫡

Наш круг в компании занимается поиском новых трендов на рынке LegalTech и проверкой гипотез. Discovery - наше все❤️

Раньше создание прототипов и лендингов занимало у нас полтора месяца (это связано с загрузкой дизайнеров и маркетинга), а теперь, благодаря v0.dev, GPT-4.5 и другим инструментам, мы делаем это за считанные дни!

Представьте, всего одна неделя на прототип и лендинг, которые не отличить от готового продукта!

С помощью v0.dev, GPT-4.5 (есть также более продвинутые продукты Windsurf или Cursor) вы создаёте лендинги буквально за 15-20 минут, причём они сразу получаются стилистически выверенными и с нужными элементами, такими как форма регистрации, возможность загрузить демо, встроить калькулятор, подогнать все до стиля сайта и так далее. А прототипы, благодаря использованию API и глубокой кликабельности, действительно выглядят как готовые продукты и клиенты даже не замечают разницы. К тому же вы можете купить хостинг, добавить счетчики и валя - сайт готов - хоть многостраничник под SEO.

У нас уже были кейсы, когда клиенты воспринимали лендинг и прототип как готовый продукт и хотели сразу купить. Но нам приходилось говорить

Постойте, еще не время

😅

А теперь представьте - презы/КП/сайты/прототипы/приложения web и тд - все за считанные часы ⭐️

Это реально меняет правила игры и открывает массу возможностей.
Если интересно узнать больше, пишите в личку, буду рад поделиться деталями!✏️

Please open Telegram to view this post

VIEW IN TELEGRAM

43 views18:10

Интересное что-то

#analytics

47 views18:11

Интересное что-то

Forwarded from Сенаторов.head()

Кейс с собеса — внезапно упала метрика!

😳

Метрики мы обсудили в прошлом посте этой серии, а теперь давайте к кейсу с метриками — еще один этап в подготовке к собесу

В классическом варианте кейс звучит так: однажды утром после беспокойного сна вы ~~просыпаетесь огромным жуком~~ замечаете сильный дроп в метрике. Внимание, вопрос — что случилось? 🤔

Этот кейс проверяет аналитическое мышление и ваше умение смотреть на проблему под разным углом в поисках причины. Я здесь люблю использовать правило арбуза 😶

Правило арбуза (название придумал я, хз как это называют) гласит:

Как нам нравится внутренняя часть арбуза, так и вы сначала начните искать причину "внутри" вашей зоны влияния, а затем переходите "на внешнюю" зону влияния, где арбуз уже не такой вкусный.

В цепочке жизненного цикла данных начните с последних внутренних этапов и переходите дальше на внешний уровень.

1️⃣

Внутренняя тех проблема — наши скрипты/отчеты/витрины. Это полностью наша зона контроля, в первую очередь надо проверить, что это не просто у нас что-то криво считается

2️⃣

Внутренняя бизнесовая проблема — соседняя команда не предупредила и выкатила АБ-тест, который очень жестко руинит ваши метрики. Такое бывает, когда коллеги в АБ-тестах не определяют метрики здоровья и не думают, что могут кому-то навредить. А может это у вас эксперимент проходит плохо, и вам надо срочно его тормозить.

3️⃣

Внешняя тех проблема — DWH, разметка данных, источник данных. Если у вас все правильно, значит что-то не так с тем местом, откуда вы берете данные. Возможно, поменялся какой-то словарь или крашнулась какая-то таблица DWH. А может у нас умер прод и топики системы перестали отправлять сообщения (если интересно про это подробнее, почитайте зачем нужна Kafka)

4️⃣

Внешняя бизнесовая проблема — праздники, понижение ключевой ставки, корпоративный скандал — в общем на ситуацию в бизнесе повлияли какие-то внешние события в мире. Скорее всего, если это так заэффектило, то вы сразу придете к этому выводу, минуя предыдущие шаги цепочки

На самом деле мне кажется этот кейс очень полезным на собесах. На практике действительно часто сталкиваешься с аномалией и такой ресерч происходит сплошь и рядом. И если есть фреймворк, то это позволяет быстро оценить проблему (90% причин обычно кроются в пункте 1 и 2 😢)

Вам давали такие кейсы на собесах? Давайте наберем 80 огоньков 🔥 и я пойду писать следующую часть про не-кодинговые харды аналитика!

Please open Telegram to view this post

VIEW IN TELEGRAM

59 views18:11

Интересное что-то

#llm #courses

47 views13:21

Интересное что-то

Forwarded from max.sh

👥 Бесплатные мини-курсы про AI Агентов, LLM и трансформеры на платформе DeepLearning.AI

Ссылка

Платформа от создатея курсеры Andrew Ng. Почти каждые 2-3 недели выходят мини-курсы по разным AI темам: про векторные базы данных, про RAG-и, ризонинг, память моделей, etc.

Сегодня запустили курс от Антропиков про устройство MCP. Ссылка. От кого еще узнавать про MCP, если не от тех, кто разработал этот стандарт. Не от скам ютуберов же, правильно?

Каждый курс устроен примерно одинаково: 1) видео с очень простенькой теоретической частью, 2) видео с запуском кода и какими-то комментариями лектора. В среднем курсы по 1-2 часа. Курсы выпускаются от лица довольно именитых компаний (OpenAI, HF, Meta, ...) и затрагивают актуальные практичесские темы.

Но есть нюанс.

На мой взгляд, ценность большинства таких курсов стремится к нулю (я сужу по ~13 курсам, которые просмотрел сам). Во-первых, почти все курсы лишены какой-либо интересной теоретической базы и просо заавязаны на прокликавание клеток и вызов методов в том или ином фреймворке. Во-вторых, лекторы далеко не самые лучшие, иногда ощущение что пишутся с одного дубля. Наконец, во многих курсах сквозит реклама. Чувство, что курс записан только чтобы пропиарить фреймворк / стартап / компанию, а не интересно рассказать на заданную тему. Короче говоря, анонсы всегда цепляют, но содержание страдает.

Жаль, что ушла эпоха продуманных длинных курсов по типу специализаций с курсеры про Deep Learning построенных не на рассказе о фреймворках, а фокусе на устройстве технологий. 😐

Но иногда попадаются прям классные мини-курсы. Например, про эффективный сервинг LLM в проде, или методы retrieval-а из векторых баз, или генерацию structured outputs моделей.

Так что да, учитывая что все выкладывается в открытый доступ совершенно бесплатно, грех жаловаться. А периодические так и вообще очень годные курсы появляются.

Happy Learning !

#образование

@max_dot_sh

Please open Telegram to view this post

VIEW IN TELEGRAM

50 views13:21

Интересное что-то

#llm #papers

34 views13:21

Интересное что-то

Forwarded from max.sh

Рецепты обучения Reasoning моделей от

💻

Сразу 2 публикации:

Phi-4-reasoning (14B) - основная модель - статья.
Phi-4-mini-reasoning (3.8B) - маленькая модель - статья.

Веса моделей доступны по хорошей лицензии. За пределами английского ризонинг сильно хуже (об этом пишут и авторы), и скорее всего из коробки бесполезен (сужу сам по работе просто с Phi-4 instruct).

📌

Почему стоит прочитать? Рабочих робастных рецептов обучения ризонинг моделей все еще не очень много, поэтому любая работа с подробным описанием сетапа, удачными и неудачными экспериментами, рассказом о сборе данных и любыми другими практическими lessons learned несет большую ценность для всех, кто пытается завести ризонинг на практике. По метрикам модель не обгоняет проприетарные модели, уступая o3-мини почти везде, но уверенно тягается с опенсоурсными решениями, которые в разы больше. Вся ценность в подробном hands-on репорте, а не самой модели как таковой.

Картинка 1 для саммри перформанса на ключевых бенчмарках.

📌

Как устроена Phi-4-reasoning. Берут предобученную instruct tuned 14B Phi-4 (тык ). Ризонинг способности внедряются в нее через SFT на датасете длинных цепочек из разных доменов.

Датасет собирался аккуратно. В основном путем скрэпинга и валидации разных ресурсов из сети с фокусом на математику и код. Отдельно отбирали с помощью прокси моделей только сложные задачи. Сами же цепочки рассуждений генерировали с помощью o3-mini в “medium” / “hard” рассуждающих режимах.

Во время обучения авторы столкнулись с тем, что гиперпараметры рецепта Phi-4 не работают для ризонинг модели.

Поэтому ввели стадию коротких экспериментов на сабсете данных. Назвали это Exploration Stage, чтобы подобрать оптимальные настройки:

🔘 Выбрали оптимальный LR как 1e-5
🔘 Нашли оптимальную композицию микса обучающих данных. Для начала кластеризовали данные по доменам (математика, код, …). Дальше подобрали веса к датасетам внутри конкретного домена в зависимости от качества / источника данных. То есть, отдельно учили на данных по математике, оптимизируя микс данных чисто под данные математики; отдельно для кода; А потом просто все объединили в один общий пул, переиспользуя ранее подобранные веса.
🔘Добавили синтетических данных в строгом формате CoT -> summary -> final response. Обнаружили, что это дает буст, на AIME до 10%.

Далее, во второй фазе, Scaling Stage, запустили обучение на всех данных, 16B токенов. У модели так же расширили размер контекста с 16K до 32K.

Таким образом, получился Phi-4-reasoning.

📌

Еще больше reasoning способностей через RL. Далее бустят способности модели к размышлению еще больше. Делают GRPO RL, но только на задачах математики. Собрали свою reward функцию. Довольно инженерная и интуитивная. Если ответ правильный, но очень длинный - понижаем награду; если неправильный и короткий - еще сильнее штрафуем. Таким образом, побуждаем генерировать модель разумно длинные цепочки. После такого RL тюна получают Phi-4-reasoning-plus, которая в среднем показывает себя еще лучше на различных бенчмарках (не математических тоже).

📌

RL-reasoning маленьких моделей. Очень круто, что авторы пробуют ризонинг способности на маленьких моделях тоже. При RL обучении модели на 3.8B сталкиваются с большим количеством сложностей, предполагая, что все дело в размере модели:
🔘Во время обучения сгенерированные ответы сильно различаются по длине на одном и том же промпте.
🔘Батчи могут целиком состоять из отрицательных наград
🔘SFT на ризонинг данных (типа S1K) ухудшает итоговое качество

По итогу все равно подбирают рабочий рецепт для мини версии модели для математики, получая улучшения относительно аналогов похожего размера (7B, 8B). Но с гигантами тягаться все равно сложно.

📎

Итого. Полезное чтение для практикующих обучение ризонигу. Мы в команде сталикались с очень похожими сложностями при RL стадии маленьких моделей. До закрытых моделей далеко, но зон для надстроек над базовым рецептом много.

#статья

@max_dot_sh

Please open Telegram to view this post

VIEW IN TELEGRAM

39 views13:21

About

Blog

Apps

Platform