Forwarded from Душный NLP
SRPO — альтернатива DPO
Сегодняшняя статья о Self-Improving Robust Preference Optimization (SRPO). Это алгоритм оффлайн-RLHF, подобный DPO, но более подходящий для off-policy датасета ранжирования. Кроме того, SRPO лучше переносится на OOD-задачи.
Основная идея метода заключается в состязательном обучении двух политик: генерирующей и улучшающей. Задача улучшающей политики — на основании запроса и имеющегося ответа создать улучшенную версию этого ответа; задача генерирующей — научиться создавать ответы, которые нельзя значительно улучшить.
Обе политики обучаются на парах предпочтений, полученных от людей. Решение состязательной задачи сводится к минимизации линейной комбинации из двух сонаправленных функций потерь. В работе показано, что оптимальное решение этой задачи не зависит от политики, из которой был собран датасет предпочтений. Благодаря этому SRPO оказывается более устойчивым к изменению в распределении данных.
Метод можно реализовать с помощью одной LLM, которая выступает и в качестве генератора, и в качестве «улучшатора». Обученную модель можно применять итеративно, каждый раз корректируя ответ, полученный на предыдущем шаге, чего не предполагают методы вроде DPO или IPO.
Даже без итераций, SRPO выигрывает у DPO и IPO: на сложных Arena-Hard-промптах метод показывает 56% win-rate. На задаче суммаризации Reddit TL;DR SRPO на 4-й итерации SRPO достигает максимального качества.
Разбор подготовил❣ Алексей Зотов
Душный NLP
Сегодняшняя статья о Self-Improving Robust Preference Optimization (SRPO). Это алгоритм оффлайн-RLHF, подобный DPO, но более подходящий для off-policy датасета ранжирования. Кроме того, SRPO лучше переносится на OOD-задачи.
Основная идея метода заключается в состязательном обучении двух политик: генерирующей и улучшающей. Задача улучшающей политики — на основании запроса и имеющегося ответа создать улучшенную версию этого ответа; задача генерирующей — научиться создавать ответы, которые нельзя значительно улучшить.
Обе политики обучаются на парах предпочтений, полученных от людей. Решение состязательной задачи сводится к минимизации линейной комбинации из двух сонаправленных функций потерь. В работе показано, что оптимальное решение этой задачи не зависит от политики, из которой был собран датасет предпочтений. Благодаря этому SRPO оказывается более устойчивым к изменению в распределении данных.
Метод можно реализовать с помощью одной LLM, которая выступает и в качестве генератора, и в качестве «улучшатора». Обученную модель можно применять итеративно, каждый раз корректируя ответ, полученный на предыдущем шаге, чего не предполагают методы вроде DPO или IPO.
Даже без итераций, SRPO выигрывает у DPO и IPO: на сложных Arena-Hard-промптах метод показывает 56% win-rate. На задаче суммаризации Reddit TL;DR SRPO на 4-й итерации SRPO достигает максимального качества.
Разбор подготовил
Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Заскуль питона (Data Science)
High Standard Deviation vs Low Standard Deviaton.
(?)without CUPED vs with CUPED . Variance reduction, yes . P-hacking…
📚 Материалы по методам снижения дисперсии
(увеличиваем чувствительность A/B эксперимента и уменьшаем его длительность):
1. VWE (Variance Weighted Estimator)
2. CUPED / CUPED Multiple Covariates
3. CUNOPAC / CUPAC / CUMPED etc.
4. Стратификация / Постстратификация
5. Outlier Capping / Winsorizing
6. ... список могу продолжить еще
😏 Линейная регрессия повсюду, а вообще я хотел просто картиночку смешную прислать.
107 или 115? Кто вы сегодня?
А про то, зачем это нужно, ныряйте в комментарии🔽
(?)
(увеличиваем чувствительность A/B эксперимента и уменьшаем его длительность):
1. VWE (Variance Weighted Estimator)
2. CUPED / CUPED Multiple Covariates
3. CUNOPAC / CUPAC / CUMPED etc.
4. Стратификация / Постстратификация
5. Outlier Capping / Winsorizing
6. ... список могу продолжить еще
107 или 115? Кто вы сегодня?
А про то, зачем это нужно, ныряйте в комментарии
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Art, Design & AI (Lena Starkova)
Imagen 4 от Google — бесплатно и уже доступен!
Я знаю, вы устали от сотни платных подписок на нейросети. Так вот Imagen 4 теперь можно попробовать бесплатно прямо в AI Studio
⚡️Что умеет:
• создаёт фотореалистичные и абстрактные картинки
• работает быстро — до 10× быстрее Imagen 3
• хорошо справляется с мелкими деталями
• адекватно рендерит текст на изображении
• понравилось, что есть интеграция с гугл диском
⬆️ Прикладываю пару своих тестов
Хорошая альтернатива Midjourney, особенно если нужно быстро и без подписки.
✔️ Доступен через:
Gemini, Google Workspace (Docs, Slides), Whisk, Vertex AI и AI Studio (бесплатно).
Арт, дизайн и нейросети
@art_design_ai
#imagen@art_design_ai
Я знаю, вы устали от сотни платных подписок на нейросети. Так вот Imagen 4 теперь можно попробовать бесплатно прямо в AI Studio
⚡️Что умеет:
• создаёт фотореалистичные и абстрактные картинки
• работает быстро — до 10× быстрее Imagen 3
• хорошо справляется с мелкими деталями
• адекватно рендерит текст на изображении
• понравилось, что есть интеграция с гугл диском
Хорошая альтернатива Midjourney, особенно если нужно быстро и без подписки.
Gemini, Google Workspace (Docs, Slides), Whisk, Vertex AI и AI Studio (бесплатно).
Арт, дизайн и нейросети
@art_design_ai
#imagen@art_design_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Art, Design & AI (Lena Starkova)
This media is not supported in your browser
VIEW IN TELEGRAM
Если хочется протестировать новую модель от Higgsfield
1. Заходи в higgsfield_ai
2. Нажимай Create Image
3. Выбери модель Higgsfield Soul
4. Подбери один из 50+ пресетов
5. Введи промт и нажми Generate
Арт, дизайн и нейросети
@art_design_ai
#higgsfield@art_design_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Love. Death. Transformers.
HF kernels hub
кернел это такой кусок кода встраивыаемый в вычислительный граф и описыващий какие то спецефичные по памяти/последовательности вычислений операции которые за счет последовательности прям сильно быстрее работают(flash attn как хороший пример)
HF выпускают библеотеку кернелов, чтобы не таскать из vllm в sglang и обратно кернелы, а просто делать
ВСЕ, ускоряем почти любой кусок графа в несколько раз бесплатно!
link
кернел это такой кусок кода встраивыаемый в вычислительный граф и описыващий какие то спецефичные по памяти/последовательности вычислений операции которые за счет последовательности прям сильно быстрее работают(flash attn как хороший пример)
HF выпускают библеотеку кернелов, чтобы не таскать из vllm в sglang и обратно кернелы, а просто делать
import torch
import torch.nn.functional as F
from kernels import get_kernel
DEVICE = "cuda"
activation_kernels = get_kernel("kernels-community/activation")
x = torch.randn((4, 4), dtype=torch.float16, device=DEVICE)
# Prepare an output tensor
y = torch.empty_like(x)
# Run the fast GELU kernel
activation_kernels.gelu_fast(y, x)
# Get expected output using PyTorch's built-in GELU
expected = F.gelu(x)
ВСЕ, ускоряем почти любой кусок графа в несколько раз бесплатно!
link
Forwarded from Love. Death. Transformers.
замены нет. Или есть? современные замены трансформеров
скорее набор ссылок чем блогпост
Medusa, mtp и разные варианты спекулятивки я не рассматриваю все же, хотя стоит.
скорее набор ссылок чем блогпост
Medusa, mtp и разные варианты спекулятивки я не рассматриваю все же, хотя стоит.
Forwarded from Синицын, бл🤬
Про промпты
Оказывается, чтобы ИИ не генерил говно — нужно не магия, а нормальное ТЗ.
Я тут нашел статью от NNGroup, и они предлагают неплохой базовый фреймворк для хороших промптов: CARE.
🔘 C = Context
ИИ не знает, кто ты, где ты, зачем ты, и что тебе уже известно. Если не задать контекст — он придумает свой. А он, мягко говоря, может не совпасть.
Пример: ты продакт, делаешь дашборд, а ИИ тебе генерит текст для HR-директора. Почему? Потому что не сказал, что ты продакт и ты делаешь дашборд.
Сформулируй: кто ты, в какой роли, в какой ситуации, на каком этапе. Лучше два абзаца контекста, чем 20 минут редактирования потом.
🔘 A = Ask
Что конкретно ты хочешь? Не в духе “расскажи мне про CICD”, а “дай краткое сравнение GitLab и GitHub Actions для команды из 3 человек, которая раньше не использовала CI”. Чем точнее запрос — тем ближе ответ к делу.
ИИ не умеет читать мысли. Он не знает, какой формат ты хочешь: таблицу, мем, список, анекдот, короткий совет? Скажи.
🔘 R = Rules
Формат, стиль, ограничения, объём. Не хочешь воды — напиши. Нужен текст в академическом или разговорном стиле — напиши. Нужно 500 слов, не больше — укажи это.
ИИ вообще не против следовать правилам, но если их нет — он накидает шаблонного трёпа. Ну потому что может.
🔘 E = Examples
Покажи пример — и всё встанет на места. Один хорошо подобранный пример лучше любого описания. Ты хочешь текст “как у Максима Ильяхова”? Приложи скрин.
И не стесняйся дать анти-пример — "мне не надо как тут", это тоже полезно. ИИ — штука обучаемая, но без данных он будет импровизировать.
Итого:
Хочешь, чтобы нейросетка работала на тебя, а не наоборот — не ленись формулировать. Промпт — это не “пиши”, это “вот тебе задача, вот вводные, вот ограничения, вот желаемый результат”.
Всё как в жизни. Только теперь ещё и с ИИ.
Бонус-трек:
LLM не любит длинные чаты, с каждым новом сообщением качество ответа будет ухудшаться. Лучше один очень длинный базовый промпт.
〰️〰️〰️〰️〰️〰️〰️
🗞 @boombah_in_da_house
Оказывается, чтобы ИИ не генерил говно — нужно не магия, а нормальное ТЗ.
Я тут нашел статью от NNGroup, и они предлагают неплохой базовый фреймворк для хороших промптов: CARE.
ИИ не знает, кто ты, где ты, зачем ты, и что тебе уже известно. Если не задать контекст — он придумает свой. А он, мягко говоря, может не совпасть.
Пример: ты продакт, делаешь дашборд, а ИИ тебе генерит текст для HR-директора. Почему? Потому что не сказал, что ты продакт и ты делаешь дашборд.
Сформулируй: кто ты, в какой роли, в какой ситуации, на каком этапе. Лучше два абзаца контекста, чем 20 минут редактирования потом.
Что конкретно ты хочешь? Не в духе “расскажи мне про CICD”, а “дай краткое сравнение GitLab и GitHub Actions для команды из 3 человек, которая раньше не использовала CI”. Чем точнее запрос — тем ближе ответ к делу.
ИИ не умеет читать мысли. Он не знает, какой формат ты хочешь: таблицу, мем, список, анекдот, короткий совет? Скажи.
Формат, стиль, ограничения, объём. Не хочешь воды — напиши. Нужен текст в академическом или разговорном стиле — напиши. Нужно 500 слов, не больше — укажи это.
ИИ вообще не против следовать правилам, но если их нет — он накидает шаблонного трёпа. Ну потому что может.
Покажи пример — и всё встанет на места. Один хорошо подобранный пример лучше любого описания. Ты хочешь текст “как у Максима Ильяхова”? Приложи скрин.
И не стесняйся дать анти-пример — "мне не надо как тут", это тоже полезно. ИИ — штука обучаемая, но без данных он будет импровизировать.
Итого:
Хочешь, чтобы нейросетка работала на тебя, а не наоборот — не ленись формулировать. Промпт — это не “пиши”, это “вот тебе задача, вот вводные, вот ограничения, вот желаемый результат”.
Всё как в жизни. Только теперь ещё и с ИИ.
Бонус-трек:
LLM не любит длинные чаты, с каждым новом сообщением качество ответа будет ухудшаться. Лучше один очень длинный базовый промпт.
〰️〰️〰️〰️〰️〰️〰️
🗞 @boombah_in_da_house
Please open Telegram to view this post
VIEW IN TELEGRAM
Nielsen Norman Group
CARE: Structure for Crafting AI Prompts
To get better results from generative-AI chatbots, write CAREful prompts. Include context, what you’re asking the system to do, rules for how to do it, and examples of what you want.
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Fireplexity — открытый аналог Perplexity
Простой движок вопросов и ответов на базе ИИ.
Работает через два основных эндпоинта:
•
•
Ответы ИИ формируются на основе найденной информации и включают ссылки на источники.
Можно использовать как готовый сервис или собрать свою версию — код открыт.
Подходит для интеграции в чат-ботов, ассистентов и внутренних инструментов.
📌 Github
📌 Попробовать
@data_analysis_ml
Простой движок вопросов и ответов на базе ИИ.
Работает через два основных эндпоинта:
•
/search — выполняет поиск по интернету •
/scrape — извлекает текст со страницОтветы ИИ формируются на основе найденной информации и включают ссылки на источники.
Можно использовать как готовый сервис или собрать свою версию — код открыт.
Подходит для интеграции в чат-ботов, ассистентов и внутренних инструментов.
git clone https://github.com/mendableai/fireplexity.git
cd fireplexity
npm install📌 Github
📌 Попробовать
@data_analysis_ml