Интересное что-то
554 subscribers
2.79K photos
253 videos
140 files
4.59K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
Forwarded from Information Retriever
Deep RecSys Course.

Вчера прошло первое занятие нашего Deep RecSys курса в Вышке!

Материалы выкладываются на гитхаб, а видеозаписи занятий — на ютуб, как и обещал :)

Собственно, рассказывал доработанную (в)водную лекцию, слайды которой уже выкладывал на канале. Информационная перегрузка, тяжёлые хвосты, технофеодализм, коллаборативная фильтрация, матричная факторизация, bitter lesson, scaling hypothesis — вот это всё :)

А на семинаре Артём Матвеев показывал различные метрики и обработку данных на Ямбде.

P.S: уже даже до ютуба моё блогерское дело дошло, жесть... ))
Forwarded from Information Retriever
Deep RecSys Course, второе занятие.

1. На лекции поговорили про ML дизайн рекомендательных систем и немного про мой опыт работы в R&D. В своё время я придумывал формат последней итерации собеседования по рекомендательным системам в Яндексе, и при подготовке лекции мне этот опыт очень пригодился. В общем, думаю, что получился неплохой начальный материал для подготовки к ML дизайн рексис собеседованию в бигтех. Пользуйтесь :)

2. На семинаре Владимир Байкалов @ducks_recs рассказывал про классические алгоритмы рекомендаций, с которыми можно сравнивать нейросети. И показывал для этих алгоритмов результаты на датасете Yambda. Заодно обсудили ошибки подсчета метрик в Ямбде — например, при подсчете Recall@K часто забывают, что нужно делить не на количество позитивов, а на min{количество позитивов, K}. Я такое видел и в метриках соревнований, и в статьях. А чтобы узнать багу при подсчете nDCG — смотрите семинар :)

Записи занятия уже на ютубе — и лекция, и семинар. В этот раз принёс свой микрофон, поэтому на лекции звук чуть получше. Материалы — на Github (пока только лекция, но семинар тоже скоро выложим).

И ещё поделюсь отдельно парой ссылок с лекции:

1. Много полезной информации про дизайн рексистем есть на канале Миши @WazowskiRecommends. В лекции не раз ссылаюсь — на посты про счётчики, эмбеддинги, Mixigen

2. У Саввы Степурина есть два хороших наглядных доклада про ML дизайн рексистем — рассказ про стек Яндекс Музыки и про рекомендации незнакомого

3. На RecSys 2020 был туториал про feature engineering от Nvidia

4. У VK есть два хороших рассказа про item-to-item рекомендации — про внедрение item-to-item схемы от Дмитрия Шишова и про её улучшение от Андрея Зимовнова

P.S: уже преодолели отметку в 100 часов суммарного просмотра курса на ютубе!
Forwarded from Agentic World
Недавно я писал, что хочу полностью пересобрать свой рабочий процесс. У меня почти получилось, я наконец-то дособрал и дотолкал до своего прода AI-ассистента, который работает по голосовухам.

Раскрыл все детали и процесс в статье на хабре, если у вас есть плюсики - буду им очень рад 🤗

Писать код голосовухами через тг - это невероятно круто 🤖🫡

https://habr.com/ru/articles/994454/
#prompt

A cool way to use ChatGPT: "Socratic prompting"

This week I ran into a couple of threads on Twitter about something called "Socratic prompting".

At first I thought, meh.

But my curiosity was piqued.
I looked up the paper they were talking about.

I read it.
And I tried it.
And it is pretty cool.

I’ll tell you.

Normally we use ChatGPT as if it were a shitty intern.

"Write me a post about productivity."
"Make me a marketing strategy."
"Analyze these data."

And the AI does it.

But it does it fast and without much thought.

Socratic prompting is different.

Instead of giving it instructions, you ask questions.

And that changes how it processes the answer.

Here is an example so you can see it clearly.

Normal prompt:

"Write me a value proposition for my analytics tool."

What it gives you, something correct but a bit bland.

Socratic prompt:

"What makes a value proposition attractive to someone who buys software for their company? What needs to hit emotionally and logically? Okay, now apply that to an AI analytics tool."

What it gives you, something that thought before writing.

The difference is quite noticeable.

Why does it work?

Because language models were trained on millions of examples of people reasoning. On Reddit and sites like that.

When you ask questions, you activate that reasoning mode.
When you give direct orders, it goes on autopilot.

Another example.

Normal prompt:

"Make me a content calendar for LinkedIn."

Socratic prompt:

"What type of content works best on LinkedIn for B2B companies? How often should you post so you do not tire people? How should topics connect to each other so it makes sense? Okay, now with all that, design a 30-day calendar."

In the second case you force it to think the problem through before solving it.

The basic structure is this:

1. First you ask something theoretical: "What makes this type of thing work well."
2. Then you ask about the framework: "What principles apply here."
3. And finally you ask it to apply it: "Now do it for my case."

Three questions and then the task.

That simple.

Another example I liked from the thread:

"What would someone very good at growth marketing ask before setting up a sales funnel? What data would they need? What assumptions would they have to validate first? Okay, now answer that for my business and then design the funnel."

Basically you are telling it, think like an expert, and then act.

I have been using it for a few days and I really notice the difference.

The output is more polished.


P.S. This works especially well for strategic or creative tasks.
If you ask it to summarize a PDF, you will likely not notice much difference.
But for thinking, it works.
Forwarded from ML Baldini • Nikita Boyandin (Nikita Boyandin)
Подготовка к секции MLSD💃

Для многих, кто в первых раз идет на интервью middle/senior ml, секция ml system design может показаться чем-то сложным и не понятным. Не переживайте, при качественной подготовке, вы получить не интервью в привычном понимании, а прикольный кейс, который проверит ваш опыт, знание инфраструктуры, подходы к решению мл задачи, но все-таки для этого у вас должен быть фундамент.

1️⃣ Разбейте весь системный дизайн по этапам
Тут для меня 9 шагов: постановка бизнес проблемы(тут вы должны получить как можно больше информации от интервьера), метрики, компоненты архитектуры(MVP логика), хранение данные и ее подготовка, Feature Engineering, разработка модели и оффлайн тестирование, Prediction Service, онлайн тестирование и деплой, мониторинг и улучшения. Подбирайте для себя структуру до собеседования, чтобы не отвечать на лету.

2️⃣ Проработаете каждую задачу мл отдельно
Кажется, что проектов и доменов достаточно много, но большенство из них можно описать внутри этих задач: рекомендательная система, поиск, ранговая система, NLP(чат-боты) и CV(OCR). Редко ваша задача будет другой и я советую подготовить каждую из них.

3️⃣ Поучите метрики, аб тесты
В mlsd есть несколько тем, которые нужно доучить специально в mlsd: онлайн-метрики, аб тесты и неплохо еще знать uplift-моделирование. Это поможет вас выделить из толпы.

4️⃣ Подготовке пару кейсов по инфраструктуре
Вам нужно понимать не только мл модель, но и как она будет функционировать на проде, а значит вы должны знать, что такое kuber, docker, s3, kafka и так далее.

5️⃣ Всегда думайте, как вы сможете улучшить ваше решение
В конце интервью вас спросят, а как же вы улучшите вашу систему. Варианта два: либо вы говорите о системе заведомо чуть меньше, а потом упоминаете об этом, либо говорите о данных или инференсе, которые всегда можно улучшить

6️⃣ Проводите перекрестное мок-интервью
Попросите кого то из друзей придумать кейс и с вами его решить и отвалидировать, так вам сразу будут видны ваши пробелы и вы сможете их закрыть перед собесом

7️⃣ Чем больше правильных вопросов вы сможете задать, чем проще вам будет проходить интервью
Важно на первом этапе задать как можно больше вопросов про бизнес задачу и саму систему, потому что дальше хорошим тоном для команды будет то, что вы будете сами рассказывать все решение без их помощи.

Обзательно перед собесом обязательно посмотрите кейсы, которыми занимается команда, часто именно их будут задавать и вы будете уже готовы💃

💗 - если хоть раз проходил секцию mlsd
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Funk
В продолжение предыдущего поста, про статистику в современном мире. Недавно в универе Квебека показали, что обычный метод наименьших квадратов (OLS) математически полностью эквивалентен упрощенному механизму внимания из трансформеров если softmax заменить на линейную функцию. То, что в Attention называется Query, оказывается просто линейной проекцией ваших тестовых данных (для которых ищем ответ) в новое пространство, Key - проекция обучающей выборки в это же пространство. Считаем их скалярную близость, используем её как веса для таргетов обучающей выборки (Value) и всё! Практической пользы ноль, зато педагогическая ценность 10/10. Attention - не какая-то магия, а классическая статистика и взвешивание по сходству (как в OLS/Ridge) на стероидах.
Продолжаем говорить про Next Item Prediction — сегодня про SASRec

В прошлом посте мы поставили задачу Next Item Prediction (NIP). Теперь давайте разбирать первый «классический» подход, который обычно открывает эту тему — SASRec (Self-Attentive Sequential Recommendation).

Как всегда, держим в голове маркетплейс и нашу матрицу U × D, где у каждого пользователя есть последовательность из последних D действий.

💡 Идея SASRec в двух словах

SASRec — это Transformer-only модель, которая использует self-attention, чтобы понять, какие прошлые действия пользователя важны для предсказания следующего айтема. Ключевая мысль простая: не все предыдущие покупки одинаково полезны. Купил чехол для iPhone год назад — сомнительно, что это важно сейчас. Купил айфон вчера — совсем другое дело.

🧱 Из чего состоит SASRec

Разберём по шагам.

1️⃣ Embedding-слой

Каждый айтем Item_i кодируется в эмбеддинг размерности H, раскладывающийся на

Item Embedding
Positional Embedding (очень важно!)

Почему позиция важна? Потому что последовательности:

iPhone → Чехол и Чехол → iPhone — это вообще разные истории.

На выходе получаем тензор размера: U × D × H

2️⃣ Masked Self-Attention

SASRec использует causal masking, то есть при предсказании айтема на позиции t модель не видит будущие позиции t+1, t+2, ... Иначе был бы читинг. Self-attention отвечает на вопрос, на какие прошлые айтемы стоит обратить внимание, чтобы угадать следующий?

Формально — обычный Transformer Encoder:
• Multi-Head Attention
• Residual connections
• LayerNorm

Без энкодер-декодер истории, всё строго sequential.

3️⃣ Предсказание Next Item

Для каждой позиции t модель пытается предсказать айтем t+1.

На практике чаще всего:

• берем последнюю позицию
• сравниваем её эмбеддинг со всеми M айтемами
• считаем softmax или sampled softmax
• обучаемся максимизировать вероятность правильного следующего айтема.

🧊 Что с холодными пользователями?

SASRec спокойно работает с паддингами:

• паддинги маскируются
• attention их просто игнорирует

Но важно понимать: SASRec — это purely sequential модель. Что это значит?

Если у пользователя 0 или 1 действие, сигнал слабый.
Для совсем холодного старта чаще приходится:
• добавлять популярные айтемы
• комбинировать с non-personalized логикой

👍 Почему SASRec так популярен

Простая и понятная архитектура
Отлично ловит long-range зависимости (по крайней мере, так было в 2018 🤷‍♂️)
Хорошо масштабируется на большое число айтемов

Не зря его до сих пор используют как точку отсчета почти во всех статьях про NIP.

👀 Ограничения, о которых важно помнить

Нет bidirectional-контекста (в отличие от BERT4Rec)
Не использует user features
Плохо решает cold start без костылей
Использует только позтивные действия в истории пользователя (в то время, как негативные действия могут быть полезны для понимания контекста, что отображено в статьях про Аргус). Так например, для онлайн-кинотеатра мы будем использовать только историю просмотра, хотя могли бы учитывать и те фильмы, от просмотра которых юзер отказался.

Но как первый серьезный Transformer для рекомендаций — это абсолютная классика

Изображение взято из статьи на Хабре
Please open Telegram to view this post
VIEW IN TELEGRAM
Что же такое MoE?

(Mixture of Experts)
Я уверен, вы все натыкались на это слово в релизах новых LLM, в новостных постах в Telegram - это очень популярная нынче техника, которая позволяет увеличивать размеры модели вширь, не сильно проседая по скорости работы.

Мне лично очень тяжело потреблять текстовый контент; картинками и видео всегда веселее. Поэтому вот - сделал видосик с понятным разбором того, как же всё это работает.

🤓Ориентировано видео в основном на тех кто в сфере работает, и не испугается слова линейный слой.

🟠Разбираю БЕЗ духоты и с примерами кода🟠 Там оказывается все ОЧЕНЬ ПРОСТО

ВИДЕО: https://youtu.be/cyLFiwlovCQ?si=70a-Q7TGDeGeqO5M
ВИДЕО: https://youtu.be/cyLFiwlovCQ?si=70a-Q7TGDeGeqO5M
ВИДЕО: https://youtu.be/cyLFiwlovCQ?si=70a-Q7TGDeGeqO5M


КОД: CСЫЛОЧКА_НА_КОД


Более подробные разборы:
1) На русском Хабр: ссылка
2) На английском huggingface: ссылка
3) Крутое видео с визуализациями: ссылка
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM