Ebout Data Science | Дима Савелко
2.16K subscribers
143 photos
12 videos
87 links
Ebout Data Science by @ngmdite
Download Telegram
Тотальная ликвидация страхов в получении жирного офферсана

В предыдущем посте я попросил вас, своих слонов, пройти опросник. Вы наебенькали целых ~73 ответа, спасибо мои дорогие)
Ответы заставили меня порой улыбнуться, порой заплакать, а порой... заплакать 💀

Цель большинства - это найти первую работу в DS/ML, с небольшим отрывом идут люди, которые просто хотят апгрейднуться по ЗП, получить иностранный оффер или залутать новые знания

Самое частое чувство — страх, а я его люблю пиздеть на канале страха нет 👊
Вот топ мыслей, которые вы начирикали:
1️⃣ «Если не получится сейчас — я останусь ни с чем»
2️⃣ «Все умнее, с физтеха, а я без базы»
3️⃣ «Я боюсь опозориться на собесе»
4️⃣ «Вроде хочу в AI, но с чего начать — непонятно»

А вот что мешает моим слонам:
🟣Нет практики и реальных задач
🟡Непонятно, куда копать — нет роадмапа
🔵Не хватает мотивации
🟢Нет комьюнити рядом

Поэтому я задал себе вопрос: а чем я реально могу быть полезен? И вот что вы мне ответили:
🟣Простые разборы тем с примерами и кодом
🔵Кейсы и задачи (а не теория ради теории)
🟡Чек-листы, подборки ресурсов, роадмапы
🟢Мок-собесы, особенно в NLP и на джунов
🟣Истории людей, которые тоже боялись — и всё равно прошли путь

Поэтому сейчас будет тотальная ликвидация страхов на канале/ютубе/менторстве и кое-где в другом месте, чуть позже узнаете... 😃

Буду рад, если напишешь, какой пост ты хотел бы увидеть в ближайшее время.

ПОВ: Я потихоньку с вами созваниваюсь, также мне помогает моя ассистентка. И мне будет приятно если сделаешь небольшой додеп в опросник 🌭
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20😎95🥰1😁1🌭1🍌1
Накрутка опыта - это самое настоящее зло во плоти

Я всё чаще и чаще начал слышать этот тейк от компаний. Бля, а как выглядит эта ситуация с разных сторон: как стороны бизнеса, так со стороны кандидата?

Со стороны бизнеса 🏦
Моя цель - это сокращение издержек и заработок денег, я же бизнес, я должен делать бабки. Что я могу сделать для этого? Один из способов экономить на кандидатах, а как? А всё очень просто - это платить меньше за бОльшое количество задач. А значит я должен нанимать джунов, которые на самом деле мидлы, чтобы те выполняли задачи мидлов. Так я бы на мидла потратил 250к, а на джуна могу 100к за те же самые задачи - profit 🤡

Но тут ко мне приходят ребята, которые имеют ноль опыта, но могут действительно выполнять задачи мидлов, потому что они ебать как натренировались на проектах, на задачах, на чём-то своём, но система не даёт им делать свою работу за их заслуженную ЗП. Тогда ребята начинают крутить опыт, а компания злится, так как меньше экономит бабосики и говорит, что накрутка - это восьмой смертных грех, который должен быть написан при входе в офис Яндекса 🤕

Со стороны кандидата 💸
Я действительно много знаю, я могу в соло решить задачу от А до Я, я много, где практиковался, меня ревьювили опытные специалисты, по факту я уже прошёл стадию джуна, но без коммерческого опыта. Я ТЯНУ УРОВЕНЬ МИДЛ, Я ХОЧУ ПОЛУЧАТЬ ЗП МИДЛА, Я ЧЕЛОВЕК, Я ХОЧУ КУШАТЬ, Я НЕ ХОЧУ ТЕРЯТЬ ДЕНЬГИ - совершенно нормальное желание каждого из нас 👍

Кандидат начинает крутить опыт, проходит собеседование, дают оффер на мидла, он проходит испытательный срок и выполняет все задачи, которые ему говорит лид, то есть человек справляется с работой, он заслуженно мидл

Очень важный вывод 🤑
Есть рынок трудоустройства, рынке есть свои определённые правила игры. Цель каждого игрока на рынке - максимизация своего дохода, минимизиция издержек. И на данный момент на рынке есть такая борьба, в которой нет правых, каждый борется за свой кусок - бизнес орёт: "накрутка это не этично", накрутчики пидорасы, а кандидаты орут: "сосите, мы можем больше зарабатывать, нахрена нам терять свои года жизни?" 👩

Если кандидат станет бизнесом, то он скорее всего будет играть по правилам игры и тоже будет уменьшать свои издержки. Бизнес и кандидаты пользуются своими инструментами для выгоды. Например, бизнес может заслать ложного покупателя и даже сотрудника, чтобы спиздить все бизнес-процессы и данные с компании, а кандидат может попросить друга пойти на собес, чтобы тот слил все вопросы 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
31🍌14🥰5🤔4😁3💯2🔥1
Уничтожение MLSD по созданию чат-бота

Постановка задачи
Ситуация: Нужен чат-бот-юрист, который сможет первично консультировать клиентов по законам. Например, кто-то дунул газика и теперь тебе нужно найти все статьи и законы, которые связаны с котиками. Пример: «Браток, как защититься от того, что жёстко дал газу в башню и теперь меня ищут менты?» → бот ищет статьи и выдает нормальный структурированный ответ с источниками, которые помогут защититься от легавых 🐒

Ограничения:
🟣Задержка ответа, < 5c
🟡Нет данных для обучения, только открытые источники
🔵Свести галлюцинации к минимуму
🟢Мало мощностей (<16 ГБ VRAM)

Метрики
Бизнес-метрики - метрики, которые важны в первую очередь бизнесу
🟣Conversion Rate: доля пользователей, совершивших целевое действие: запись
на прием или переход по ссылке — через чатик с ботом
🟡Retention: Процент пользователей, вернувшихся к боту в течение N дней
Онлайн-метрики - метрики, которые будем мерить при A/B тестах
🟢CSAT: оценка от пользователей (1-5)
🔵Response Latency: задержка на генерацию ответа
Оффлайн-метрики - метрики, которые мы считаем прям во время разработки модели
🟣Precision@k: Доля релевантных документов среди топ-k результатов поиска.
🟡Recall@k: доля релевантных документов, найденных среди топ-k по сравнению с полным множеством релевантных
🔵LLM-as-a-judge (для оценки генерации): Оцениваем качество сгенерированных ответов LLM, используя другую LLM в качестве судьи - сейчас такое гейство очень актуально в оценки качества генераций. Правила оценки можно задать, опираясь на внутренние требования по общению с клиентами и работе с юридическим документами 😱
Но у нас нет разметки, как получить offline-метрики без разметки? Делаем небольшую ручную разметку через копирайтеров или на основе типичных запросов клиентов, а потом делаем синту через GPT на основе уже размеченных данных. Так можно наиболее точно и эффективно разметит инфу, чтобы чел нашёл абсолютно всё про хапку 😩

Данные:
1️⃣Официальные тексты законов.
2️⃣Очистка/фильтрация чувствительных данных.
3️⃣Чанки по 256–1024 токена (или абзацы).

Индексация и векторизация:
1️⃣ Выбор модели предобученной эмбеддингов: bge-m3, e5-multilingual-large
2️⃣ Построение векторной БД (Qdrant, Faiss, Chroma): вычисление эмбеддингов для каждого чанка и сохранение в векторную БД

Retrieve pipeline — как ищем чанки по газикам
1️⃣ Query preprocessing: нормализация, удаление лишних символов (можно делать через LLM)
2️⃣ Retrieve:
🔵BM25
🟢Vector search (cosine simillarity)
🟡Hybrid (BM25+Vector search)
3️⃣ Выбор top-k чанков для формирования контекста LLM. Рекомендуется 5-10
Формирование ответа с помощью LLM
1️⃣ Делаем какой-то систем промпт, чтобы наша модель была очень крутой, отвечала всегда честно и экологично, а то расскажет не про то как задефаться от хапки газика, а как сделать сам газик - нам такое не нужно
2️⃣ Кидаем в API ллмки (API: GPT, Gemini, Claude) систем промпт, чанки и вопрос пользователя и нам рождается ответ

Проблемы:
🟣Есть такая хуйня - Prompt Injection. Это когда злые дядьки пытаются через промпты попросить у модели внутренние данные. Что стоит сделать: или добавить жёсткие правила по фильтрации, или добавить ЛЛМку, которая будет фильтровать запрос пользователя и у неё не будет доступ к внутренним данным 👎
🟢Также в чанках может чуствтительная инфа (данные пользователей компании - если данные утекут, то из вас сделают газик), которая не должна слиться пользователям. Поэтому стоит внимательно следить за чанками и что в них попадает 💩

Итоговый пайплайн:
Запрос → Предобработка → Поиск чанков → Промпт → Ответ → Пользователь.
Это был baseline, который дальше можно улучшать и улучшать, у которого есть свои проблемы. И их в одном посте я точно описать не смогу

Что можно улучшить
👊
- Провести тесты с разными ЛЛМ-ками и энкодерами
- Проработать агентную систему, которая будет улучшать качество и безопасность системы. К примеру, query routing - классифицировать запрос: материальное право / процесс / процедурка / «как оформить»; под каждый — свой шаблон ответа и k.
- Сделать tool call при необходимости
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
28👍7🍌4🤣3❤‍🔥1🔥1🥰1
Forwarded from Applied AI by David
Как сэкономить 84 350 долларов в год

Столько стоит MBA (программа Master of Business Administration) в MIT, а также огромное количество времени. Я ничего не плачу и получаю персональные рекомендации по улучшению процессов в моей жизни и моих бизнесах. Ниже расскажу как, но перед этим отзывы:

CTO: "Блин это лучшее обучение которое у меня когда-либо было"
CAIO: "Я занимаюсь уже всю неделю не отрываясь"
Остальная команда: 100/10
Друг-предприниматель: "Сделал себе, то что я получаю пользу в контексте моих проектов сразу зарабатывает мне деньги"
Знакомая, окончившая MBA: "эх если бы такое было в моё время я бы уже в 16 запускала первый проект"
Мой друг 160iq+: не стал пробовать, слишком гигантское эго

TLDR РЕЦЕПТ

0. Открываем любую GPT
1. You will become what you hate about yourself — "Я хочу научиться Х, сделай мне тест моего уровня для оценки навыков, чтобы я смог Y"
2. Context is the king — В настройках персонализации chatgpt / claude / cursorrules пишем 300+ слов о себе, опыте, проблемах, ресурсах, проблеме и цели
3. Make yourself 6-monthly over-detailed, over-personalized, gpt-understandable plan — В несколько промптов создаем себе план обучения на 2000+ уроков, которые погрузят нас в каждую тему
4. Корректируем под себя промпт "плана урока"
5-2004. Follow it, make a schedule — начинаем каждый день со стандартного "план урока"+"промпт-тема"


Try now or forget forever - 100% есть фундаментальные навыки, в котором ты - лох, либо можешь перейти на следующую парадигму:
- management
- product
- sales
- networking
- processes
- your tech domain

Накидайте 10 огонечков и скину свои промпты.
Моей команде: буду благодарен если напишите свой опыт в комментах

@aigov2
🔥76😁7🌭31👍1🥰1🍌1🙈1💘1
Хочу с вами поделиться

У меня есть крутые ребята, которых я периодически почитываю. Хочется с вами поделиться самыми пиздатыми постами, которые у меня в душе откликаются 🗣

1️⃣ Мой слоняра Никитосик написал про "База на собесах на LLM и промптинг". Тут мы с ним срём в одном поле, рассказывая про одну область
2️⃣ Пост Саши про Все, что нужно знать про собеседования в Data Science, сами активно пишу про это, поэтому можете у меня и Саши найти что-то новое для себя
3️⃣ Андрюха пишет про модель выручки, тимлидские заметки. Сейчас сам развиваюсь, как фаундер и интересно почитать про лидовские штуки
4️⃣ Макс про "разбор вайба Карпаты ; и мои советы по vibe разработке", вайб-кодинг - это не просто про "эээ... закинул промпт в гпт - исправь мой баг БЫСТРО", это немного сложнее. Так Макс посняет вам за вайб
5️⃣ Виталя, аналитик, написал ахуенную историю про обсёр FixPrice Какие зарплаты обещают разные курсы онлайн школ в аналитике данных и интересную статистику про обещание ЗП на курсах

Так мы решили собраться с ребятками, которые делают качественный контент и деплойнуть папку. Если вам интересно, можете зайти, почитать, получить пользу и подписаться 🐒
Please open Telegram to view this post
VIEW IN TELEGRAM
👍178🔥7🍌2🥰1👏1
Рофлоистория, или собес курильщика

Поговорил я с одним коллегой из Точки, и он рассказал интересную историю собеседования 🗣

Откликнулся он на какую-то ваку на хх, в итоге приходит приглос на очный собес — уже чем-то попахивает. Заходит в офис времён 2000-х и видит перед кабинетом, где должен быть собес, толпу людей: «что за пиздец?» — думает чел

Заходит с ребятами, садятся они в ряд. Приходит насяльника (с виду нормальный мужик) и говорит:
«Денег у компании немного, поэтому собес будет групповой и быстрый. Представьте, что я заказчик, а вы разработчики, и вам нужно получить ТЗ от меня»

Показывает на первого парня. Тот говорит:
«Здравствуйте! Можно, пожалуйста, получить ТЗ?» — и тут же ловит в ответ: «Привет! ИДИ НАХУЙ». Парень в ахуе, остальные переглядываются и понимают, что такая карусель счастья ждёт и их 😐

Доходит очередь до моего коллеги. Он отвечает в духе:
«Слушай, ну ты уже пятерых нахуй отправил, давай-ка ты мне дашь ТЗ, чтобы остальных не пришлось так же посылать». Мужик, естественно, тоже отправил его нахуй.

Оказалось, это был стресс-тест: нужно было продолжать отвечать и придумывать разные варианты, не сливаясь.

Главный герой прошёл дальше. Там его встретил типичный алгособес: задача на реализацию Фибоначчи (ведь если ты их знаешь, то, конечно, сможешь написать сервис и задеплоить модель 😬)

В итоге ему дали оффер, но добавили:
«В оффере написано 220к, мы не открещиваемся, но это — когда есть задачи. А сейчас их нет, поэтому 110к». У меня и у коллеги после этих слов челюсть до пола.

И вишенка на торте: в конце ему сказали — «наш фаундер передумал нанимать бэка, поэтому пока. Оффер отменяется» 💀

Вывод из этой удивительной истории простой: нужно уметь отличать говнокомпании от нормальных. Как? Если уже на этапе собеса начинается какая-то дичь — то на работе её будет в разы больше 🤡
Please open Telegram to view this post
VIEW IN TELEGRAM
22🤯17😁8👏5🍌2💯1
LLM на стероидах: Что такое ReAct и почему он опускает обычный RAG?

Представим, что у нас есть чат-бот, который отвечает на вопросы по загруженной базе документов (RAG чат-бот). Вроде круто, но что если нам нужно, чтобы он не просто в документах копался, а еще и как-то с внешним миром взаимодействовал?

Например, мог:
🟣 Узнать погоду
🟡 Проверить статус заказа по API
🔵 Узнать текущий курс битка, чтобы фиксануть прибыль 📉
🟢 Ну или сделать деп, потом додеп и супер мега ласт додеп 😩

Обычная LLMка либо рассуждает и отвечает на основе текста, либо вызывает какой-то один инструмент, например, RAG. Она не может делать и то, и другое одновременно.

И вот тут на сцену врывается с двух ног ReAct-архитектура (Reason + Act). Такой агент - настоящий гигачад, потому что он умеет чередовать рассуждения с действиями (вызовами функций, или Tools) для взаимодействия с миром.

Агент анализирует запрос пользователя и сам решает, что делать дальше:
🟣 задать уточняющий вопрос
🟡 полезть в базу знаний
🔵 дёрнуть внешний API
🟢 сделать додеп 📈
🟡 или сразу выдать окончательный ответ

Структура ReAct Agent
1️⃣ LLM — это ядро и мозг агента. Анализирует запрос, выбирает следующий шаг и генерирует ответ.
2️⃣ Thinking — «мышление» агента. На этом этапе он решает: использовать какой-то инструмент (пойти в RAG, вызвать API) или продолжить диалог с пользователем.
3️⃣ Tools — список доступных агенту инструментов. Это может быть что угодно: векторная база, внешний API, калькулятор, SQL-база — всё, что нужно для работы.

Как это работает на практике? 🐵

Допустим, мы спрашиваем: «Хочу сделать додеп на 100 баксов в слоты, есть какие-нибудь бонусы?» 💀

🟣Агент думает (Reason): «Окей, чел хочет закинуть сотку. Надо проверить его текущий баланс и глянуть, есть ли для него жирные бонусы на деп».
🟡Агент действует (Act): Дёргает внутренний API, чтобы проверить баланс юзера. Баланс: $15.
🔵Агент снова действует (Act): Летит в API казино и проверяет доступные акции. Нашёл: 'Бонус +50% на депозит от $100'.
🟢Агент думает и отвечает (Reason & Act): Собирает всё вместе и выдаёт ответ: «Твой баланс $15. Сейчас есть акция: закидывай от сотки и получишь +50% сверху. Делаем додеп?»
После согласия пользователя агент может инициировать транзакцию через API платёжного шлюза.

Итог:
ReAct Agent превращает LLMку из обычного генератора текста в полноценного ассистента, который умеет взаимодействовать с внешним миром и реально решать задачи, а не просто болтать. Короче, это база! 🌟
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍10❤‍🔥5😁2🍌1