Ebout Data Science | Дима Савелко
2.15K subscribers
142 photos
12 videos
87 links
Ebout Data Science by @ngmdite
Download Telegram
Бесплатная консультация для тебя 🌟

Ребят, хочу вас поблагодарить за вашу активность под постами, видосами, что вы мне пишите в ЛС приятные отзывы, это очень приятно и мотивирует делать контент всё пизже и пизже

И впервые за 3 года ведения канала хочу обратиться к вам за помощью 🐶

Попрошу вас пройти опросник буквально на 2-3 минуты, чтобы лучше понять: кто вы, что вы, какие задачи решаете, и что вам нужно прямо сейчас. А с теми, кто пройдёт опросник, я постараюсь лично созвонится, чтобы помочь с решением какой-то актуальной задачи в жизни сейчас

Короче, пройди опросник, и я смогу помочь тебе быстрее прийти к твоей цели (оффер, переход в DS, ML или апгрейд) 🗣

Ссылочка на опросник
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔15🔥11🍌7❤‍🔥32🥰1👌1
Тотальная ликвидация страхов в получении жирного офферсана

В предыдущем посте я попросил вас, своих слонов, пройти опросник. Вы наебенькали целых ~73 ответа, спасибо мои дорогие)
Ответы заставили меня порой улыбнуться, порой заплакать, а порой... заплакать 💀

Цель большинства - это найти первую работу в DS/ML, с небольшим отрывом идут люди, которые просто хотят апгрейднуться по ЗП, получить иностранный оффер или залутать новые знания

Самое частое чувство — страх, а я его люблю пиздеть на канале страха нет 👊
Вот топ мыслей, которые вы начирикали:
1️⃣ «Если не получится сейчас — я останусь ни с чем»
2️⃣ «Все умнее, с физтеха, а я без базы»
3️⃣ «Я боюсь опозориться на собесе»
4️⃣ «Вроде хочу в AI, но с чего начать — непонятно»

А вот что мешает моим слонам:
🟣Нет практики и реальных задач
🟡Непонятно, куда копать — нет роадмапа
🔵Не хватает мотивации
🟢Нет комьюнити рядом

Поэтому я задал себе вопрос: а чем я реально могу быть полезен? И вот что вы мне ответили:
🟣Простые разборы тем с примерами и кодом
🔵Кейсы и задачи (а не теория ради теории)
🟡Чек-листы, подборки ресурсов, роадмапы
🟢Мок-собесы, особенно в NLP и на джунов
🟣Истории людей, которые тоже боялись — и всё равно прошли путь

Поэтому сейчас будет тотальная ликвидация страхов на канале/ютубе/менторстве и кое-где в другом месте, чуть позже узнаете... 😃

Буду рад, если напишешь, какой пост ты хотел бы увидеть в ближайшее время.

ПОВ: Я потихоньку с вами созваниваюсь, также мне помогает моя ассистентка. И мне будет приятно если сделаешь небольшой додеп в опросник 🌭
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20😎95🥰1😁1🌭1🍌1
Накрутка опыта - это самое настоящее зло во плоти

Я всё чаще и чаще начал слышать этот тейк от компаний. Бля, а как выглядит эта ситуация с разных сторон: как стороны бизнеса, так со стороны кандидата?

Со стороны бизнеса 🏦
Моя цель - это сокращение издержек и заработок денег, я же бизнес, я должен делать бабки. Что я могу сделать для этого? Один из способов экономить на кандидатах, а как? А всё очень просто - это платить меньше за бОльшое количество задач. А значит я должен нанимать джунов, которые на самом деле мидлы, чтобы те выполняли задачи мидлов. Так я бы на мидла потратил 250к, а на джуна могу 100к за те же самые задачи - profit 🤡

Но тут ко мне приходят ребята, которые имеют ноль опыта, но могут действительно выполнять задачи мидлов, потому что они ебать как натренировались на проектах, на задачах, на чём-то своём, но система не даёт им делать свою работу за их заслуженную ЗП. Тогда ребята начинают крутить опыт, а компания злится, так как меньше экономит бабосики и говорит, что накрутка - это восьмой смертных грех, который должен быть написан при входе в офис Яндекса 🤕

Со стороны кандидата 💸
Я действительно много знаю, я могу в соло решить задачу от А до Я, я много, где практиковался, меня ревьювили опытные специалисты, по факту я уже прошёл стадию джуна, но без коммерческого опыта. Я ТЯНУ УРОВЕНЬ МИДЛ, Я ХОЧУ ПОЛУЧАТЬ ЗП МИДЛА, Я ЧЕЛОВЕК, Я ХОЧУ КУШАТЬ, Я НЕ ХОЧУ ТЕРЯТЬ ДЕНЬГИ - совершенно нормальное желание каждого из нас 👍

Кандидат начинает крутить опыт, проходит собеседование, дают оффер на мидла, он проходит испытательный срок и выполняет все задачи, которые ему говорит лид, то есть человек справляется с работой, он заслуженно мидл

Очень важный вывод 🤑
Есть рынок трудоустройства, рынке есть свои определённые правила игры. Цель каждого игрока на рынке - максимизация своего дохода, минимизиция издержек. И на данный момент на рынке есть такая борьба, в которой нет правых, каждый борется за свой кусок - бизнес орёт: "накрутка это не этично", накрутчики пидорасы, а кандидаты орут: "сосите, мы можем больше зарабатывать, нахрена нам терять свои года жизни?" 👩

Если кандидат станет бизнесом, то он скорее всего будет играть по правилам игры и тоже будет уменьшать свои издержки. Бизнес и кандидаты пользуются своими инструментами для выгоды. Например, бизнес может заслать ложного покупателя и даже сотрудника, чтобы спиздить все бизнес-процессы и данные с компании, а кандидат может попросить друга пойти на собес, чтобы тот слил все вопросы 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
31🍌14🥰5🤔4😁3💯2🔥1
Уничтожение MLSD по созданию чат-бота

Постановка задачи
Ситуация: Нужен чат-бот-юрист, который сможет первично консультировать клиентов по законам. Например, кто-то дунул газика и теперь тебе нужно найти все статьи и законы, которые связаны с котиками. Пример: «Браток, как защититься от того, что жёстко дал газу в башню и теперь меня ищут менты?» → бот ищет статьи и выдает нормальный структурированный ответ с источниками, которые помогут защититься от легавых 🐒

Ограничения:
🟣Задержка ответа, < 5c
🟡Нет данных для обучения, только открытые источники
🔵Свести галлюцинации к минимуму
🟢Мало мощностей (<16 ГБ VRAM)

Метрики
Бизнес-метрики - метрики, которые важны в первую очередь бизнесу
🟣Conversion Rate: доля пользователей, совершивших целевое действие: запись
на прием или переход по ссылке — через чатик с ботом
🟡Retention: Процент пользователей, вернувшихся к боту в течение N дней
Онлайн-метрики - метрики, которые будем мерить при A/B тестах
🟢CSAT: оценка от пользователей (1-5)
🔵Response Latency: задержка на генерацию ответа
Оффлайн-метрики - метрики, которые мы считаем прям во время разработки модели
🟣Precision@k: Доля релевантных документов среди топ-k результатов поиска.
🟡Recall@k: доля релевантных документов, найденных среди топ-k по сравнению с полным множеством релевантных
🔵LLM-as-a-judge (для оценки генерации): Оцениваем качество сгенерированных ответов LLM, используя другую LLM в качестве судьи - сейчас такое гейство очень актуально в оценки качества генераций. Правила оценки можно задать, опираясь на внутренние требования по общению с клиентами и работе с юридическим документами 😱
Но у нас нет разметки, как получить offline-метрики без разметки? Делаем небольшую ручную разметку через копирайтеров или на основе типичных запросов клиентов, а потом делаем синту через GPT на основе уже размеченных данных. Так можно наиболее точно и эффективно разметит инфу, чтобы чел нашёл абсолютно всё про хапку 😩

Данные:
1️⃣Официальные тексты законов.
2️⃣Очистка/фильтрация чувствительных данных.
3️⃣Чанки по 256–1024 токена (или абзацы).

Индексация и векторизация:
1️⃣ Выбор модели предобученной эмбеддингов: bge-m3, e5-multilingual-large
2️⃣ Построение векторной БД (Qdrant, Faiss, Chroma): вычисление эмбеддингов для каждого чанка и сохранение в векторную БД

Retrieve pipeline — как ищем чанки по газикам
1️⃣ Query preprocessing: нормализация, удаление лишних символов (можно делать через LLM)
2️⃣ Retrieve:
🔵BM25
🟢Vector search (cosine simillarity)
🟡Hybrid (BM25+Vector search)
3️⃣ Выбор top-k чанков для формирования контекста LLM. Рекомендуется 5-10
Формирование ответа с помощью LLM
1️⃣ Делаем какой-то систем промпт, чтобы наша модель была очень крутой, отвечала всегда честно и экологично, а то расскажет не про то как задефаться от хапки газика, а как сделать сам газик - нам такое не нужно
2️⃣ Кидаем в API ллмки (API: GPT, Gemini, Claude) систем промпт, чанки и вопрос пользователя и нам рождается ответ

Проблемы:
🟣Есть такая хуйня - Prompt Injection. Это когда злые дядьки пытаются через промпты попросить у модели внутренние данные. Что стоит сделать: или добавить жёсткие правила по фильтрации, или добавить ЛЛМку, которая будет фильтровать запрос пользователя и у неё не будет доступ к внутренним данным 👎
🟢Также в чанках может чуствтительная инфа (данные пользователей компании - если данные утекут, то из вас сделают газик), которая не должна слиться пользователям. Поэтому стоит внимательно следить за чанками и что в них попадает 💩

Итоговый пайплайн:
Запрос → Предобработка → Поиск чанков → Промпт → Ответ → Пользователь.
Это был baseline, который дальше можно улучшать и улучшать, у которого есть свои проблемы. И их в одном посте я точно описать не смогу

Что можно улучшить
👊
- Провести тесты с разными ЛЛМ-ками и энкодерами
- Проработать агентную систему, которая будет улучшать качество и безопасность системы. К примеру, query routing - классифицировать запрос: материальное право / процесс / процедурка / «как оформить»; под каждый — свой шаблон ответа и k.
- Сделать tool call при необходимости
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
28👍7🍌4🤣3❤‍🔥1🔥1🥰1
Forwarded from Applied AI by David
Как сэкономить 84 350 долларов в год

Столько стоит MBA (программа Master of Business Administration) в MIT, а также огромное количество времени. Я ничего не плачу и получаю персональные рекомендации по улучшению процессов в моей жизни и моих бизнесах. Ниже расскажу как, но перед этим отзывы:

CTO: "Блин это лучшее обучение которое у меня когда-либо было"
CAIO: "Я занимаюсь уже всю неделю не отрываясь"
Остальная команда: 100/10
Друг-предприниматель: "Сделал себе, то что я получаю пользу в контексте моих проектов сразу зарабатывает мне деньги"
Знакомая, окончившая MBA: "эх если бы такое было в моё время я бы уже в 16 запускала первый проект"
Мой друг 160iq+: не стал пробовать, слишком гигантское эго

TLDR РЕЦЕПТ

0. Открываем любую GPT
1. You will become what you hate about yourself — "Я хочу научиться Х, сделай мне тест моего уровня для оценки навыков, чтобы я смог Y"
2. Context is the king — В настройках персонализации chatgpt / claude / cursorrules пишем 300+ слов о себе, опыте, проблемах, ресурсах, проблеме и цели
3. Make yourself 6-monthly over-detailed, over-personalized, gpt-understandable plan — В несколько промптов создаем себе план обучения на 2000+ уроков, которые погрузят нас в каждую тему
4. Корректируем под себя промпт "плана урока"
5-2004. Follow it, make a schedule — начинаем каждый день со стандартного "план урока"+"промпт-тема"


Try now or forget forever - 100% есть фундаментальные навыки, в котором ты - лох, либо можешь перейти на следующую парадигму:
- management
- product
- sales
- networking
- processes
- your tech domain

Накидайте 10 огонечков и скину свои промпты.
Моей команде: буду благодарен если напишите свой опыт в комментах

@aigov2
🔥76😁7🌭31👍1🥰1🍌1🙈1💘1
Хочу с вами поделиться

У меня есть крутые ребята, которых я периодически почитываю. Хочется с вами поделиться самыми пиздатыми постами, которые у меня в душе откликаются 🗣

1️⃣ Мой слоняра Никитосик написал про "База на собесах на LLM и промптинг". Тут мы с ним срём в одном поле, рассказывая про одну область
2️⃣ Пост Саши про Все, что нужно знать про собеседования в Data Science, сами активно пишу про это, поэтому можете у меня и Саши найти что-то новое для себя
3️⃣ Андрюха пишет про модель выручки, тимлидские заметки. Сейчас сам развиваюсь, как фаундер и интересно почитать про лидовские штуки
4️⃣ Макс про "разбор вайба Карпаты ; и мои советы по vibe разработке", вайб-кодинг - это не просто про "эээ... закинул промпт в гпт - исправь мой баг БЫСТРО", это немного сложнее. Так Макс посняет вам за вайб
5️⃣ Виталя, аналитик, написал ахуенную историю про обсёр FixPrice Какие зарплаты обещают разные курсы онлайн школ в аналитике данных и интересную статистику про обещание ЗП на курсах

Так мы решили собраться с ребятками, которые делают качественный контент и деплойнуть папку. Если вам интересно, можете зайти, почитать, получить пользу и подписаться 🐒
Please open Telegram to view this post
VIEW IN TELEGRAM
👍178🔥7🍌2🥰1👏1
Рофлоистория, или собес курильщика

Поговорил я с одним коллегой из Точки, и он рассказал интересную историю собеседования 🗣

Откликнулся он на какую-то ваку на хх, в итоге приходит приглос на очный собес — уже чем-то попахивает. Заходит в офис времён 2000-х и видит перед кабинетом, где должен быть собес, толпу людей: «что за пиздец?» — думает чел

Заходит с ребятами, садятся они в ряд. Приходит насяльника (с виду нормальный мужик) и говорит:
«Денег у компании немного, поэтому собес будет групповой и быстрый. Представьте, что я заказчик, а вы разработчики, и вам нужно получить ТЗ от меня»

Показывает на первого парня. Тот говорит:
«Здравствуйте! Можно, пожалуйста, получить ТЗ?» — и тут же ловит в ответ: «Привет! ИДИ НАХУЙ». Парень в ахуе, остальные переглядываются и понимают, что такая карусель счастья ждёт и их 😐

Доходит очередь до моего коллеги. Он отвечает в духе:
«Слушай, ну ты уже пятерых нахуй отправил, давай-ка ты мне дашь ТЗ, чтобы остальных не пришлось так же посылать». Мужик, естественно, тоже отправил его нахуй.

Оказалось, это был стресс-тест: нужно было продолжать отвечать и придумывать разные варианты, не сливаясь.

Главный герой прошёл дальше. Там его встретил типичный алгособес: задача на реализацию Фибоначчи (ведь если ты их знаешь, то, конечно, сможешь написать сервис и задеплоить модель 😬)

В итоге ему дали оффер, но добавили:
«В оффере написано 220к, мы не открещиваемся, но это — когда есть задачи. А сейчас их нет, поэтому 110к». У меня и у коллеги после этих слов челюсть до пола.

И вишенка на торте: в конце ему сказали — «наш фаундер передумал нанимать бэка, поэтому пока. Оффер отменяется» 💀

Вывод из этой удивительной истории простой: нужно уметь отличать говнокомпании от нормальных. Как? Если уже на этапе собеса начинается какая-то дичь — то на работе её будет в разы больше 🤡
Please open Telegram to view this post
VIEW IN TELEGRAM
20🤯15😁7👏5🍌3💯1