Ebout Data Science | Дима Савелко
2.19K subscribers
142 photos
12 videos
85 links
Ebout Data Science by @ngmdite
Download Telegram
1+ выигранный хакатон или как мы уничтожили TenderHack 💪

Задача 😱
На основе названия товара выдать его характеристики пользователю.
Как это выглядит со стороны пользователя:
1️⃣ Пользовель вводит название товара: '15.6" Ноутбук Acer Aspire 3 A315-44P-R2DH серебристый' (не реклама если что). Сервис исправляет его запрос при необходимости.
2️⃣ Сервис выдаёт
- Модель/Производителя товара (Aspire/Acer)
- Категорию товара (Ноутбуки)
- Характеристику товара (60 Гц, 512 Гб, ...)
3️⃣ Пользователю предлагают исправить найденные характеристики, чтобы в дальнейшем предобучать модель

Решение 🧠
1️⃣ В первую очередь мы сделали вывод модели и производителя товара на основе LLM (Command-R) просто прописав ей промпт 🙈
2️⃣ Затем долго строили модель классификации, которая бы определяла бы категорию товара
- Я сразу сказал, что давайте строить на e5 с помощью ANN+cosine similarity, но результаты были ужасны... Precision@1 ~ 0.001. После этого я решил обучить модель (последний слой и LoRA) на Contrastive Learning (SimCSE), но лосс оказался настолько ужасным, что мне захотелось плакать, и я понял, что я вообще не сделал анализ данных 🤔
- После этого мой напарник бился всю ночь за е5, а после этого предложил немного поменять данные, на которых мы считаем эмбеддинги и взять Okapi BM25 + обучить токенизатор. И УРА! Оно очень хорошо работает! 🆒
- Вывод: делайте анализ данных и начинайте с наивных методов 🙈
3️⃣ Коррекция неправильного ввода пользователя делалась за счёт LLMки, просто промптонули её 🙈
4️⃣ Вывод категорий - здесь самое сложное, мы сделали RAG, где:
- Retrieval - это поиск в Яндексе различных сайтов и их парсинг
- Augment - Запихали всё в LLM (128к контекста) и промптонули её, чтобы она агрегировала инфу с разных доков
- Generation - она выдала свою ЛЛМ-базу, тем что агрегировала результаты и выдала текст
Здесь мы столкнулись с проблемой, что наш IP забанили на сайтах пока мы тестили, но по итогу мы накупили прокси и парсили через них 🙈
5️⃣ Бэк и фронт был написан гениальным человеком, который вывозил всё в соляново - Vue.js, FastAPI (Спасибо Данила) 👍

Итог 👀
Хакатон был топовый по задачам, по организации, по соперникам, по атомсфере. Были сильные решения от топ-5 команд, но зарешал фронт и технологии.

Оценка хакатона 🙏
5 Валериев Бабушкина из 5 Валериев Бабушкинов
😯 😯 😯 😯 😯 / 😯 😯 😯 😯 😯
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆184😁1💩1🍌1
Кто я?

Налетело кучу людей на канал за последнее время, поэтому обновляю информацию о себе 🫶

Дарова!
Я Дима Савелко, мне 21 год. Занимаюсь менторством, то есть помогаю ребятам найти первую работу в DS/ML или апнуться до мидла/сеньора. И вот несколько фактов обо мне:
- Работал в:
🟢Точка R&D (NLP/LLM) - ресёрч/разработка в ЛЛМ, пилим свой ЧатЛГБТ для всей Точки
🟣Сбере (NLP) - ресёрч, обучал гигачат, делал ранжировщик генераций модели
🟡DSM Group (NLP, Classic ML) - решал задачи классик мл, нлп
- Есть ютуб, снимаю ролики про DS, рассказываю про вопросы на собесах и про то, как вкатываться
- Активно введу свой бизнес нейро-сети.рф 📞
- Участник более 10 хакатонов и победитель 3 хаков
- Сейчас учусь в РТУ МИРЭА на 4 курсе 💻

Вот подборка моих самых полезных постов 😘
🔵Про собесы | Резюме:
- Как правильно торговаться 🍑
- Типичные ошибки на собеседовании, которые ты можешь допустить
- Улучшаем резюме в х100 с помощью нескольких простых правил
- Алгоритм прохождения собеседования, который даст тебе 99.999...% оффер
- Что такое HR-скринниг, и как наиболее эффективно его проходить?

🟢NLP/LLM:
- RoadMap по архитектуре трансформеров и LLM
- Мегаполезные ссылки на курсы, ресурсы и статьи по подготовке на собесах: ML, DL, NLP, CV, RecSys, RL 🎸
- Полное и тотальное объяснение с примерами Self-Attention и MultiHead Attention
- Простое и понятное объяснение стадий обучения LLM
- Объяснение BERT`а на пальцах ваших ног

🟡ML System Design:
- Как готовится к секции ML System Design на собесах
- RoadMap по прохождению ML System Design
- Полное и подробное описание MLSD retrieve-модели из RAG-системы
- Полное и подробное описание MLSD для обучения LLM

🔵 Вопросы с собеседований:
- Мой персональный сборник вопросов
- теле-2
- Транснефть
- Тинькофф
- ДомКлик ч1
- ДомКлик ч2
- Huawei

🟣Другое
- Подготовка по алгосам
- Типичный день датасаентиста
- Как не обкакаться при старте ML-проекта ч1
- Как не обкакаться при старте ML-проекта ч2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🍌86🔥5🥰3🤯2❤‍🔥1💩1
Дрочка и Точка

Про Точку 👁
Я получил оффер в Точку на позицию NLP Researcher&Developer DS - короче NLP DS в R&D отдел.
Здесь я буду решать NLP таски, разрабатывать и обучать LLMки, RAGи и другие многие интересности
Сейчас я в точке не вижу минусов, только плюсы:
- топ тима 😈
- топ задачи 🤪
- топ процессы 🥺
- топ экспертиза 👍
- классное погружение 🐾
- отличный офис 😊

А теперь про дрочку 🚪
Напомню, что в Сбере я работал NLP Engineer'ом, учил LLMку и делал Reward-модель для отсеивания плохих генераций.
В Сбере я понял, что большие корпорации - это не про меня:
- куча бюрократии 👎
- много времени занимают самые элементарные процессы 👿
- лично мне офис вообще не зашел 👊
- ограничение банком использования моделей 😡
- лично у нас в команде не было ревью и не было структурированного 🥺
планирования задач, и это я слышал от других команд тоже 😐
Но не может быть только минусов, поэтому в Сбере есть и положительные моменты:
- огромные ресурсы, я хоть могу гпт-4 запускать (если разрешит система безопасности) 🥳
- там интересные и многогранные люди, у которых есть чему поучиться 🚬
- знания, которые я получил, довольно таки топовые, спасибо коллегам, которые меня натаскивали 🤪
- замедленность процессов - это и плюс, и минус, так как ты очень долго вывозишь что-то в прод, но при этом есть куча свободного времени для своих дел, например для менторства 👀

Вывод:
Нет плохих и хороших компаний.
Вы уже принимаете для себя, что для вас приемлемо, что нет. После Сбера я определил для себя, что мне нужно, а что не нужно. Если вы хотите тихой и спокойной разработки порой с тупорылыми процессами, то вам корпорат. Если же хотите динамики и более драйвой разработки, то в компанию поменьше. 🙈
Так же не стоит забывать, что процессы ещё очень зависят от команды, в которой вы работаете. В Сбере может попасться такая команда, которая будет обходить все минусы, и приумножать только плюсы, поэтому стоит смотреть не только на компанию, а более глубоко: команда, люди, эскпертиза и тд... 🙈

Сберу я ставлю 3 валерия бабушкиных из 5 валериев бабушкиных по личным ощущениям
Оценка:
😯 😯 😯 / 😯 😯 😯 😯 😯
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🍌105🥰3
Ebout Data Science | Дима Савелко pinned «Кто я? Налетело кучу людей на канал за последнее время, поэтому обновляю информацию о себе 🫶 Дарова! Я Дима Савелко, мне 21 год. Занимаюсь менторством, то есть помогаю ребятам найти первую работу в DS/ML или апнуться до мидла/сеньора. И вот несколько…»
Уничтожение трансофрмеров и LLM (RoadMap)

Трансформеры сейчас суются буквально везде и повсюду, поэтому их очень часто спрашивают на собесах и на них построены SOTA решения для многих областей особенно в LLM, поэтому не знать их - это не база 🙈
Это RoadMap, который вам поможет разобраться с этой трансформерами и с LLMками 🙈

Начинаем мы с изучения архитектуры трансформеров, а закончим LLMками 😘
1️⃣ Всем смотреть базу от Котенкова, здесь мы с ручкой и листком переписываем архитектуру, чтобы в полной мере понимать, как она работает
2️⃣ Трансформеры в картинках - эту статью прочитать в качестве закрепления материала от Котенкова
3️⃣ Для более широкого понимания смотрите наглядную и понятную серию роликов от 3Blue1Brown про LLM. Тут описаны основные принципы механизмов в трансформере:
➡️ Что такое GPT
➡️ Визуализация в трансформеров
➡️ Как работает механизм внимания, где ИИ хранит воспоминания
4️⃣ Визуализация трансформеров и визуализация Self-Attention`a после того, как прочитали русскоязычные ресурсы и поняли базовые принципы работы трансформеров, можно глянуть и англоязычную визуализацию архитектуры
5️⃣ Базовая практика от Карпатова и интерактивный прогон GPT модели - написания GPT модели с нуля от Андрюши Карпатоа, за ним повторять, каждую операцию понимать, плюс каждый шаг написания в интерактиве смотреть
6️⃣ А чо такое RLHF и ваши SFT ? - именно на этот вопрос отвечает Котенков в своём видео, здесь рассказываются, как обучаются современные LLMки, из каких этапов обучения они состоят, и что там вообще творится

Полезные дополнительные материалы 🕺
1️⃣ Attention Is All You Need - оригинальная статья про трансформеры
2️⃣ Neural Networks: Zero to Hero - курс Андрюши Карпатова по ИИ
3️⃣ Intro to Large Language Models - основная техническая подноготная в современные LLM системах от Карпатова
4️⃣ Мини-курс «Полная история семейства GPT» - курс от Котенкова по семейству GPT моделей
5️⃣ Мой Сборник Материалов - курсы, гайды и статьи на любой вкус не только в NLP, но и в NLP, CV, RecSys

Теперь вы сами стали трансформером и можете объяснить, что такое Self-Attention своей маме, папе, бабушке, дедушке и даже собаке 🤵‍♂️

Если вы хотите:
💥 Получить оффер
✔️Заботать трансформеры и другие темы в DS, ML, NLP
🔝 Сделать грейд ап по зарплате и по скиллам
‼️ То приходите ко мне на менторство, первая консультация бесплатная ‼️
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌10🔥7🫡4👎32😴2👌1
Типичный день Дата Сатаниста

Меня часто на консультациях по менторству спрашивают: «Димас, расскажи про свой типичный рабочий день, чем вообще занимается Data Scientist?»

Ну вот я и выдаю такую базу 👑

1️⃣ Утренняя рутина - подъём в 8 утра, выпиваю кровь девственницы и спокойно разбираю личку, отвечая людям на рабочие вопросы 🫥
2️⃣ Ресёрч статей - если необходимо, то читаю манускрипты про текущие передовые решения в нашей задаче – в общем, занимаюсь ересью 👍
3️⃣ Написание кода - после прочтения статей я пишу пиктограмму в виде программного кода, чтобы вызвать сатану всего ИИ – трансформера, и приношу ему в жертву пару сотен данных 🤪
4️⃣ Дата сатанистские обряды по зуму - я созваниваюсь со своими коллегами сатанистами, и во главе нашего лида мы разбираем, что и как мы сделали за определённый период (обычно 2-3 дня), и какие дьявольские пиктограммы нужно писать дальше 👍

Так, ладно, убираем всю ересь 🐙
В целом день Data Scientist`a состоит из тех же элементов, что и у любого другого разработчика: пишем код, созвоны, таски. Только мы иногда делаем жёсткий ресёрч статей для нахождения наиболее релевантного решения для нашей задачи 😯

Плюс DS`а заключается в том, что тут постоянно происходит развитие, прочтение статей, работа с чем-то новым, и как следствие мало рутины и тебе становиться действительно интересно выполнять такую работу 🍔
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌13🔥7👍4🐳2🏆21
Как торговаться на собесах 🍑

Если вы получили оффер и вам уже сказали какую ЗП вы будете получать, то не торопитесь его принимать. Вы можете спокойно за несколько секунд зарабатотать 30% к своей ЗП, а то и более.

Зачем торговаться?
Давайте включим простую математику, если вам предложили ЗП в 300к, а вы сторговали ЗП на 360к, 360к - 300к = 60к в месяц вы сторговали, 60к*12 месяцев = 720к, вы за несколько минут заработали 720к в разрезе года, вы просто СЛОН 🐘
Именно так у меня было с СамокатTech 🥳

Почему можно торговаться?
1️⃣ Берём большие цифры, то есть если все в среднем будут просить больше по рынку, то работодателю ничего не остаётся кроме того, как повысить заработную плату и нанимать людей, ведь вакансии надо закрывать, а фичи пилить 👷
2️⃣ К тому же бизнес зачастую имеет средства для повышения ЗП, особенно большие компании 😁
3️⃣ Ну и мы живём в той стране, в которой инфляцию нужно обгонять каждый год, а если вы не будете этого делать, то будете падать в благах, если ваша ЗП не будет меняться 👀
4️⃣ Офферы не отзывают, если вы попросите больше ЗП, запомните фразу: "Как компания ищет лучшего кандидата, так и кандидат ищет лучшего работодателя" 👁

Алгоритм торговли 💪
Допустим вам дали оффер с ЗП, тогда вы пишите следующее (взял отсюда):
"Да, возращаюсь с ответом. Только вот другая компания Y сделал оффер X минут назад. У вас и у них хорошие команды и задачи. Но есть финансовый момент, что они предложили мне на Z$ больше. И выбор мой усложняется. <тут описываешь почему тебя компания зацепила>. Можете ли вы сделать что-нибудь по этому, чтобы облегчить мой выбор?"

И тогда с большой долей вероятности к вам могут прийти с повышенным оффером, и да это можно делать даже тогда, когда у вас нет второго оффера, но это ваш выбор... 🤡

Вывод:
Умение продать свою жопу за большие деньги - важный навык в жизни. Если вы не сделаете этого, то за вас обязательно это сделает кто-то другой 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌27❤‍🔥10🔥6👍3👎2
Я закончил школу в 20 лет

С 3 по 9 июня я был в Школе PE - это школа для тех, кто хочет начать создавать свой продукт, как-то его завернуть и правильно пушить в массы - именно такое определение я дал после прохождения школы. Сама школа проходила в Альметьевске, в кампусе АГНИ - вуза, который построила ТатНефть.

Что я там получил:
1️⃣ Жёсктий нетврокинг. Я познакомился с такими классными ребятами, которые мне такую БАЗУ👑 выдавали, что я приехал от туда другим человеком. Меня подтянули по самопрезентации, по выступлению, по коммуникации, да и в целом по каким-то психологическим аспеткам - короче говоря, навалили жёсткой БАЗЫ 💪

2️⃣ Понимание болей. Раньше мне было тяжело общаться на языке бизнеса, я общался на языке Дата Сатанистов, но эксперты из Школы PE приоткрыли мне эту завесу - как правильно приподнести Data-Driven продукт бизнесу, объяснить ему какие боли он закрывает, и сколько денег он принесёт 📞

3️⃣ Расширение горизонтов. Там было кучу учёных по химии, биологии, физики и другим интересным сферам. Раньше для меня учёный - это чел в плаще, в очках и с книжкой в руках 🤓, да такие по-любому есть, но я увидел, что учёные могут быть жёсткими гигачадами, которые шарят и не только за науку, но и за бизнес, рекламу, менеджмент - можно долго перечислять в целом 🥺

4️⃣ Личная победа. Рассказывая стихотворение в подростковом возрасте, я проглатывал язык и смотрел в пол, но в Школе PE я сам себя и меня выдрачили на публичные выступление так, что я сам не ожидал от себя такого результата. За несколько вечером подготовил презу, текст, выступление и жёстко зарекламился перед топ-менеджарами ТатНефти и ИТМО. Да, не без минусов, но и плюсы гарантированно есть, и в следующих выступлениях мне точно не будет страшно 👅

Итог
Не бойтесь принимать участие в подобного рода мероприятиях, знакомиться с разными людьми, расширять свой кругозор не только в вашей теме, но и смежных, не забывайте про софты, потому что нетворкинг - один из двигателей вашего развития 🎤
Лично для себя я понял, в каком направлении мне стоит улучшаться, качаться, и как дальше качать себя и своё дело 😎

Школе PE я ставлю Пять Валериев Бабушкиных из Пяти Валериев Бабушкиных
Оценка:
😯 😯 😯 😯 😯 / 😯 😯 😯 😯 😯
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌189🔥7🎉4👍2😁2🦄2
Наша первая статья на Habr`е

Мы командой решили написать статью "Как построить MVP AI-сервис и сэкономить время" 👨‍🔬
В ней мы рассказали о том, как мы строили и проектировали MVP-сервис c дифузионной моделью внутри для одной компании. Целевой аудиторией данной статьи были продукты, бизнесмены и люди, которые не связанные с технологиями, а больше связаны с бизнесом 😁

Для нашей ЦА мы хотели подсветить следующие темы:
1️⃣ Плюсы-минусы собственной обученной нейронки над API решением 🤪
2️⃣ Как и где собрать данные, с помощью каких методов их можно предобратотать, и как проверить их качество 😐
3️⃣ Поговорили про интерфейс сервиса, каким его можно было бы представить, показали пару примеров 🙂
4️⃣ Рассказали про как работают диффузионные модели 🥰
5️⃣ Про важность baseline модели, на собственном примере показали, что не всегда порой нужно бежать и обучать модели 👅
6️⃣ Подсветили несколько аспектов использования ИИ: авторское право, поддержка, данные... 🤪

И вот что я понял во время её написания:
- Ставьте и чётко формулируйте ЦА и цель статьи, делая вывод в конце чётко для вашей цели и для вашей ЦА. А то может так получится, что без изначального определения цели статьи, читатель может ожидать одно, а получить совершенно другое. И это ваша личная ответственность позаботиться о том, чтобы читатель именно то, что вы заложили изначально 💪
- Дать на проверку статью редакторам или людям, которые разбираются в публицистике. А то после недельного написания может замылиться глаз, и есть высокий шанс не заметить ошибки в статье. 😊

Итог:
Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх, и мне важно от вас услышать фидбек, рекомендации по написанию других статей. А то я сейчас буду писать другую статью, и я хочу её сделать намного лучше данной, поэтому мне очень важно услышать именно ваше мнение 🥇
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍154🔥3🍌2🍾2