1+ выигранный хакатон или как мы уничтожили TenderHack
Задача
На основе названия товара выдать его характеристики пользователю.
Как это выглядит со стороны пользователя:
- Модель/Производителя товара (Aspire/Acer)
- Категорию товара (Ноутбуки)
- Характеристику товара (60 Гц, 512 Гб, ...)
Решение
- Я сразу сказал, что давайте строить на e5 с помощью ANN+cosine similarity, но результаты были ужасны... Precision@1 ~ 0.001. После этого я решил обучить модель (последний слой и LoRA) на Contrastive Learning (SimCSE), но лосс оказался настолько ужасным, что мне захотелось плакать, и я понял, что я вообще не сделал анализ данных
- После этого мой напарник бился всю ночь за е5, а после этого предложил немного поменять данные, на которых мы считаем эмбеддинги и взять Okapi BM25 + обучить токенизатор. И УРА! Оно очень хорошо работает!
- Вывод: делайте анализ данных и начинайте с наивных методов
- Retrieval - это поиск в Яндексе различных сайтов и их парсинг
- Augment - Запихали всё в LLM (128к контекста) и промптонули её, чтобы она агрегировала инфу с разных доков
- Generation - она выдала свою ЛЛМ-базу, тем что агрегировала результаты и выдала текст
Здесь мы столкнулись с проблемой, что наш IP забанили на сайтах пока мы тестили, но по итогу мы накупили прокси и парсили через них
Итог
Хакатон был топовый по задачам, по организации, по соперникам, по атомсфере. Были сильные решения от топ-5 команд, но зарешал фронт и технологии.
Оценка хакатона
5 Валериев Бабушкина из 5 Валериев Бабушкинов
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆18❤4😁1💩1🍌1
Кто я?
Налетело кучу людей на канал за последнее время, поэтому обновляю информацию о себе
Дарова!
Я Дима Савелко, мне 21 год. Занимаюсь менторством, то есть помогаю ребятам найти первую работу в DS/ML или апнуться до мидла/сеньора. И вот несколько фактов обо мне:
- Работал в:
- Есть ютуб, снимаю ролики про DS, рассказываю про вопросы на собесах и про то, как вкатываться
- Активно введу свой бизнес нейро-сети.рф
- Участник более 10 хакатонов и победитель 3 хаков
- Сейчас учусь в РТУ МИРЭА на 4 курсе
Вот подборка моих самых полезных постов
- Как правильно торговаться
- Типичные ошибки на собеседовании, которые ты можешь допустить
- Улучшаем резюме в х100 с помощью нескольких простых правил
- Алгоритм прохождения собеседования, который даст тебе 99.999...% оффер
- Что такое HR-скринниг, и как наиболее эффективно его проходить?
- RoadMap по архитектуре трансформеров и LLM
- Мегаполезные ссылки на курсы, ресурсы и статьи по подготовке на собесах: ML, DL, NLP, CV, RecSys, RL
- Полное и тотальное объяснение с примерами Self-Attention и MultiHead Attention
- Простое и понятное объяснение стадий обучения LLM
- Объяснение BERT`а на пальцах ваших ног
- Как готовится к секции ML System Design на собесах
- RoadMap по прохождению ML System Design
- Полное и подробное описание MLSD retrieve-модели из RAG-системы
- Полное и подробное описание MLSD для обучения LLM
- Мой персональный сборник вопросов
- теле-2
- Транснефть
- Тинькофф
- ДомКлик ч1
- ДомКлик ч2
- Huawei
- Подготовка по алгосам
- Типичный день датасаентиста
- Как не обкакаться при старте ML-проекта ч1
- Как не обкакаться при старте ML-проекта ч2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🍌8❤6🔥5🥰3🤯2❤🔥1💩1
Дрочка и Точка
Про Точку
Я получил оффер в Точку на позицию NLP Researcher&Developer DS - короче NLP DS в R&D отдел.
Здесь я буду решать NLP таски, разрабатывать и обучать LLMки, RAGи и другие многие интересности
Сейчас я в точке не вижу минусов, только плюсы:
- топ тима
- топ задачи
- топ процессы
- топ экспертиза
- классное погружение
- отличный офис
А теперь про дрочку
Напомню, что в Сбере я работал NLP Engineer'ом, учил LLMку и делал Reward-модель для отсеивания плохих генераций.
В Сбере я понял, что большие корпорации - это не про меня:
- куча бюрократии
- много времени занимают самые элементарные процессы
- лично мне офис вообще не зашел
- ограничение банком использования моделей
- лично у нас в команде не было ревью и не было структурированного
планирования задач, и это я слышал от других команд тоже
Но не может быть только минусов, поэтому в Сбере есть и положительные моменты:
- огромные ресурсы, я хоть могу гпт-4 запускать (если разрешит система безопасности)
- там интересные и многогранные люди, у которых есть чему поучиться
- знания, которые я получил, довольно таки топовые, спасибо коллегам, которые меня натаскивали
- замедленность процессов - это и плюс, и минус, так как ты очень долго вывозишь что-то в прод, но при этом есть куча свободного времени для своих дел, например для менторства
Вывод:
Нет плохих и хороших компаний.
Вы уже принимаете для себя, что для вас приемлемо, что нет. После Сбера я определил для себя, что мне нужно, а что не нужно. Если вы хотите тихой и спокойной разработки порой с тупорылыми процессами, то вам корпорат. Если же хотите динамики и более драйвой разработки, то в компанию поменьше.
Так же не стоит забывать, что процессы ещё очень зависят от команды, в которой вы работаете. В Сбере может попасться такая команда, которая будет обходить все минусы, и приумножать только плюсы, поэтому стоит смотреть не только на компанию, а более глубоко: команда, люди, эскпертиза и тд...
Сберу я ставлю 3 валерия бабушкиных из 5 валериев бабушкиных по личным ощущениям
Оценка:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🍌10❤5🥰3
Ebout Data Science | Дима Савелко pinned «Кто я? ✋ Налетело кучу людей на канал за последнее время, поэтому обновляю информацию о себе 🫶 Дарова! Я Дима Савелко, мне 21 год. Занимаюсь менторством, то есть помогаю ребятам найти первую работу в DS/ML или апнуться до мидла/сеньора. И вот несколько…»
Уничтожение трансофрмеров и LLM (RoadMap)
Трансформеры сейчас суются буквально везде и повсюду, поэтому их очень часто спрашивают на собесах и на них построены SOTA решения для многих областей особенно в LLM, поэтому не знать их - это не база
Это RoadMap, который вам поможет разобраться с этой трансформерами и с LLMками
Начинаем мы с изучения архитектуры трансформеров, а закончим LLMками
Полезные дополнительные материалы
Теперь вы сами стали трансформером и можете объяснить, что такое Self-Attention своей маме, папе, бабушке, дедушке и даже собаке
Если вы хотите:
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌10🔥7🫡4👎3❤2😴2👌1
Типичный день Дата Сатаниста
Меня часто на консультациях по менторству спрашивают: «Димас, расскажи про свой типичный рабочий день, чем вообще занимается Data Scientist?»
Ну вот я и выдаю такую базу
Так, ладно, убираем всю ересь
В целом день Data Scientist`a состоит из тех же элементов, что и у любого другого разработчика: пишем код, созвоны, таски. Только мы иногда делаем жёсткий ресёрч статей для нахождения наиболее релевантного решения для нашей задачи
Плюс DS`а заключается в том, что тут постоянно происходит развитие, прочтение статей, работа с чем-то новым, и как следствие мало рутины и тебе становиться действительно интересно выполнять такую работу
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌13🔥7👍4🐳2🏆2❤1
Как торговаться на собесах
Если вы получили оффер и вам уже сказали какую ЗП вы будете получать, то не торопитесь его принимать. Вы можете спокойно за несколько секунд зарабатотать 30% к своей ЗП, а то и более.
Зачем торговаться?
Давайте включим простую математику, если вам предложили ЗП в 300к, а вы сторговали ЗП на 360к, 360к - 300к = 60к в месяц вы сторговали, 60к*12 месяцев = 720к, вы за несколько минут заработали 720к в разрезе года, вы просто СЛОН
Именно так у меня было с СамокатTech
Почему можно торговаться?
Алгоритм торговли
Допустим вам дали оффер с ЗП, тогда вы пишите следующее (взял отсюда):
"Да, возращаюсь с ответом. Только вот другая компания Y сделал оффер X минут назад. У вас и у них хорошие команды и задачи. Но есть финансовый момент, что они предложили мне на Z$ больше. И выбор мой усложняется. <тут описываешь почему тебя компания зацепила>. Можете ли вы сделать что-нибудь по этому, чтобы облегчить мой выбор?"
И тогда с большой долей вероятности к вам могут прийти с повышенным оффером, и да это можно делать даже тогда, когда у вас нет второго оффера, но это ваш выбор...
Вывод:
Умение продать свою жопу за большие деньги - важный навык в жизни. Если вы не сделаете этого, то за вас обязательно это сделает кто-то другой
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌27❤🔥10🔥6👍3👎2
Я закончил школу в 20 лет
С 3 по 9 июня я был в Школе PE - это школа для тех, кто хочет начать создавать свой продукт, как-то его завернуть и правильно пушить в массы - именно такое определение я дал после прохождения школы. Сама школа проходила в Альметьевске, в кампусе АГНИ - вуза, который построила ТатНефть.
Что я там получил:
Итог
Не бойтесь принимать участие в подобного рода мероприятиях, знакомиться с разными людьми, расширять свой кругозор не только в вашей теме, но и смежных, не забывайте про софты, потому что нетворкинг - один из двигателей вашего развития
Лично для себя я понял, в каком направлении мне стоит улучшаться, качаться, и как дальше качать себя и своё дело
Школе PE я ставлю Пять Валериев Бабушкиных из Пяти Валериев Бабушкиных
Оценка:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌18❤9🔥7🎉4👍2😁2🦄2
Наша первая статья на Habr`е
Мы командой решили написать статью "Как построить MVP AI-сервис и сэкономить время"
В ней мы рассказали о том, как мы строили и проектировали MVP-сервис c дифузионной моделью внутри для одной компании. Целевой аудиторией данной статьи были продукты, бизнесмены и люди, которые не связанные с технологиями, а больше связаны с бизнесом
Для нашей ЦА мы хотели подсветить следующие темы:
И вот что я понял во время её написания:
- Ставьте и чётко формулируйте ЦА и цель статьи, делая вывод в конце чётко для вашей цели и для вашей ЦА. А то может так получится, что без изначального определения цели статьи, читатель может ожидать одно, а получить совершенно другое. И это ваша личная ответственность позаботиться о том, чтобы читатель именно то, что вы заложили изначально
- Дать на проверку статью редакторам или людям, которые разбираются в публицистике. А то после недельного написания может замылиться глаз, и есть высокий шанс не заметить ошибки в статье.
Итог:
Предлагаю вам почитать статью, буду благодарен, если оцените её знаком вверх, и мне важно от вас услышать фидбек, рекомендации по написанию других статей. А то я сейчас буду писать другую статью, и я хочу её сделать намного лучше данной, поэтому мне очень важно услышать именно ваше мнение
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤4🔥3🍌2🍾2