Boosters.pro
2.66K subscribers
64 photos
13 files
80 links
Платформа с хакатонами по Data Science & комьюнити middle+ IT-специалистов. Тут анонсы контестов, профильные мероприятия и вакансии от топ-100 компаний России.

Чат: https://t.iss.one/+hgs_8e6NcE4yYjc6
Сайт: https://boosters.pro/
Download Telegram
NLP Team Lead в Альфа-банк

👨‍💻 О вакансии

@smirnovevgeny (Chief Data Scientist & Head of ML Laboratory и многократный призер контестов на Boosters) ищет кандидата с опытом (своими руками) разработки и внедрения моделей. Направление, которое предстоит лидировать, активно развивается, на данный момент в направлении 3 DS + открыт поиск на 2 DS позиций. К концу года возможен рост направления до 10 DS.

📍 Локация: Полная удаленка, можно посещать офис в Москва, м. Комсомольская.
🔌 Вилка: 400-600k (на руки).

🥁 Предстоит развивать NLP-направление, в которое входят:

- Задачи чат-бота (интенты, NER, болталка);
- Структуризация внутренних и внешних (соц. сети) отзывов;
- Маршрутизация внутренних обращений сотрудников (HelpDesk);
- Структуризация кассовых чеков ОФД(классификация, NER, нормализация);
- Развитие NLU модуля в IVR;
- Другие nlp-задачи.

🏅 Что мы ждем

- Глубокое понимание области NLP;
- Опыт вывода в продакшн нейронных сетей;
- Технологический стек: python + :pytorch:/:tensorflow:/:keras:, LightGBM/XGBoost/CatBoost, sklearn, pandas, numpy + sql + git;
- Понимание основных принципов и алгоритмов классического ML;
- Опыт перевода бизнес-задач в термины ml;
- Знание SOTA архитектур;
- Опыт управления командой (рассмотрим резюме сильных senior c желанием развиваться как Team Lead).

📈 Будет плюсом

- Опыт работы с pyspark и airflow
- Топовые места в соревнованиях по машинному обучению;
- Опыт работы в крупных ит-компаниях.

🚀 Помимо ежемесячной оплаты труда вас ждет

- Отсутствие бесполезных встреч - одна встреча всей команды в неделю для планированию задач информирования и обсуждения текущих вопросов, остальная коммуникация преимущественно в slack
- Оплата участия в зарубежных конференциях + оплата обучающих курсов
- Работа в сильной команде (выпускников Физтех, ШАД, МГУ, ВШЭ);
- Постоянное развитие: регулярный внутренний и внешний обмен знаний, митапы, тренинги, конференции;
- ДМС + стоматология, страхование жизни и выезжающих за рубеж;
- Льготная процентная ставка по ипотеке.

💼 Контакты
Присылайте резюме в личку к Евгению (@smirnovevgeny ) с пометкой Boosters
🔥4👍2
Хоть пост в социальных сетях вряд ли может на что-то повлиять, мы все равно хотим написать - Boosters против войны.
Берегите себя и близких.
👍3930
Завтра 07.04 в 20-00 (мск) мы начнем пересчитывать решения на новых данных, у вас есть чуть больше чем 24 часа чтобы выбрать три решения, которые будут учтены в финальном лидерборде.

Финальный лидерборд, по нашим рассчетам, будет доступен 09.04, возможно раньше.
👍4
Финальный лидерборд HeadHunter Employer Review Competition уже на сайте
🔥7👏2😢2
🏆 Semrush Cup 1.0
Semrush приглашает вас принять участие в соревновании по машинному обучению. Участникам предстоит решить задачу по определению источника трафика.

💻 Задача
В Интернете ежедневно совершается огромное количество переходов на сайты с различных устройств. Эти посещения можно представить как последовательность событий, описанных набором параметров. Участникам в рамках задачи будут даны события и списки предшествующих им событий. Потребуется определить, с какого домена был совершен переход.

🕓 Расписание
11.04.2022 – 12.06.2022

💵Призовой фонд
700 000 рублей

🔗Ссылка на чемпионат
https://boosters.pro/championship/semrush_cup/
👍15
Сегодня пройдет online митап по HeadHunter Employer Review Competition

На митапе лидеры конкурса в деталях расскажут о своих находках и решениях, которые привели их к победе.

Программа:
- решение 4-ого места: Кирилл Глинский
- solo-решение на 3-е место: Александр Анохин
- решение 2-ого места команды “ML Lab hype”: Евгений Смирнов, Андрей Сон, Эдуард Янаков

В качестве бонус-трека Стас Яркин (senior ds, hh.ru) расскажет о том, как мы в hh.ru используем суммаризацию для улучшения алгоритмов матчинга
Записаться можно по ссылке:

https://hh-dev.timepad.ru/event/2017693/
👍9
Команда ML lab hype описала свое решение с которым они заняли второе место в конкурсе HeadHunter Employer Review Competition.
Подписывайтесь на канал @smirnovevgeny там много интересного)
Forwarded from Нескучный Data Science (Евгений Смирнов)
Последний штрих про соревнование от Head Hunter
Выпустили статью на habr с подробным описанием решения для тех, кому лень смотреть часовой ролик ⬆️
Подробно рассказали про данные отзывов о работодателях и их предобработку, бейзлайны и особенности файнтюнинга BERTа и конечно же про неудачные эксперименты.

P.S. как же классно, что теперь статьи на хабр необязательно писать самому) Спасибо @edyanakov
👍6
Мы ждем код от топ-20 команд лидерборда

Присылайте полное решение по лучшему сабмиту на [email protected] до 19.06 23:59. Полное решение это значит, что мы сможем повторить решение участника от начала до конца.

Формат сообщения должен быть следующим
Название команды + место на приватном лидерборде
Размер футболки всех членов команды в формате M,L и т.п.
Адрес для получения мерча

С командами из топ-3 мы свяжемся в личку в телеграме в течение дня
Завершился Semrush Cup 1.0

1 место – Madgnome @trifonov864
2 место – AlexanderDudin @CyberTrain
3 место – Banan @Grossmend

Всего в соревновании зарегистрировалось более 300 команд. Спасибо всем за участие!
Статьи с описанием призовых решений скоро появятся на нашем форуме. Мы сообщим об этом дополнительно.

Благодарим орагнизатора соревнований – международную IT-компанию Semrush. Подробнее о самой компании и открытых вакансиях можно почитать здесь https://careers.semrush.com/en/
🔥13👍1
hh.ru приглашает принять участие в их втором ML-чемпионате, участникам предлагается решить задачу Sequential рекомендаций, а именно: по последовательности событий внутри пользовательских сессий предсказать вакансию, на которую пользователь откликнется в своей следующей сессии.

Надеюсь, что мы скрасим ваши новогодние каникулы. Всех с наступающим!

https://boosters.pro/championship/hh_recsys/
🔥30👍1
Ограничения на сабмит для второго этапа:

• vCPU: 8;
• MEM: 62 GB;
• GPU: Nvidia Tesla v100;
• gpuMEM: 32gb;
• время выполнения: 80 минут;
• размер архива: до 3GB.

В задаче используется снэпшот образа на основе https://github.com/Kaggle/docker-python
Финальный лидерборд по первому этапу на сайте. Во второй этап проходит 35 команд. Сабмиты во второй этап откроются 1 марта.
👍4
Сабмиты во второй этап открыты, всем удачи
Формат финального этапа:

Решение должно посылаться в .zip архиве. Запускаемый файл - script.py (убедитесь, что он находится в корне архива, некоторое ПО при архивации создает дополнительную папку).
В архиве могут находиться другие файлы, используемые вашим решением (например, модель). Предсказания следует сохранять в ./answers.pq.
Формат сэмпл сабмита с бейзлайноми доступен в разделе "Данные".

В задаче используется снэпшот образа на основе https://github.com/Kaggle/docker-python.

Контейнер запускается со следующими опциями:

docker run \
--cpus="8.0" \
-v {workspace_dir}/:/workspace/ \
-v {testing_data}:/workspace/data/:ro \
-w /workspace/ \
--memory 60g \
boostersgpu \
python script.py 1>{workspace_dir}/output1.txt 2>${workspace_dir}/output2.txt

Внутри контейнера доступа к сети нет, модули подгрузить не получится.

Расположение файлов внутри докер контейнера с запущенным примером сабмита:
/workspace# tree --filelimit 26
.
.
├── data
│ └── test.pq
├── script.py
├── user_file1
├── user_file2
└── user_folder1
└── answers.pq // - сабмит записывать сюда

Свои файлы можно положить рядом с script.py.


Ограничения на сабмит для второго этапа:

• vCPU: 8;
• MEM: 96 GB;
• GPU: Nvidia Tesla v100;
• gpuMEM: 32gb;
• время выполнения: 80 минут;
• размер архива: до 3GB.
train_second_stage.pq и vacs_second_stage.pq добавлены на сервер.

Расположение файлов внутри докер контейнера с запущенным примером сабмита:
/workspace# tree --filelimit 26
.
├── data
│ └── test.pq
└── train_second_stage.pq
└── vacs_second_stage.pq
├── script.py
├── user_file1
├── user_file2
└── user_folder1
└── answers.pq // - сабмит записывать сюда
Сейчас в первой задаче на сайте опять отображатеся публичный рейтинг, а не приватный. Приватный появится после окончания чемпионата.
Список команд второго этапа

madgnome
Last second
antklen
Anatoly
Мы команда просто класс
stason
ignorance
Андрей Кузнецов
дАлматинцы
Новичок
Илья Кулешов
Yaroslav Khnykov
слон - elephant
Team 42NA
ajnre
Artem Voronov
Ambitious
hh_24_try
Stas Chistyakov
simpleCode
learning2rank
NAALOH4
CrackerJack
ML train
sa-matveev
kvzharikov
CONS
barboskina
AILAB
чиби
RandomRec
Nikita Baramiia
RSexp
John Galt
Evgenii
2
Мы временно приостановили прием новых сабмитов. По плану у нас:

1. Добавить еще одну машину.
2. Добавить implicit в докер.
3. После возобновления второго этапа уменьшить количество сабмитов в день до 2, если всем чатом увидим, что можно поднять до 3, то поднимем.

Все дни, пока мы будем делать 1 и 2 пункты (2-3 дня), новые сабмиты приниматься не будут. Мы добавим эти дни к финальному дедлайну. Все сабмиты, что сейчас в очереди, досчитаются.
🔥3👍2😱21🐳1
Сабмиты снова открыты.

1. Чемпионат продлен до 24 марта, 18:00 мск.
2. Сейчас два GPU и implicit добавлен в докер.
3. Сейчас у всех будет по 2 сабмита в день. Если увидим, что очередей совсем нет, то добавим еще один завтра вечером.

Всем удачи!
👍2
Продолжаем чемпионат на https://boosters.world/

- Чемпионат продлен до 28 марта 15:00 мск
- На сайте нет картинок и нельзя скачать данные для тренировки, завтра продублируем данные сюда.
hh_recsys_submission1.zip
1.2 KB
Сэмпл сабмит.
Также все данные для второго этапа можно скачать с основного домена.
https://boosters.pro/championship/hh_recsys/data/the_final_stage