Boosters.pro
2.66K subscribers
64 photos
13 files
80 links
Платформа с хакатонами по Data Science & комьюнити middle+ IT-специалистов. Тут анонсы контестов, профильные мероприятия и вакансии от топ-100 компаний России.

Чат: https://t.iss.one/+hgs_8e6NcE4yYjc6
Сайт: https://boosters.pro/
Download Telegram
@smirnovevgeny выложил статью на форуме по мотивам прошлогоднего конкурса от ВТБ, там описано решение Евгения и собраны публичные решения чемпионата.

https://boosters.pro/forum/article/620e82640aae516a4bea528a
Ставьте лайки
🔥7
Финальный лидерборд по первому этапу на сайте.
Во второй этап проходят 50 команд. Две команды в топ 50 пустые (33 - Konstantin Sukharev
44- Celsius), поэтому команды на лидерборде с 51 и 52 места тоже проходят (dkuzyurin и Overfitting is all you need)

Присылайте полное решение по лучшему сабмиту на [email protected] до 23.02 23:59. Полное решение это значит, что мы сможем повторить решение участника от начала до конца.

Второй этап начнется через пару часов
Второй этап открыт.
Рейтинг считается по привату из первого этапа, паблик датасет из первого этапа завтра выложим вместе с таргетами, можно будет использовать его для дообучения.
Обратите внимание на новые фичи в кабинете загрузки, теперь есть информация по очереди на докер сервере: кол-во решений ожидающих запуска и приблизительное время ожидания.
Также теперь можно смотреть логи по упавшим сабмитам в кабинете загрузки.

Всем участникам второго этапа желаем удачи!)
new_train.csv
10.1 MB
Размеченный паблик тест первого этапа. Также доступен на сайте в разделе Данные
🔥3👍1
NLP Team Lead в Альфа-банк

👨‍💻 О вакансии

@smirnovevgeny (Chief Data Scientist & Head of ML Laboratory и многократный призер контестов на Boosters) ищет кандидата с опытом (своими руками) разработки и внедрения моделей. Направление, которое предстоит лидировать, активно развивается, на данный момент в направлении 3 DS + открыт поиск на 2 DS позиций. К концу года возможен рост направления до 10 DS.

📍 Локация: Полная удаленка, можно посещать офис в Москва, м. Комсомольская.
🔌 Вилка: 400-600k (на руки).

🥁 Предстоит развивать NLP-направление, в которое входят:

- Задачи чат-бота (интенты, NER, болталка);
- Структуризация внутренних и внешних (соц. сети) отзывов;
- Маршрутизация внутренних обращений сотрудников (HelpDesk);
- Структуризация кассовых чеков ОФД(классификация, NER, нормализация);
- Развитие NLU модуля в IVR;
- Другие nlp-задачи.

🏅 Что мы ждем

- Глубокое понимание области NLP;
- Опыт вывода в продакшн нейронных сетей;
- Технологический стек: python + :pytorch:/:tensorflow:/:keras:, LightGBM/XGBoost/CatBoost, sklearn, pandas, numpy + sql + git;
- Понимание основных принципов и алгоритмов классического ML;
- Опыт перевода бизнес-задач в термины ml;
- Знание SOTA архитектур;
- Опыт управления командой (рассмотрим резюме сильных senior c желанием развиваться как Team Lead).

📈 Будет плюсом

- Опыт работы с pyspark и airflow
- Топовые места в соревнованиях по машинному обучению;
- Опыт работы в крупных ит-компаниях.

🚀 Помимо ежемесячной оплаты труда вас ждет

- Отсутствие бесполезных встреч - одна встреча всей команды в неделю для планированию задач информирования и обсуждения текущих вопросов, остальная коммуникация преимущественно в slack
- Оплата участия в зарубежных конференциях + оплата обучающих курсов
- Работа в сильной команде (выпускников Физтех, ШАД, МГУ, ВШЭ);
- Постоянное развитие: регулярный внутренний и внешний обмен знаний, митапы, тренинги, конференции;
- ДМС + стоматология, страхование жизни и выезжающих за рубеж;
- Льготная процентная ставка по ипотеке.

💼 Контакты
Присылайте резюме в личку к Евгению (@smirnovevgeny ) с пометкой Boosters
🔥4👍2
Хоть пост в социальных сетях вряд ли может на что-то повлиять, мы все равно хотим написать - Boosters против войны.
Берегите себя и близких.
👍3930
Завтра 07.04 в 20-00 (мск) мы начнем пересчитывать решения на новых данных, у вас есть чуть больше чем 24 часа чтобы выбрать три решения, которые будут учтены в финальном лидерборде.

Финальный лидерборд, по нашим рассчетам, будет доступен 09.04, возможно раньше.
👍4
Финальный лидерборд HeadHunter Employer Review Competition уже на сайте
🔥7👏2😢2
🏆 Semrush Cup 1.0
Semrush приглашает вас принять участие в соревновании по машинному обучению. Участникам предстоит решить задачу по определению источника трафика.

💻 Задача
В Интернете ежедневно совершается огромное количество переходов на сайты с различных устройств. Эти посещения можно представить как последовательность событий, описанных набором параметров. Участникам в рамках задачи будут даны события и списки предшествующих им событий. Потребуется определить, с какого домена был совершен переход.

🕓 Расписание
11.04.2022 – 12.06.2022

💵Призовой фонд
700 000 рублей

🔗Ссылка на чемпионат
https://boosters.pro/championship/semrush_cup/
👍15
Сегодня пройдет online митап по HeadHunter Employer Review Competition

На митапе лидеры конкурса в деталях расскажут о своих находках и решениях, которые привели их к победе.

Программа:
- решение 4-ого места: Кирилл Глинский
- solo-решение на 3-е место: Александр Анохин
- решение 2-ого места команды “ML Lab hype”: Евгений Смирнов, Андрей Сон, Эдуард Янаков

В качестве бонус-трека Стас Яркин (senior ds, hh.ru) расскажет о том, как мы в hh.ru используем суммаризацию для улучшения алгоритмов матчинга
Записаться можно по ссылке:

https://hh-dev.timepad.ru/event/2017693/
👍9
Команда ML lab hype описала свое решение с которым они заняли второе место в конкурсе HeadHunter Employer Review Competition.
Подписывайтесь на канал @smirnovevgeny там много интересного)
Forwarded from Нескучный Data Science (Евгений Смирнов)
Последний штрих про соревнование от Head Hunter
Выпустили статью на habr с подробным описанием решения для тех, кому лень смотреть часовой ролик ⬆️
Подробно рассказали про данные отзывов о работодателях и их предобработку, бейзлайны и особенности файнтюнинга BERTа и конечно же про неудачные эксперименты.

P.S. как же классно, что теперь статьи на хабр необязательно писать самому) Спасибо @edyanakov
👍6
Мы ждем код от топ-20 команд лидерборда

Присылайте полное решение по лучшему сабмиту на [email protected] до 19.06 23:59. Полное решение это значит, что мы сможем повторить решение участника от начала до конца.

Формат сообщения должен быть следующим
Название команды + место на приватном лидерборде
Размер футболки всех членов команды в формате M,L и т.п.
Адрес для получения мерча

С командами из топ-3 мы свяжемся в личку в телеграме в течение дня
Завершился Semrush Cup 1.0

1 место – Madgnome @trifonov864
2 место – AlexanderDudin @CyberTrain
3 место – Banan @Grossmend

Всего в соревновании зарегистрировалось более 300 команд. Спасибо всем за участие!
Статьи с описанием призовых решений скоро появятся на нашем форуме. Мы сообщим об этом дополнительно.

Благодарим орагнизатора соревнований – международную IT-компанию Semrush. Подробнее о самой компании и открытых вакансиях можно почитать здесь https://careers.semrush.com/en/
🔥13👍1
hh.ru приглашает принять участие в их втором ML-чемпионате, участникам предлагается решить задачу Sequential рекомендаций, а именно: по последовательности событий внутри пользовательских сессий предсказать вакансию, на которую пользователь откликнется в своей следующей сессии.

Надеюсь, что мы скрасим ваши новогодние каникулы. Всех с наступающим!

https://boosters.pro/championship/hh_recsys/
🔥30👍1
Ограничения на сабмит для второго этапа:

• vCPU: 8;
• MEM: 62 GB;
• GPU: Nvidia Tesla v100;
• gpuMEM: 32gb;
• время выполнения: 80 минут;
• размер архива: до 3GB.

В задаче используется снэпшот образа на основе https://github.com/Kaggle/docker-python
Финальный лидерборд по первому этапу на сайте. Во второй этап проходит 35 команд. Сабмиты во второй этап откроются 1 марта.
👍4
Сабмиты во второй этап открыты, всем удачи
Формат финального этапа:

Решение должно посылаться в .zip архиве. Запускаемый файл - script.py (убедитесь, что он находится в корне архива, некоторое ПО при архивации создает дополнительную папку).
В архиве могут находиться другие файлы, используемые вашим решением (например, модель). Предсказания следует сохранять в ./answers.pq.
Формат сэмпл сабмита с бейзлайноми доступен в разделе "Данные".

В задаче используется снэпшот образа на основе https://github.com/Kaggle/docker-python.

Контейнер запускается со следующими опциями:

docker run \
--cpus="8.0" \
-v {workspace_dir}/:/workspace/ \
-v {testing_data}:/workspace/data/:ro \
-w /workspace/ \
--memory 60g \
boostersgpu \
python script.py 1>{workspace_dir}/output1.txt 2>${workspace_dir}/output2.txt

Внутри контейнера доступа к сети нет, модули подгрузить не получится.

Расположение файлов внутри докер контейнера с запущенным примером сабмита:
/workspace# tree --filelimit 26
.
.
├── data
│ └── test.pq
├── script.py
├── user_file1
├── user_file2
└── user_folder1
└── answers.pq // - сабмит записывать сюда

Свои файлы можно положить рядом с script.py.


Ограничения на сабмит для второго этапа:

• vCPU: 8;
• MEM: 96 GB;
• GPU: Nvidia Tesla v100;
• gpuMEM: 32gb;
• время выполнения: 80 минут;
• размер архива: до 3GB.
train_second_stage.pq и vacs_second_stage.pq добавлены на сервер.

Расположение файлов внутри докер контейнера с запущенным примером сабмита:
/workspace# tree --filelimit 26
.
├── data
│ └── test.pq
└── train_second_stage.pq
└── vacs_second_stage.pq
├── script.py
├── user_file1
├── user_file2
└── user_folder1
└── answers.pq // - сабмит записывать сюда
Сейчас в первой задаче на сайте опять отображатеся публичный рейтинг, а не приватный. Приватный появится после окончания чемпионата.
Список команд второго этапа

madgnome
Last second
antklen
Anatoly
Мы команда просто класс
stason
ignorance
Андрей Кузнецов
дАлматинцы
Новичок
Илья Кулешов
Yaroslav Khnykov
слон - elephant
Team 42NA
ajnre
Artem Voronov
Ambitious
hh_24_try
Stas Chistyakov
simpleCode
learning2rank
NAALOH4
CrackerJack
ML train
sa-matveev
kvzharikov
CONS
barboskina
AILAB
чиби
RandomRec
Nikita Baramiia
RSexp
John Galt
Evgenii
2