Boosters.pro
2.73K subscribers
66 photos
13 files
82 links
Платформа с хакатонами по Data Science & комьюнити middle+ IT-специалистов. Тут анонсы контестов, профильные мероприятия и вакансии от топ-100 компаний России.

Чат: https://t.iss.one/+hgs_8e6NcE4yYjc6
Сайт: https://boosters.pro/
Download Telegram
Channel photo updated
Digital Reputation Challenge.
Чемпионат по анализу данных от цифрового агентства Digital Reputation. Определите свойства характера человека по его цифровому следу.
Призовой фонд: 200 000 рублей
Расписание: 10 сентября - 10 октября
Чемпионат: https://boosters.pro/championship/digital_reputation_challenge/overview
Node.js разработчик в OneTwoTrip
Попробуйте себя в роли разработчика OneTwoTrip. С помощью node.js реализуйте сервис который при выборе ж/д билета будет уведомлять о событиях (концерты, фестивали, выставки и т.д.) в городе прибытия и предлагать билеты через посредника. На решение задачи участникам даётся 72 часа.
Контест: https://boosters.pro/championship/ottDevelop/overview
Все вопросы можно задать в чате телеграм: https://t.iss.one/boosters_node_js
Приват чемпионата Digital Reputation Challenge на сайте
ПАО "НК "Роснефть" приглашает вас принять участие в чемпионате по анализу данных. Вам предстоит разработать алгоритм для выделения сейсмических горизонтов в кубе амплитуд, решить задачу сегментации данных с помощью распознавания изображений.
Красивый лендинг: https://rn.digital/seismic_challenge
Страница чемпионата: https://boosters.pro/championship/seismic_challenge/overview
Росбанк ищет ML Engineer в DataLab.

Ожидания от кандидата:

- Python или R
- Большой опыт разработки ML моделей
- SQL
- Hadoop, Spark
- Опыт использования Docker
- Знание Теории вероятности и статистики

Будет плюсом:

- Участие в чемпионатах по анализу данных

Что предстоит делать:

- Читать статьи и экспериментировать;
- Подбирать оптимальный алгоритм для задачи;
- Строить пайплайны построения признаков и обучения моделей;
- Разрабатывать архитектуру решений;
- Выводить созданные решения в Production.


Над какими задачами работает сейчас Data Lab:

- Рекомендательные системы (прежде всего в digital каналах)
- NLP и чат боты
- Оптимальные гео локации для офисов и банкоматов
- Расширение кредитования за счет анализа внутренних и внешних данных (предсказание дохода, места работы)
- Упрощение процесса получения и одобрения кредита для клиента («5 полей» в заявке)
- Cash management
- Персонализация (best time to call, персонализация коммуникаций)
- Предиктивные модели в HR

Что предлагает Data Lab:

- Зарплатная вилка: 180к - 270к
- Решать реальные бизнес задачи, видеть применение результатов своей работы
- Самостоятельно выдвигать гипотезы и подбирать алгоритм решения.

Откликайтесь руководителю Data Lab Дмитрию Смирнову:
@smirdm
[email protected]
Обновленный бейзлайн и презентация
Тестовый файл обновлён. Из него были удалены xline с 1273 по 1384 включительно.
Обновлён бейзлайн и сабмит бейзлайна.
Файл со скором 0.5567193 это сабмит модели организаторов.
Все новые файлы здесь:
https://boosters.pro/championship/seismic_challenge/data
01 ноября в 18:00 пройдет вебинар от специалистов ПАО «НК «Роснефть»
Трансляция будет проходить ВК (для просмотра не нужно регаться в ВК)
Вопросы пишите в чат заранее с хештегом #вопрос, можно будет также писать вопросы во время трансляции.
Ссылка будет доступна за час до начала.
Добавили тестовый датасет в формате .pkl
•pickled_images.dms - по ссылке https://boosters.pro/championship/seismic_challenge/data
Апдейт по расписанию и условиям прохода во второй тур:
- Всем будут доступны сабмиты на докерах с 20.11 по 23.11 включительно. Результат будет считаться на новом тестовом датасете;
- Топ-30 команд по результатам этих четырех дней (по паблик лидерборду) продолжат участие в контесте, то есть пройдут во второй тур, который пройдет с 24.11 по 15.12 включительно;
- Важно отправить сабмиты с 20.11 по 23.11 23:59 (МСК.), так как с 24.11 сабмитить смогут только топ-30 участников;
- Пример сабмита для второго тура будет досутпен 18.11.
- Технические ограничения на второй тур опубликуем 12.11
Ограничения на докеры:
CPU - 8
RAM - 32GB
Размер решения - zip архив до 1 GB
Лимит по времени - 30 минут
GPU - NVIDIA T4 Tensor Core
Язык - Python 3

На инференс будут подаваться и .png и .pkl файлы, конкретный формат будет указываться в скрипте.
Сэмпл сабмит выложим 16-17 числа.
Второй тур доступный для всех:
• Всем будут доступны сабмиты на докерах с 20.11 по 23.11 включительно. Результат будет считаться на новом тестовом датасете;
• Топ-30 команд по результатам этих четырех дней (по паблик лидерборду) продолжат участие в контесте, то есть пройдут во второй тур, который пройдет с 24.11 по 15.12 включительно;
• Важно отправить сабмиты с 20.11 по 23.11 23:59 (МСК.), так как с 24.11 по 15.12 сабмитить смогут только топ-30 участников.

Второй тур для топ-30:
• Топ-30 участникам будет доступен новый тренировочный датасет, тестовый датасет будет также обновлен;
• Новый датасет будет доступен 24.11.

Формат сабмита:
Решение должно посылаться в .zip архиве. Запускаемый файл script.py (убедитесь, что он находится в корне архива, некоторое ПО при архивации создает дополнительную папку).
В архиве могут находится другие файлы используемые вашим решением (например модель). Предсказания следует сохранять в ./answers.csv.

Решение запускается в докере (ссылка: https://github.com/Kaggle/docker-python/blob/master/gpu.Dockerfile) c опциями:

nvidia-docker run \
-v {workspace_dir}:/workspace/ \
-v {testing_data}:/workspace/data/:ro \
-w /workspace/ \
--memory 30g \
kagglegpu \
python script.py 1>{workspace_dir}/output1.txt 2>{workspace_dir}/output2.txt

Расположение файлов внутри докер контейнера:

:/workspace# tree
.
├── pycache
└── data
├── sample_submission.csv
└── test
└── images
├── inline_994.png
├── inline_997.png
├── inline_999.png
├── . . .
├── xline_1007.png
├── xline_1008.png
├── xline_1012.png
├── model
├── script.py
└── utils.py

Текущая директория workspace, в ./data/sample_submission.csv записаны все имена картинок. Изображения лежат в ./data.test.images .


Ограничения:
• vCPU: 8
• MEM: 30gb
• GPU: NVIDIA T4 Tensor Core
• gpuMEM: 16gb
• время выполнения: 30 минут
• размер архива: до 1гб

https://boosters.pro/championship/seismic_challenge/data
Сабмитить можно будет с 00:00 20.11
index_pkl.txt
77.5 KB
Словарь индексов начальных срезов.
Ключ - ImageId, значение - индекс среза, с которого начинается срез ImageId