Data Scientist (ML engineer) | Middle-Senior — от 230 000 до 320 000 ₽, удалёнка
Веб-аналитик — от 2500 до 3500 $, удалёнка
Data Engineer (CV) — до 4 000 $, офис (Москва)
Data Scientist (Антифрод) — от 269 000 до 524 000 ₽, удалёнка
Middle/Senior Data Scientist (команда ИИ и аналитика) — от 200 000 до 350 000 ₽, удалёнка
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1😁1
🆚 DropBlock vs Dropout: что лучше для регуляризации CNN
Представьте пиксель на изображении — например, на цифре «9». Даже если мы «отключим» этот пиксель (фичу) с помощью Dropout, его информация всё равно дойдёт до следующего слоя через соседние пиксели — ведь свёртки учитывают локальный контекст.
🚩 В итоге Dropout практически бесполезен в сверточных слоях. А вот DropBlock — гораздо лучше.
Вместо того чтобы «выключать» отдельные признаки, DropBlock «вырезает» целые блоки признаков, нарушая локальные корреляции. Это заставляет сеть учиться более устойчивым и обобщающим признакам, не полагаясь на отдельные патчи.
➡️ Как работает DropBlock:
— block_size — размер блока, который будем вырезать
— drop_rate — вероятность дропа (центрального пикселя, вокруг которого строится блок)
Сначала генерируется бинарная маска (как в Dropout), но затем вокруг каждого выключенного пикселя формируется целый квадратный блок, который удаляется из признаков.
🚩 В PyTorch уже есть готовая реализация через библиотеку dropblock. Подключается просто и эффективно усиливает вашу модель.
Библиотека дата-сайентиста #буст
Представьте пиксель на изображении — например, на цифре «9». Даже если мы «отключим» этот пиксель (фичу) с помощью Dropout, его информация всё равно дойдёт до следующего слоя через соседние пиксели — ведь свёртки учитывают локальный контекст.
Вместо того чтобы «выключать» отдельные признаки, DropBlock «вырезает» целые блоки признаков, нарушая локальные корреляции. Это заставляет сеть учиться более устойчивым и обобщающим признакам, не полагаясь на отдельные патчи.
— block_size — размер блока, который будем вырезать
— drop_rate — вероятность дропа (центрального пикселя, вокруг которого строится блок)
Сначала генерируется бинарная маска (как в Dropout), но затем вокруг каждого выключенного пикселя формируется целый квадратный блок, который удаляется из признаков.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4😁2🔥1
Если вы:
— Решали задачи на Kaggle
— Анализировали данные для знакомых или фриланс-заказчиков
— Собирали свой ML-пайплайн «на коленке»
— Делали дашборды в Streamlit
— Писали парсеры, телеграм-ботов, скорили таблички —
вы уже работали дата-сайентистом, просто вне офиса.
📌 Такой опыт можно и нужно указывать в резюме.
Вот как оформить:
👉 Подробнее в новой статье:
https://proglib.io/sh/TSpGKgMUCE
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1
В репозитории на GitHub показано, как с помощью Python получать, чистить, анализировать и визуализировать данные некоммерческих организаций.
Даже если вы не связаны с НКО, методы и советы будут полезны для любых проектов с данными.
Что вы найдете в проекте:
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4
🎓 Что посмотреть: курс по deep learning на mesh и point cloud данных
Курс о том, как применять deep learning к данным на криволинейных поверхностях: мешам и point clouds. Подходит тем, кто хочет использовать data-driven алгоритмы за пределами изображений и текста.
Что в курсе:
🔹 Какие задачи решаются на мешах и облаках точек
🔹 Как обрабатывать такие данные (масштабируемость, обобщение и пр.)
🔹 Обзор SOTA-методов и практические советы для исследований
📽 Видео, слайды и туториал: https://clc.to/On1Axg
Библиотека дата-сайентиста #буст
Курс о том, как применять deep learning к данным на криволинейных поверхностях: мешам и point clouds. Подходит тем, кто хочет использовать data-driven алгоритмы за пределами изображений и текста.
Что в курсе:
🔹 Какие задачи решаются на мешах и облаках точек
🔹 Как обрабатывать такие данные (масштабируемость, обобщение и пр.)
🔹 Обзор SOTA-методов и практические советы для исследований
📽 Видео, слайды и туториал: https://clc.to/On1Axg
Библиотека дата-сайентиста #буст
❤4👍2🔥2
🤔 JSON, YAML, XML — что лучше и когда
Вопрос подписчика:
Подписчик делится опытом:
В основном работал с YAML (иногда JSON) — он кажется мне самым читаемым.
XML в моей практике почти не встречался. А у вас? Есть ли у XML реальные преимущества перед YAML или JSON?
Будет интересно узнать ваше мнение:
• Какие форматы чаще используете — YAML, JSON, TOML, CSV?
• XML ещё актуален? В каких случаях он действительно полезен?
• Бывали ли проекты, где удобочитаемость важнее производительности?
💬 Пишите в комментариях, какой стек предпочитаете и почему.
Библиотека дата-сайентиста #междусобойчик
Вопрос подписчика:
«Какие форматы сериализации данных вы чаще всего используете на работе или в своих проектах?»
Подписчик делится опытом:
В основном работал с YAML (иногда JSON) — он кажется мне самым читаемым.
XML в моей практике почти не встречался. А у вас? Есть ли у XML реальные преимущества перед YAML или JSON?
Будет интересно узнать ваше мнение:
• Какие форматы чаще используете — YAML, JSON, TOML, CSV?
• XML ещё актуален? В каких случаях он действительно полезен?
• Бывали ли проекты, где удобочитаемость важнее производительности?
💬 Пишите в комментариях, какой стек предпочитаете и почему.
Библиотека дата-сайентиста #междусобойчик
❤3😁3👍1
🔥 Фреймворк дня: RecBole для рекомендательных систем
Сегодня разберём, как быстро и удобно:
😛 Протестировать десятки алгоритмов (от классического MF до SASRec и KGAT) на своём датасете без сотни скриптов
😛 Хранить все настройки в одном YAML, а не в длинных списках аргументов CLI
😛 Получить честное сравнение метрик и сразу экспортировать лучший чекпоинт в продакшен
Пример запуска:
RecBole сам разделит данные, создаст семплеры и загрузчики, обучит модель и сохранит результаты в
Если хотите полный контроль:
RecBole поддерживает продвинутые функции: dynamic negative sampling, knowledge graphs, mixed precision, W\&B логирование и кастомные модели.
➡️ Итог: RecBole закрывает 80% типичных задач ML-инженера в рекомендательных системах и позволяет быстро сделать рабочий прототип или бейзлайн.
Библиотека дата-сайентиста #буст
Сегодня разберём, как быстро и удобно:
Пример запуска:
pip install recbole>=1.2
python -m recbole.quick_start.run_recbole --model=BPR --dataset=ml-1m
RecBole сам разделит данные, создаст семплеры и загрузчики, обучит модель и сохранит результаты в
/saved/
.Если хотите полный контроль:
from recbole.config import Config # Импортируем класс конфигурации
from recbole.data import create_dataset, data_preparation # Функции для создания датасета и подготовки данных
from recbole.model.general_recommender import LightGCN # Импорт модели LightGCN (графовый рекомендатель)
from recbole.trainer import Trainer # Импорт тренера для обучения модели
# Создаём объект конфигурации, указываем модель и датасет (MovieLens 1M)
config = Config(model='LightGCN', dataset='ml-1m')
# Загружаем и обрабатываем датасет на основе конфигурации
dataset = create_dataset(config)
# Делим данные на тренировочные, валидационные и тестовые сеты
train_data, valid_data, test_data = data_preparation(config, dataset)
# Инициализируем модель и отправляем её на устройство (CPU или GPU)
model = LightGCN(config, dataset).to(config['device'])
# Создаём тренера с текущей конфигурацией и моделью
trainer = Trainer(config, model)
# Обучаем модель на тренировочных данных, валидируем на валидационных, сохраняем лучший чекпоинт
trainer.fit(train_data, valid_data, saved=True)
RecBole поддерживает продвинутые функции: dynamic negative sampling, knowledge graphs, mixed precision, W\&B логирование и кастомные модели.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3❤1
Если у вас нет строк в трудовой книжке, это ещё не повод убирать проекты из резюме.Рассказываем, как грамотно оформить неформальный опыт и показать его как карьерный плюс.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Если начальник попросит объяснить самую большую проблему в ИИ — просто пришлите ему этот мем.😆
Библиотека дата-сайентиста #развлекалово
Библиотека дата-сайентиста #развлекалово
😁15👍4💯1
Когда проект переходит от MVP к реальному масштабированию, встаёт классический вопрос из data-ада:
Как организовать разметку данных — собрать собственную команду или поручить всё внешним подрядчикам?
🏠 In-house команда разметки
Плюсы:
— Полный контроль над качеством и процессами.
— Можно адаптировать под особенности продукта и задачи.
— Гибкая коммуникация между разметчиками и ML-командой.
Минусы:
— Найм, обучение, менеджмент — отдельный мини-отдел.
— Медленный запуск.
— Отвлечение от основного фокуса команды.
— Требуются ресурсы и процессы, которых может не быть.
🌍 Аутсорс/вендоры
Плюсы:
— Быстрый старт.
— Нет нужды тратить время на найм и операционку.
— Масштабирование по требованию.
Минусы:
— Почти нет контроля над качеством.
— Слепая зона: сложно понять, что именно и как размечается.
— Часто дорого — особенно при специфичных или нестандартных данных.
— Есть риск получить датасет, который придётся потом переделывать вручную.
💬 Классический холивар: контроль и кастомизация против скорости и удобства. Что на практике оказалось менее болезненным?
👀 Интересны кейсы, где удалось построить гибридную модель или обойтись без выгорания всей команды.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3
🔥 Знакомьтесь, преподаватель нашего нового курса по ML — Мария Жарова.
В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️
А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом.
👉 Записывайтесь на курс
В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️
А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом.
👉 Записывайтесь на курс