Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.41K photos
120 videos
64 files
4.86K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🧠 DeepInverse: библиотека для решения обратных задач в компьютерном зрении с помощью глубокого обучения

DeepInverse — это open-source библиотека на базе PyTorch, созданная для решения обратных задач в области обработки изображений.

Основные цели проекта:
— ускорить исследования в области глубокого обучения для задач восстановления изображений,
— повысить воспроизводимость экспериментов благодаря модульной архитектуре,
— снизить порог входа для новых исследователей и инженеров.

DeepInverse объединяет разные задачи и алгоритмы в единую удобную экосистему — от классических inverse problems до современных нейросетевых подходов.

📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
📉 Зачем применять PCA перед K-means кластеризацией

Если хочется сделать кластеризацию точнее, быстрее и понятнее — связка PCA + K-means работает удивительно эффективно.

Что даёт PCA перед кластеризацией:
1️⃣ Упрощение данных — PCA собирает ключевую информацию из множества признаков в несколько главных компонент.
2️⃣ Снижение размерности — убирает лишние и шумовые признаки, оставляя только то, что реально объясняет вариативность данных.
3️⃣ Лучшая интерпретация — новые компоненты не коррелируют между собой, поэтому структура данных становится понятнее.
4️⃣ Оптимизация кластеров — K-means получает «очищенные» данные и формирует более чёткие и осмысленные кластеры.
5️⃣ Рост производительности — меньше измерений → быстрее обучение, особенно на больших датасетах.

Что вы получаете:
Более точные и чистые кластеры.
Быструю работу алгоритма.
Простую визуализацию данных в 2–3 компонентах.
Фокус на действительно важных признаках.

Связка PCA + K-means — отличный инструмент, чтобы преобразовать хаос признаков в чёткие структуры и ускорить анализ.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52
📘 Хочешь в Data Science, но есть пробелы в знаниях математики?

Мы сделали экспресс-курс «Математика для Data Science», который за 2 месяца даст тебе фундамент, без которого ни одна ML-модель не взлетит 🚀

Что тебя ждёт:
🔹 живые вебинары с экспертами (НИУ ВШЭ, SberAI, Wildberries&Russ);
🔹 практика в Python, квизы и проверка заданий экспертами;
🔹 матрицы, регрессии, вероятности и статистика: всё на примерах из реальных задач;
🔹 старт — 4 декабря.

🔥 Не упусти халяву: сейчас 40% до 30 ноября

👉 Записаться на курс
🙌 Google Colab теперь в VS Code: лучшее из двух миров

Google официально выпустил расширение Colab для VS Code, позволяя использовать облачные мощности Colab — включая GPU и TPU — прямо в любимом редакторе кода:
🈁 Для пользователей VS Code: привычный workflow + подключение к мощным Colab-рутинам, включая Pro-tier GPU и TPU.
🈁 Для пользователей Colab: IDE-функции VS Code (расширяемость, интеграция с Git) при сохранении облачных вычислений и удобного коллаборационного опыта.

Как начать работу:
1. Установите Colab расширение из VS Code Marketplace.
2. Откройте .ipynb ноутбук и подключитесь к Colab runtime через Google аккаунт.
3. Запускайте ячейки с мощностью облака — всё прямо в VS Code!

Google планирует интегрировать ещё больше возможностей Colab в VS Code, делая разработку AI/ML быстрее и удобнее.

🔗 Попробовать сейчас: https://clc.to/rr53rw

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥5👍21🎉1
🆕 Свежие новости для дата‑сайентистов

🙌 Апдейты
Google Colab теперь в VS Code: лучшее из двух миров Google официально выпустил расширение Colab для VS Code.

🚀 AI & LLMs: новые модели и прорывы
GPT-5.1OpenAI представила две обновлённые модели.
Nano Banana 2 утекли первые сэмплы следующей версии модели.

🧠 Research
Google запускает File Search в Gemini APIфайл-хранилище, чанкинг, индексация и вставка контекста — всё теперь автоматизировано.
Nested LearningGoogle представила brain-inspired подход, где модель — это не одна задача оптимизации, а множество вложенных.

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
3
🚀 В IT ценится не перфекционизм, а движение вперёд, и если вы давно откладывали обучение — самое время начать.

❤️ Proglib Academy продлевает розыгрыш MacBook Pro 14 до 30 ноября!

Что нужно:

⚡️ выбрать курс;
⚡️ пройти минимум две недели обучения (можно за два вечера);
⚡️ написать куратору #розыгрыш;
⚡️ забрать макбук.

🎓 Курсы, которые участвуют

👉 Участвовать
This media is not supported in your browser
VIEW IN TELEGRAM
🧪 Методы тестирования ML-моделей перед релизом

Когда выкатываешь новую модель, важно не «сломать прод», поэтому используют разные стратегии тестирования.

Вот 4 самых популярных подхода:

1️⃣ A/B-тестирование

Сервер отправляет, например, 90% запросов старой модели и 10% — новой.

🔛 Так можно безопасно сравнить качество на реальных пользователях.

2️⃣ Канареечное тестирование

Новая модель включается только для небольшой группы пользователей.

🔛 Если всё ок — постепенно расширяем охват. Минимальный риск.

3️⃣ Interleaved Testing

Пользователь видит «смешанные» результаты: часть рекомендаций — от старой модели, часть — от новой.

🔛 Хорошо подходит для ранжирования и рекомендаций, где важны позиции.

4️⃣ Shadow Testing

Пользователь получает ответ только от старой модели, но новая модель работает параллельно, делает предсказания и скрытно собирает статистику.

🔛 Самый безопасный способ протестировать поведение модели под реальной нагрузкой.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🔥1
🎓 Экспресс-курс «Математика для Data Science» стартует 4 декабря

Этот курс для вас, если вы:

🧑‍💻 Программист
Когда нужно понять, что происходит «под капотом» ML-алгоритмов.

📊 Начинающий DS / аналитик / студент
Чтобы закрыть теорию, подтянуть фундамент и собрать портфолио.

📈 Смежный специалист
Чтобы уверенно работать с моделями, статистикой и гипотезами.

🎁 Сейчас лучший момент стартовать:
— скидка 40% на курс до конца ноября
— можно пройти бесплатный тест на знание основ математики

👉 Записаться на курс
🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
➡️ Autodistill: полный pipeline без ручной аннотации

Autodistill позволяет обучать кастомные продакшен-модели без ручной разметки вообще.

От необработанных изображений — сразу к готовой модели:
Автоматическая разметка датасетов с помощью foundation-моделей (GroundedSAM, DINO и другие)
Дистилляция знаний из больших моделей → в быстрые, компактные (например, YOLOv8) для edge-устройств
Никакого участия человека — полный цикл от сырых данных до inference-готовой модели

Autodistill закрывает самый трудозатратный этап CV-проекта — разметку — и превращает его в автоматизированный pipeline.

📱 Репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
↪️ Google представила Gemini 3 — самый интеллектуальный ИИ в своей истории

Google делает ещё один шаг на пути к AGI и запускает Gemini 3 — новую модель, которая обещает вывести работу с ИИ на совершенно другой уровень:
1️⃣ Лучшее мультимодальное понимание
1️⃣ State-of-the-art рассуждение и логика
1️⃣ Сильные агентные возможности
1️⃣ «Vibe-coding» — более глубокая интерактивность и визуализация

Gemini 3 Pro уже доступен в превью и начинает появляться во многих продуктах Google — от корпоративных инструментов до приложений для пользователей.

ℹ️ Подробнее

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52🎉2🥱1
😵‍💫 Усиль свои позиции на собесе в Data Science знаниями математики!

Чем важна математика расскажет Мария Тихонова - кандидат компьютерных наук, руководитель исследовательского направления SberAI, доцент факультета компьютерных наук и преподаватель НИУ ВШЭ на курсе «Математика для Data Science» от Proglib Academy.

👀 Мария - человек, который реально работает с LLM и делает так, чтобы модели понимали человеческую речь, а не делали вид.

📌 Добавь в свое портфолио проект, выделись среди конкурентов

Курс предусматривает выполнение практического проекта с фидбеком от экспертов. За проект можно взять темы:
• обучите градиентный спуск для предсказания цен на квартиры
• создадите классификатор тональности или тематики текста
• построите простую рекомендательную систему на матричных разложениях

Бонусы:
- скидка 40% до 30 ноября
- если оплатить до конца ноября, получите курс «Базовая математика» в подарок

➡️ Пройти бесплатный тест на знание математики

👇👇👇
Записаться на курс
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄 Santa 2025: новый рождественский челлендж по оптимизации

Сколько ёлочек можно упаковать в коробку?
Kaggle запустил праздничный конкурс, где нужно решить классическую задачу упаковки… но с рождественским настроением.

Задача:
Помочь Санте упаковать от 1 до 200 маленьких ёлочек в самую маленькую квадратную коробку, уложив их максимально эффективно (2D-packing).

Это идеальный повод потренировать:

🔹 оптимизацию
🔹 алгоритмы размещения
🔹 эвристики
🔹 геометрию

Цель:
Найти оптимальную упаковку и попасть в число первых, кто поможет Санте.

ℹ️ Конкурс уже открыт
ℹ️ Продлится ещё пару месяцев

➡️ Ссылка на конкурс

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
Ноябрь — месяц One Day Offer в GigaChat и Kandinsky 📆

В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели.

Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!
1
🤖 Что такое object-centric в машинном обучении

В машинном обучении есть подход, который заставляет модель смотреть на данные «по-человечески» — object-centric.

Это когда модель не видит картинку как груду пикселей.
Она видит отдельные объекты — стол, кружку, кота — и работает именно с ними.

Зачем это нужно?

➡️ Лучшее обобщение.
Если модель понимает, что такое «объект», она легче переносит знания на новые сцены.

➡️ Объяснимость.
Модель фактически говорит: «объект №1 — куб», «объект №2 — шар».

➡️ Манипуляции объектами.
Важно в робототехнике, моделях мира, генерации сцен: можно двигать объекты, комбинировать их, прогнозировать взаимодействия.

Где используется:
• безучительское обучение (Slot Attention, MONet)
• модели мира (Dreamer, Genesis)
• генерация изображений
• робототехника и video understanding

Проще всего:
• обычная нейросеть → «вижу пиксели»
• object-centric сеть → «вижу вещи»

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
Kandinsky 5.0 — новая линейка визуальных моделей в open source

⚡️Сбер опубликовал в открытом доступе всю линейку Kandinsky 5.0: Video Pro, Video Lite, Image Lite и токенизаторы K-VAE 1.0. Полный open source: код, веса, лицензия MIT.

🔘Video Pro (Text-to-Video / Image-to-Video)
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео и затем, на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.

Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Лучшая открытая модель в мире, превосходит Wan 2.2-A14B в Text-to-Video [SBS 59:41] и Image-to-Video [SBS 53:47], а также достигает паритета с Veo 3 по визуальному качеству и динамике [SBS 54:46].

🔘Video Lite (Text-to-Video / Image-to-Video)
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].

🔘Image Lite (Text-to-Image / Image Editing)
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар – для Editing.

Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Значительно превосходит FLUX.1 [dev] по Text-to-Image [SBS 63:37] и находится в паритете по качеству с FLUX.1 Kontext [dev] по Image Editing [SBS 54:46].

🔘K-VAE 1.0 (2D / 3D)
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео)
. Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.

Все модели линейки доступны на GitHub, Gitverse и HuggingFace.

Читайте подробнее в техническом репорте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
↪️ Pixeltable — декларативная инфраструктура данных для AI

Единственная open-source Python-библиотека, которая упрощает работу с данными для мультимодальных AI-приложений.

С Pixeltable вы можете хранить, трансформировать, индексировать, извлекать и оркестрировать данные с помощью единого интерфейса таблицы, без необходимости в сложной архитектуре с базами, файлами и векторными БД.

Особенности:
• Поддержка мультимодальных данных: изображения, видео, документы
• Инкрементальное хранение и трансформация данных
• Простая декларативная работа вместо множества систем

Установка:
pip install pixeltable


🔗 Документация и примеры

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2
This media is not supported in your browser
VIEW IN TELEGRAM
NLP для Data Scientists: получайте навыки, которые помогают решать реальные задачи с текстами.

🔥 Мы подготовили для вас 3 бесплатных вебинара курса «NLP / Natural Language Processing», где вы узнаете всё необходимое для работы с текстами и моделями.

🔸 Вебинар №1: Анатомия нейросетей: от трансформеров к современным архитектурам
👨‍🏫 Спикер: Андрей Носов - AI Architect, Raft

24 ноября, 20:00 МСК

На этом занятии вы узнаете:
• Из чего состоят современные нейросети — внимание, эмбеддинги, нормализация и другие ключевые механизмы.
• Почему трансформеры стали стандартом в NLP и какие идеи приходят им на смену.
• Как применять эти принципы в задачах генерации, классификации и анализа текста.

🔸 Вебинар №2: Секреты дообучения трансформеров на примере BERT
👩‍🏫 Спикер: Мария Тихонова - Лидер Research кластера

10 декабря, 18:00 МСК

Этот вебинар посвящен дообучению трансформерных моделей под задачи автоматической обработки текстов (NLP).

Вы узнаете:
- Как дообучать трансформеры на примере популярной модели BERT — как в теории, так и на практике.
- Как упростить процесс написания кода дообучения с помощью открытых LLM.

Не знаете, как применять BERT? DeepSeek расскажет, а Мария Тихонова покажет!

🔸 Вебинар №3: Легкий старт в парсинг сайтов на Python
👩‍🏫 Спикер: Мария Тихонова - Лидер Research кластера

15 декабря, 18:00 МСК

После этого вебинара вы:
- Узнаете, какие инструменты используют для парсинга современных сайтов.
- Научитесь парсить сайты самостоятельно и ускорять разработку и отладку с помощью открытых LLM.

🎁 Бонус: Пройдите короткое тестирование и получите в подарок урок "Языковые модели: от статистических до ChatGPT"

👉 Записывайтесь на вебинары: OTUS.RU

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
1