Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.28K photos
115 videos
64 files
4.7K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
✍️ Михаил Шуфутинский печатает
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰121
💯 100+ готовых Colab-ноутбуков для fine-tuning LLM

Собрана коллекция из 100+ Colab-ноутбуков с пошаговыми гайдами по fine-tuning любых семейств языковых моделей.
Всё в одном месте — запускай, пробуй и адаптируй под свои задачи.

Подходит для:
🔥 экспериментов с разными архитектурами LLM
🔥 быстрого прототипирования
🔥 обучения и изучения техник fine-tuning

Отличный ресурс, чтобы не тратить время на настройку окружения и сразу переходить к практике.

📱 Ссылка на репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85🔥1
🚀 Как запустить Random Forest на GPU и получить ускорение в 40 раз

Оказалось, это реально просто — и даже open-source. Фреймворк Hummingbird компилирует обученные ML-модели в тензорные вычисления.

Что это даёт:
— модель можно гонять на GPU, TPU и других ускорителях,
— при этом сохраняется исходная точность,
— а инференс становится до 40 раз быстрее.

📌 Это особенно полезно, если модель уже обучена, а вам важно её быстро и эффективно задеплоить.

Для обучения на GPU есть альтернатива — RAPIDS CuML.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2👏1
Переворачиваем календарь — а там скидки, которые уже закончились.

Но мы их вернули на последний день 🤔

До 00:00 третьего сентября (цены как до 1 сентября):

▪️ Математика для Data Science — 35.199 ₽ вместо 44.900 ₽
▪️ Алгоритмы и структуры данных — 31.669 ₽ вместо 39.900 ₽
▪️ Основы IT — 14.994 ₽ вместо 19.900 ₽
▪️ Архитектуры и шаблоны — 24.890 ₽ вместо 32.900 ₽
▪️ Python — 24.990 ₽ вместо 32.900 ₽
▪️ ML для Data Science — 34.000 ₽ вместо 44. 000 ₽
▪️ AI-агенты — 49.000 ₽ вместо 59.000 ₽

👉 Хватаем скидки из прошлого

P.S. Машину времени одолжили у дяди Миши
2
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ AI by Hand: рекуррентные нейросети (RNN)

Новое упражнение для практики:
➡️ табличная версия RNN, где можно вводить свои значения, следить за вычислениями и изучать уравнения,
➡️ классическая графическая схема RNN для наглядного сопоставления с матричной записью.

Отличный способ разобрать RNN руками и понять, как они реально работают.

🔗 Упражнение: https://clc.to/t3YQvQ

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2🔥1
😎 Сколько баллов набрали вы?

Голосуйте, какой у вас уровень разработчика:

😁 — 5-12 баллов (стажер)
👍 — 13-25 баллов (джуниор)
⚡️ — 26-40 баллов (джуниор+)
👏 — 41-60 баллов (миддл)
🔥 — 61-80 баллов (миддл+)
🎉 — 81-100 баллов (сеньор)
🤩 — 100+ баллов (тимлид)

Но вот в чем прикол — опытный разработчик набирает баллы не случайными косяками, а осознанными решениями.

👉 Научим, как быстро прокачаться от стажера до сеньора
😁3👍1🤩1
🖌 Colour — Python для цветовой науки

Colour — это open-source пакет для Python, включающий:
➡️ Большое количество алгоритмов для работы с цветом,
➡️ Наборы данных для исследований и экспериментов в области цветовой науки.

📱 Ссылка на репозиторий

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🤔1
📊 6 лучших библиотек Python для визуализации

Если вы начинаете работать с визуализацией в Python, выбор может показаться бесконечным: Matplotlib, seaborn, Plotly, Bokeh, Altair, Pygal… Какая библиотека лучше?

Всё зависит от задачи:

Matplotlib — мощная и гибкая, но требует больше кода.
Seaborn — удобна для статистических графиков.
Plotly — интерактивные и красивые графики.
Bokeh — для веб-визуализации.
Altair — декларативный стиль, быстрый старт.
Pygal — SVG-графики для встраивания.

В статье сравниваются плюсы и минусы каждой библиотеки, чтобы вам было проще выбрать подходящую под задачу.

🔗 Ссылка на статью: https://clc.to/nuqZPg

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5
🔥 FineVision: открытый датасет для Vision-Language моделей

Большинство датасетов для Vision-Language моделей остаются закрытыми и недоступными для сообщества.

👍 FineVision решает эту проблему: объединяет 200+ источников, чистит данные от дублей и шума, нормализует форматы, добавляет недостающие домены (например, GUI).

FineVision — огромный мультимодальный датасет:
— 24 млн сэмплов
— 17M изображений
— 89M QA-диалогов
— 10B токенов ответов
— Оценка качества с помощью 32B VLM по 4 метрикам

Для дата-сайентистов это полезно, потому что:
➡️ можно строить собственные state-of-the-art VLM, не завися от закрытых датасетов,
➡️ легко тестировать гипотезы на чистом и сбалансированном корпусе,
➡️ доступна стриминговая загрузка через datasets, что удобно при работе с большими объёмами данных.

🔗 Ссылка на датасет

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1
🎮 КВЕСТОВАЯ ЛИНИЯ: «Путь Data Scientist'а»

⮕ Твой стартовый набор искателя данных:
Python — твое легендарное оружие (урон по багам +∞)
Математика — твой базовый интеллект (влияет на понимание алгоритмов)
Машинное обучение — твое дерево навыков (открывает новые способности)


⚡️ АКТИВЕН ВРЕМЕННЫЙ БАФФ: «Щедрость наставника»

Эффект: –30% к цене полного набора ДСника
Было: 121.800 ₽ → Стало: 84.900 ₽

☞ Что ждет тебя в этом квесте

— Получение артефактов: портфолио проектов и сертификаты— Прокачка от новичка до Senior Data Scientist— Босс-файты с реальными задачами из индустрии— Доступ к гильдии единомышленников


📎 Забрать бафф
Рассрочки: 3 мес | 6 мес | 12 мес