Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Большое обновление в pandas: Expressions

Pandas исполняется уже 17 лет, и наконец-то в версии 3.0 появляется то, чего ждали многие — выражения (expressions) через pd.col.

Раньше:

df = df.assign(temp_f = lambda x: x['temp_c'] * 9 / 5 + 32)

Теперь:

df = df.assign(temp_f = pd.col('temp_c') * 9 / 5 + 32)

Почему это реально круто:
— Больше никаких непонятных lambda, которые ломаются в циклах.
— Код читается и дебажится проще:

  pd.col('a') + 10  # => (col('a') + 10)

✅ Поддержка str, dt, NumPy ufunc и фильтрации прямо в loc.
✅ Это первый шаг к полноценной системе выражений в духе Polars.

Пример:

df.assign(
    city_upper = pd.col('city').str.upper(),
    log_temp_c = np.log(pd.col('temp_c'))
)

✅ Чище, безопаснее и интуитивнее.
✅ Pandas берёт лучшее у новых библиотек (Polars, Narwhals) и возвращает нас к удобному и современному синтаксису.

🔗

Подробная статья по теме

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13👍2

1.35K views17:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Полезная шпаргалка: как выбрать правильное распределение для данных

1️⃣ Начните с гистограммы

— Простая, но мощная визуализация.
— Помогает понять форму данных: колоколообразная (Normal), быстро падающая (Exponential), ровная (Uniform), с несколькими пиками (Mixture).

import matplotlib.pyplot as plt
import numpy as np

data = np.random.normal(50, 15, 1000)
plt.hist(data, bins=30, color='skyblue', edgecolor='black', alpha=0.7)
plt.xlabel('Values'); plt.ylabel('Count'); plt.title('Гистограмма данных')
plt.show()

2️⃣ Протестируйте разные распределения

— Используем библиотеку distfit для подбора распределений.
— Проверяет ~90 типов распределений автоматически:

from distfit import distfit
import numpy as np

my_data = np.random.normal(25, 8, 2000)
fitter = distfit(method='parametric')
fitter.fit_transform(my_data)

print("Лучшее распределение:", fitter.model['name'])
print("Параметры:", fitter.model['params'])

3️⃣ Визуализируйте подгонку

— Всегда проверяй глазами!
— Используй PDF (распределение) и CDF (кумулятивное распределение):

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15,6))
fitter.plot(chart='PDF', ax=ax1); ax1.set_title('PDF')
fitter.plot(chart='CDF', ax=ax2); ax2.set_title('CDF')
plt.show()

4️⃣

Не забывайте про нестандартные данные

— Дискретные счётные данные → binomial, Poisson.
— Сложные или многопиковые данные → non-parametric (quantile, percentile).

Пример:

from scipy.stats import binom
count_data = binom(20, 0.3).rvs(1000)
discrete_fitter = distfit(method='discrete')
discrete_fitter.fit_transform(count_data)
discrete_fitter.plot()

5️⃣

Проверяйте стабильность

— Бутстрэпинг помогает проверить, насколько выбранное распределение устойчиво к случайным выборкам:

fitter.bootstrap(my_data, n_boots=100)
print(fitter.summary[['name','score','bootstrap_score','bootstrap_pass']])

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍1

1.51K views09:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁6

1.81K views17:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ Михаил Шуфутинский печатает

Please open Telegram to view this post

VIEW IN TELEGRAM

🥰12❤1

1.82K views04:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💯

100+ готовых Colab-ноутбуков для fine-tuning LLM

Собрана коллекция из 100+ Colab-ноутбуков с пошаговыми гайдами по fine-tuning любых семейств языковых моделей.
Всё в одном месте — запускай, пробуй и адаптируй под свои задачи.

Подходит для:
🔥 экспериментов с разными архитектурами LLM
🔥 быстрого прототипирования
🔥 обучения и изучения техник fine-tuning

Отличный ресурс, чтобы не тратить время на настройку окружения и сразу переходить к практике.

📱

Ссылка на репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤5🔥1

1.52K views06:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Как запустить Random Forest на GPU и получить ускорение в 40 раз

Оказалось, это реально просто — и даже open-source. Фреймворк Hummingbird компилирует обученные ML-модели в тензорные вычисления.

Что это даёт:
— модель можно гонять на GPU, TPU и других ускорителях,
— при этом сохраняется исходная точность,
— а инференс становится до 40 раз быстрее.

📌 Это особенно полезно, если модель уже обучена, а вам важно её быстро и эффективно задеплоить.

Для обучения на GPU есть альтернатива — RAPIDS CuML.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2👏1

1.32K views17:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Переворачиваем календарь — а там скидки, которые уже закончились.

Но мы их вернули на последний день 🤔

До 00:00 третьего сентября (цены как до 1 сентября):

▪️ Математика для Data Science — 35.199 ₽ вместо 44.900 ₽
▪️ Алгоритмы и структуры данных — 31.669 ₽ вместо 39.900 ₽
▪️ Основы IT — 14.994 ₽ вместо 19.900 ₽
▪️ Архитектуры и шаблоны — 24.890 ₽ вместо 32.900 ₽
▪️ Python — 24.990 ₽ вместо 32.900 ₽
▪️ ML для Data Science — 34.000 ₽ вместо 44. 000 ₽
▪️ AI-агенты — 49.000 ₽ вместо 59.000 ₽

👉 Хватаем скидки из прошлого

P.S. Машину времени одолжили у дяди Миши

❤3

1.24K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

✍️ AI by Hand: рекуррентные нейросети (RNN)

Новое упражнение для практики:
➡️ табличная версия RNN, где можно вводить свои значения, следить за вычислениями и изучать уравнения,
➡️ классическая графическая схема RNN для наглядного сопоставления с матричной записью.

Отличный способ разобрать RNN руками и понять, как они реально работают.

🔗 Упражнение: https://clc.to/t3YQvQ

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🔥1

1.41K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😎 Сколько баллов набрали вы?

Голосуйте, какой у вас уровень разработчика:

😁 — 5-12 баллов (стажер)
👍 — 13-25 баллов (джуниор)
⚡️ — 26-40 баллов (джуниор+)
👏 — 41-60 баллов (миддл)
🔥 — 61-80 баллов (миддл+)
🎉 — 81-100 баллов (сеньор)
🤩 — 100+ баллов (тимлид)

Но вот в чем прикол — опытный разработчик набирает баллы не случайными косяками, а осознанными решениями.

👉 Научим, как быстро прокачаться от стажера до сеньора

😁3🤩2👍1

1.35K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🖌

Colour — Python для цветовой науки

Colour — это open-source пакет для Python, включающий:
➡️ Большое количество алгоритмов для работы с цветом,
➡️ Наборы данных для исследований и экспериментов в области цветовой науки.

📱

Ссылка на репозиторий

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🤔1

1.35K views17:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 6 лучших библиотек Python для визуализации

Если вы начинаете работать с визуализацией в Python, выбор может показаться бесконечным: Matplotlib, seaborn, Plotly, Bokeh, Altair, Pygal… Какая библиотека лучше?

Всё зависит от задачи:
➕ Matplotlib — мощная и гибкая, но требует больше кода.
➕ Seaborn — удобна для статистических графиков.
➕ Plotly — интерактивные и красивые графики.
➕ Bokeh — для веб-визуализации.
➕ Altair — декларативный стиль, быстрый старт.
➕ Pygal — SVG-графики для встраивания.

В статье сравниваются плюсы и минусы каждой библиотеки, чтобы вам было проще выбрать подходящую под задачу.

🔗

Ссылка на статью: https://clc.to/nuqZPg

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.17K views09:36

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥

FineVision: открытый датасет для Vision-Language моделей

Большинство датасетов для Vision-Language моделей остаются закрытыми и недоступными для сообщества.

👍 FineVision решает эту проблему: объединяет 200+ источников, чистит данные от дублей и шума, нормализует форматы, добавляет недостающие домены (например, GUI).

FineVision — огромный мультимодальный датасет:
— 24 млн сэмплов
— 17M изображений
— 89M QA-диалогов
— 10B токенов ответов
— Оценка качества с помощью 32B VLM по 4 метрикам

Для дата-сайентистов это полезно, потому что:
➡️ можно строить собственные state-of-the-art VLM, не завися от закрытых датасетов,
➡️ легко тестировать гипотезы на чистом и сбалансированном корпусе,
➡️ доступна стриминговая загрузка через datasets, что удобно при работе с большими объёмами данных.

🔗

Ссылка на датасет

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥1

1.09K viewsedited 18:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎮 КВЕСТОВАЯ ЛИНИЯ: «Путь Data Scientist'а»

⮕ Твой стартовый набор искателя данных:

Python — твое легендарное оружие (урон по багам +∞)
Математика — твой базовый интеллект (влияет на понимание алгоритмов)
Машинное обучение — твое дерево навыков (открывает новые способности)

⚡️ АКТИВЕН ВРЕМЕННЫЙ БАФФ: «Щедрость наставника»

Эффект: –30% к цене полного набора ДСника
Было: 121.800 ₽ → Стало: 84.900 ₽

☞ Что ждет тебя в этом квесте

— Получение артефактов: портфолио проектов и сертификаты— Прокачка от новичка до Senior Data Scientist— Босс-файты с реальными задачами из индустрии— Доступ к гильдии единомышленников

📎 Забрать бафф
Рассрочки: 3 мес | 6 мес | 12 мес

1.18K views19:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁10❤2

1.26K views09:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Почему библиотека Pandas получила такое название?

Anonymous Quiz

14%

В честь медведя панды

70%

От слов «panel data»

В честь автора с фамилией Panda

12%

Просто шутка про животное

❤1

500 voters1.22K views13:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧵 Архитектуры и данные
— The Parallelism Mesh Zoo — схемный разбор стратегий параллелизации в PyTorch и JAX через понятие device mesh. Отличный способ проверить, понимаете ли вы, как работает масштабирование на GPU. Читать
— 3 Questions: Synthetic Data — MIT о плюсах и минусах синтетических данных: от приватности и экономии до ограничений и рисков. Читать

🧠 Новые модели и AI-сервисы
— Google EmbeddingGemma — новая open-модель эмбеддингов для офлайн-работы прямо на ноутбуках и смартфонах. Подробнее
— OpenAI Jobs Platform — AI-платформа для поиска работы и сертификации AI-навыков. Подробнее
— Google NotebookLM — теперь умеет аудио-обзоры в 4 форматах: Deep Dive, Brief, Critique и Debate + более естественные голоса. Подробнее

📚 Лонгриды и статьи
— ML Q & AI. Глава 8. Успех трансформеров
—Очеловечить компьютер: как развивалось машинное обучение в середине XX века
— Интерпретация и оптимизация перцептрона Розенблатта
— Что такое детерминизм и как с ним бороться?
— Когда YOLO не спасает: как один параметр может испортить всё

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3

1.02K views13:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️ Будь как этот гений с картинки — предлагай свои условия работодателю, а не наоборот!

Кто нужен?

Senior ML-Engineer с опытом работы более 6 месяцев в FAANG компаниях. Требование: разработать кросс-платформенное приложение-трекер зарплат с AI-распознаванием вакансий по резюме.

Но если вы пока джун — я бы предложил:

- Full-time контракт: 180к/мес после курса + опцион на карьеру в топ-компаниях

- Либо фикс за проект: стань ML-инженером за 39к вместо 44к с промокодом LASTCALL

🔗 Старт 9 сентября

1.06K views15:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

895 views08:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Ответ: