🔥 Большое обновление в pandas: Expressions
Pandas исполняется уже 17 лет, и наконец-то в версии 3.0 появляется то, чего ждали многие — выражения (expressions) через
Раньше:
Теперь:
Почему это реально круто:
— Больше никаких непонятных
— Код читается и дебажится проще:
✅ Поддержка
✅ Это первый шаг к полноценной системе выражений в духе Polars.
Пример:
✅ Чище, безопаснее и интуитивнее.
✅ Pandas берёт лучшее у новых библиотек (Polars, Narwhals) и возвращает нас к удобному и современному синтаксису.
🔗 Подробная статья по теме
🐸 Библиотека дата-сайентиста
#свежак
Pandas исполняется уже 17 лет, и наконец-то в версии 3.0 появляется то, чего ждали многие — выражения (expressions) через
pd.col
.Раньше:
df = df.assign(temp_f = lambda x: x['temp_c'] * 9 / 5 + 32)
Теперь:
df = df.assign(temp_f = pd.col('temp_c') * 9 / 5 + 32)
Почему это реально круто:
— Больше никаких непонятных
lambda
, которые ломаются в циклах.— Код читается и дебажится проще:
pd.col('a') + 10 # => (col('a') + 10)
str
, dt
, NumPy ufunc и фильтрации прямо в loc
.Пример:
df.assign(
city_upper = pd.col('city').str.upper(),
log_temp_c = np.log(pd.col('temp_c'))
)
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍1
Полезная шпаргалка: как выбрать правильное распределение для данных
1️⃣ Начните с гистограммы
— Простая, но мощная визуализация.
— Помогает понять форму данных: колоколообразная (Normal), быстро падающая (Exponential), ровная (Uniform), с несколькими пиками (Mixture).
2️⃣ Протестируйте разные распределения
— Используем библиотеку distfit для подбора распределений.
— Проверяет ~90 типов распределений автоматически:
3️⃣ Визуализируйте подгонку
— Всегда проверяй глазами!
— Используй PDF (распределение) и CDF (кумулятивное распределение):
4️⃣ Не забывайте про нестандартные данные
— Дискретные счётные данные → binomial, Poisson.
— Сложные или многопиковые данные → non-parametric (quantile, percentile).
Пример:
5️⃣ Проверяйте стабильность
— Бутстрэпинг помогает проверить, насколько выбранное распределение устойчиво к случайным выборкам:
🐸 Библиотека дата-сайентиста
#свежак
— Простая, но мощная визуализация.
— Помогает понять форму данных: колоколообразная (Normal), быстро падающая (Exponential), ровная (Uniform), с несколькими пиками (Mixture).
import matplotlib.pyplot as plt
import numpy as np
data = np.random.normal(50, 15, 1000)
plt.hist(data, bins=30, color='skyblue', edgecolor='black', alpha=0.7)
plt.xlabel('Values'); plt.ylabel('Count'); plt.title('Гистограмма данных')
plt.show()
— Используем библиотеку distfit для подбора распределений.
— Проверяет ~90 типов распределений автоматически:
from distfit import distfit
import numpy as np
my_data = np.random.normal(25, 8, 2000)
fitter = distfit(method='parametric')
fitter.fit_transform(my_data)
print("Лучшее распределение:", fitter.model['name'])
print("Параметры:", fitter.model['params'])
— Всегда проверяй глазами!
— Используй PDF (распределение) и CDF (кумулятивное распределение):
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15,6))
fitter.plot(chart='PDF', ax=ax1); ax1.set_title('PDF')
fitter.plot(chart='CDF', ax=ax2); ax2.set_title('CDF')
plt.show()
— Дискретные счётные данные → binomial, Poisson.
— Сложные или многопиковые данные → non-parametric (quantile, percentile).
Пример:
from scipy.stats import binom
count_data = binom(20, 0.3).rvs(1000)
discrete_fitter = distfit(method='discrete')
discrete_fitter.fit_transform(count_data)
discrete_fitter.plot()
— Бутстрэпинг помогает проверить, насколько выбранное распределение устойчиво к случайным выборкам:
fitter.bootstrap(my_data, n_boots=100)
print(fitter.summary[['name','score','bootstrap_score','bootstrap_pass']])
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
⁉️ Что нового в Spark 4.0?
Apache Spark продолжает развиваться и в версии 4.0 готовит для нас несколько важнейших обновлений. Хотите узнать, как эти изменения улучшат обработку данных и повлияют на вашу работу? Присоединяйтесь к открытом вебинару 9 сентября в 20:00!
— Обзор Spark 4.0: главные нововведения и улучшения.
— Производительность и оптимизации: что ускорилось и как этим пользоваться?
— Новые API и функции: возможности для разработчиков и аналитиков.
— Интеграция с Kubernetes, облачными платформами и Data Science инструментами.
— Практические кейсы: как применять нововведения в реальных задачах.
👨💻🛠👨🏻💻 Если вы дата-инженер, аналитик, разработчик или DevOps-специалист, этот вебинар точно для вас.
➡️Присоединяйтесь и получите скидку на курс «Spark Developer»: https://clc.to/-Mavvw
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Apache Spark продолжает развиваться и в версии 4.0 готовит для нас несколько важнейших обновлений. Хотите узнать, как эти изменения улучшат обработку данных и повлияют на вашу работу? Присоединяйтесь к открытом вебинару 9 сентября в 20:00!
— Обзор Spark 4.0: главные нововведения и улучшения.
— Производительность и оптимизации: что ускорилось и как этим пользоваться?
— Новые API и функции: возможности для разработчиков и аналитиков.
— Интеграция с Kubernetes, облачными платформами и Data Science инструментами.
— Практические кейсы: как применять нововведения в реальных задачах.
👨💻🛠👨🏻💻 Если вы дата-инженер, аналитик, разработчик или DevOps-специалист, этот вебинар точно для вас.
➡️Присоединяйтесь и получите скидку на курс «Spark Developer»: https://clc.to/-Mavvw
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
❤1👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6
Собрана коллекция из 100+ Colab-ноутбуков с пошаговыми гайдами по fine-tuning любых семейств языковых моделей.
Всё в одном месте — запускай, пробуй и адаптируй под свои задачи.
Подходит для:
🔥 экспериментов с разными архитектурами LLM
🔥 быстрого прототипирования
🔥 обучения и изучения техник fine-tuning
Отличный ресурс, чтобы не тратить время на настройку окружения и сразу переходить к практике.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤5🔥1
🚀 Как запустить Random Forest на GPU и получить ускорение в 40 раз
Оказалось, это реально просто — и даже open-source. Фреймворк Hummingbird компилирует обученные ML-модели в тензорные вычисления.
Что это даёт:
— модель можно гонять на GPU, TPU и других ускорителях,
— при этом сохраняется исходная точность,
— а инференс становится до 40 раз быстрее.
📌 Это особенно полезно, если модель уже обучена, а вам важно её быстро и эффективно задеплоить.
Для обучения на GPU есть альтернатива — RAPIDS CuML.
🐸 Библиотека дата-сайентиста
#буст
Оказалось, это реально просто — и даже open-source. Фреймворк Hummingbird компилирует обученные ML-модели в тензорные вычисления.
Что это даёт:
— модель можно гонять на GPU, TPU и других ускорителях,
— при этом сохраняется исходная точность,
— а инференс становится до 40 раз быстрее.
📌 Это особенно полезно, если модель уже обучена, а вам важно её быстро и эффективно задеплоить.
Для обучения на GPU есть альтернатива — RAPIDS CuML.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2👏1
Переворачиваем календарь — а там скидки, которые уже закончились.
Но мы их вернули на последний день 🤔
До 00:00 третьего сентября (цены как до 1 сентября):
▪️ Математика для Data Science — 35.199 ₽ вместо 44.900 ₽
▪️ Алгоритмы и структуры данных — 31.669 ₽ вместо 39.900 ₽
▪️ Основы IT — 14.994 ₽ вместо 19.900 ₽
▪️ Архитектуры и шаблоны — 24.890 ₽ вместо 32.900 ₽
▪️ Python — 24.990 ₽ вместо 32.900 ₽
▪️ ML для Data Science — 34.000 ₽ вместо 44. 000 ₽
▪️ AI-агенты — 49.000 ₽ вместо 59.000 ₽
👉 Хватаем скидки из прошлого
P.S. Машину времени одолжили у дяди Миши
Но мы их вернули на последний день 🤔
До 00:00 третьего сентября (цены как до 1 сентября):
▪️ Математика для Data Science — 35.199 ₽ вместо 44.900 ₽
▪️ Алгоритмы и структуры данных — 31.669 ₽ вместо 39.900 ₽
▪️ Основы IT — 14.994 ₽ вместо 19.900 ₽
▪️ Архитектуры и шаблоны — 24.890 ₽ вместо 32.900 ₽
▪️ Python — 24.990 ₽ вместо 32.900 ₽
▪️ ML для Data Science — 34.000 ₽ вместо 44. 000 ₽
▪️ AI-агенты — 49.000 ₽ вместо 59.000 ₽
👉 Хватаем скидки из прошлого
P.S. Машину времени одолжили у дяди Миши
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ AI by Hand: рекуррентные нейросети (RNN)
Новое упражнение для практики:
➡️ табличная версия RNN, где можно вводить свои значения, следить за вычислениями и изучать уравнения,
➡️ классическая графическая схема RNN для наглядного сопоставления с матричной записью.
Отличный способ разобрать RNN руками и понять, как они реально работают.
🔗 Упражнение: https://clc.to/t3YQvQ
🐸 Библиотека дата-сайентиста
#буст
Новое упражнение для практики:
Отличный способ разобрать RNN руками и понять, как они реально работают.
🔗 Упражнение: https://clc.to/t3YQvQ
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1🔥1
😎 Сколько баллов набрали вы?
Голосуйте, какой у вас уровень разработчика:
😁 — 5-12 баллов (стажер)
👍 — 13-25 баллов (джуниор)
⚡️ — 26-40 баллов (джуниор+)
👏 — 41-60 баллов (миддл)
🔥 — 61-80 баллов (миддл+)
🎉 — 81-100 баллов (сеньор)
🤩 — 100+ баллов (тимлид)
Но вот в чем прикол — опытный разработчик набирает баллы не случайными косяками, а осознанными решениями.
👉 Научим, как быстро прокачаться от стажера до сеньора
Голосуйте, какой у вас уровень разработчика:
😁 — 5-12 баллов (стажер)
👍 — 13-25 баллов (джуниор)
⚡️ — 26-40 баллов (джуниор+)
👏 — 41-60 баллов (миддл)
🔥 — 61-80 баллов (миддл+)
🎉 — 81-100 баллов (сеньор)
🤩 — 100+ баллов (тимлид)
Но вот в чем прикол — опытный разработчик набирает баллы не случайными косяками, а осознанными решениями.
👉 Научим, как быстро прокачаться от стажера до сеньора
😁1🤩1
Colour — это open-source пакет для Python, включающий:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2