Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐼 Когда pandas не тянет: ускорение с cuDF

Если вы работаете с pandas, то знаете это ощущение: код летал на маленьких выборках, а теперь на реальных данных всё еле тянется. Скрипт, который раньше занимал секунды, теперь считает минутами.

Что дальше?
Обычно — не самое приятное:
🔹 режете данные (теряя точность)
🔹 разбиваете на чанки
🔹 или задумываетесь о миграции на Spark

Но есть способ проще. Иногда достаточно просто включить GPU — и всё летит.

📈 В этом кейсе — 3 типичных pandas-воркфлоу, которые получили ускорение с cuDF от NVIDIA, почти не меняя код.

➡️

Подробности и примеры — в статье: https://clc.to/iHZ_NA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤5😁2🥱1

1.78K views17:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Нужно, чтобы лосс сходился 👌

Библиотека дата-сайентиста #развлекалово

😁10👍3❤2😢2

1.65K views08:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста #междусобойчик

🥰2👍1

1.71K views13:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Правильный ответ:

Anonymous Quiz

26%

VAE (Variational Autoencoder)

15%

Transformer

37%

GAN (Generative Adversarial Network)

22%

Diffusion Model

🥰2👍1

412 voters1.7K views13:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧠 ИИ и исследование моделей
— Anthropic автоматизирует аудит Claude — создано три специализированных ИИ-агента.
— Scaling Laws для MoE-моделей — введена метрика Efficiency Leverage, описывающая вычислительную эффективность MoE.
— Новый архитектурный конкурент Transformers — динамическая архитектура с адаптивной рекурсией на уровне токенов.
— GPT получает Study Mode — ChatGPT теперь может обучать студентов пошагово.

⚙️ Новые инструменты и AI-интеграции
— NotebookLM теперь с видео — теперь можно создавать видео-саммари по вашим заметкам, дополняя аудио.
— Google Earth AI — новый набор моделей и датасетов для прогнозов погоды, наводнений, пожаров и планирования городов.
— Copilot Mode в Microsoft Edge — новая AI-фича помогает структурировать работу с вебом.

👍 Опыт других
— Перешла из Data Science в AI Engineering — практический переход и подводные камни.
— Глубокий технический обзор RAG (Retrieval-Augmented Generation).
— 7 кругов ада при выборе ML-стека — практический гид.
— Синтетические данные: подборка инструментов.
— Уменьшение переобучения через работу с данными.
— Как запустить нейросеть локально: 4 простых способа.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2🔥2

1.77K views13:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

❤2👍1

1.58K views07:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Ответ:

Anonymous Quiz

26%

MSE (среднеквадратичная ошибка)

22%

Расстояние Махаланобиса

19%

Расстояние Хэмминга

34%

Сравнение выходных метрик

❤2😁2

396 voters1.6K views07:54

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Изучаете или хотели изучать искусственный интеллект? Помогите нам с исследованием!

Ищем тех, кто:

🔹 Недавно (в последние полгода) проходил курсы по AI/Data Science.
🔹 Думал пойти учиться, но что-то остановило.

С нас — интересная беседа в Google Meet (до 45 минут) и бонус 1500 рублей на карту за ваше время.

📩 Для участия пишите: @olalabelyaeva

😁3👍1

1.71K viewsedited 12:25

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💻

Топ-вакансий для дата-сайентистов за неделю

Data Scientist / Ведущий специалист по NLP/LLM — от 300 000 ₽, удалёнка

Senior MLE (SE) — от 5000 до 9000 $, удаленно по миру

Lead Data Scientist (RecSys) — от 6 000 до 8 000 $, удалёнка

ML Developer [OctAPI, МТС Веб Сервисы], удалёнка

Data Scientist (Python, Hadoop, MLFlow, ETL) — до 269 000 ₽, удалёнка

Дата-инженер, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

😁1

1.68K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✔️ How to: выбирать метод импутации пропущенных значений

При работе с пропущенными данными важно не просто «заполнить пробелы», а сохранить структуру, вариативность и точность данных.

Вот 3 популярных метода:

➕

Deterministic Regression
Заполняет пропущенные значения точным предсказанием по регрессионной модели.
🏮 Просто и быстро
➖ Игнорирует естественную вариативность
➖ Плохо работает с нелинейными зависимостями

➕

Stochastic Regression
Добавляет шум к регрессионным предсказаниям
🏮 Сохраняет разброс значений
➖ Всё ещё зависит от предположений модели
➖ С трудом улавливает нелинейность

➕

Predictive Mean Matching (PMM)
Подбирает реальное наблюдение из данных, которое ближе всего к предсказанному значению
🏮 Значения выглядят реалистично
🏮 Сохраняет вариативность и структуру
🏮 Отлично подходит для нелинейных данных

📊 На графике:
• Слева — Deterministic Regression: розовые точки строго на линии, игнорируют форму данных
• В центре — Stochastic Regression: немного разброса, но всё равно не отражает настоящую структуру
• Справа — PMM: значения естественно «вписаны» в данные

🎯 Вывод:
Если ваши данные нелинейны и вы хотите сохранить реализм и разброс — PMM будет наилучшим выбором.
Но всегда учитывайте специфику задачи и данных.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍6🔥1

1.67K views09:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Зачем вообще понимать, как работает ML?

Сейчас многие просто запускают модельку в sklearn — и радуются точности 0.92.

Вроде всё работает… но почему?
А когда сломается — что делать?

Машинное обучение — это система, которую можно понять.

Если знаешь, что делает градиентный спуск, зачем нужен бустинг и как дерево принимает решения — ты не просто «запускаешь», ты управляешь моделью.

👉 Мы сделали курс, чтобы в это было реально въехать:

— без сложных формул;
— с интуитивными объяснениями;
— от простого к сложному.

Если хочешь перейти от «гуглю код» к «понимаю, как это работает» — ты по адресу!

❗Стартуем в сентябре — бронируй место на курсе уже сейчас

1.56K views15:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📱

Работа с API ChatGPT: руководство

В этом кратком руководстве мы разберём всё: от настройки проекта и получения ключа API до отправки запросов к языковым модели и понимания ключевых параметров.

👉 Это идеальный старт для тех, кто хочет интегрировать возможности OpenAI в свои приложения.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍2🔥1

1.76K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔖

Команда дня: продвинутые техники масштабирования признаков в Python

Часто мы используем стандартизацию или нормализацию — и этого достаточно.

Но если данные:
• имеют выбросы
• сильно смещены
• не похожи на нормальное распределение
➡️ тогда пора достать тяжёлую артиллерию.

Вот 4 метода масштабирования, которые спасают в таких ситуациях:

1️⃣

Квантильное преобразование (Quantile Transformer)

Преобразует распределение признака в нормальное или равномерное, используя эмпирические квантили:

from sklearn.preprocessing import QuantileTransformer
import numpy as np

X = np.array([[10], [200], [30], [40], [5000]])
qt = QuantileTransformer(output_distribution='normal', random_state=0)
X_trans = qt.fit_transform(X)

Преимущества:
• Устойчив к выбросам
• Не требует предположений о распределении
• Полезен перед алгоритмами, ожидающими нормальность (например, лин. регрессия)

2️⃣

Степенное преобразование (PowerTransformer)

Преобразует данные, делая их более похожими на нормальное распределение:

from sklearn.preprocessing import PowerTransformer
X = np.array([[1.0], [2.0], [3.0], [4.0], [5.0]])

pt = PowerTransformer(method='box-cox')
X_trans = pt.fit_transform(X)

• method='box-cox' — только для положительных значений
• Есть вариант yeo-johnson, если есть нули или отрицательные значения

Полезно, когда:
• Требуется нормальность для моделей
• Данные положительные или симметричные

3️⃣

Робастное масштабирование (RobustScaler)

Центрирует по медиане, масштабирует по интерквартильному размаху (IQR):

from sklearn.preprocessing import RobustScaler
X = np.array([[10], [20], [30], [40], [1000]])

scaler = RobustScaler()
X_trans = scaler.fit_transform(X)

Преимущества:
• Идеально при наличии выбросов
• Не страдает от смещения из-за экстремальных значений
• Альтернатива StandardScaler

4️⃣

Нормализация векторов (Unit Vector Scaling)

Масштабирует каждую строку так, чтобы её длина была равна 1 (L1 или L2-норма):

from sklearn.preprocessing import Normalizer
X = np.array([[1, 2, 3], [4, 5, 6]])

normalizer = Normalizer(norm='l2')
X_trans = normalizer.transform(X)

Когда использовать:
• При работе с векторами признаков
• Для алгоритмов, чувствительных к направлению, а не к масштабу (например, KNN, косинусное сходство)

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤4🔥2😁1

1.84K views06:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение