Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.63K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
😐 Холивар: удалённая работа для дата-сайентистов — проклятие или спасение

Удалёнка стала нормой с Covid, и многие перешли на полный remote. Вроде бы плюсы очевидны: нет потерь времени на дорогу, гибкий график, можно работать из любой точки мира.

Но… у многих заметно вырос уровень социальной тревожности, особенно когда дело доходит до презентаций результатов и командного взаимодействия. Меньше живого общения, меньше «неформальных» разговоров — и кажется, что давление во время редких встреч только усиливается. Сомнения и импостер-синдром подкрадываются чаще.

➡️ Основные проблемы:
🤖 Soft skills — критически важны в работе с командой и заказчиками
🤖 Без живого контакта сложно развивать навыки коммуникации
🤖 Технические успехи не всегда спасают, если не умеешь «продавать» результаты

➡️ Что с этим делать:
🤖 Пытаться больше общаться неформально онлайн
🤖 Использовать тренинги по коммуникациям
🤖 Выходить из зоны комфорта и делать презентации чаще
🤖 Возможно, частично вернуться в офис ради живого взаимодействия

И давайте сразу к главному спору:
❤️ — без живого общения и офиса soft skills у дата-сайентистов деградируют, и это угроза карьере
👍— современные коммуникационные инструменты позволяют развивать навыки и без офиса

Как вы думаете? Что важнее — привычка работать вживую или умение адаптироваться к новым форматам?

Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍196😁2
📦 ZipNN — lossless-компрессия для AI-моделей

ZipNN — это библиотека для сжатия моделей машинного обучения без потерь, оптимизированная для современных AI-пайплайнов. Работает быстро, просто и эффективно.

🔎 Основные фичи:
— Поддержка vLLM, safetensors и HuggingFace
— Модель всегда хранится в сжатом виде на диске
— Распаковка до 80 GB/s, сжатие — до 13 GB/s (по тестам)
— Поддержка FP8, многопоточность на CPU
— Сжатие не влияет на точность модели

🔎Использование

vLLM:
from zipnn import zipnn_safetensors
zipnn_safetensors()

from vllm import LLM
llm = LLM("zipnn/gpt2-ZipNN")


HuggingFace:
from transformers import AutoModelForCausalLM, AutoTokenizer
from zipnn import zipnn_safetensors

zipnn_safetensors()
model = "zipnn/gpt2-ZipNN"
tokenizer = AutoTokenizer.from_pretrained(model)
model = AutoModelForCausalLM.from_pretrained(model, variant="znn")


Установка:
pip install zipnn


🔎 В чём профит:
— Меньше I/O при загрузке моделей
— Быстрая CPU-декомпрессия, меньше нагрузки на GPU
— Поддержка докеризированных пайплайнов (vLLM, sglang и др.)

🔎 Подробнее: https://clc.to/PDJ6gw
🔎 Ссылка на репозиторий: https://clc.to/KfAoNQ

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92❤‍🔥1
🐼 Когда pandas не тянет: ускорение с cuDF

Если вы работаете с pandas, то знаете это ощущение: код летал на маленьких выборках, а теперь на реальных данных всё еле тянется. Скрипт, который раньше занимал секунды, теперь считает минутами.

Что дальше?
Обычно — не самое приятное:
🔹 режете данные (теряя точность)
🔹 разбиваете на чанки
🔹 или задумываетесь о миграции на Spark

Но есть способ проще. Иногда достаточно просто включить GPU — и всё летит.

📈 В этом кейсе — 3 типичных pandas-воркфлоу, которые получили ускорение с cuDF от NVIDIA, почти не меняя код.

➡️ Подробности и примеры — в статье: https://clc.to/iHZ_NA

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95😁2🥱1
🆕 Свежие новости для дата‑сайентистов

🧠 ИИ и исследование моделей
Anthropic автоматизирует аудит Claude — создано три специализированных ИИ-агента.
Scaling Laws для MoE-моделей — введена метрика Efficiency Leverage, описывающая вычислительную эффективность MoE.
Новый архитектурный конкурент Transformers — динамическая архитектура с адаптивной рекурсией на уровне токенов.
GPT получает Study Mode — ChatGPT теперь может обучать студентов пошагово.

⚙️ Новые инструменты и AI-интеграции
NotebookLM теперь с видео — теперь можно создавать видео-саммари по вашим заметкам, дополняя аудио.
Google Earth AI — новый набор моделей и датасетов для прогнозов погоды, наводнений, пожаров и планирования городов.
Copilot Mode в Microsoft Edge — новая AI-фича помогает структурировать работу с вебом.

👍 Опыт других
Перешла из Data Science в AI Engineering — практический переход и подводные камни.
Глубокий технический обзор RAG (Retrieval-Augmented Generation).
7 кругов ада при выборе ML-стека — практический гид.
Синтетические данные: подборка инструментов.
Уменьшение переобучения через работу с данными.
Как запустить нейросеть локально: 4 простых способа.

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2👍1
🤖 Изучаете или хотели изучать искусственный интеллект? Помогите нам с исследованием!

Ищем тех, кто:

🔹 Недавно (в последние полгода) проходил курсы по AI/Data Science.
🔹 Думал пойти учиться, но что-то остановило.

С нас — интересная беседа в Google Meet (до 45 минут) и бонус 1500 рублей на карту за ваше время.

📩 Для участия пишите: @olalabelyaeva
😁3👍1
💻 Топ-вакансий для дата-сайентистов за неделю

Data Scientist / Ведущий специалист по NLP/LLM — от 300 000 ₽, удалёнка

Senior MLE (SE) — от 5000 до 9000 $, удаленно по миру

Lead Data Scientist (RecSys) — от 6 000 до 8 000 $, удалёнка

ML Developer [OctAPI, МТС Веб Сервисы], удалёнка

Data Scientist (Python, Hadoop, MLFlow, ETL) — до 269 000 ₽, удалёнка

Дата-инженер, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
✔️ How to: выбирать метод импутации пропущенных значений

При работе с пропущенными данными важно не просто «заполнить пробелы», а сохранить структуру, вариативность и точность данных.

Вот 3 популярных метода:

Deterministic Regression
Заполняет пропущенные значения точным предсказанием по регрессионной модели.
🏮 Просто и быстро
Игнорирует естественную вариативность
Плохо работает с нелинейными зависимостями

Stochastic Regression
Добавляет шум к регрессионным предсказаниям
🏮 Сохраняет разброс значений
Всё ещё зависит от предположений модели
С трудом улавливает нелинейность

Predictive Mean Matching (PMM)
Подбирает реальное наблюдение из данных, которое ближе всего к предсказанному значению
🏮 Значения выглядят реалистично
🏮 Сохраняет вариативность и структуру
🏮 Отлично подходит для нелинейных данных

📊 На графике:
• Слева — Deterministic Regression: розовые точки строго на линии, игнорируют форму данных
• В центре — Stochastic Regression: немного разброса, но всё равно не отражает настоящую структуру
• Справа — PMM: значения естественно «вписаны» в данные

🎯 Вывод:
Если ваши данные нелинейны и вы хотите сохранить реализм и разброс — PMM будет наилучшим выбором.
Но всегда учитывайте специфику задачи и данных.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍4🔥1
🤔 Зачем вообще понимать, как работает ML?

Сейчас многие просто запускают модельку в sklearn — и радуются точности 0.92.

Вроде всё работает… но почему?
А когда сломается — что делать?


Машинное обучение — это система, которую можно понять.

Если знаешь, что делает градиентный спуск, зачем нужен бустинг и как дерево принимает решения — ты не просто «запускаешь», ты управляешь моделью.

👉 Мы сделали курс, чтобы в это было реально въехать:

— без сложных формул;
— с интуитивными объяснениями;
— от простого к сложному.

Если хочешь перейти от «гуглю код» к «понимаю, как это работает» — ты по адресу!

Стартуем в сентябре — бронируй место на курсе уже сейчас
📱 Работа с API ChatGPT: руководство

В этом кратком руководстве мы разберём всё: от настройки проекта и получения ключа API до отправки запросов к языковым модели и понимания ключевых параметров.

👉 Это идеальный старт для тех, кто хочет интегрировать возможности OpenAI в свои приложения.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍2🔥1