🤔 «Начни сразу с нейросетей — зачем тебе логрегрессия?»
Это один из худших советов для начинающего ML-разработчика. Зрелость — это понимать, где простого достаточно, а не тянуть трансформеры на любую задачу из-за хайпа.
Классика ML — это не допотопная теория, а база (bias/variance, деревья, метрики), без которой не понять Deep Learning.
⚡️ Хотите освоить этот фундамент на реальных задачах? Приходите на наш курс по классическому ML. Только хардкор, только продовые задачи!
📆 Старт — 12 августа.
Для первых 10 участников бонус — специальный лонгрид по теме курса, чтобы вы могли начать разбираться уже сейчас.
🎁 Последний день промокодаEarlybird на скидку 10.000₽.
👉 Не упустите шанс!
Это один из худших советов для начинающего ML-разработчика. Зрелость — это понимать, где простого достаточно, а не тянуть трансформеры на любую задачу из-за хайпа.
Классика ML — это не допотопная теория, а база (bias/variance, деревья, метрики), без которой не понять Deep Learning.
⚡️ Хотите освоить этот фундамент на реальных задачах? Приходите на наш курс по классическому ML. Только хардкор, только продовые задачи!
📆 Старт — 12 августа.
Для первых 10 участников бонус — специальный лонгрид по теме курса, чтобы вы могли начать разбираться уже сейчас.
🎁 Последний день промокода
👉 Не упустите шанс!
🧠 Модели и архитектуры
— Большое сравнение LLM-архитектур — от DeepSeek-V3 до Kimi K2.
— Qwen3-Coder: 480B параметров — открытая модель от Alibaba показывает SoTA-результаты.
— Qwen3-235B-A22B-Thinking-2507 — новая масштабируемая reasoning-модель от Alibaba.
— Gemini 2.5 Flash-Lite теперь доступна всем — быстрая и бюджетная модель от Google.
— GPT‑5 уже скоро — по слухам, OpenAI готовит релиз в августе.
🔬 Новые исследования
— Почему модели становятся «глупее» — исследование от Anthropic показывает, что длинные размышления не всегда полезны.
— Сублиминальное обучение — Anthropic обнаружили, что модели могут бессознательно перенимать «убеждения» от других.
— Новый уровень промт-инжиниринга — управление контекстом LLM становится отдельной дисциплиной.
🧑💻 Индустрия и платформы
— Kaggle запускает Benchmarks — платформа для объективной оценки AI-моделей.
— ChatGPT — 2.5 млрд запросов в день
— Microsoft переманивает инженеров DeepMind — более 20 сотрудников, включая главу Gemini, ушли к Microsoft.
👍 Опыт других
— 15 кейсов применения NLP
— Пайплайн для прогнозирования временных рядов в Яндексе
— KAN против MLP: архитектурное сравнение
— Автоматизация ML-разработки и ускорение вывода моделей в прод
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4🔥3
Forwarded from Библиотека задач по Data Science | тесты, код, задания
🤔9👍1🔥1
🎉 OpenCV исполнилось 25 лет — серьёзная веха для мира компьютерного зрения
Библиотека была выпущена Intel в 2000 году как open source — и с тех пор стала стандартом де-факто.
OpenCV democratized компьютерное зрение: сделала доступной обработку изображений и видео не только крупным лабораториям и корпорациям, но и каждому студенту, разработчику и энтузиасту.
Благодаря OpenCV миллионы людей научились:
— распознавать лица и объекты;
— строить системы трекинга и распознавания движений;
— анализировать кадры в реальном времени;
— автоматизировать обработку изображений и видео в исследованиях и бизнесе.
👉 25 лет спустя — это по-прежнему первая библиотека, которую изучают в CV, и первый инструмент, к которому тянется рука при решении практической задачи.
Поздравляем библиотеку — 🎉
🔗 Блог-пост в честь юбилея: https://clc.to/zEyBLQ
А вы помните, с чего началось ваше знакомство с OpenCV?
Библиотека дата-сайентиста #свежак
Библиотека была выпущена Intel в 2000 году как open source — и с тех пор стала стандартом де-факто.
OpenCV democratized компьютерное зрение: сделала доступной обработку изображений и видео не только крупным лабораториям и корпорациям, но и каждому студенту, разработчику и энтузиасту.
Благодаря OpenCV миллионы людей научились:
— распознавать лица и объекты;
— строить системы трекинга и распознавания движений;
— анализировать кадры в реальном времени;
— автоматизировать обработку изображений и видео в исследованиях и бизнесе.
👉 25 лет спустя — это по-прежнему первая библиотека, которую изучают в CV, и первый инструмент, к которому тянется рука при решении практической задачи.
Поздравляем библиотеку — 🎉
А вы помните, с чего началось ваше знакомство с OpenCV?
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉14❤3👍2👏1
Data Engineer — от 200 000₽, удалёнка
DevOps Engineer — от 800 до 1 500$, удалёнка
Middle Data Scientist/Аналитик по исследованию данных — от 300 000 ₽, удалёнка
Senior Data Scientist (RecSys) — от 350 000 ₽, гибрид (Москва, Санкт-Петербург)
ML/DS-специалист — от 400 000 до 600 000 ₽, гибрид (Москва)
ML-инженер (Рекомендации) — от 180 000 ₽, удалёнка
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👏2😁1
Теперь вы можете запускать marimo-ноутбуки в облаке — без настройки окружения, установки зависимостей и прочих танцев с бубном. Просто заходите на molab.marimo.io и сразу начинайте экспериментировать с Python и SQL.
marimo — это реактивный Python-ноутбук, который уже используют в Cloudflare, Hugging Face, Shopify, OpenAI, BlackRock, и ведущих университетах.
Что умеет molab:
pyproject.toml
, а сами зависимости подтягиваются через lightning-fast менеджер uv
.Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5🔥2
Последний шанс залутать курсы Proglib Academy с выгодой 40% и пожизненным доступом.
До 1 августа действует скидка на курсы по математике для Data Science, алгоритмам и структурам данных, обновлённому Python, frontend-разработке с нуля, основам IT для непрограммистов, базовым моделям ML, а также архитектурам и шаблонам проектирования.
Выбираем и забираем 👈
P.S. Акция не распространяется на курсы «AI-агенты для DS-специалистов» и «ML для старта в Data Science».
До 1 августа действует скидка на курсы по математике для Data Science, алгоритмам и структурам данных, обновлённому Python, frontend-разработке с нуля, основам IT для непрограммистов, базовым моделям ML, а также архитектурам и шаблонам проектирования.
Выбираем и забираем 👈
P.S. Акция не распространяется на курсы «AI-агенты для DS-специалистов» и «ML для старта в Data Science».
😁1
📅 Как быстро создать календарную таблицу в SQL
Для отчетов, анализа или подсчёта дней без продаж — часто требуется таблица с датами. Вместо громоздких решений мы покажем, как быстро и легко создать календарную таблицу на нужный период с помощью всего нескольких строк кода.
📍 Хотите узнать как? Читайте статью: https://proglib.io/sh/5NaAZyTcsx
Библиотека дата-сайентиста #буст
Для отчетов, анализа или подсчёта дней без продаж — часто требуется таблица с датами. Вместо громоздких решений мы покажем, как быстро и легко создать календарную таблицу на нужный период с помощью всего нескольких строк кода.
📍 Хотите узнать как? Читайте статью: https://proglib.io/sh/5NaAZyTcsx
Библиотека дата-сайентиста #буст
❤3👍3😁1
📄 Промпт дня: обработка больших CSV-файлов в Python
Когда размер CSV-файла превышает 1 ГБ, загружать его целиком в память — плохая идея. В таких случаях важно обрабатывать данные построчно, минимизируя потребление памяти.
Промпт:
Советы:
— Используйте
— Обрабатывайте данные по одному чанку или строке.
— Используйте генераторы и избегайте создания лишних копий данных.
📌 Подходит для ETL, логов, данных из продакшна, где важна скорость и устойчивость к объёму.
Библиотека дата-сайентиста #буст
Когда размер CSV-файла превышает 1 ГБ, загружать его целиком в память — плохая идея. В таких случаях важно обрабатывать данные построчно, минимизируя потребление памяти.
Промпт:
Напиши эффективный и минимально ресурсоёмкий код на Python для обработки большого CSV-файла размером более 1 ГБ без полной загрузки в память.
Цель (опишите дополнительные цели):
— Посчитать общее количество строк
— Вычислить сумму по числовому столбцу price
Уточнения (дополните важной информацией):
— Используй стандартную библиотеку csv или pandas.read_csv(..., chunksize=...)
— Избегай создания лишних списков или структур — обработка должна быть потоковой
— Добавь краткое логирование прогресса (например, каждые 100k строк)
Советы:
— Используйте
csv.reader
или pandas.read_csv(..., chunksize=...)
.— Обрабатывайте данные по одному чанку или строке.
— Используйте генераторы и избегайте создания лишних копий данных.
📌 Подходит для ETL, логов, данных из продакшна, где важна скорость и устойчивость к объёму.
Библиотека дата-сайентиста #буст
👍7😁3❤1
📊 Как понять центральную предельную теорему (CLT)
Центральная предельная теорема (CLT) — один из краеугольных камней статистики. Она утверждает, что распределение средних значений выборок стремится к нормальному (гауссовскому) распределению, даже если изначальная совокупность распределена иначе — при условии, что выборка достаточно большая.
🔳 CLT лежит в основе таких инструментов, как доверительные интервалы и проверка гипотез, и позволяет делать выводы о всей популяции на основе выборки.
🔛 Благодаря CLT мы можем:
— Оценивать параметры генеральной совокупности по выборке.
— Строить доверительные интервалы.
— Применять z-тесты и t-тесты даже к шумным данным.
— Упрощать анализ сложных, нестандартных распределений.
🔛 Но у теоремы есть ограничения:
— Объем выборки: должен быть достаточно большим.
— Независимость: данные в выборке должны быть независимы.
— Одинаковое распределение: классическая CLT предполагает, что выборки взяты из одинаково распределенной совокупности (хотя обобщенные версии снимают это ограничение).
🔛 Тем не менее, CLT остаётся крайне полезной:
— Универсальность: применима к широкому спектру распределений.
— Прогнозируемость: повышает точность оценок при большом объеме данных.
— Простота: позволяет использовать свойства нормального распределения даже для сложных задач.
🔳 CLT применяется повсеместно — в A/B тестировании, в аналитике, при оценке рисков, построении моделей машинного обучения и многом другом.
Библиотека дата-сайентиста #буст
Центральная предельная теорема (CLT) — один из краеугольных камней статистики. Она утверждает, что распределение средних значений выборок стремится к нормальному (гауссовскому) распределению, даже если изначальная совокупность распределена иначе — при условии, что выборка достаточно большая.
— Оценивать параметры генеральной совокупности по выборке.
— Строить доверительные интервалы.
— Применять z-тесты и t-тесты даже к шумным данным.
— Упрощать анализ сложных, нестандартных распределений.
— Объем выборки: должен быть достаточно большим.
— Независимость: данные в выборке должны быть независимы.
— Одинаковое распределение: классическая CLT предполагает, что выборки взяты из одинаково распределенной совокупности (хотя обобщенные версии снимают это ограничение).
— Универсальность: применима к широкому спектру распределений.
— Прогнозируемость: повышает точность оценок при большом объеме данных.
— Простота: позволяет использовать свойства нормального распределения даже для сложных задач.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥2❤🔥1
😐 Холивар: удалённая работа для дата-сайентистов — проклятие или спасение
Удалёнка стала нормой с Covid, и многие перешли на полный remote. Вроде бы плюсы очевидны: нет потерь времени на дорогу, гибкий график, можно работать из любой точки мира.
Но… у многих заметно вырос уровень социальной тревожности, особенно когда дело доходит до презентаций результатов и командного взаимодействия. Меньше живого общения, меньше «неформальных» разговоров — и кажется, что давление во время редких встреч только усиливается. Сомнения и импостер-синдром подкрадываются чаще.
➡️ Основные проблемы:
🤖 Soft skills — критически важны в работе с командой и заказчиками
🤖 Без живого контакта сложно развивать навыки коммуникации
🤖 Технические успехи не всегда спасают, если не умеешь «продавать» результаты
➡️ Что с этим делать:
🤖 Пытаться больше общаться неформально онлайн
🤖 Использовать тренинги по коммуникациям
🤖 Выходить из зоны комфорта и делать презентации чаще
🤖 Возможно, частично вернуться в офис ради живого взаимодействия
И давайте сразу к главному спору:
❤️ — без живого общения и офиса soft skills у дата-сайентистов деградируют, и это угроза карьере
👍— современные коммуникационные инструменты позволяют развивать навыки и без офиса
Как вы думаете? Что важнее — привычка работать вживую или умение адаптироваться к новым форматам?
Библиотека дата-сайентиста #междусобойчик
Удалёнка стала нормой с Covid, и многие перешли на полный remote. Вроде бы плюсы очевидны: нет потерь времени на дорогу, гибкий график, можно работать из любой точки мира.
Но… у многих заметно вырос уровень социальной тревожности, особенно когда дело доходит до презентаций результатов и командного взаимодействия. Меньше живого общения, меньше «неформальных» разговоров — и кажется, что давление во время редких встреч только усиливается. Сомнения и импостер-синдром подкрадываются чаще.
И давайте сразу к главному спору:
❤️ — без живого общения и офиса soft skills у дата-сайентистов деградируют, и это угроза карьере
👍— современные коммуникационные инструменты позволяют развивать навыки и без офиса
Как вы думаете? Что важнее — привычка работать вживую или умение адаптироваться к новым форматам?
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤6😁2
📦 ZipNN — lossless-компрессия для AI-моделей
ZipNN — это библиотека для сжатия моделей машинного обучения без потерь, оптимизированная для современных AI-пайплайнов. Работает быстро, просто и эффективно.
🔎 Основные фичи:
— Поддержка vLLM, safetensors и HuggingFace
— Модель всегда хранится в сжатом виде на диске
— Распаковка до 80 GB/s, сжатие — до 13 GB/s (по тестам)
— Поддержка FP8, многопоточность на CPU
— Сжатие не влияет на точность модели
🔎 Использование
vLLM:
HuggingFace:
Установка:
🔎 В чём профит:
— Меньше I/O при загрузке моделей
— Быстрая CPU-декомпрессия, меньше нагрузки на GPU
— Поддержка докеризированных пайплайнов (vLLM, sglang и др.)
🔎 Подробнее: https://clc.to/PDJ6gw
🔎 Ссылка на репозиторий: https://clc.to/KfAoNQ
Библиотека дата-сайентиста #буст
ZipNN — это библиотека для сжатия моделей машинного обучения без потерь, оптимизированная для современных AI-пайплайнов. Работает быстро, просто и эффективно.
— Поддержка vLLM, safetensors и HuggingFace
— Модель всегда хранится в сжатом виде на диске
— Распаковка до 80 GB/s, сжатие — до 13 GB/s (по тестам)
— Поддержка FP8, многопоточность на CPU
— Сжатие не влияет на точность модели
vLLM:
from zipnn import zipnn_safetensors
zipnn_safetensors()
from vllm import LLM
llm = LLM("zipnn/gpt2-ZipNN")
HuggingFace:
from transformers import AutoModelForCausalLM, AutoTokenizer
from zipnn import zipnn_safetensors
zipnn_safetensors()
model = "zipnn/gpt2-ZipNN"
tokenizer = AutoTokenizer.from_pretrained(model)
model = AutoModelForCausalLM.from_pretrained(model, variant="znn")
Установка:
pip install zipnn
— Меньше I/O при загрузке моделей
— Быстрая CPU-декомпрессия, меньше нагрузки на GPU
— Поддержка докеризированных пайплайнов (vLLM, sglang и др.)
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2❤🔥1
🐼 Когда pandas не тянет: ускорение с cuDF
Если вы работаете с pandas, то знаете это ощущение: код летал на маленьких выборках, а теперь на реальных данных всё еле тянется. Скрипт, который раньше занимал секунды, теперь считает минутами.
Что дальше?
Обычно — не самое приятное:
🔹 режете данные (теряя точность)
🔹 разбиваете на чанки
🔹 или задумываетесь о миграции на Spark
Но есть способ проще. Иногда достаточно просто включить GPU — и всё летит.
📈 В этом кейсе — 3 типичных pandas-воркфлоу, которые получили ускорение с cuDF от NVIDIA, почти не меняя код.
➡️ Подробности и примеры — в статье: https://clc.to/iHZ_NA
Библиотека дата-сайентиста #буст
Если вы работаете с pandas, то знаете это ощущение: код летал на маленьких выборках, а теперь на реальных данных всё еле тянется. Скрипт, который раньше занимал секунды, теперь считает минутами.
Что дальше?
Обычно — не самое приятное:
🔹 режете данные (теряя точность)
🔹 разбиваете на чанки
🔹 или задумываетесь о миграции на Spark
Но есть способ проще. Иногда достаточно просто включить GPU — и всё летит.
📈 В этом кейсе — 3 типичных pandas-воркфлоу, которые получили ускорение с cuDF от NVIDIA, почти не меняя код.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤5😁2🥱1
Правильный ответ:
Anonymous Quiz
26%
VAE (Variational Autoencoder)
15%
Transformer
37%
GAN (Generative Adversarial Network)
22%
Diffusion Model
🥰2👍1
🧠 ИИ и исследование моделей
— Anthropic автоматизирует аудит Claude — создано три специализированных ИИ-агента.
— Scaling Laws для MoE-моделей — введена метрика Efficiency Leverage, описывающая вычислительную эффективность MoE.
— Новый архитектурный конкурент Transformers — динамическая архитектура с адаптивной рекурсией на уровне токенов.
— GPT получает Study Mode — ChatGPT теперь может обучать студентов пошагово.
⚙️ Новые инструменты и AI-интеграции
— NotebookLM теперь с видео — теперь можно создавать видео-саммари по вашим заметкам, дополняя аудио.
— Google Earth AI — новый набор моделей и датасетов для прогнозов погоды, наводнений, пожаров и планирования городов.
— Copilot Mode в Microsoft Edge — новая AI-фича помогает структурировать работу с вебом.
👍 Опыт других
— Перешла из Data Science в AI Engineering — практический переход и подводные камни.
— Глубокий технический обзор RAG (Retrieval-Augmented Generation).
— 7 кругов ада при выборе ML-стека — практический гид.
— Синтетические данные: подборка инструментов.
— Уменьшение переобучения через работу с данными.
— Как запустить нейросеть локально: 4 простых способа.
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥2👍1