Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.43K photos
124 videos
64 files
4.89K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🆕 Свежие новости для дата‑сайентистов

OpenAI выпустила гайд по эффективному использованию GPT-5.1 разбор структуры промптов, инструментов и экспериментального мышления.

Google представила Gemini 3 самый продвинутый мультимодальный и агентный ИИ.

Новый Kaggle: Santa 2025 оптимизация упаковки ёлочек.

Google представила Nano Banana Pro топовый image-модель нового поколения.

alphaXiv привлекает $7M, чтобы стать GitHub для AI-исследований платформа объединяет исследователей и инженеров: публикация новых работ, быстрый переход от статьи к продуктовой фиче.

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
📊 А правда, что математика в Data Science не нужна?

Нет. Без неё вы не пройдёте собес и не поймёте, почему модель ведёт себя странно. Линал, матан и вероятности — это база, без которой работа в ML превращается в угадайку.

🔥 Эту базу можно собрать за 2 месяца на экспресс-курсе «Математика для Data Science».

👩‍🏫 Кто ведёт курс:

Мария Тихонова
PhD, руководитель исследовательского направления в SberAI, доцент ВШЭ.

→ Диана Миронидис
Преподаватель ВШЭ, автор научпоп-материалов по математике для блога МТС.

→ Ксения Кондаурова
Преподаватель преподаватель T-Банка, автор курсов ЦУ и Edutoria.

→ Маргарита Бурова
Академический руководитель программ по аналитике и ML, Wildberries & Russ.

🎁 Что сейчас доступно:

→ бесплатный тест, чтобы узнать свой уровень математики;
→ скидка 40% до 30 ноября;
→ если оплатить до конца ноября, курс «Базовая математика» в подарок.

👉 Пишите менеджеру, если хотите попасть в поток
🎉1🙏1
Как играм зарабатывать в текущих условиях?

Достичь точки прибыльности становится всё сложнее: трафик дорожает, а комиссии сторов съедают треть выручки. Чтобы не терять деньги, разработчики ищут способы взаимодействовать с игроками напрямую.

Проверенные решения и стратегии для D2C-модели публикуются в канале D2C Game Changers. Это база знаний для тех, кто хочет снизить расходы и повысить эффективность монетизации.
2👍1🤔1😢1
⚡️ Шпаргалка: Bagging vs Boosting

👉 Bagging

Идея: несколько независимых моделей → усреднение.
Цель: снизить дисперсию (variance) и уменьшить переобучение.

Как работает:
✳️ делаем много бутстрап-выборок
✳️ обучаем модели параллельно
✳️ объединяем результаты (среднее/голосование)

Примеры:
✳️ RandomForestClassifier
✳️ RandomForestRegressor
✳️ BaggingClassifier
✳️ BaggingRegressor

👉 Boosting

Идея: модели обучаются последовательно → каждая исправляет ошибки предыдущей.
Цель: снизить смещение (bias) и повысить точность.

Как работает:
✳️ задаём базового слабого ученика
✳️ увеличиваем вес «трудных» объектов
✳️ комбинируем множество слабых моделей в одну сильную

Примеры:
✳️ GradientBoosting
✳️ XGBoost
✳️ CatBoost
✳️ LightGBM
✳️ AdaBoost

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3👏1
🧠 Reasoning LLMs: открытый план того, как строятся модели вроде GPT-o1 и DeepSeek-R1

Фактор, который делает современные модели такими сильными, — это reasoning, умение рассуждать пошагово.

Но архитектуры GPT-o1, DeepSeek-R1 и других frontier-LLM остаются закрытыми или раскрыты только поверхностно.

Если кто-то захочет обучить свою reasoning-модель — ему придётся всё изобретать заново, тратя время и деньги.

🎉 Новая работа “Reasoning Language Models: A Blueprint” меняет ситуацию.

Что сделали авторы:
— Разбили сложную архитектуру reasoning-LLM на модули и понятные блоки.
— Описали framework, который объясняет внутреннюю логику таких моделей.
— Выложили рабочую реализацию, чтобы можно было экспериментировать и обучать собственные reasoning-модели.

🔗 Ссылка на статью

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🙏21👍1
🎄 Скоро Новый год, а ты всё ещё не в бигтехе?

Если твой путь лежит в ML, DS или AI, то одна вещь решает всё: математика. Без неё — хоть три проекта сделай, хоть сотню туториалов посмотри — на собесе тебя всё равно вернут на «а что такое градиент?»

🔥 Экспресс-курс «Математика для Data Science» — 8 недель, чтобы закрыть базу раз и навсегда.

Что внутри:

🔘 живые вебинары, где можно задавать вопросы экспертам
🔘 записи лекций + доступ к материалам
🔘 практические задания на Python и финальный мини-проект с фидбеком
🔘 программа обновлена в ноябре 2025
🔘 2 месяца только нужного — без воды
🔘 достаточно школьной математики и базового Python

🎁 Бонусы ноября:

→ 40% скидка до 30 ноября
→ при оплате до конца месяца — курс «Базовая математика» в подарок
→ бесплатный тест, чтобы узнать свой уровень математики

👉 Хочу стартовать
🥰1😁1
🎯 GNN: понятное вступление в Graph Neural Networks

Если вы хотите разобраться, как устроены Graph Neural Networks (GNNs), эта статья — отличный старт.

Автор простыми словами объясняет ключевые идеи без лишней магии и перегрузки формулами.

Что вы узнаете:
— Что такое графы: узлы, связи и способы представления графовых данных в машинном обучении.
— Как работают GNN: механизм message passing, при котором узлы обмениваются информацией и обновляют свои представления.
— Интуицию модели: как GNN учатся структуре графа, отношениям и контексту.

✔️ Кратко, наглядно и идеально подходит тем, кто хочет понять основы GNN с нуля.

🔗 Ссылка на статью

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1👏1
🔥 На рынке сейчас математика — снова король: AI растёт быстрее, чем вузы успевают обновлять программы. Мы же перестраиваем курс под индустрию мгновенно.

Хочешь наконец разобраться в математике для DS, а не гуглить «что такое градиент» перед собесом?

Новый курс «Математика для разработки AI-моделей» — это 8 недель плотной подготовки, свежая программа и только актуальные темы, которые реально нужны в ML.

Что в курсе:

→ линал, производные, градиенты, вероятности, статистика;
→ практика на Python и 3 большие ДЗ;
→ живые вебинары + разбор ваших вопросов;
→ финальный мини-проект, который можно положить в портфолио;
→ доступ к материалам и чат с экспертами.

Для старта нужны только школьная математика и базовый Python.

🎁 Бонусы ноября:

— скидка 40% до 30 ноября;
— «Базовая математика» в подарок при оплате;
→ бесплатный тест уровня математики.

👉 Записывайся на курс
1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Митап RecSys в Питере — must-have для всех, кто создаёт интеллектуальные рекомендательные системы 🧑‍💻

1 декабря встречаемся в инновационном пространстве — Технохабе Сбера (ул. Уральская, д. 1, Литера Ч) — и на стыке науки и бизнеса обсуждаем, как уже сейчас AI меняет подход к персонализации.

Вместе с Дмитрием Бугайченко — CDS B2C Сбера — и топовыми экспертами индустрии мы погрузимся в актуальные тренды и технологии RecSys, познакомимся с новыми рекомендациями Самоката и универсальными рекомендациями Okko, а также узнаем о построении рекомендателя в платёжных сервисах ЮMoney.

Регистрируйтесь, пока места ещё есть — и готовьтесь к погружению в мир рекомендательных систем!
🥰2🎉2
🖼️ Glyph: новый способ масштабировать контекстные окна в LLM

Исследователи представили Glyph — фреймворк, который расширяет контекст не за счёт увеличения количества токенов, а через визуально-текстовую компрессию.

Вместо передачи длинного текста в LLM, Glyph рендерит текст в изображения и подаёт их в vision-language модели (VLM).

Так задача длинного контекста превращается в мультимодальную — при этом:
🔛 резко снижаются вычислительные затраты и память,
🔛 семантика сохраняется,
🔛 контекст масштабируется куда дальше, чем у обычных LLM.

На бенчмарках LongBench и MRCR Glyph показывает качество, сопоставимое с текстовыми моделями, при этом достигая существенной компрессии входа и ускорения инференса даже на последовательностях в 128K токенов.

🔛 Репозиторий

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2🙏2👍1🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Хочешь строить свои AI-модели, а не просто запускать чужие?

Proglib.academy открывает курс «Математика для разработки AI-моделей» — программу, которая превращает понимание ML из «черного ящика» в осознанную инженерную работу.

📌 Почему без математики в AI никуда:

→ Чтобы пройти собеседование. Это первый фильтр: линал, матстат, оптимизация — спрашивают везде.
→ Чтобы понимать процесс изнутри. Инженер AI должен понимать, почему и как работает модель, а не просто жать fit().

🎓 Что будет на курсе:

→ 3 практических задания на Python + финальный проект с разбором от специалистов;
→ программа обновлена в ноябре 2025;
→ за 2 месяца пройдёшь весь фундамент, нужный для работы с моделями;
→ преподаватели — гуру математики, методисты и исследователи из ВШЭ и индустрии.

🎁 Бонусы ноября:

— 40% скидка;
— получаешь курс «Школьная математика» в подарок;
— короткий тест и узнать свой уровень.

🔗 Подробнее о курсе
🥰2🔥1🎉1
Какой датасет считается одним из первых, созданных специально для ML-исследований?
Anonymous Quiz
11%
CIFAR-10
49%
MNIST
37%
Iris Dataset
4%
COCO
👍2🔥21🥰1😢1
🔍 Путешествие токена внутри трансформера: что происходит на самом деле

Как именно LLM превращает текст в предсказание следующего токена?

Краткое руководство по внутренней анатомии трансформера:

1️⃣ Подготовка входа
• Токенизация — разбивает текст на токены.
• Эмбеддинги — каждому токену назначается вектор с его смыслом.
• Позиционное кодирование — модель узнаёт, где токен стоит в последовательности.

2️⃣ Глубины трансформера
• Многоголовое внимание — каждый токен смотрит на другие и собирает контекст.
• Feed-Forward сети — поштучно уточняют представление каждого токена.

Каждый слой постепенно делает представления всё более абстрактными и умными.

3️⃣ Финальный шаг
Представление последнего токена проходит через линейный слой → получаются логиты → softmax превращает их в вероятности следующего токена.

Так модель решает, какое слово (или символ) сгенерировать дальше.

🔥 Отличная короткая, но полезная статья

🤌 Бонусы для подписчиков:
Скидка 40% на все курсы Академии
Розыгрыш Apple MacBook
Бесплатный тест на знание математики

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3😢1
🆕 Свежие новости для дата‑сайентистов

SmolVLM2Hugging Face выпустила SmolVLM2 — ультракомпактную видеомодель, работающую прямо на ноутбуках и телефонах без серверов.

RAGSysCrossing Minds представила движок, который обучает LLM на лету через пользовательский фидбэк. Можно улучшать точность модели в проде без сложного пайплайна.

MetaGPTAI-роли (PM, архитектор, инженер) автоматически генерируют: требования, API, документацию, аналитику и архитектуру. Новый стандарт для AI-разработки.

Google Cloud запускает первые инстансы на Blackwell GB200 до 4× быстрее обучения, полноценная оптимизация под LLM, большие мультимодели и высокую параллельность. A4 — для general AI workloads.

OpenAI представила GPT-4.5 (Orion) — модель стала лучше следовать намерению пользователя, заметно уменьшила галлюцинации, улучшилась в коде.

Почему LLM врут так убедительно — разбор механизмов галлюцинаций: распределения вероятностей, выбор токенов, отсутствие проверяемых мировых моделей.

Карьерный гайд: как стать NLP Middle за 6 месяцев — путеводитель по стеку, навыкам, проектам, математике и ML-инструментам — очень практичный план роста.

🤌 Бонусы для подписчиков:
Скидка 40% на все курсы Академии
Розыгрыш Apple MacBook
Бесплатный тест на знание математики

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1🙏1
📘 4 декабря стартует набор на курс «Математика для разработки AI-моделей»

Если вы работаете с моделями или хотите перейти в DS/ML, декабрь — идеальный момент закрыть фундаментальные пробелы.

На курсе вы разберёте ключевые разделы, которые лежат в основе современных AI-моделей: линейная алгебра, анализ, оптимизация, математический анализ, вероятности, статистика. Всё через практику в Python.

В программе живые занятия с экспертами AI-индустрии (SberAI, ВШЭ, WB&Russ), разбор реальных задач, квизы и финальный проект.

🌐 Формат: онлайн + доступ к записям

🎁 Бонусы: курс «Школьная математика» в подарок, бесплатный тест по математике

После лекций будет разбор ваших решений и возможность задать вопросы преподавателям.

👉 Записаться на курс
2
This media is not supported in your browser
VIEW IN TELEGRAM
↪️ Индуктивное смещение (inductive bias) в CNN: что это и почему оно важно

Когда мы говорим об индуктивном смещении в сверточных нейросетях, речь идёт об архитектурных предположениях, которые модель делает заранее — ещё до обучения.

Эти встроенные «убеждения» определяют, как именно сеть ищет закономерности в изображении, и от этого сильно зависит её эффективность.

CNN предполагает, что:
1. Близкие пиксели связаны друг с другом.
2. Полезные признаки (края, текстуры) локальны и появляются в небольших областях.
3. Один и тот же паттерн может возникать в любой части изображения.

Отсюда появляются:
➡️ маленькие свёрточные фильтры,
➡️ скользящее окно по всему изображению,
➡️ разделение весов (weight sharing) — один и тот же фильтр применяется везде.

То есть CNN как бы заранее знает: «картинки имеют структуру, и одинаковые признаки встречаются в разных местах». Модели не нужно заново «открывать» эту закономерность — она встроена в архитектуру.

👍 Когда это хорошо

Когда данные действительно подчиняются этим свойствам — а в естественных изображениях это именно так.

Плюсы:
➡️ меньше параметров → проще и быстрее обучение;
➡️ лучшее обобщение на малых датасетах;
➡️ естественное формирование иерархий признаков (края → формы → объекты).

Поэтому CNN почти 10 лет были королями компьютерного зрения: ImageNet, медицинские снимки, промышленные задачи — везде, где важны локальные визуальные паттерны.

👎 Когда это плохо

Когда структура данных не соответствует этим предположениям.

CNN плохо справляется, если:
➡️ важны дальние зависимости, а не локальный контекст;
➡️ пространственная структура нестабильна;
➡️ задача требует глобального, а не локального анализа;
➡️ нужно понимать отношения между далеко расположенными частями изображения.

Именно поэтому на больших и сложных задачах (Vision Transformers, SAM, CLIP и др.) CNN стали уступать трансформерам — внимание (attention) не ограничено локальными окнами и может связывать любые области изображения.

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2😢1🎉1🙏1