Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.43K photos
124 videos
64 files
4.89K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🎯 GNN: понятное вступление в Graph Neural Networks

Если вы хотите разобраться, как устроены Graph Neural Networks (GNNs), эта статья — отличный старт.

Автор простыми словами объясняет ключевые идеи без лишней магии и перегрузки формулами.

Что вы узнаете:
— Что такое графы: узлы, связи и способы представления графовых данных в машинном обучении.
— Как работают GNN: механизм message passing, при котором узлы обмениваются информацией и обновляют свои представления.
— Интуицию модели: как GNN учатся структуре графа, отношениям и контексту.

✔️ Кратко, наглядно и идеально подходит тем, кто хочет понять основы GNN с нуля.

🔗 Ссылка на статью

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1👏1
🔥 На рынке сейчас математика — снова король: AI растёт быстрее, чем вузы успевают обновлять программы. Мы же перестраиваем курс под индустрию мгновенно.

Хочешь наконец разобраться в математике для DS, а не гуглить «что такое градиент» перед собесом?

Новый курс «Математика для разработки AI-моделей» — это 8 недель плотной подготовки, свежая программа и только актуальные темы, которые реально нужны в ML.

Что в курсе:

→ линал, производные, градиенты, вероятности, статистика;
→ практика на Python и 3 большие ДЗ;
→ живые вебинары + разбор ваших вопросов;
→ финальный мини-проект, который можно положить в портфолио;
→ доступ к материалам и чат с экспертами.

Для старта нужны только школьная математика и базовый Python.

🎁 Бонусы ноября:

— скидка 40% до 30 ноября;
— «Базовая математика» в подарок при оплате;
→ бесплатный тест уровня математики.

👉 Записывайся на курс
1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Митап RecSys в Питере — must-have для всех, кто создаёт интеллектуальные рекомендательные системы 🧑‍💻

1 декабря встречаемся в инновационном пространстве — Технохабе Сбера (ул. Уральская, д. 1, Литера Ч) — и на стыке науки и бизнеса обсуждаем, как уже сейчас AI меняет подход к персонализации.

Вместе с Дмитрием Бугайченко — CDS B2C Сбера — и топовыми экспертами индустрии мы погрузимся в актуальные тренды и технологии RecSys, познакомимся с новыми рекомендациями Самоката и универсальными рекомендациями Okko, а также узнаем о построении рекомендателя в платёжных сервисах ЮMoney.

Регистрируйтесь, пока места ещё есть — и готовьтесь к погружению в мир рекомендательных систем!
🥰2🎉2
🖼️ Glyph: новый способ масштабировать контекстные окна в LLM

Исследователи представили Glyph — фреймворк, который расширяет контекст не за счёт увеличения количества токенов, а через визуально-текстовую компрессию.

Вместо передачи длинного текста в LLM, Glyph рендерит текст в изображения и подаёт их в vision-language модели (VLM).

Так задача длинного контекста превращается в мультимодальную — при этом:
🔛 резко снижаются вычислительные затраты и память,
🔛 семантика сохраняется,
🔛 контекст масштабируется куда дальше, чем у обычных LLM.

На бенчмарках LongBench и MRCR Glyph показывает качество, сопоставимое с текстовыми моделями, при этом достигая существенной компрессии входа и ускорения инференса даже на последовательностях в 128K токенов.

🔛 Репозиторий

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2🙏2👍1🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Хочешь строить свои AI-модели, а не просто запускать чужие?

Proglib.academy открывает курс «Математика для разработки AI-моделей» — программу, которая превращает понимание ML из «черного ящика» в осознанную инженерную работу.

📌 Почему без математики в AI никуда:

→ Чтобы пройти собеседование. Это первый фильтр: линал, матстат, оптимизация — спрашивают везде.
→ Чтобы понимать процесс изнутри. Инженер AI должен понимать, почему и как работает модель, а не просто жать fit().

🎓 Что будет на курсе:

→ 3 практических задания на Python + финальный проект с разбором от специалистов;
→ программа обновлена в ноябре 2025;
→ за 2 месяца пройдёшь весь фундамент, нужный для работы с моделями;
→ преподаватели — гуру математики, методисты и исследователи из ВШЭ и индустрии.

🎁 Бонусы ноября:

— 40% скидка;
— получаешь курс «Школьная математика» в подарок;
— короткий тест и узнать свой уровень.

🔗 Подробнее о курсе
🥰2🔥1🎉1
Какой датасет считается одним из первых, созданных специально для ML-исследований?
Anonymous Quiz
11%
CIFAR-10
49%
MNIST
37%
Iris Dataset
4%
COCO
👍2🔥21🥰1😢1
🔍 Путешествие токена внутри трансформера: что происходит на самом деле

Как именно LLM превращает текст в предсказание следующего токена?

Краткое руководство по внутренней анатомии трансформера:

1️⃣ Подготовка входа
• Токенизация — разбивает текст на токены.
• Эмбеддинги — каждому токену назначается вектор с его смыслом.
• Позиционное кодирование — модель узнаёт, где токен стоит в последовательности.

2️⃣ Глубины трансформера
• Многоголовое внимание — каждый токен смотрит на другие и собирает контекст.
• Feed-Forward сети — поштучно уточняют представление каждого токена.

Каждый слой постепенно делает представления всё более абстрактными и умными.

3️⃣ Финальный шаг
Представление последнего токена проходит через линейный слой → получаются логиты → softmax превращает их в вероятности следующего токена.

Так модель решает, какое слово (или символ) сгенерировать дальше.

🔥 Отличная короткая, но полезная статья

🤌 Бонусы для подписчиков:
Скидка 40% на все курсы Академии
Розыгрыш Apple MacBook
Бесплатный тест на знание математики

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3😢1
🆕 Свежие новости для дата‑сайентистов

SmolVLM2Hugging Face выпустила SmolVLM2 — ультракомпактную видеомодель, работающую прямо на ноутбуках и телефонах без серверов.

RAGSysCrossing Minds представила движок, который обучает LLM на лету через пользовательский фидбэк. Можно улучшать точность модели в проде без сложного пайплайна.

MetaGPTAI-роли (PM, архитектор, инженер) автоматически генерируют: требования, API, документацию, аналитику и архитектуру. Новый стандарт для AI-разработки.

Google Cloud запускает первые инстансы на Blackwell GB200 до 4× быстрее обучения, полноценная оптимизация под LLM, большие мультимодели и высокую параллельность. A4 — для general AI workloads.

OpenAI представила GPT-4.5 (Orion) — модель стала лучше следовать намерению пользователя, заметно уменьшила галлюцинации, улучшилась в коде.

Почему LLM врут так убедительно — разбор механизмов галлюцинаций: распределения вероятностей, выбор токенов, отсутствие проверяемых мировых моделей.

Карьерный гайд: как стать NLP Middle за 6 месяцев — путеводитель по стеку, навыкам, проектам, математике и ML-инструментам — очень практичный план роста.

🤌 Бонусы для подписчиков:
Скидка 40% на все курсы Академии
Розыгрыш Apple MacBook
Бесплатный тест на знание математики

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1🙏1
📘 4 декабря стартует набор на курс «Математика для разработки AI-моделей»

Если вы работаете с моделями или хотите перейти в DS/ML, декабрь — идеальный момент закрыть фундаментальные пробелы.

На курсе вы разберёте ключевые разделы, которые лежат в основе современных AI-моделей: линейная алгебра, анализ, оптимизация, математический анализ, вероятности, статистика. Всё через практику в Python.

В программе живые занятия с экспертами AI-индустрии (SberAI, ВШЭ, WB&Russ), разбор реальных задач, квизы и финальный проект.

🌐 Формат: онлайн + доступ к записям

🎁 Бонусы: курс «Школьная математика» в подарок, бесплатный тест по математике

После лекций будет разбор ваших решений и возможность задать вопросы преподавателям.

👉 Записаться на курс
2
This media is not supported in your browser
VIEW IN TELEGRAM
↪️ Индуктивное смещение (inductive bias) в CNN: что это и почему оно важно

Когда мы говорим об индуктивном смещении в сверточных нейросетях, речь идёт об архитектурных предположениях, которые модель делает заранее — ещё до обучения.

Эти встроенные «убеждения» определяют, как именно сеть ищет закономерности в изображении, и от этого сильно зависит её эффективность.

CNN предполагает, что:
1. Близкие пиксели связаны друг с другом.
2. Полезные признаки (края, текстуры) локальны и появляются в небольших областях.
3. Один и тот же паттерн может возникать в любой части изображения.

Отсюда появляются:
➡️ маленькие свёрточные фильтры,
➡️ скользящее окно по всему изображению,
➡️ разделение весов (weight sharing) — один и тот же фильтр применяется везде.

То есть CNN как бы заранее знает: «картинки имеют структуру, и одинаковые признаки встречаются в разных местах». Модели не нужно заново «открывать» эту закономерность — она встроена в архитектуру.

👍 Когда это хорошо

Когда данные действительно подчиняются этим свойствам — а в естественных изображениях это именно так.

Плюсы:
➡️ меньше параметров → проще и быстрее обучение;
➡️ лучшее обобщение на малых датасетах;
➡️ естественное формирование иерархий признаков (края → формы → объекты).

Поэтому CNN почти 10 лет были королями компьютерного зрения: ImageNet, медицинские снимки, промышленные задачи — везде, где важны локальные визуальные паттерны.

👎 Когда это плохо

Когда структура данных не соответствует этим предположениям.

CNN плохо справляется, если:
➡️ важны дальние зависимости, а не локальный контекст;
➡️ пространственная структура нестабильна;
➡️ задача требует глобального, а не локального анализа;
➡️ нужно понимать отношения между далеко расположенными частями изображения.

Именно поэтому на больших и сложных задачах (Vision Transformers, SAM, CLIP и др.) CNN стали уступать трансформерам — внимание (attention) не ограничено локальными окнами и может связывать любые области изображения.

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2😢1🎉1🙏1
✔️ Как использовать простые Data Contracts в Python

В пятницу всё работает идеально. В понедельник: “Pipeline failed”.

Часто виновато Schema Drift:
— колонку user_id сделали строкой вместо int,
price стал отрицательным,
created_at внезапно превратился в createdAt.

Чтобы не гадать в логах, нужны data contracts — формальные правила, каким должен быть набор данных.

И самое приятное: не нужен SaaS за $$$.
Достаточно Pandera — лёгкой open-source библиотеки для валидации DataFrame.

Используется почти как Pydantic, но для DataFrame:
pip install pandera


✔️ Пример: поток маркетинговых лидов

Ожидаем:
id: int, уникальный
email: строка, валидный email
signup_date: datetime
lead_score: float от 0.0 до 1.0

Получаем:
— сломанные email
— неверные границы
— строки вместо дат
— потенциальные дубликаты

Шаг 1: Определяем Data Contract:
import pandera as pa
from pandera.typing import Series
import pandas as pd

class LeadsContract(pa.SchemaModel):
id: Series[int] = pa.Field(unique=True, ge=0)
email: Series[str] = pa.Field(str_matches=r"[^@]+@[^@]+\.[^@]+")
signup_date: Series[pd.Timestamp] = pa.Field(coerce=True)
lead_score: Series[float] = pa.Field(ge=0.0, le=1.0)

class Config:
strict = True # нельзя лишние или пропавшие колонки


Шаг 2: Применяем контракт

Используем ленивую валидацию — находит все ошибки, а не только первую:
try:
validated_df = LeadsContract.validate(df, lazy=True)
print("Data passed validation!")

except pa.errors.SchemaErrors as err:
print("Data Contract Breached!")
print(err.failure_cases[['column', 'check', 'failure_case']])


Вывод при ошибках:
Data Contract Breached!
Total errors found: 3

column check failure_case
email str_matches INVALID_EMAIL
lead_score <= 1.0 1.5
lead_score >= 0.0 -0.1


Это уже готовый отчёт, который можно отправить поставщику данных или залогировать в систему мониторинга.

📱 Github

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🥰21😢1
Вся инфраструктура агентов — в одном месте

Есть такой тихий герой: Awesome MCP Servers.

Это каталог серверов под Model Context Protocol — тех самых «коннекторов», благодаря которым агенты перестают быть болтливыми чатботами и начинают делать полезные вещи.

По сути, это карта всего агентного мира. Как Google Maps, только для AI-инфраструктуры.

И там есть всё:
✔️ Браузерные автоматы — пусть агент тыкает кнопки, пока вы пьёте кофе
✔️ Базы данных и девтулы — от Postgres до git-магии
✔️ Финансы, облака, интеграции — если нужно, агент и счёт оплатит (ну… почти)
✔️ Память, знание, мониторинг — чтобы ваш AI не забывал контекст каждые 5 секунд

Каждый пункт — это готовый open-source MCP сервер:
подключил → используй → радуйся, что ничего не пришлось настраивать вручную.

Если вы строите агентов — это ваш путеводитель, лопата и дорожная карта в одном лице.

📱 GitHub

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥2
Backpropagation не работает магией

Если вы не можете объяснить математический смысл градиентного спуска или регуляризации, вы рискуете остаться «фит-предикт» специалистом. Настоящий Data Science начинается там, где заканчивается документация sklearn.

Завтра стартует интенсив «Математика для разработки AI-моделей».

📉 Закройте пробелы в Линале и Матане.

📈 Научитесь читать научные пейперы без страха.

🔥 Всего 28 200 ₽.

📅 Старт: Завтра.

👉 Врывайтесь

Бонус:
Входной тест — @proglib_academy_webinar_bot
👍2🥰1🙏1
🐼 Pandas 3.0 почти подъехал — вышел первый релиз-кандидат

Команда наконец выложила pandas 3.0.0rc0, и, если не всплывут сюрпризы, финальный релиз выйдет совсем скоро.

Что там важного:

➡️ Строки больше не “object”

Теперь по умолчанию строки — это строки, нормальный str dtype, а не непонятная коробка object.

Работает быстрее, памяти ест меньше, ведёт себя предсказуемо. Плюс Arrow под капотом, если он установлен.

➡️ Конец «view vs copy». Настоящий Copy-on-Write

Срезы теперь ведут себя как нормальные копии. Хочешь изменить объект — изменяй сам объект, а не его кусок.

Chained assignment умер, предупреждение удалили.

➡️ Минимальная версия Python теперь 3.11

Если у вас в проде всё ещё что-то крутится на 3.8–3.10… ну, время пришло 😅

NumPy тоже подтянули до 1.26+.

➡️ Даты делают меньше «магии»

Раньше всё тащилось в наносекунды, даже если достаточно миллисекунд.

Теперь pandas умно выбирает нужную точность. Поведение стало ближе к тому, как ведёт себя обычный Timestamp.

➡️ Переименовали кучку алиасов

Если вы привыкли к частотам в стиле "M" — готовьтесь. Теперь:
"M""ME"
"Q""QE"
"Y""YE"

Немного больно, но логичнее.

➡️ Много старья убрали

Очень много. Например:
DataFrame.applymap — всё, финита
Series.view, Series.ravel
старые параметры и поведение, которые уже давно просили убрать
Python 2 pickle (ну, тут без сюрпризов)

Устанавливаем:
pip install --upgrade --pre pandas



🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👏6👍4🎉32🥰2🔥1😢1
🥳 Как одна летняя тусовка в Дартмуте случайно запустила эру искусственного интеллекта

Лето 1956 года. Тихий кампус Дартмута. Несколько учёных, которые слишком много думают о машинах. И один почти наглый вопрос:
а что если научить компьютер мыслить?


Сегодня это кажется очевидным — у нас есть ChatGPT, нейросети, автономные системы. Но тогда компьютеры были шкафами на колёсах, и сама идея интеллекта в машине звучала как фантазия. Тем не менее, четверо смельчаков — Маккарти, Минский, Шеннон и Рочестер — решили собрать всех энтузиастов в одном месте и разобраться.

Так появился Dartmouth Workshop, событие, которое считается официальным рождением искусственного интеллекта.

▶️ Почему этот воркшоп стал легендой

Не было ни чёткого расписания, ни строгих протоколов. Люди приезжали, уезжали, спорили, рисовали формулы на досках, спорили снова.
Но именно в этом хаосе родилось главное:
🔘 интеллект можно описывать математически.
🔘 и если можно описать — можно реализовать в машине.

А ещё приехала команда Newell–Shaw–Simon и показала Logic Theorist — программу, которая умела доказывать теоремы. Не теоретически, а реально. Это стало маленьким шоком: машины могут думать не хуже студентов.

Кто стоял за началом ИИ:
🔘 Джон Маккарти — придумал слово Artificial Intelligence.
🔘 Марвин Минский — пытался разложить интеллект на части, как сложный механизм.
🔘 Клод Шеннон — человек, который вообще объяснил миру, что такое информация.
🔘 Натаниел Рочестер — заставлял всё это работать на ранних компьютерах IBM.

▶️ Что нам осталось в наследство от Дартмута

Практически всё, с чего начинается современный курс по ИИ:
🔘 символьные модели,
🔘 поиск и эвристики,
🔘 первые шаги машинного обучения,
🔘 идеи компьютерного зрения,
🔘 формализация знаний и рассуждений.

Они не создали разумную машину — но задали путь, по которому идём до сих пор.

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Представьте, что вы проснулись в недалёком будущем. Как бигтех работает с контентом?

Мультимодальные и рекомендательные системы нового поколения — это то, что уже сейчас определяет мир, в котором мы скоро будем жить.

Сотрудники VK рассказали, над чем работает их группа R&D и другие команды. Заходите по ссылке — смотрите ролики и знакомьтесь с нашей внутренней кухней.
1👏1
📱 Хотите понять, как работает LLM изнутри? Есть отличный репозиторий

Если вы когда-нибудь ловили себя на мысли:
«А как вообще устроены GPT-подобные модели? Можно ли собрать свою — пусть маленькую, но настоящую?»


То вот подарок.

Есть репозиторий Build a Large Language Model (From Scratch) — это официальный код к одноимённой книге, где вы буквально шаг за шагом пишете свой собственный LLM. Не магия, не «всё слишком сложно», а нормальный, понятный разбор: архитектура, обучение, токенизация, внимание — всё по полочкам.

Плюс бонус: есть код для загрузки весов крупных моделей, чтобы вы могли потренироваться в финетюнинге.

➡️ GitHub: https://clc.to/_17mAg

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72