Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.6K subscribers
2.29K photos
115 videos
64 files
4.71K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🆕 Свежие новости для дата‑сайентистов

🧵 Архитектуры и данные
The Parallelism Mesh Zoo — схемный разбор стратегий параллелизации в PyTorch и JAX через понятие device mesh. Отличный способ проверить, понимаете ли вы, как работает масштабирование на GPU. Читать
3 Questions: Synthetic Data — MIT о плюсах и минусах синтетических данных: от приватности и экономии до ограничений и рисков. Читать

🧠 Новые модели и AI-сервисы
Google EmbeddingGemma — новая open-модель эмбеддингов для офлайн-работы прямо на ноутбуках и смартфонах. Подробнее
OpenAI Jobs Platform — AI-платформа для поиска работы и сертификации AI-навыков. Подробнее
Google NotebookLM — теперь умеет аудио-обзоры в 4 форматах: Deep Dive, Brief, Critique и Debate + более естественные голоса. Подробнее

📚 Лонгриды и статьи
ML Q & AI. Глава 8. Успех трансформеров
Очеловечить компьютер: как развивалось машинное обучение в середине XX века
Интерпретация и оптимизация перцептрона Розенблатта
Что такое детерминизм и как с ним бороться?
Когда YOLO не спасает: как один параметр может испортить всё

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3
⚡️ Будь как этот гений с картинки — предлагай свои условия работодателю, а не наоборот!

Кто нужен?

Senior ML-Engineer с опытом работы более 6 месяцев в FAANG компаниях. Требование: разработать кросс-платформенное приложение-трекер зарплат с AI-распознаванием вакансий по резюме.


Но если вы пока джун — я бы предложил:

- Full-time контракт: 180к/мес после курса + опцион на карьеру в топ-компаниях

- Либо фикс за проект: стань ML-инженером за 39к вместо 44к с промокодом LASTCALL

🔗 Старт 9 сентября
Иногда реально ощущение, что нас держат в Матрице.

Большинство сидит, читает статьи про ML, смотрит ролики «как это работает» — и всё.

Сегодня последний день промокода Lastcall (−5000 ₽).
Уже завтра стартует первый вебинар по Машинному обучению — полный набор для выхода из Матрицы.

Кто готов вырваться из симуляции и ворваться в сезон найма?

👾 — я уже в команде Нео
👍 — хочу красную таблетку
🤔 — пока думаю, но интересно

👉 Забронируй место сейчас
1
🔥 AI и неструктурированные данные: возможности для дата-сайентистов

Google Cloud выпустил практическое руководство по Data Science, где показываются реальные кейсы применения AI для работы с корпоративными данными.

Вот что вы можете делать с такими данными:
▫️ Выявлять причины падения продаж — AI анализирует отзывы клиентов и говорит, какие функции продукта надо улучшить.
▫️ Создать визуальный поиск — клиенты находят товар по картинке, а не по тексту.
▫️ Автоматизировать анализ контрактов — извлекать ключевую информацию из юридических документов за секунды.
▫️ Прогнозировать спрос — точные прогнозы для каждого продукта и магазина, чтобы избежать потерь и перепроизводства.

Это огромная возможность: неструктурированные данные больше не головная боль — это источник инсайтов и новых моделей.

🔗 Ссылка на гайд

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
👇 4 ключевые архитектуры нейросетей

Выбор правильной архитектуры под задачу — это половина успеха в AI-проектах. Каждая из них рождена под конкретный тип данных и обрабатывает информацию по-своему:

1️⃣ CNN (Convolutional Neural Networks)
Фильтры свёртки находят края и паттерны в изображениях, pooling снижает размерность, fully connected слои собирают фичи в прогноз. Отлично подходят для распознавания изображений, медицинских снимков и любых задач со spatial-отношениями.

2️⃣ RNN (Recurrent Neural Networks)
Обрабатывают данные по шагам, сохраняя скрытое состояние с контекстом. Хорошо работают с текстом, временными рядами, переводами и прогнозами, где важен порядок.

3️⃣ Transformers
Заменили пошаговую обработку механизмом внимания: модель смотрит на всю последовательность сразу и решает, что важнее. Это быстрее и эффективнее для long-range зависимостей. На трансформерах построены GPT, BERT и большинство современных LLM.

4️⃣ GNN (Graph Neural Networks)
Передают информацию между узлами в графе (message passing), захватывая локальные и глобальные связи. Подходят для анализа соцсетей, молекулярных свойств и рекомендательных систем.

Архитектура выбирается под структуру данных:
➡️ Картинки → CNN
➡️ Последовательности → RNN/Transformers
➡️ Графы → GNN

А в реальных проектах часто комбинируют несколько: CNN для feature extraction + Transformer для reasoning, или GNN для связей между пользователями + RNN для рекомендаций.

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1