Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.63K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🎓 Что посмотреть: курс по deep learning на mesh и point cloud данных

Курс о том, как применять deep learning к данным на криволинейных поверхностях: мешам и point clouds. Подходит тем, кто хочет использовать data-driven алгоритмы за пределами изображений и текста.

Что в курсе:
🔹 Какие задачи решаются на мешах и облаках точек
🔹 Как обрабатывать такие данные (масштабируемость, обобщение и пр.)
🔹 Обзор SOTA-методов и практические советы для исследований

📽 Видео, слайды и туториал: https://clc.to/On1Axg

Библиотека дата-сайентиста #буст
4👍2🔥2
🤔 JSON, YAML, XML — что лучше и когда

Вопрос подписчика:
«Какие форматы сериализации данных вы чаще всего используете на работе или в своих проектах?»


Подписчик делится опытом:
В основном работал с YAML (иногда JSON) — он кажется мне самым читаемым.
XML в моей практике почти не встречался. А у вас? Есть ли у XML реальные преимущества перед YAML или JSON?

Будет интересно узнать ваше мнение:
• Какие форматы чаще используете — YAML, JSON, TOML, CSV?
• XML ещё актуален? В каких случаях он действительно полезен?
• Бывали ли проекты, где удобочитаемость важнее производительности?

💬 Пишите в комментариях, какой стек предпочитаете и почему.

Библиотека дата-сайентиста #междусобойчик
3😁3👍1
🔥 Фреймворк дня: RecBole для рекомендательных систем

Сегодня разберём, как быстро и удобно:
😛 Протестировать десятки алгоритмов (от классического MF до SASRec и KGAT) на своём датасете без сотни скриптов
😛 Хранить все настройки в одном YAML, а не в длинных списках аргументов CLI
😛 Получить честное сравнение метрик и сразу экспортировать лучший чекпоинт в продакшен

Пример запуска:
pip install recbole>=1.2
python -m recbole.quick_start.run_recbole --model=BPR --dataset=ml-1m


RecBole сам разделит данные, создаст семплеры и загрузчики, обучит модель и сохранит результаты в /saved/.

Если хотите полный контроль:
from recbole.config import Config                  # Импортируем класс конфигурации
from recbole.data import create_dataset, data_preparation # Функции для создания датасета и подготовки данных
from recbole.model.general_recommender import LightGCN # Импорт модели LightGCN (графовый рекомендатель)
from recbole.trainer import Trainer # Импорт тренера для обучения модели

# Создаём объект конфигурации, указываем модель и датасет (MovieLens 1M)
config = Config(model='LightGCN', dataset='ml-1m')

# Загружаем и обрабатываем датасет на основе конфигурации
dataset = create_dataset(config)

# Делим данные на тренировочные, валидационные и тестовые сеты
train_data, valid_data, test_data = data_preparation(config, dataset)

# Инициализируем модель и отправляем её на устройство (CPU или GPU)
model = LightGCN(config, dataset).to(config['device'])

# Создаём тренера с текущей конфигурацией и моделью
trainer = Trainer(config, model)

# Обучаем модель на тренировочных данных, валидируем на валидационных, сохраняем лучший чекпоинт
trainer.fit(train_data, valid_data, saved=True)


RecBole поддерживает продвинутые функции: dynamic negative sampling, knowledge graphs, mixed precision, W\&B логирование и кастомные модели.

➡️ Итог: RecBole закрывает 80% типичных задач ML-инженера в рекомендательных системах и позволяет быстро сделать рабочий прототип или бейзлайн.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥31
➡️ Фриланс, пет-проекты и side-проекты — это тоже опыт

Если у вас нет строк в трудовой книжке, это ещё не повод убирать проекты из резюме.Рассказываем, как грамотно оформить неформальный опыт и показать его как карьерный плюс.

🔰В карточках — основные принципы и ошибки, в статье — больше примеров и конкретных советов.

😶 Статья: https://proglib.io/sh/TSpGKgMUCE

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Если начальник попросит объяснить самую большую проблему в ИИ — просто пришлите ему этот мем.😆

Библиотека дата-сайентиста #развлекалово
😁15👍4💯1
🤔 Разметка данных: строить свою команду или отдать на аутсорс?

Когда проект переходит от MVP к реальному масштабированию, встаёт классический вопрос из data-ада:
Как организовать разметку данных — собрать собственную команду или поручить всё внешним подрядчикам?


🏠 In-house команда разметки

Плюсы:
— Полный контроль над качеством и процессами.
— Можно адаптировать под особенности продукта и задачи.
— Гибкая коммуникация между разметчиками и ML-командой.

Минусы:
— Найм, обучение, менеджмент — отдельный мини-отдел.
— Медленный запуск.
— Отвлечение от основного фокуса команды.
— Требуются ресурсы и процессы, которых может не быть.

🌍 Аутсорс/вендоры

Плюсы:
— Быстрый старт.
— Нет нужды тратить время на найм и операционку.
— Масштабирование по требованию.

Минусы:
— Почти нет контроля над качеством.
— Слепая зона: сложно понять, что именно и как размечается.
— Часто дорого — особенно при специфичных или нестандартных данных.
— Есть риск получить датасет, который придётся потом переделывать вручную.

💬 Классический холивар: контроль и кастомизация против скорости и удобства. Что на практике оказалось менее болезненным?

👀 Интересны кейсы, где удалось построить гибридную модель или обойтись без выгорания всей команды.

Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43
🔥 Знакомьтесь, преподаватель нашего нового курса по ML — Мария Жарова.

В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️

А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом.

👉 Записывайтесь на курс
🆕 Свежие новости для дата‑сайентистов

🧠 AI-бизнес
Windsurf распадается, топы уходят в Google — Google DeepMind наняла CEO Windsurf Варуна Мохана и ключевых инженеров после провала сделки OpenAI на $3 млрд.
Apple серьёзно рассматривает покупку Mistral —покупка укрепит позиции Apple в генеративном ИИ.
Mira Murati (экс-CTO OpenAI) привлекла $2B для Thinking Machines.

📈 Модели и исследования
Kimi-K2 от Moonshot AI — триллион параметров, архитектура MoE, открытый код — и обгон GPT-4 в ключевых задачах.
Gemini 2.5 – полный отчёт — новое поколение от Google: лучшее кодирование, мультимодальность, long-context reasoning.
Gemini Embedding теперь в Vertex AI и Gemini API — единая модель эмбеддингов, превосходящая предыдущие версии.
Voxtral от Mistral — открытые модели для распознавания и понимания речи.
Marin от Stanford — первая полностью открытая модель, обученная на JAX.

🛠 Инфраструктура и инструменты
NVIDIA cuda.cccl — упрощает создание быстрых GPU-алгоритмов в PyTorch.
Veo 3 теперь доступен в Gemini API — генерация видео с озвучкой, музыкой и сценарием — по одному промпту.
ChatGPT Agent — следующий шаг от OpenAI — виртуальный ассистент, выполняющий сложные задачи.

📚 Статьи и исследования
LLM Daydreaming — почему LLM не «мечтают».
Grok 4 от xAI: умный, но небезопасный.
Context Rot — почему производительность LLM падает на длинных входах.
Power Attention — новая реализация внимания.

👍 Опыт других
Matrix Reloaded: зачем дата-сайентисту линейная алгебра.
Деградация предсказаний модели: причины и методы анализа.
MCP для новичков — про Model Context Protocol.
Few-shot learning: основы и применения.
BI: 5 трендов в сфере ИИ.
ИИ на edge-устройствах — как уместить большие модели на малом железе.

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥2
🔥 Новый уровень CUDA в Python: знакомьтесь с `cuda.cccl`

Теперь не нужно писать кастомные CUDA-ядра или лезть в C++ — cuda.cccl позволяет собирать мощные алгоритмы на Python, используя CUB и Thrust под капотом.

Библиотека делится на:
parallel — высокоуровневые, компонуемые алгоритмы над массивами и итераторами.
cooperative — блок/варп-ориентированные примитивы для numba.cuda.

Почему быстрее:
Никакой лишней памяти — итераторы вместо массивов.
Один фьюзнутый kernel вместо четырёх.
Минимум overhead'а от Python.

Кому пригодится:
Тем, кто пишет кастомные алгоритмы над PyTorch или CuPy.
Тем, кто хочет тонкий контроль над CUDA без C++.
Тем, кто расширяет существующие библиотеки или разрабатывает свои.

Установка:
pip install cuda-cccl


👉 Подробнее: https://clc.to/4qFCRQ

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3❤‍🔥1