Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚩

Google DeepMind представила GenAI Processors — новый способ создавать Gemini-приложения

Создавать LLM-приложения — особенно мультимодальные и в реальном времени — сложно: куча обработок, API-вызовов, асинхронности и нестабильной логики.

✅ Теперь всё меняется. GenAI Processors — новая open-source Python-библиотека, которая помогает собирать такие пайплайны как из кубиков Lego.

🔎

Что такое GenAI Processors

Это абстракция над обработкой данных, где всё — поток:
Входы, выходы и даже промежуточные шаги обрабатываются как асинхронные стримы ProcessorParts.
Вы комбинируете видеопоток, аудио, текст, модель — и получаете живое, отзывчивое LLM-приложение, работающее в реальном времени.

Что внутри:
— Модульный дизайн — разбивайте логику на независимые блоки
— Асинхронность и параллелизм — быстрый отклик, меньше лагов
— Поддержка Gemini API и Live-модели
— Легко пишите кастомные процессоры
— Умеет работать с текстом, изображениями, аудио, JSON — в одном потоке
— Утилиты для объединения, разделения и управления потоками

Установка:

pip install genai-processors

🔗

Для старта — готовые Colab-блокноты и примеры: https://clc.to/CvkgTQ

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🔥1

1.96K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧠 Контекст-инжиниринг и LLM
— Context Engineering Guide — промпт-инжиниринг эволюционирует: теперь важен не только prompt, но весь контекст
— Unsupervised Elicitation of Language Models — Антропик обучил Claude 3.5 без разметки
— Open Source RL Libraries for LLMs — сравнение RLHF-фреймворков: TRL, Verl, OpenRLHF и др.

🔬 Глубже в ML/AI
— PyTorch in One Hour — краткий и ценный гайд по PyTorch
— ML Papers Explained — ключевые концепты и статьи по ML объяснены на практике
— Топ вопросов с DS-собесов — классика ML, метрики, линейные модели

💡 Технологии и исследования
— AI как люди — исследование: ИИ-модели синхронизируются при общении так же, как мозги животных
— Медицинский ИИ от Google — MedGemma 27B и MedSigLIP для диагностики и анализа изображений
— Bыпуклость в обучении — как искусственный интеллект начинает думать почти как человек

🌐 Будущее AI
— OpenAI запускает браузер — ИИ-браузер против Chrome
— AWS и Anthropic запускают маркетплейс агентов
— Сутскевер стал CEO Safe Superintelligence

📌 Подборка статей
— Агентные системы и LLM в 2027
— Готовимся к собесу: positional encodings
— Поисковый сервис Яндекс Лавки
— Оптимизация модели Mamba на CPU
— ML в логистике

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3🔥2

1.83K views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

❤2

1.55K views07:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Ответ:

Anonymous Quiz

❤1

299 voters1.39K views07:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

☝️ Последний шанс купить курсы Proglib Academy с доступом навсегда!

Это не просто летняя распродажа, это финал эпохи. Мы дарим скидку 40% на все курсы, включая полностью обновлённый курс по Python (предложение НЕ ДЕЙСТВУЕТ только на курс по AI-агентам для DS-специалистов).

Но главное: с 1 августа доступ ко всем новым курсам станет ограниченным. Успейте инвестировать в свои знания на самых выгодных условиях!

👉 Выбрать курс

🥱2❤1

1.59K views14:49

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💰

Топ-вакансий для дата-сайентистов за неделю

Data Scientist (ML engineer) | Middle-Senior —‍ от 230 000 до 320 000 ₽, удалёнка

Веб-аналитик —‍ от 2500 до 3500 $, удалёнка

Data Engineer (CV) —‍ до 4 000 $, офис (Москва)

Data Scientist (Антифрод) —‍ от 269 000 до 524 000 ₽, удалёнка

Middle/Senior Data Scientist (команда ИИ и аналитика) —‍ от 200 000 до 350 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1😁1

1.64K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆚 DropBlock vs Dropout: что лучше для регуляризации CNN

Представьте пиксель на изображении — например, на цифре «9». Даже если мы «отключим» этот пиксель (фичу) с помощью Dropout, его информация всё равно дойдёт до следующего слоя через соседние пиксели — ведь свёртки учитывают локальный контекст.

🚩 В итоге Dropout практически бесполезен в сверточных слоях. А вот DropBlock — гораздо лучше.

Вместо того чтобы «выключать» отдельные признаки, DropBlock «вырезает» целые блоки признаков, нарушая локальные корреляции. Это заставляет сеть учиться более устойчивым и обобщающим признакам, не полагаясь на отдельные патчи.

➡️

Как работает DropBlock:
— block_size — размер блока, который будем вырезать
— drop_rate — вероятность дропа (центрального пикселя, вокруг которого строится блок)

Сначала генерируется бинарная маска (как в Dropout), но затем вокруг каждого выключенного пикселя формируется целый квадратный блок, который удаляется из признаков.

🚩 В PyTorch уже есть готовая реализация через библиотеку dropblock. Подключается просто и эффективно усиливает вашу модель.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤4😁2🔥1

1.83K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👇

Фриланс, pet-проекты и Kaggle — это тоже опыт

Если вы:
— Решали задачи на Kaggle
— Анализировали данные для знакомых или фриланс-заказчиков
— Собирали свой ML-пайплайн «на коленке»
— Делали дашборды в Streamlit
— Писали парсеры, телеграм-ботов, скорили таблички —
вы уже работали дата-сайентистом, просто вне офиса.

📌 Такой опыт можно и нужно указывать в резюме.

Вот как оформить:
✅ Назовите проект и его цель (бизнес-задача или исследование)
✅ Укажите стек: Python, pandas, sklearn, XGBoost, Airflow, etc.
✅ Расскажите про результат — метрики модели, инсайты, которые нашли
✅ Добавьте ссылку на GitHub или ноутбук в nbviewer

👉 Подробнее в новой статье:
https://proglib.io/sh/TSpGKgMUCE

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

1.79K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📶 Python для анализа данных: как работать с данными, визуализировать и делиться результатами

В репозитории на GitHub показано, как с помощью Python получать, чистить, анализировать и визуализировать данные некоммерческих организаций.

Даже если вы не связаны с НКО, методы и советы будут полезны для любых проектов с данными.

Что вы найдете в проекте:
🔎 Импорт, очистка и преобразование данных
🔎 Анализ с помощью описательной статистики и линейной регрессии
🔎 Создание графиков и карт
🔎 Интерактивные визуализации и их публикация в интернете

➡️

Подробнее и код — по ссылке: https://clc.to/XSkgbQ

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4

1.88K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Ну, немножно не уточнили 🤣

Библиотека дата-сайентиста #развлекалово

😁12👏4👍1💯1

1.73K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎓 Что посмотреть: курс по deep learning на mesh и point cloud данных

Курс о том, как применять deep learning к данным на криволинейных поверхностях: мешам и point clouds. Подходит тем, кто хочет использовать data-driven алгоритмы за пределами изображений и текста.

Что в курсе:
🔹 Какие задачи решаются на мешах и облаках точек
🔹 Как обрабатывать такие данные (масштабируемость, обобщение и пр.)
🔹 Обзор SOTA-методов и практические советы для исследований

📽 Видео, слайды и туториал: https://clc.to/On1Axg

Библиотека дата-сайентиста #буст

❤4👍2🔥2

1.72K views08:36

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 JSON, YAML, XML — что лучше и когда

Вопрос подписчика:

«Какие форматы сериализации данных вы чаще всего используете на работе или в своих проектах?»

Подписчик делится опытом:
В основном работал с YAML (иногда JSON) — он кажется мне самым читаемым.
XML в моей практике почти не встречался. А у вас? Есть ли у XML реальные преимущества перед YAML или JSON?

Будет интересно узнать ваше мнение:
• Какие форматы чаще используете — YAML, JSON, TOML, CSV?
• XML ещё актуален? В каких случаях он действительно полезен?
• Бывали ли проекты, где удобочитаемость важнее производительности?

💬 Пишите в комментариях, какой стек предпочитаете и почему.

Библиотека дата-сайентиста #междусобойчик

❤3😁3👍1

1.61K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Фреймворк дня: RecBole для рекомендательных систем

Сегодня разберём, как быстро и удобно:
😛 Протестировать десятки алгоритмов (от классического MF до SASRec и KGAT) на своём датасете без сотни скриптов
😛 Хранить все настройки в одном YAML, а не в длинных списках аргументов CLI
😛 Получить честное сравнение метрик и сразу экспортировать лучший чекпоинт в продакшен

Пример запуска:

pip install recbole>=1.2
python -m recbole.quick_start.run_recbole --model=BPR --dataset=ml-1m

RecBole сам разделит данные, создаст семплеры и загрузчики, обучит модель и сохранит результаты в /saved/.

Если хотите полный контроль:

from recbole.config import Config                  # Импортируем класс конфигурации
from recbole.data import create_dataset, data_preparation  # Функции для создания датасета и подготовки данных
from recbole.model.general_recommender import LightGCN     # Импорт модели LightGCN (графовый рекомендатель)
from recbole.trainer import Trainer               # Импорт тренера для обучения модели

# Создаём объект конфигурации, указываем модель и датасет (MovieLens 1M)
config = Config(model='LightGCN', dataset='ml-1m')

# Загружаем и обрабатываем датасет на основе конфигурации
dataset = create_dataset(config)

# Делим данные на тренировочные, валидационные и тестовые сеты
train_data, valid_data, test_data = data_preparation(config, dataset)

# Инициализируем модель и отправляем её на устройство (CPU или GPU)
model = LightGCN(config, dataset).to(config['device'])

# Создаём тренера с текущей конфигурацией и моделью
trainer = Trainer(config, model)

# Обучаем модель на тренировочных данных, валидируем на валидационных, сохраняем лучший чекпоинт
trainer.fit(train_data, valid_data, saved=True)

RecBole поддерживает продвинутые функции: dynamic negative sampling, knowledge graphs, mixed precision, W\&B логирование и кастомные модели.

➡️ Итог: RecBole закрывает 80% типичных задач ML-инженера в рекомендательных системах и позволяет быстро сделать рабочий прототип или бейзлайн.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3❤1

1.67K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

➡️

Фриланс, пет-проекты и side-проекты — это тоже опыт

Если у вас нет строк в трудовой книжке, это ещё не повод убирать проекты из резюме.Рассказываем, как грамотно оформить неформальный опыт и показать его как карьерный плюс.

🔰В карточках — основные принципы и ошибки, в статье — больше примеров и конкретных советов.

😶

Статья: https://proglib.io/sh/TSpGKgMUCE

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.59K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Если начальник попросит объяснить самую большую проблему в ИИ — просто пришлите ему этот мем.😆

Библиотека дата-сайентиста #развлекалово

😁15👍4💯1

1.64K views09:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Разметка данных: строить свою команду или отдать на аутсорс?

Когда проект переходит от MVP к реальному масштабированию, встаёт классический вопрос из data-ада:

Как организовать разметку данных — собрать собственную команду или поручить всё внешним подрядчикам?

🏠 In-house команда разметки

Плюсы:
— Полный контроль над качеством и процессами.
— Можно адаптировать под особенности продукта и задачи.
— Гибкая коммуникация между разметчиками и ML-командой.

Минусы:
— Найм, обучение, менеджмент — отдельный мини-отдел.
— Медленный запуск.
— Отвлечение от основного фокуса команды.
— Требуются ресурсы и процессы, которых может не быть.

🌍 Аутсорс/вендоры

Плюсы:
— Быстрый старт.
— Нет нужды тратить время на найм и операционку.
— Масштабирование по требованию.

Минусы:
— Почти нет контроля над качеством.
— Слепая зона: сложно понять, что именно и как размечается.
— Часто дорого — особенно при специфичных или нестандартных данных.
— Есть риск получить датасет, который придётся потом переделывать вручную.

💬 Классический холивар: контроль и кастомизация против скорости и удобства. Что на практике оказалось менее болезненным?

👀 Интересны кейсы, где удалось построить гибридную модель или обойтись без выгорания всей команды.

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3

1.46K views12:58

About

Blog

Apps

Platform