Если начальник попросит объяснить самую большую проблему в ИИ — просто пришлите ему этот мем.😆
Библиотека дата-сайентиста #развлекалово
Библиотека дата-сайентиста #развлекалово
😁15👍4💯1
Когда проект переходит от MVP к реальному масштабированию, встаёт классический вопрос из data-ада:
Как организовать разметку данных — собрать собственную команду или поручить всё внешним подрядчикам?
🏠 In-house команда разметки
Плюсы:
— Полный контроль над качеством и процессами.
— Можно адаптировать под особенности продукта и задачи.
— Гибкая коммуникация между разметчиками и ML-командой.
Минусы:
— Найм, обучение, менеджмент — отдельный мини-отдел.
— Медленный запуск.
— Отвлечение от основного фокуса команды.
— Требуются ресурсы и процессы, которых может не быть.
🌍 Аутсорс/вендоры
Плюсы:
— Быстрый старт.
— Нет нужды тратить время на найм и операционку.
— Масштабирование по требованию.
Минусы:
— Почти нет контроля над качеством.
— Слепая зона: сложно понять, что именно и как размечается.
— Часто дорого — особенно при специфичных или нестандартных данных.
— Есть риск получить датасет, который придётся потом переделывать вручную.
💬 Классический холивар: контроль и кастомизация против скорости и удобства. Что на практике оказалось менее болезненным?
👀 Интересны кейсы, где удалось построить гибридную модель или обойтись без выгорания всей команды.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3
🔥 Знакомьтесь, преподаватель нашего нового курса по ML — Мария Жарова.
В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️
А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом.
👉 Записывайтесь на курс
В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️
А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом.
👉 Записывайтесь на курс
🧠 AI-бизнес
— Windsurf распадается, топы уходят в Google — Google DeepMind наняла CEO Windsurf Варуна Мохана и ключевых инженеров после провала сделки OpenAI на $3 млрд.
— Apple серьёзно рассматривает покупку Mistral —покупка укрепит позиции Apple в генеративном ИИ.
— Mira Murati (экс-CTO OpenAI) привлекла $2B для Thinking Machines.
📈 Модели и исследования
— Kimi-K2 от Moonshot AI — триллион параметров, архитектура MoE, открытый код — и обгон GPT-4 в ключевых задачах.
— Gemini 2.5 – полный отчёт — новое поколение от Google: лучшее кодирование, мультимодальность, long-context reasoning.
— Gemini Embedding теперь в Vertex AI и Gemini API — единая модель эмбеддингов, превосходящая предыдущие версии.
— Voxtral от Mistral — открытые модели для распознавания и понимания речи.
— Marin от Stanford — первая полностью открытая модель, обученная на JAX.
🛠 Инфраструктура и инструменты
— NVIDIA cuda.cccl — упрощает создание быстрых GPU-алгоритмов в PyTorch.
— Veo 3 теперь доступен в Gemini API — генерация видео с озвучкой, музыкой и сценарием — по одному промпту.
— ChatGPT Agent — следующий шаг от OpenAI — виртуальный ассистент, выполняющий сложные задачи.
📚 Статьи и исследования
— LLM Daydreaming — почему LLM не «мечтают».
— Grok 4 от xAI: умный, но небезопасный.
— Context Rot — почему производительность LLM падает на длинных входах.
— Power Attention — новая реализация внимания.
👍 Опыт других
— Matrix Reloaded: зачем дата-сайентисту линейная алгебра.
— Деградация предсказаний модели: причины и методы анализа.
— MCP для новичков — про Model Context Protocol.
— Few-shot learning: основы и применения.
— BI: 5 трендов в сфере ИИ.
— ИИ на edge-устройствах — как уместить большие модели на малом железе.
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Теперь не нужно писать кастомные CUDA-ядра или лезть в C++ —
cuda.cccl
позволяет собирать мощные алгоритмы на Python, используя CUB и Thrust под капотом.Библиотека делится на:
parallel
— высокоуровневые, компонуемые алгоритмы над массивами и итераторами.cooperative
— блок/варп-ориентированные примитивы для numba.cuda
.Почему быстрее:
Кому пригодится:
Установка:
pip install cuda-cccl
👉 Подробнее: https://clc.to/4qFCRQ
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2❤🔥1
🔥 Вы ещё можете застать старый добрый Proglib — с вечным доступом к курсам.
С 1 августа всё меняется: навсегда — останутся только те, кто успел купить сейчас.
-40% на все курсы. Включая обновлённый Python (кроме курса по AI-агентам)
Это не просто распродажа. Это — последняя точка входа в Proglib Academy по старым правилам.
📚 Выбрать и забрать свой курс навсегда → https://clc.to/TBtqYA
С 1 августа всё меняется: навсегда — останутся только те, кто успел купить сейчас.
-40% на все курсы. Включая обновлённый Python (кроме курса по AI-агентам)
Это не просто распродажа. Это — последняя точка входа в Proglib Academy по старым правилам.
📚 Выбрать и забрать свой курс навсегда → https://clc.to/TBtqYA
Senior ML Engineer (Voice Products) — от 6 000 до 8 000 $, удалёнка
Data Scientist (Middle) — до 180 000 ₽, удалёнка
Senior Data Engineer (FinTech) — до 440 000 ₽, удалёнка
Senior Data Scientist, гибрид (Сербия)
Data Scientist (Data Monetization) — от 350 000 ₽, удалёнка
Специалист поддержки ML — от 250 000 до 320 000 ₽, удалёнка
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1😁1
Многие алгоритмы обнаружения аномалий предполагают, что у вас нет разметки. Но в реальной жизни это не так — почти всегда есть хотя бы несколько размеченных примеров. Например, из прошлых расследований, или эксперт отметил вручную.
В этом посте — три практические стратегии:
Идея простая: если у вас есть хотя бы несколько размеченных аномалий — порог можно настраивать не на глаз, а по данным.
Для этого:
1. Обучите модель на обычных (нормальных) данных.
2. Выберите порог:
3. Посчитайте метрики на размеченных аномалиях:
Лайфхак:
Если у вас мало размеченных аномалий, метрики могут быть нестабильны. Используйте бутстрап, чтобы получить доверительный интервал и понять, насколько метрике можно доверять.
А как выбрать алгоритм, который вообще лучше работает с вашими аномалиями?
Используйте разметку для объективного сравнения моделей:
1. Обучите модель без аномалий.
2. Посчитайте персентиль каждого размеченного примера по скору. Если аномалия на 99-м персентиле — отлично.
3. Возьмите среднее значение всех таких персентилей. Чем выше — тем лучше модель видит ваши реальные аномалии.
Лайфхак:
Можно сравнивать не только алгоритмы (Isolation Forest vs GMM), но и гиперпараметры внутри одного метода.
А ещё — использовать это для построения ансамбля, выбрав в него только те модели, которые реально ловят ваши аномалии.
Это уже активное использование разметки: вы строите мета-классификатор на основе выходов нескольких детекторов.
Для этого:
1. Обучаем разные детекторы (например, Isolation Forest, GMM, PCA).
2. Для каждого объекта собираем вектор из скоров этих моделей:
X_i = [iForest_score, GMM_score, PCA_score]
3. Используем размеченные аномалии как метки и обучаем классификатор (например, XGBoost).
На выходе получаем мета-модель, которая учится, как ведут себя аномалии в разных детекторах. Она совмещает их сильные стороны и делает вывод: аномалия это или нет.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Технологии, железо и роботы на Yandex Robotics Day уже 16 августа!
На складах Маркета, Леманы Про, Перекрестка, Лавки и других компаний работают роботы Яндекса, которые помогают быстро сканировать товары, собирать посылки и перемещать заказы. Чтобы все функционировало быстро и точно, специалисты Яндекс Роботикс постоянно улучшают их.
16 августа в Москве пройдет митап, на котором они расскажут, как именно это делают:
— Серёжа Стариков выступит с докладом про коммуникационную платформу Yandex Robotics и ее применение в Yandex RMS
— Дима Мовчан объяснит, как команда создает умную роборуку с помощью imitation learning и RL
— Максим Пшибло расскажет, как с помощью Yandex Robotics Management System управлять несколькими роботами и какие алгоритмы необходимы этой системе
Кроме докладов в программе презентация нового робота, выставка тех, которые уже вовсю работают на складах, нетворкинг и неформальное афтепати с экспертами Яндекс Роботикс.
Регистрируйтесь и зовите коллег!
Мероприятие бесплатное. Количество мест в офлайне ограничено — пожалуйста, дождитесь нашего подтверждения в почте.
Реклама. ООО «Яндекс.Маркет» ИНН 9704254424
На складах Маркета, Леманы Про, Перекрестка, Лавки и других компаний работают роботы Яндекса, которые помогают быстро сканировать товары, собирать посылки и перемещать заказы. Чтобы все функционировало быстро и точно, специалисты Яндекс Роботикс постоянно улучшают их.
16 августа в Москве пройдет митап, на котором они расскажут, как именно это делают:
— Серёжа Стариков выступит с докладом про коммуникационную платформу Yandex Robotics и ее применение в Yandex RMS
— Дима Мовчан объяснит, как команда создает умную роборуку с помощью imitation learning и RL
— Максим Пшибло расскажет, как с помощью Yandex Robotics Management System управлять несколькими роботами и какие алгоритмы необходимы этой системе
Кроме докладов в программе презентация нового робота, выставка тех, которые уже вовсю работают на складах, нетворкинг и неформальное афтепати с экспертами Яндекс Роботикс.
Регистрируйтесь и зовите коллег!
Мероприятие бесплатное. Количество мест в офлайне ограничено — пожалуйста, дождитесь нашего подтверждения в почте.
Реклама. ООО «Яндекс.Маркет» ИНН 9704254424
❤4👍3🤩1
⚡️ Мы запускаем онлайн-курс по машинному обучению для Data Science.
Хочешь войти в Data Science, но не знаешь, с чего начать?
А может, ты уже в теме, но чувствуешь, что знаний не хватает?
Старт курса — 12 августа, и это отличный шанс пройти весь путь — от теории до уверенного применения.
Что внутри:
— от линейных моделей и градиентного спуска до бустинга и рекомендательных систем
— реальные примеры, практика, задачи и живая менторская поддержка
— всё, что нужно, чтобы не просто разобраться, а применять ML в реальных проектах
Ведет курс Мария Жарова:
ML-инженер в Wildberries, преподаватель МФТИ, ТГУ и МИФИ, практик и автор канала @data_easy
🎁 По промокодуEarlybird — скидка 10.000 рублей, только до 27 июля.
Для первых 10 студентов мы подготовили эксклюзивный лонгрид по теме курса, который позволит начать учиться уже сейчас.
👉 Записаться на курс
Хочешь войти в Data Science, но не знаешь, с чего начать?
А может, ты уже в теме, но чувствуешь, что знаний не хватает?
Старт курса — 12 августа, и это отличный шанс пройти весь путь — от теории до уверенного применения.
Что внутри:
— от линейных моделей и градиентного спуска до бустинга и рекомендательных систем
— реальные примеры, практика, задачи и живая менторская поддержка
— всё, что нужно, чтобы не просто разобраться, а применять ML в реальных проектах
Ведет курс Мария Жарова:
ML-инженер в Wildberries, преподаватель МФТИ, ТГУ и МИФИ, практик и автор канала @data_easy
🎁 По промокоду
Для первых 10 студентов мы подготовили эксклюзивный лонгрид по теме курса, который позволит начать учиться уже сейчас.
👉 Записаться на курс
Сегодня Kaggle представил Kaggle Benchmarks — новую платформу, где можно тестировать AI-модели на ведущих академических бенчмарках бесплатно и без сложной настройки.
Вместе с релизом вышли два крупных бенчмарка:
— Meta Multiloko — масштабный мультиязычный бенчмарк от Meta.
— ICML 2025 Experts Benchmark — crowdsourced-набор задач от участников ICML, отражающий реальные вызовы, с которыми сталкиваются ML-исследователи.
🔗 Подробнее: https://clc.to/YpUQkA
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1
😩 Создание и поддержка продакшн AI-приложений, особенно мультимодальных, остаётся сложной задачей.
Нужно объединить множество инструментов:
— ETL-пайплайны для загрузки и преобразования данных
— Векторные базы для семантического поиска
— Feature store для ML-моделей
— Оркестраторы для планирования задач
— Инфраструктуру для запуска моделей
— Отдельные системы для параллелизации, кэширования, версионирования и отслеживания данных
Pixeltable — единственный Python-фреймворк, который обеспечивает инкрементальное хранение, трансформацию, индексацию и оркестрацию ваших мультимодальных данных.
Установка:
pip install pixeltable
Pixeltable позволяет описать весь ваш data pipeline и AI workflow декларативно — через вычисляемые колонки в таблицах.
Движок автоматически обрабатывает:
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
⁉️ Хотите узнать, как устроен рабочий процесс в ML и получить базовые навыки работы с данными?
23 июля в 20:00 МСК OTUS проводит открытый урок «ML для начинающих – первые шаги с Jupyter Notebook». Вас ждёт:
– Обзор этапов машинного обучения: от подготовки данных до первой модели.
– Настройка виртуального окружения для изоляции экспериментов.
– Знакомство с Jupyter Notebook: анализ, визуализация, код и Markdown вместе.
Этот урок — идеальная отправная точка перед стартом курса «Специализация Machine Learning». Все участники получат скидку на обучение.
➡️ Зарегистрироваться
23 июля в 20:00 МСК OTUS проводит открытый урок «ML для начинающих – первые шаги с Jupyter Notebook». Вас ждёт:
– Обзор этапов машинного обучения: от подготовки данных до первой модели.
– Настройка виртуального окружения для изоляции экспериментов.
– Знакомство с Jupyter Notebook: анализ, визуализация, код и Markdown вместе.
Этот урок — идеальная отправная точка перед стартом курса «Специализация Machine Learning». Все участники получат скидку на обучение.
➡️ Зарегистрироваться
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576