Forwarded from Machinelearning
По сути это улучшенная альтернатива Jupyter.
Как работает Marimo?
▪️ При изменении значения переменной или взаимодействии с UI-элементом, Marimo автоматически выполняет все ячейки, зависящие от этой переменной, поддерживая консистентность кода и результатов.
Отличия от Jupyter:
▪️ Формат файлов: Marimo сохраняет блокноты как чистые Python-файлы (
.py), облегчая интеграцию с системами контроля версий, в отличие от Jupyter, использующего формат JSON (.ipynb). ▪️ Реактивность: В Marimo изменение данных автоматически обновляет все связанные ячейки, тогда как в Jupyter это требует ручного выполнения.
Основные преимущества Marimo:
▪️ Интерактивность: Встроенные UI-элементы, такие как слайдеры и выпадающие списки, синхронизируются с кодом без необходимости в дополнительных настройках.
▪️ Отсутствие скрытых состояний и детерминированный порядок выполнения обеспечивают надежность результатов.
▪️ Поддерживает возможность исполнять блокноты как скрипты, импортировать их в другие проекты и разворачивать как веб-приложения.
Marimo представляет собой мощный инструмент для разработчиков и исследователей, стремящихся к более эффективной и надежной работе с Python-блокнотами.
В галерее Marimo представлены блокноты на все случае жизни, созданные сообществом, демонстрирующие различные возможности и сценарии использования Marimo.
@ai_machinelearning_big_data
#marimo #ds #ml #tools #opensource #datascience
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2❤1
Forwarded from Machinelearning
Команда DeepSeek представила DeepSeek-GRM (Generalist Reward Modeling) - новую систему для моделирования вознаграждения (RM), цель которой - улучшить согласованность LLM с общими запросами (general query alignment).
DeepSeek-GRM предлагает новый масштабируемый способ построения более надежных и универсальных систем вознаграждения.
DeepSeek-GRM-27B с масштабированием во время инференса показывает SOTA (или близкие к SOTA) результаты на RM бенчмарках, будучи при этом эффективнее по параметрам, чем гигантские модели, и имея меньше проблем с систематическими ошибками.
LLM-as-a-Judge показывает схожие показатели, но с более низкой производительностью.
Это интересный вектор развития RM, переносящий часть "интеллекта" оценки на этап инференса для повышения качества моделей.
#LLM #AI #MachineLearning #RewardModeling #DeepSeek #ReinforcementLearning #NLP #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
полезная шпаргалка, после которой вы реально поймёте LLM
Что внутри шпаргалки:
— Архитектура трансформеров
— Механизмы внимания
— Обучение языковых моделей
— Позиционные эмбеддинги
— Разбор современных LLM
🔝 И многое другое, объяснённое максимально наглядно всего на 4 страницах!
https://github.com/afshinea/stanford-cme-295-transformers-large-language-models/blob/main/en/cheatsheet-transformers-large-language-models.pdf
Что внутри шпаргалки:
— Архитектура трансформеров
— Механизмы внимания
— Обучение языковых моделей
— Позиционные эмбеддинги
— Разбор современных LLM
🔝 И многое другое, объяснённое максимально наглядно всего на 4 страницах!
https://github.com/afshinea/stanford-cme-295-transformers-large-language-models/blob/main/en/cheatsheet-transformers-large-language-models.pdf
👍4❤1
Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬
Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.
Что будем делать на вебинаре:
Вебинар будет интересен как новичкам, так и уже опытным специалистам
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Модель поэтапно предсказывает следующий кадр или блок кадров, обеспечивая плавную и контролируемую генерацию. При этом FramePack позволяет создавать видео длительностью более 60 секунд.
Вместо хранения полного контекста он распределяет между кадрами разное число патч‑токенов и поддерживает общее количество токенов постоянным. Благодаря этому нагрузка остаётся O(1) относительно длины ролика — даже 13 B‑модель может генерировать тысячи кадров на обычной GPU.
Распределение «места» между кадрами задаётся расписанием (
FramePack Scheduling): линейным, экспоненциальным, равномерным или кастомным. Например, можно сделать первый кадр самым детальным для задач image‑to‑video или отдавать приоритет последним кадрам.Дополнительно применяется двусторонняя sampling‑схема — генерация кадров «вперёд‑назад»: модель чередует прямой и обратный проход по временной оси, что минимизирует накопление ошибок и сохраняет качество даже на полноценных минутных видео.
.
~2.5 с/кадр без оптимизаций
~1.5 с/кадр с TeaCache
O(1) по длине видео. Эти метрики делают FramePack одним из самых практичных решений для генерации длинных видео даже на относительно слабом железе.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Несмотря на то что модели o3 и o4‑mini сейчас лидируют в задачах рассуждения, но для «обычных» офисных пользователей разница между 95% и 98% качества по бенчмаркам почти неощутима.
Они уже готовы пользоваться ИИ‑помощниками — главное не абсолютный рекорд, а удобство и надёжность в повседневной работе.
Ограниченный контекст (context window)
Сохранение и обработка длинных фрагментов текста (чата, документов, сценариев) до сих пор сильно ограничено: модель просто «забывает» начало разговора, как только контекст вырастает за рамки окна. Это ключевая проблема для всех провайдеров ИИ, и её решение окажет гораздо больший эффект, чем рост точности на синтетических тестах.
Упрощение выбора модели
Люди путаются, когда и какую модель лучше выбрать: для творчества, для вычислений, для перевода и т. д. Если пользователь в панели видит «o3», «o4‑mini», «reasoning», «non‑reasoning» — он в итоге часто запускает самую мощную (и самую дорогую) модель «на всякий», даже если она избыточна. Нужен автоматический «маршрутизатор», который подберёт оптимальную модель под задачу сам (надеются, что появится в GPT‑5).
Стоимость использования
Идеальные модели всё ещё требуют значительных ресурсов: каждый запрос стоит денег. Чем дешевле модель при сопоставимой производительности, тем быстрее ИИ войдёт в массовое применение и принесёт экономический эффект. Здесь у Google есть преимущество благодаря собственным TPU, которые дают более низкую себестоимость.
Итог: пользователям уже не важна «последняя сотая доля процента» в тестах — им нужны
большие и стабильные контексты,
простота и автоматический выбор «правильной» модели,
и низкая цена использования. Име
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤔2👎1🤡1
Forwarded from Machinelearning
InstructPipe — это AI-ассистент, который преобразует текстовые команды в визуальные блок-схемы, представляющие собой пайплайны машинного обучения.
Система использует два модуля больших языковых моделей (LLM) и интерпретатор кода для генерации псевдокода и его визуализации в редакторе графов.
Это low-code подход: вы просто соединяете готовые компоненты (ноды) без написания кодп.
@ai_machinelearning_big_data
#Google #InstructPipe
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1
👾 Совет по ML: ускорение инференса через квантование внимания в трансформерах
В трансформерных моделях 40% времени инференса тратится на вычисление attention-матриц. Мало кто использует трюк с предварительным квантованием ключей и значений в int8 без потери точности.
Для BERT-подобных моделей это даёт 2.3x ускорение на CPU за счёт оптимизированных INT8-операций. Реализация требует всего 3 строки в HuggingFace:
Особенно эффективно он работает для сервисов реального времени, где каждый миллисекунд на счету. Тесты показывают рост пропускной способности API с 12 до 28 RPS на ядре Xeon.
@dataanlitics
В трансформерных моделях 40% времени инференса тратится на вычисление attention-матриц. Мало кто использует трюк с предварительным квантованием ключей и значений в int8 без потери точности.
Для BERT-подобных моделей это даёт 2.3x ускорение на CPU за счёт оптимизированных INT8-операций. Реализация требует всего 3 строки в HuggingFace:
model.quantize_attention(keys_dtype='int8', values_dtype='int8')
Особенно эффективно он работает для сервисов реального времени, где каждый миллисекунд на счету. Тесты показывают рост пропускной способности API с 12 до 28 RPS на ядре Xeon.
@dataanlitics
👍3😱1
В статье собраны 50 лучших бесплатных или условно-бесплатных курсов (сертификат может быть платным), разделённых по уровням:
*Вводный (Beginner) → Промежуточный (Intermediate) → Продвинутый (Advanced).*
После каждого описания приведена полная кликабельная ссылка.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤3
🎯 Как стать Data Scientist в 2025 году — актуальный гайд
Если ты хочешь войти в data science и не знаешь, с чего начать — этот план собран по свежим рекомендациям и обсуждениям в r/learnpython. Кратко и по делу:
🔹 1. Основы — обязательно:
• Python (pandas, numpy, matplotlib)
• SQL (обязательно!)
• Статистика + линейная алгебра
🔹 2. Дальше — машинное обучение:
• sklearn, XGBoost, PyTorch или TensorFlow
• Базовые модели: линейная регрессия, деревья, кластеризация
• Умение обрабатывать реальные данные
🔹 3. Портфолио важнее диплома:
• GitHub + 3–5 законченных проектов
• Jupyter ноутбуки с объяснением
• Анализ реальных датасетов (можно Kaggle)
🔹 4. Облако и продвинутые навыки:
• Знание AWS / GCP / Azure
• Оптимизация пайплайнов, ML Ops
• Продвинутые визуализации: Seaborn, Plotly
🔹 5. Мягкие навыки и рост:
• Умение объяснять выводы бизнесу
• Личный бренд: Telegram, LinkedIn, статьи
• Курсы: Coursera, DataCamp, Turing College
💼 Перспективы:
• Средняя зарплата — от $160K
• Спрос выше, чем на классических программистов
• Чем глубже в ML / NLP / RL — тем выше ставки
📌 Советы из комментов:
• Не упарывайся по 10 курсам — делай проекты
• Работай с реальными грязными данными
• Спрашивай советы в Reddit, Slack, Discord — сообщество реально помогает
🔗 Оригинальный тред: [reddit.com/r/learnpython](https://www.reddit.com/r/learnpython/comments/1ku8ksa/how_to
Если ты хочешь войти в data science и не знаешь, с чего начать — этот план собран по свежим рекомендациям и обсуждениям в r/learnpython. Кратко и по делу:
🔹 1. Основы — обязательно:
• Python (pandas, numpy, matplotlib)
• SQL (обязательно!)
• Статистика + линейная алгебра
🔹 2. Дальше — машинное обучение:
• sklearn, XGBoost, PyTorch или TensorFlow
• Базовые модели: линейная регрессия, деревья, кластеризация
• Умение обрабатывать реальные данные
🔹 3. Портфолио важнее диплома:
• GitHub + 3–5 законченных проектов
• Jupyter ноутбуки с объяснением
• Анализ реальных датасетов (можно Kaggle)
🔹 4. Облако и продвинутые навыки:
• Знание AWS / GCP / Azure
• Оптимизация пайплайнов, ML Ops
• Продвинутые визуализации: Seaborn, Plotly
🔹 5. Мягкие навыки и рост:
• Умение объяснять выводы бизнесу
• Личный бренд: Telegram, LinkedIn, статьи
• Курсы: Coursera, DataCamp, Turing College
💼 Перспективы:
• Средняя зарплата — от $160K
• Спрос выше, чем на классических программистов
• Чем глубже в ML / NLP / RL — тем выше ставки
📌 Советы из комментов:
• Не упарывайся по 10 курсам — делай проекты
• Работай с реальными грязными данными
• Спрашивай советы в Reddit, Slack, Discord — сообщество реально помогает
🔗 Оригинальный тред: [reddit.com/r/learnpython](https://www.reddit.com/r/learnpython/comments/1ku8ksa/how_to
❤5
📝 Что такое word embedding и text vectorization?
Как из слов сделать числа, с которыми работают модели машинного обучения :contentReference[oaicite:0]
📌 Основные техники:
• One-hot Encoding – каждому слову соответствует длинный вектор с единицей в позиции слова и нулями в остальных. Очень разреженно и не передаёт смысл.
• Bag-of-Words (BoW) – вектор частот слов в документе. Удобно, но теряется порядок и контекст.
• TF-IDF – BoW с весами: редкие слова получают больший вес, частые («и», «the») почти не учитываются.
• Word Embeddings – плотные векторы (обычно 50–300 размерностей), которые учатся на данных и отражают семантические связи между словами.
🔍 Популярные алгоритмы:
• Word2Vec (CBOW и Skip-Gram) – предсказывает слово по контексту или контекст по слову.
• GloVe – факторизация глобальной матрицы со-встречаемости слов.
• FastText – расширяет Word2Vec, разбивая слова на n-граммы для обработки редких слов и морфологии :contentReference[oaicite:1]{index=1}
💡 Почему это важно?
• Векторы «понимают» смысл: vec(король) – vec(мужчина) + vec(женщина) ≈ vec(королева)
• Обеспечивают модели числовые представления текста для задач классификации, поиска, перевода и др.
🚀 Применение:
• Классификация текста (спам, отзывы)
• Поисковые системы (понимание запроса)
• Машинный перевод
• Вопрос-ответные системы
• Генерация текста и чат-боты :contentReference[oaicite:2]{index=2}
Этот гайд – отличное введение в трансформацию слов в числа. Простые методы (TF-IDF) по-прежнему полезны для быстрой обработки, а embeddings дают глубокое понимание языка.
Как из слов сделать числа, с которыми работают модели машинного обучения :contentReference[oaicite:0]
📌 Основные техники:
• One-hot Encoding – каждому слову соответствует длинный вектор с единицей в позиции слова и нулями в остальных. Очень разреженно и не передаёт смысл.
• Bag-of-Words (BoW) – вектор частот слов в документе. Удобно, но теряется порядок и контекст.
• TF-IDF – BoW с весами: редкие слова получают больший вес, частые («и», «the») почти не учитываются.
• Word Embeddings – плотные векторы (обычно 50–300 размерностей), которые учатся на данных и отражают семантические связи между словами.
🔍 Популярные алгоритмы:
• Word2Vec (CBOW и Skip-Gram) – предсказывает слово по контексту или контекст по слову.
• GloVe – факторизация глобальной матрицы со-встречаемости слов.
• FastText – расширяет Word2Vec, разбивая слова на n-граммы для обработки редких слов и морфологии :contentReference[oaicite:1]{index=1}
💡 Почему это важно?
• Векторы «понимают» смысл: vec(король) – vec(мужчина) + vec(женщина) ≈ vec(королева)
• Обеспечивают модели числовые представления текста для задач классификации, поиска, перевода и др.
🚀 Применение:
• Классификация текста (спам, отзывы)
• Поисковые системы (понимание запроса)
• Машинный перевод
• Вопрос-ответные системы
• Генерация текста и чат-боты :contentReference[oaicite:2]{index=2}
Этот гайд – отличное введение в трансформацию слов в числа. Простые методы (TF-IDF) по-прежнему полезны для быстрой обработки, а embeddings дают глубокое понимание языка.
🔥1
Forwarded from Machinelearning
FlashInfer - это библиотека для ускорения работы с LLM, созданная NVIDIA, чтобы объединить скорость обработки на GPU и гибкость для разработчиков. Еt главная цель — сократить время вывода текста, одновременно позволяя инженерам быстро внедрять новые алгоритмы и адаптировать решения под разные задачи.
Ее архитектура спроектирована так, чтобы оставаться актуальной при появлении новых алгоритмов: будь то методы повторного использования кэша или эксперименты с форматами внимания. Плюс к этому, библиотека легковесна, она не требует установки лишних зависимостей, а ее API напоминает стандартные инструменты PyTorch.
FlashInfer базируется на 2 принципах : эффективное управление памятью и динамическое планирование вычислений. Библиотека оптимизирует хранение KV-cache через блочно-разреженные структуры, уменьшая объем лишних обращений к памяти.
Это особенно важно при обработке запросов с разной длиной текста. Также используется технология JIT-компиляции, которая на лету генерирует оптимизированные CUDA-ядра под конкретную задачу.
Архитектура FlashInfer разбита на 4 модуля: Attention, GEMM, Communication и Token sampling.
FlashInfer поддерживает PyTorch через собственные операторы и DLPack API, тем самым упрощает внедрение в фреймворки vLLM и SGLang. Благодаря разделению процесса на этапы «планирования» и «запуска» библиотека минимизирует задержки: на первом шаге выбирается оптимальное ядро под параметры запроса, а затем оно переиспользуется для последующих аналогичных задач.
@ai_machinelearning_big_data
#AI #ML #LLM #FlashInfer #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Reinforcement Learning Teachers (RLT) от Sakana AI - метод обучения LLM рассуждениям, где компактная модель-"учитель" не решает задачи сама, а учится объяснять уже готовые решения так, чтобы студент-модель лучше их усваивала.
Вместо дорогого обучения "с нуля" через проб и ошибку (как в классическом RL), учитель фокусируется на ясности пошаговых пояснений, используя и вопрос, и правильный ответ как подсказку. Это радикально удешевляет процесс и выравнивает цель учителя быть полезным студенту.
Архитектура строится вокруг петли обратной связи. Учителю (например, крошечной модели на 7B параметров) на вход подаются и задача и ее верное решение. Его работа - сгенерировать максимально понятное пошаговое объяснение, как прийти от условия к ответу.
Эффективность учителя измеряется не тем, решил ли он задачу сам (он даже не обязан это уметь), а тем, насколько хорошо студент-модель понимает его объяснение. Ключевая метрика - "логарифмические вероятности": чем выше вероятность, что студент, прочитав объяснение учителя, правильно предскажет следующий шаг или итоговый ответ, тем лучше работа учителя. Это и есть сигнал подкрепления для обучения RLT.
Вся магия метода состоит в этом смещении фокуса RL. Вместо чтоб награждать модель за самостоятельное нахождение ответа (что требует огромных вычислительных ресурсов и приводит к "узкой" специализации), RLT поощряют за педагогическую эффективность.
Благодаря наличию готового ответа во время обучения, в роли учителя могут выступать даже небольшие, дешевые модели, которые не смогли бы решить сложные задачи в одиночку. Объяснения от RLT затем используются как высококачественные данные для обучения (дистилляции или "холодного старта") студент-моделей любого размера.
Главный нюанс: метод требует наличия готовых правильных решений для задач в обучающем наборе. Он не заменяет полностью сбор данных, а перепрофилирует их для обучения "преподаванию".
Пока метод тестировался в основном на задачах математики и естественных наук. Но его сила в эффективности: 7B RLT-учитель превосходит в обучении студентов-гигантов ( 671B DeepSeek R1). Он обучает даже студентов крупнее себя (32B) быстрее (менее суток против месяцев) и лучше, а его объяснения четче, без лишнего "шума" вроде юмора или подсказок калькулятора, свойственных традиционным RL-моделям.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #RLT #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM