Аналитик данных – Telegram

Аналитик данных

6.07K subscribers

216 photos

28 videos

2 files

201 links

Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам

Download Telegram

About

Blog

Apps

Platform

Аналитик данных

6.07K subscribers

Аналитик данных

Визуализация пакетов PyPi — новый способ поиска библиотек

Если вы разрабатываете на Python, то наверняка используете PyPi. Мы нашли интересную визуализацию пакетов, которая делает процесс их изучения и поиска более удобным и наглядным.

✅ Графическая карта пакетов
✅ Удобный поиск и исследование зависимостей
✅ Возможность находить новые полезные библиотеки

📂 Исходный код и инструкции для воспроизведения тоже доступны.

https://fi-le.net/pypi/

fi-le.net, the Fiefdom of Files

👍6❤1

1.4K views08:01

Аналитик данных

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🧍 LHM: новая модель Alibaba для генерации 3D из единственного изображения.

Этот ИИ может превратить ЛЮБОЕ изображение в полный рост в анимированных 3D-персонажей за считанные секунды.

🟢

Основные моменты работы модели:
Выделение признаков: Из входного изображения извлекаются токены, описывающие как общую структуру тела, так и детали лица (с помощью схемы многоуровневого кодирования для головы).

🟢

Мультимодальный трансформер: С помощью архитектуры трансформера происходит объединение 3D-геометрических токенов тела с визуальными токенами изображения. Механизм внимания позволяет сохранять геометрию одежды и текстурные детали.

🟢

Декодирование в 3D: После слияния токенов модель быстро (в режиме feed-forward) декодирует их в параметры 3D-гaуссового распределения, которые задают форму и внешний вид анимируемого 3D-аватара.

⚡️ Модель выдает очень приличные генерации, видео выглядит плавно и естественно, особенно анимация лица и рук.

Установка:

git clone [email protected]:aigc3d/LHM.git
cd LHM

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

Демка (периодически отваливается из-за наплыва пользователей)

🟡

🟡

Видео

@ai_machinelearning_big_data

#ml #opensource #3dgenerator #Alibaba

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥2

1.69K views11:34

Аналитик данных

Forwarded from Machinelearning

✔️

Marimo — это блокнот с реактивным исполнением кода, обеспечивающий автоматическое обновление зависимых ячеек при изменении данных или кода.

По сути это улучшенная альтернатива Jupyter.

Как работает Marimo?

▪️ При изменении значения переменной или взаимодействии с UI-элементом, Marimo автоматически выполняет все ячейки, зависящие от этой переменной, поддерживая консистентность кода и результатов.

Отличия от Jupyter:

▪️ Формат файлов: Marimo сохраняет блокноты как чистые Python-файлы (.py), облегчая интеграцию с системами контроля версий, в отличие от Jupyter, использующего формат JSON (.ipynb).

▪️ Реактивность: В Marimo изменение данных автоматически обновляет все связанные ячейки, тогда как в Jupyter это требует ручного выполнения.

Основные преимущества Marimo:

▪️ Интерактивность: Встроенные UI-элементы, такие как слайдеры и выпадающие списки, синхронизируются с кодом без необходимости в дополнительных настройках.

▪️ Отсутствие скрытых состояний и детерминированный порядок выполнения обеспечивают надежность результатов.

▪️ Поддерживает возможность исполнять блокноты как скрипты, импортировать их в другие проекты и разворачивать как веб-приложения.

Marimo представляет собой мощный инструмент для разработчиков и исследователей, стремящихся к более эффективной и надежной работе с Python-блокнотами.

В галерее Marimo представлены блокноты на все случае жизни, созданные сообществом, демонстрирующие различные возможности и сценарии использования Marimo.

🟡

Еще примеры

🟡

Документация

🟡

Канал Marimo

🟡

Видеообзор

🟡

Урок по работе с Marimo

@ai_machinelearning_big_data

#marimo #ds #ml #tools #opensource #datascience

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥2❤1

1.2K views10:07

Аналитик данных

Forwarded from Machinelearning

🔥

DeepSeek-GRM

Команда DeepSeek представила DeepSeek-GRM (Generalist Reward Modeling) - новую систему для моделирования вознаграждения (RM), цель которой - улучшить согласованность LLM с общими запросами (general query alignment).

✔️

Ключевая идея: Использовать дополнительные вычисления во время инференса для динамического улучшения и масштабирования оценки вознаграждения, отходя от чисто статических RM.

✔️

Как работает: Комбинирует генеративное RM (GRM), метод обучения Self-Principled Critique Tuning (SPCT - модель учится сама генерировать принципы и критику через RL), параллельный сэмплинг и голосование во время инференса.

✔️

Результаты: Подход превосходит существующие базовые модели на RM-бенчмарках, не теряя в качестве.

DeepSeek-GRM предлагает новый масштабируемый способ построения более надежных и универсальных систем вознаграждения.

DeepSeek-GRM-27B с масштабированием во время инференса показывает SOTA (или близкие к SOTA) результаты на RM бенчмарках, будучи при этом эффективнее по параметрам, чем гигантские модели, и имея меньше проблем с систематическими ошибками.

🟡Метод обучения SPCT улучшает способность GRM к генерации вознаграждения для общих задач (generalist capability) и его масштабируемость во время инференса.

LLM-as-a-Judge показывает схожие показатели, но с более низкой производительностью.

Это интересный вектор развития RM, переносящий часть "интеллекта" оценки на этап инференса для повышения качества моделей.

🟡

Подробности в статье

#LLM #AI #MachineLearning #RewardModeling #DeepSeek #ReinforcementLearning #NLP #OpenSource

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

1.59K views10:30

Аналитик данных

полезная шпаргалка, после которой вы реально поймёте LLM

Что внутри шпаргалки:
— Архитектура трансформеров
— Механизмы внимания
— Обучение языковых моделей
— Позиционные эмбеддинги
— Разбор современных LLM

🔝 И многое другое, объяснённое максимально наглядно всего на 4 страницах!

https://github.com/afshinea/stanford-cme-295-transformers-large-language-models/blob/main/en/cheatsheet-transformers-large-language-models.pdf

👍4❤1

1.23K views07:18

Аналитик данных

⚡️Строим рекомендательную систему фильмов на Kaggle

Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬

Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.

Что будем делать на вебинаре:
🟠Разберем имеющиеся данные фильмов с их оценками
🟠Проведем предобработку данных
🟠Построим рекомендательную систему на основе машинного обучения
🟠Проведем расчет и анализ метрик на основе результатов работы модели

Вебинар будет интересен как новичкам, так и уже опытным специалистам

😶Зарегистрироваться на бесплатный вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.09K views14:18

Аналитик данных

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

FramePack — это надстройка над любым «next‑frame prediction» видеогенератором, которая превращает работу с длинными роликами в задачу постоянной, а не растущей стоимости

Модель поэтапно предсказывает следующий кадр или блок кадров, обеспечивая плавную и контролируемую генерацию. При этом FramePack позволяет создавать видео длительностью более 60 секунд.

Вместо хранения полного контекста он распределяет между кадрами разное число патч‑токенов и поддерживает общее количество токенов постоянным. Благодаря этому нагрузка остаётся O(1) относительно длины ролика — даже 13 B‑модель может генерировать тысячи кадров на обычной GPU.

Распределение «места» между кадрами задаётся расписанием (FramePack Scheduling): линейным, экспоненциальным, равномерным или кастомным. Например, можно сделать первый кадр самым детальным для задач image‑to‑video или отдавать приоритет последним кадрам.

Дополнительно применяется двусторонняя sampling‑схема — генерация кадров «вперёд‑назад»: модель чередует прямой и обратный проход по временной оси, что минимизирует накопление ошибок и сохраняет качество даже на полноценных минутных видео.

🔥

Особенности:
🟢Заявленный минимальный объём GPU: всего 6 GB для генерации 1‑минутного видео @ 30 fps (1800 кадров) на 13 B‑модели — запускается даже на ноутбучных GPU.
.🟢Скорость генерации (RTX 4090):
~2.5 с/кадр без оптимизаций
~1.5 с/кадр с TeaCache
🟢Контекст фиксированной длины: накладные расходы (память и время) не растут при увеличении числа кадров — сложность остаётся O(1) по длине видео.

Эти метрики делают FramePack одним из самых практичных решений для генерации длинных видео даже на относительно слабом железе.

🔜

Project Page：https://lllyasviel.github.io/frame_pack_gitpage/

🔜

Paper：https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf

🔜

Code：https://github.com/lllyasviel/FramePack

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

994 views16:20

Аналитик данных

✔️

Бенчмарки vs реальные задачи

Несмотря на то что модели o3 и o4‑mini сейчас лидируют в задачах рассуждения, но для «обычных» офисных пользователей разница между 95% и 98% качества по бенчмаркам почти неощутима.

Они уже готовы пользоваться ИИ‑помощниками — главное не абсолютный рекорд, а удобство и надёжность в повседневной работе.

Ограниченный контекст (context window)
Сохранение и обработка длинных фрагментов текста (чата, документов, сценариев) до сих пор сильно ограничено: модель просто «забывает» начало разговора, как только контекст вырастает за рамки окна. Это ключевая проблема для всех провайдеров ИИ, и её решение окажет гораздо больший эффект, чем рост точности на синтетических тестах.

Упрощение выбора модели
Люди путаются, когда и какую модель лучше выбрать: для творчества, для вычислений, для перевода и т. д. Если пользователь в панели видит «o3», «o4‑mini», «reasoning», «non‑reasoning» — он в итоге часто запускает самую мощную (и самую дорогую) модель «на всякий», даже если она избыточна. Нужен автоматический «маршрутизатор», который подберёт оптимальную модель под задачу сам (надеются, что появится в GPT‑5).

Стоимость использования
Идеальные модели всё ещё требуют значительных ресурсов: каждый запрос стоит денег. Чем дешевле модель при сопоставимой производительности, тем быстрее ИИ войдёт в массовое применение и принесёт экономический эффект. Здесь у Google есть преимущество благодаря собственным TPU, которые дают более низкую себестоимость.

Итог: пользователям уже не важна «последняя сотая доля процента» в тестах — им нужны

большие и стабильные контексты,

простота и автоматический выбор «правильной» модели,

и низкая цена использования. Име

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🤔2👎1🤡1

1.26K views17:36

Аналитик данных

😁8🔥4👍1🤡1

1.33K views07:59

Аналитик данных

Forwarded from Machinelearning

🔥

Google представила InstructPipe — AI‑редактор ML‑пайплайнов, работающий через текстовые запросы.

❔ Что такое InstructPipe?
InstructPipe — это AI-ассистент, который преобразует текстовые команды в визуальные блок-схемы, представляющие собой пайплайны машинного обучения.

Система использует два модуля больших языковых моделей (LLM) и интерпретатор кода для генерации псевдокода и его визуализации в редакторе графов.

Это low-code подход: вы просто соединяете готовые компоненты (ноды) без написания кодп.

🌟

Как это работает?
1️⃣Пользователь вводит текстовую инструкцию, описывающую желаемый пайплайн.

2️⃣ LLM модули обрабатывают инструкцию и генерируют соответствующий псевдокод.

3️⃣Интерпретатор кода преобразует псевдокод в визуальную блок-схему, которую можно редактировать и настраивать.

✔️ Преимущества InstructPipe

🟡 Доступность: Позволяет новичкам в программировании создавать сложные ML пайплайны без необходимости писать код.

🟡Гибкость: Принимает на выход текстовое описание в любом виде, нет строго формата.

🟡Снижение порога входа: Упрощает процесс обучения и прототипирования мл проектов.

🔜

Подробнее

@ai_machinelearning_big_data

#Google #InstructPipe

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

1.87K views09:37

Аналитик данных

👾 Совет по ML: ускорение инференса через квантование внимания в трансформерах

В трансформерных моделях 40% времени инференса тратится на вычисление attention-матриц. Мало кто использует трюк с предварительным квантованием ключей и значений в int8 без потери точности.

Для BERT-подобных моделей это даёт 2.3x ускорение на CPU за счёт оптимизированных INT8-операций. Реализация требует всего 3 строки в HuggingFace:


model.quantize_attention(keys_dtype='int8', values_dtype='int8')

Особенно эффективно он работает для сервисов реального времени, где каждый миллисекунд на счету. Тесты показывают рост пропускной способности API с 12 до 28 RPS на ядре Xeon.

@dataanlitics

👍3😱1

2.06K views12:05

Аналитик данных

✔️

Дорожная карта бесплатных курсов по машинному обучению 2025

В статье собраны 50 лучших бесплатных или условно-бесплатных курсов (сертификат может быть платным), разделённых по уровням:
*Вводный (Beginner) → Промежуточный (Intermediate) → Продвинутый (Advanced).*
После каждого описания приведена полная кликабельная ссылка.

➡️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3

2.15K views16:13