Аналитик данных

🔥

Google представила InstructPipe — AI‑редактор ML‑пайплайнов, работающий через текстовые запросы.

❔ Что такое InstructPipe?
InstructPipe — это AI-ассистент, который преобразует текстовые команды в визуальные блок-схемы, представляющие собой пайплайны машинного обучения.

Система использует два модуля больших языковых моделей (LLM) и интерпретатор кода для генерации псевдокода и его визуализации в редакторе графов.

Это low-code подход: вы просто соединяете готовые компоненты (ноды) без написания кодп.

🌟

Как это работает?
1️⃣Пользователь вводит текстовую инструкцию, описывающую желаемый пайплайн.

2️⃣ LLM модули обрабатывают инструкцию и генерируют соответствующий псевдокод.

3️⃣Интерпретатор кода преобразует псевдокод в визуальную блок-схему, которую можно редактировать и настраивать.

✔️ Преимущества InstructPipe

🟡 Доступность: Позволяет новичкам в программировании создавать сложные ML пайплайны без необходимости писать код.

🟡Гибкость: Принимает на выход текстовое описание в любом виде, нет строго формата.

🟡Снижение порога входа: Упрощает процесс обучения и прототипирования мл проектов.

🔜

Подробнее

@ai_machinelearning_big_data

#Google #InstructPipe

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

1.87K views09:37

Аналитик данных

👾 Совет по ML: ускорение инференса через квантование внимания в трансформерах

В трансформерных моделях 40% времени инференса тратится на вычисление attention-матриц. Мало кто использует трюк с предварительным квантованием ключей и значений в int8 без потери точности.

Для BERT-подобных моделей это даёт 2.3x ускорение на CPU за счёт оптимизированных INT8-операций. Реализация требует всего 3 строки в HuggingFace:


model.quantize_attention(keys_dtype='int8', values_dtype='int8')

Особенно эффективно он работает для сервисов реального времени, где каждый миллисекунд на счету. Тесты показывают рост пропускной способности API с 12 до 28 RPS на ядре Xeon.

@dataanlitics

👍3😱1

2.06K views12:05

Аналитик данных

✔️

Дорожная карта бесплатных курсов по машинному обучению 2025

В статье собраны 50 лучших бесплатных или условно-бесплатных курсов (сертификат может быть платным), разделённых по уровням:
*Вводный (Beginner) → Промежуточный (Intermediate) → Продвинутый (Advanced).*
После каждого описания приведена полная кликабельная ссылка.

➡️

Курсы

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3

2.15K views16:13

Аналитик данных

🎯 Как стать Data Scientist в 2025 году — актуальный гайд

Если ты хочешь войти в data science и не знаешь, с чего начать — этот план собран по свежим рекомендациям и обсуждениям в r/learnpython. Кратко и по делу:

🔹 1. Основы — обязательно:
• Python (pandas, numpy, matplotlib)
• SQL (обязательно!)
• Статистика + линейная алгебра

🔹 2. Дальше — машинное обучение:
• sklearn, XGBoost, PyTorch или TensorFlow
• Базовые модели: линейная регрессия, деревья, кластеризация
• Умение обрабатывать реальные данные

🔹 3. Портфолио важнее диплома:
• GitHub + 3–5 законченных проектов
• Jupyter ноутбуки с объяснением
• Анализ реальных датасетов (можно Kaggle)

🔹 4. Облако и продвинутые навыки:
• Знание AWS / GCP / Azure
• Оптимизация пайплайнов, ML Ops
• Продвинутые визуализации: Seaborn, Plotly

🔹 5. Мягкие навыки и рост:
• Умение объяснять выводы бизнесу
• Личный бренд: Telegram, LinkedIn, статьи
• Курсы: Coursera, DataCamp, Turing College

💼 Перспективы:
• Средняя зарплата — от $160K
• Спрос выше, чем на классических программистов
• Чем глубже в ML / NLP / RL — тем выше ставки

📌 Советы из комментов:
• Не упарывайся по 10 курсам — делай проекты
• Работай с реальными грязными данными
• Спрашивай советы в Reddit, Slack, Discord — сообщество реально помогает

🔗 Оригинальный тред: [reddit.com/r/learnpython](https://www.reddit.com/r/learnpython/comments/1ku8ksa/how_to

❤5

2.13K views07:09

Аналитик данных

Очень полезный репозиторий с советами по визуализации данных.

Множество примеров, комментариев и главное: чёткое объяснение, как делать не надо.

Пригодится и аналитикам, и ученым. GitHub на английском здесь, перевод на русском (неполная версия) здесь.

❤2👍2🔥1

1.52K views09:17

Аналитик данных

📝 Что такое word embedding и text vectorization?

Как из слов сделать числа, с которыми работают модели машинного обучения :contentReference[oaicite:0]

📌 Основные техники:
• One-hot Encoding – каждому слову соответствует длинный вектор с единицей в позиции слова и нулями в остальных. Очень разреженно и не передаёт смысл.
• Bag-of-Words (BoW) – вектор частот слов в документе. Удобно, но теряется порядок и контекст.
• TF-IDF – BoW с весами: редкие слова получают больший вес, частые («и», «the») почти не учитываются.
• Word Embeddings – плотные векторы (обычно 50–300 размерностей), которые учатся на данных и отражают семантические связи между словами.

🔍 Популярные алгоритмы:
• Word2Vec (CBOW и Skip-Gram) – предсказывает слово по контексту или контекст по слову.
• GloVe – факторизация глобальной матрицы со-встречаемости слов.
• FastText – расширяет Word2Vec, разбивая слова на n-граммы для обработки редких слов и морфологии :contentReference[oaicite:1]{index=1}

💡 Почему это важно?
• Векторы «понимают» смысл: vec(король) – vec(мужчина) + vec(женщина) ≈ vec(королева)
• Обеспечивают модели числовые представления текста для задач классификации, поиска, перевода и др.

🚀 Применение:
• Классификация текста (спам, отзывы)
• Поисковые системы (понимание запроса)
• Машинный перевод
• Вопрос-ответные системы
• Генерация текста и чат-боты :contentReference[oaicite:2]{index=2}

Этот гайд – отличное введение в трансформацию слов в числа. Простые методы (TF-IDF) по-прежнему полезны для быстрой обработки, а embeddings дают глубокое понимание языка.

🔥1

1.23K views11:04

Аналитик данных

Forwarded from Machinelearning

🌟

FlashInfer: библиотека ускорения LLM-инференса на GPU.

FlashInfer - это библиотека для ускорения работы с LLM, созданная NVIDIA, чтобы объединить скорость обработки на GPU и гибкость для разработчиков. Еt главная цель — сократить время вывода текста, одновременно позволяя инженерам быстро внедрять новые алгоритмы и адаптировать решения под разные задачи.

Ее архитектура спроектирована так, чтобы оставаться актуальной при появлении новых алгоритмов: будь то методы повторного использования кэша или эксперименты с форматами внимания. Плюс к этому, библиотека легковесна, она не требует установки лишних зависимостей, а ее API напоминает стандартные инструменты PyTorch.

FlashInfer базируется на 2 принципах : эффективное управление памятью и динамическое планирование вычислений. Библиотека оптимизирует хранение KV-cache через блочно-разреженные структуры, уменьшая объем лишних обращений к памяти.

Это особенно важно при обработке запросов с разной длиной текста. Также используется технология JIT-компиляции, которая на лету генерирует оптимизированные CUDA-ядра под конкретную задачу.

Архитектура FlashInfer разбита на 4 модуля: Attention, GEMM, Communication и Token sampling.

🟢«Attention» работает с любыми схемами маскирования и позиционного кодирования, используя унифицированное представление кэша как разреженной матрицы.

🟢GEMM и Communication отвечают за матричные операции, включая сложные сценарии вроде grouped-GEMM (множество мелких умножений за один вызов). Для распределенных систем реализованы алгоритмы all-reduce и all-to-all, что критично для MoE-моделей.

🟢"Token sampling" ускоряет генерацию текста, заменяя традиционные сортировки вероятностей на rejection-based алгоритмы, отсекающие маловероятные варианты на лету.

FlashInfer поддерживает PyTorch через собственные операторы и DLPack API, тем самым упрощает внедрение в фреймворки vLLM и SGLang. Благодаря разделению процесса на этапы «планирования» и «запуска» библиотека минимизирует задержки: на первом шаге выбирается оптимальное ядро под параметры запроса, а затем оно переиспользуется для последующих аналогичных задач.

📌 Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Документация

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #FlashInfer #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.24K views15:26

Аналитик данных

Forwarded from Machinelearning

🌟

Reinforcement Learning Teachers: как модели на 7B параметров обучают гигантов.

Reinforcement Learning Teachers (RLT) от Sakana AI - метод обучения LLM рассуждениям, где компактная модель-"учитель" не решает задачи сама, а учится объяснять уже готовые решения так, чтобы студент-модель лучше их усваивала.

Вместо дорогого обучения "с нуля" через проб и ошибку (как в классическом RL), учитель фокусируется на ясности пошаговых пояснений, используя и вопрос, и правильный ответ как подсказку. Это радикально удешевляет процесс и выравнивает цель учителя быть полезным студенту.

Архитектура строится вокруг петли обратной связи. Учителю (например, крошечной модели на 7B параметров) на вход подаются и задача и ее верное решение. Его работа - сгенерировать максимально понятное пошаговое объяснение, как прийти от условия к ответу.

Эффективность учителя измеряется не тем, решил ли он задачу сам (он даже не обязан это уметь), а тем, насколько хорошо студент-модель понимает его объяснение. Ключевая метрика - "логарифмические вероятности": чем выше вероятность, что студент, прочитав объяснение учителя, правильно предскажет следующий шаг или итоговый ответ, тем лучше работа учителя. Это и есть сигнал подкрепления для обучения RLT.

Вся магия метода состоит в этом смещении фокуса RL. Вместо чтоб награждать модель за самостоятельное нахождение ответа (что требует огромных вычислительных ресурсов и приводит к "узкой" специализации), RLT поощряют за педагогическую эффективность.

Благодаря наличию готового ответа во время обучения, в роли учителя могут выступать даже небольшие, дешевые модели, которые не смогли бы решить сложные задачи в одиночку. Объяснения от RLT затем используются как высококачественные данные для обучения (дистилляции или "холодного старта") студент-моделей любого размера.

Главный нюанс: метод требует наличия готовых правильных решений для задач в обучающем наборе. Он не заменяет полностью сбор данных, а перепрофилирует их для обучения "преподаванию".

Пока метод тестировался в основном на задачах математики и естественных наук. Но его сила в эффективности: 7B RLT-учитель превосходит в обучении студентов-гигантов ( 671B DeepSeek R1). Он обучает даже студентов крупнее себя (32B) быстрее (менее суток против месяцев) и лучше, а его объяснения четче, без лишнего "шума" вроде юмора или подсказок калькулятора, свойственных традиционным RL-моделям.

▶️ Проект RLT открытый, в репозитории на Github опубликован код для воспроизведения экспериментов из техотчета, а на HF - тестовые модели учителей на 7 и 32 млрд. параметров, обученные на базе Qwen2.5 с помощью сета Bespoke-Stratos-17k.

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Набор моделей

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #RL #RLT #SakanaAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.58K views11:23

Аналитик данных

🔥 Awesome Tensor Compilers — энциклопедия компиляторов для тензорных вычислений. Этот репозиторий представляет собой сборник различных проектов для разработчиков, работающих с оптимизацией ML-моделей. Здесь собраны ключевые инструменты вроде TVM, MLIR и Triton, а также сотни исследований по автоматической оптимизации тензорных операций на CPU, GPU и специализированных ускорителях.

Помимо готовых компиляторов, в репозитории есть разделы с научными работами по cost-моделям, автоматическому планированию вычислений и методам верификации. Каждый проект или статья сопровождается ссылками.

🤖 GitHub

❤1🔥1

1.28K viewsedited 12:28

Аналитик данных

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

🔅 Manus — теперь с модулем Audio

Что нового
- Читает длинные отчёты и создаёт аудиофайлы
- Удобное упарвление голосом: можно слушать, давать команды и одновременно делать другие дела
- Генерирует подкасты
- Озвучивает доки и презентации и многое другое

Когда удобнее слушать, чем читать — включите Manus и продолжайте работу.

https://audio.manus.space

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

1.08K views08:35

Аналитик данных

🖥

Verifiers — RL с LLM в проверяемых средах

Что это:
Набор инструментов и абстракций для обучения больших языковых моделей методом подкрепления (RL) в многоповоротных сценариях с проверяемым результатом. Основано на Group-Relative Policy Optimization (GRPO) поверх transformers.Trainer.

Основные принципы:
- Модульность: среды, политики и рубрики — независимые компоненты.
- Переиспользуемость: легко комбинируйте и адаптируйте под новые задачи.
- Хакинг: обойдитесь минимальными усилиями для изменений и расширений.

Состав среды:
- actor: OpenAI-совместимый LLM endpoint
- environment:
- инструкции (system prompts)
- задачи + проверяемые цели
- протокол взаимодействия (многоповоротные tool-вызовы, multi-agent)
- рубрика (награды за выполнение целей)

Ключевые возможности:
- vf.GRPOTrainer для асинхронного многоповоротного инференса и обучения с off-policy overlapping
- Генерация синтетических данных и SFT-разогрев на отфильтрованных rollout
- Оффлайн-оценка через OpenAI-совместимые API
- Поддержка и chat, и completion запросов
- Парсеры (например, `XMLParser`) для стандартизации форматов
- Классы сред:
- SingleTurnEnv для одноповоротного reasoning
- ToolEnv и SmolaToolEnv для tool-вызовов
- CodeMathEnv для интерактивного выполнения Python
- MultiTurnEnv и ReasoningGymEnv для кастомных логик

git clone https://github.com/willccbb/verifiers.git
cd verifiers
uv sync --extra all && uv pip install flash-attn --no-build-isolation

▶️

Github

Please open Telegram to view this post

VIEW IN TELEGRAM

1.15K viewsedited 07:15

Аналитик данных

🕸️ Chat4Data — расширение, которое превращает веб-скрапинг в диалог

Вместо кода и настроек — просто говоришь, что хочешь, и AI собирает структурированные данные с сайта.

Что умеет Chat4Data:

🔹 Собирает данные “на слух”
Опиши нужную таблицу или список — AI сам найдёт, распарсит и вставит в таблицу. Не нравится результат? Переспроси. Без кода, без боли.

🔹 Обходит все страницы сам
Автоматически кликает “Следующая”, грузит подгружаемые списки и собирает всё — без твоего участия.

🔹 Запускается за 3 клика
AI сам определяет, какие данные ценные, предлагает их — тебе остаётся только подтвердить. Быстро, как в Telegram-боте.

🔹 Не тратит токены на скрапинг
Анализ страницы — на AI, но сами данные забираются без токенов. В бета-версии дают 1 миллион токенов на другие задачи.

🔹 Скоро: скрапинг подстраниц, интерактив, интеграции...

📎 https://chat4data.ai

#ai #scraping #automation #nocode #tools

❤2👍2

1.86K views12:01

Аналитик данных

Forwarded from Machinelearning

✔️

Stanford и Google представили Marin — первую полностью открытую LLM, разработанную на JAX

Что делает Marin особенной:
— Полностью открыты не только веса, но показан весь процесс обучения: код, данные, гиперпараметры модели, логи, эксперименты — всё доступно на GitHub
— Модель обучена на 12.7 трлн токенов и в 14 из 19 тестов обошла Llama 3.1 8B
— Лицензия Apache 2.0, всё можно использовать, модифицировать и воспроизводить
— Levanter + JAX обеспечивают bit‑exact повторяемость и масштабируемость на TPU/GPU

Проект позиционируется как открытая лаборатория: каждый эксперимент оформляется через pull request, логируется в WandB, обсуждается в issue и фиксируется в истории репозитория. Даже неудачные эксперименты сохраняются ради прозрачности.

Выпущены две версии:
- Marin‑8B‑Base — сильный base-модель, превосходит Llama 3.1 8B
- Marin‑8B‑Instruct — обучена с помощью SFT, обгоняет OLMo 2, немного уступает Llama 3.1 Tulu

Это не просто открытые веса, а новый стандарт для научных вычислений в эпоху больших моделей.