Аналитик данных
6.07K subscribers
216 photos
28 videos
2 files
201 links
Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам
Download Telegram
Forwarded from Machinelearning
🔥 ​Google представила InstructPipe — AI‑редактор ML‑пайплайнов, работающий через текстовые запросы.

Что такое InstructPipe?
InstructPipe — это AI-ассистент, который преобразует текстовые команды в визуальные блок-схемы, представляющие собой пайплайны машинного обучения.

Система использует два модуля больших языковых моделей (LLM) и интерпретатор кода для генерации псевдокода и его визуализации в редакторе графов.​

Это low-code подход: вы просто соединяете готовые компоненты (ноды) без написания кодп.

🌟 Как это работает?
1️⃣Пользователь вводит текстовую инструкцию, описывающую желаемый пайплайн.

2️⃣ LLM модули обрабатывают инструкцию и генерируют соответствующий псевдокод.

3️⃣Интерпретатор кода преобразует псевдокод в визуальную блок-схему, которую можно редактировать и настраивать.​

✔️ Преимущества InstructPipe

🟡 Доступность: Позволяет новичкам в программировании создавать сложные ML пайплайны без необходимости писать код.

🟡Гибкость: Принимает на выход текстовое описание в любом виде, нет строго формата.

🟡Снижение порога входа: Упрощает процесс обучения и прототипирования мл проектов.

🔜 Подробнее

@ai_machinelearning_big_data

#Google #InstructPipe
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
👾 Совет по ML: ускорение инференса через квантование внимания в трансформерах

В трансформерных моделях 40% времени инференса тратится на вычисление attention-матриц. Мало кто использует трюк с предварительным квантованием ключей и значений в int8 без потери точности.

Для BERT-подобных моделей это даёт 2.3x ускорение на CPU за счёт оптимизированных INT8-операций. Реализация требует всего 3 строки в HuggingFace:

model.quantize_attention(keys_dtype='int8', values_dtype='int8')

Особенно эффективно он работает для сервисов реального времени, где каждый миллисекунд на счету. Тесты показывают рост пропускной способности API с 12 до 28 RPS на ядре Xeon.

@dataanlitics
👍3😱1
✔️ Дорожная карта бесплатных курсов по машинному обучению 2025

В статье собраны 50 лучших бесплатных или условно-бесплатных курсов (сертификат может быть платным), разделённых по уровням:
*Вводный (Beginner) → Промежуточный (Intermediate) → Продвинутый (Advanced).*
После каждого описания приведена полная кликабельная ссылка.

➡️ Курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83
🎯 Как стать Data Scientist в 2025 году — актуальный гайд

Если ты хочешь войти в data science и не знаешь, с чего начать — этот план собран по свежим рекомендациям и обсуждениям в r/learnpython. Кратко и по делу:

🔹 1. Основы — обязательно:
• Python (pandas, numpy, matplotlib)
• SQL (обязательно!)
• Статистика + линейная алгебра

🔹 2. Дальше — машинное обучение:
• sklearn, XGBoost, PyTorch или TensorFlow
• Базовые модели: линейная регрессия, деревья, кластеризация
• Умение обрабатывать реальные данные

🔹 3. Портфолио важнее диплома:
• GitHub + 3–5 законченных проектов
• Jupyter ноутбуки с объяснением
• Анализ реальных датасетов (можно Kaggle)

🔹 4. Облако и продвинутые навыки:
• Знание AWS / GCP / Azure
• Оптимизация пайплайнов, ML Ops
• Продвинутые визуализации: Seaborn, Plotly

🔹 5. Мягкие навыки и рост:
• Умение объяснять выводы бизнесу
• Личный бренд: Telegram, LinkedIn, статьи
• Курсы: Coursera, DataCamp, Turing College

💼 Перспективы:
• Средняя зарплата — от $160K
• Спрос выше, чем на классических программистов
• Чем глубже в ML / NLP / RL — тем выше ставки

📌 Советы из комментов:
• Не упарывайся по 10 курсам — делай проекты
• Работай с реальными грязными данными
• Спрашивай советы в Reddit, Slack, Discord — сообщество реально помогает

🔗 Оригинальный тред: [reddit.com/r/learnpython](https://www.reddit.com/r/learnpython/comments/1ku8ksa/how_to
5
Очень полезный репозиторий с советами по визуализации данных.

Множество примеров, комментариев и главное: чёткое объяснение, как делать не надо.

Пригодится и аналитикам, и ученым. GitHub на английском здесь, перевод на русском (неполная версия) здесь.
2👍2🔥1
📝 Что такое word embedding и text vectorization?

Как из слов сделать числа, с которыми работают модели машинного обучения :contentReference[oaicite:0]

📌 Основные техники:
One-hot Encoding – каждому слову соответствует длинный вектор с единицей в позиции слова и нулями в остальных. Очень разреженно и не передаёт смысл.
Bag-of-Words (BoW) – вектор частот слов в документе. Удобно, но теряется порядок и контекст.
TF-IDF – BoW с весами: редкие слова получают больший вес, частые («и», «the») почти не учитываются.
Word Embeddings – плотные векторы (обычно 50–300 размерностей), которые учатся на данных и отражают семантические связи между словами.

🔍 Популярные алгоритмы:
Word2Vec (CBOW и Skip-Gram) – предсказывает слово по контексту или контекст по слову.
GloVe – факторизация глобальной матрицы со-встречаемости слов.
FastText – расширяет Word2Vec, разбивая слова на n-граммы для обработки редких слов и морфологии :contentReference[oaicite:1]{index=1}

💡 Почему это важно?
• Векторы «понимают» смысл: vec(король) – vec(мужчина) + vec(женщина) ≈ vec(королева)
• Обеспечивают модели числовые представления текста для задач классификации, поиска, перевода и др.

🚀 Применение:
• Классификация текста (спам, отзывы)
• Поисковые системы (понимание запроса)
• Машинный перевод
• Вопрос-ответные системы
• Генерация текста и чат-боты :contentReference[oaicite:2]{index=2}

Этот гайд – отличное введение в трансформацию слов в числа. Простые методы (TF-IDF) по-прежнему полезны для быстрой обработки, а embeddings дают глубокое понимание языка.
🔥1
Forwarded from Machinelearning
🌟 FlashInfer: библиотека ускорения LLM-инференса на GPU.

FlashInfer - это библиотека для ускорения работы с LLM, созданная NVIDIA, чтобы объединить скорость обработки на GPU и гибкость для разработчиков. Еt главная цель — сократить время вывода текста, одновременно позволяя инженерам быстро внедрять новые алгоритмы и адаптировать решения под разные задачи.

Ее архитектура спроектирована так, чтобы оставаться актуальной при появлении новых алгоритмов: будь то методы повторного использования кэша или эксперименты с форматами внимания. Плюс к этому, библиотека легковесна, она не требует установки лишних зависимостей, а ее API напоминает стандартные инструменты PyTorch.

FlashInfer базируется на 2 принципах : эффективное управление памятью и динамическое планирование вычислений. Библиотека оптимизирует хранение KV-cache через блочно-разреженные структуры, уменьшая объем лишних обращений к памяти.

Это особенно важно при обработке запросов с разной длиной текста. Также используется технология JIT-компиляции, которая на лету генерирует оптимизированные CUDA-ядра под конкретную задачу.

Архитектура FlashInfer разбита на 4 модуля: Attention, GEMM, Communication и Token sampling.

🟢«Attention» работает с любыми схемами маскирования и позиционного кодирования, используя унифицированное представление кэша как разреженной матрицы.

🟢GEMM и Communication отвечают за матричные операции, включая сложные сценарии вроде grouped-GEMM (множество мелких умножений за один вызов). Для распределенных систем реализованы алгоритмы all-reduce и all-to-all, что критично для MoE-моделей.

🟢"Token sampling" ускоряет генерацию текста, заменяя традиционные сортировки вероятностей на rejection-based алгоритмы, отсекающие маловероятные варианты на лету.

FlashInfer поддерживает PyTorch через собственные операторы и DLPack API, тем самым упрощает внедрение в фреймворки vLLM и SGLang. Благодаря разделению процесса на этапы «планирования» и «запуска» библиотека минимизирует задержки: на первом шаге выбирается оптимальное ядро под параметры запроса, а затем оно переиспользуется для последующих аналогичных задач.


📌 Лицензирование: Apache 2.0 License.


🟡Статья
🟡Документация
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #FlashInfer #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Reinforcement Learning Teachers: как модели на 7B параметров обучают гигантов.

Reinforcement Learning Teachers (RLT) от Sakana AI - метод обучения LLM рассуждениям, где компактная модель-"учитель" не решает задачи сама, а учится объяснять уже готовые решения так, чтобы студент-модель лучше их усваивала.

Вместо дорогого обучения "с нуля" через проб и ошибку (как в классическом RL), учитель фокусируется на ясности пошаговых пояснений, используя и вопрос, и правильный ответ как подсказку. Это радикально удешевляет процесс и выравнивает цель учителя быть полезным студенту.

Архитектура строится вокруг петли обратной связи. Учителю (например, крошечной модели на 7B параметров) на вход подаются и задача и ее верное решение. Его работа - сгенерировать максимально понятное пошаговое объяснение, как прийти от условия к ответу.

Эффективность учителя измеряется не тем, решил ли он задачу сам (он даже не обязан это уметь), а тем, насколько хорошо студент-модель понимает его объяснение. Ключевая метрика - "логарифмические вероятности": чем выше вероятность, что студент, прочитав объяснение учителя, правильно предскажет следующий шаг или итоговый ответ, тем лучше работа учителя. Это и есть сигнал подкрепления для обучения RLT.

Вся магия метода состоит в этом смещении фокуса RL. Вместо чтоб награждать модель за самостоятельное нахождение ответа (что требует огромных вычислительных ресурсов и приводит к "узкой" специализации), RLT поощряют за педагогическую эффективность.

Благодаря наличию готового ответа во время обучения, в роли учителя могут выступать даже небольшие, дешевые модели, которые не смогли бы решить сложные задачи в одиночку. Объяснения от RLT затем используются как высококачественные данные для обучения (дистилляции или "холодного старта") студент-моделей любого размера.

Главный нюанс: метод требует наличия готовых правильных решений для задач в обучающем наборе. Он не заменяет полностью сбор данных, а перепрофилирует их для обучения "преподаванию".

Пока метод тестировался в основном на задачах математики и естественных наук. Но его сила в эффективности: 7B RLT-учитель превосходит в обучении студентов-гигантов ( 671B DeepSeek R1). Он обучает даже студентов крупнее себя (32B) быстрее (менее суток против месяцев) и лучше, а его объяснения четче, без лишнего "шума" вроде юмора или подсказок калькулятора, свойственных традиционным RL-моделям.

▶️ Проект RLT открытый, в репозитории на Github опубликован код для воспроизведения экспериментов из техотчета, а на HF - тестовые модели учителей на 7 и 32 млрд. параметров, обученные на базе Qwen2.5 с помощью сета Bespoke-Stratos-17k.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RL #RLT #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Awesome Tensor Compilers — энциклопедия компиляторов для тензорных вычислений. Этот репозиторий представляет собой сборник различных проектов для разработчиков, работающих с оптимизацией ML-моделей. Здесь собраны ключевые инструменты вроде TVM, MLIR и Triton, а также сотни исследований по автоматической оптимизации тензорных операций на CPU, GPU и специализированных ускорителях.

Помимо готовых компиляторов, в репозитории есть разделы с научными работами по cost-моделям, автоматическому планированию вычислений и методам верификации. Каждый проект или статья сопровождается ссылками.

🤖 GitHub
1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔅 Manus — теперь с модулем Audio

Что нового
- Читает длинные отчёты и создаёт аудиофайлы
- Удобное упарвление голосом: можно слушать, давать команды и одновременно делать другие дела
- Генерирует подкасты
- Озвучивает доки и презентации и многое другое

Когда удобнее слушать, чем читать — включите Manus и продолжайте работу.

https://audio.manus.space
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
🖥 Verifiers — RL с LLM в проверяемых средах

Что это:
Набор инструментов и абстракций для обучения больших языковых моделей методом подкрепления (RL) в многоповоротных сценариях с проверяемым результатом. Основано на Group-Relative Policy Optimization (GRPO) поверх transformers.Trainer.

Основные принципы:
- Модульность: среды, политики и рубрики — независимые компоненты.
- Переиспользуемость: легко комбинируйте и адаптируйте под новые задачи.
- Хакинг: обойдитесь минимальными усилиями для изменений и расширений.

Состав среды:
- actor: OpenAI-совместимый LLM endpoint
- environment:
- инструкции (system prompts)
- задачи + проверяемые цели
- протокол взаимодействия (многоповоротные tool-вызовы, multi-agent)
- рубрика (награды за выполнение целей)

Ключевые возможности:
- vf.GRPOTrainer для асинхронного многоповоротного инференса и обучения с off-policy overlapping
- Генерация синтетических данных и SFT-разогрев на отфильтрованных rollout
- Оффлайн-оценка через OpenAI-совместимые API
- Поддержка и chat, и completion запросов
- Парсеры (например, `XMLParser`) для стандартизации форматов
- Классы сред:
- SingleTurnEnv для одноповоротного reasoning
- ToolEnv и SmolaToolEnv для tool-вызовов
- CodeMathEnv для интерактивного выполнения Python
- MultiTurnEnv и ReasoningGymEnv для кастомных логик

git clone https://github.com/willccbb/verifiers.git
cd verifiers
uv sync --extra all && uv pip install flash-attn --no-build-isolation


▶️ Github
Please open Telegram to view this post
VIEW IN TELEGRAM
🕸️ Chat4Data — расширение, которое превращает веб-скрапинг в диалог

Вместо кода и настроек — просто говоришь, что хочешь, и AI собирает структурированные данные с сайта.

Что умеет Chat4Data:

🔹 Собирает данные “на слух”
Опиши нужную таблицу или список — AI сам найдёт, распарсит и вставит в таблицу. Не нравится результат? Переспроси. Без кода, без боли.

🔹 Обходит все страницы сам
Автоматически кликает “Следующая”, грузит подгружаемые списки и собирает всё — без твоего участия.

🔹 Запускается за 3 клика
AI сам определяет, какие данные ценные, предлагает их — тебе остаётся только подтвердить. Быстро, как в Telegram-боте.

🔹 Не тратит токены на скрапинг
Анализ страницы — на AI, но сами данные забираются без токенов. В бета-версии дают 1 миллион токенов на другие задачи.

🔹 Скоро: скрапинг подстраниц, интерактив, интеграции...

📎 https://chat4data.ai

#ai #scraping #automation #nocode #tools
2👍2
Forwarded from Machinelearning
✔️ Stanford и Google представили Marin — первую полностью открытую LLM, разработанную на JAX

Что делает Marin особенной:
— Полностью открыты не только веса, но показан весь процесс обучения: код, данные, гиперпараметры модели, логи, эксперименты — всё доступно на GitHub
— Модель обучена на 12.7 трлн токенов и в 14 из 19 тестов обошла Llama 3.1 8B
— Лицензия Apache 2.0, всё можно использовать, модифицировать и воспроизводить
— Levanter + JAX обеспечивают bit‑exact повторяемость и масштабируемость на TPU/GPU

Проект позиционируется как открытая лаборатория: каждый эксперимент оформляется через pull request, логируется в WandB, обсуждается в issue и фиксируется в истории репозитория. Даже неудачные эксперименты сохраняются ради прозрачности.

Выпущены две версии:
- Marin‑8B‑Base — сильный base-модель, превосходит Llama 3.1 8B
- Marin‑8B‑Instruct — обучена с помощью SFT, обгоняет OLMo 2, немного уступает Llama 3.1 Tulu

Это не просто открытые веса, а новый стандарт для научных вычислений в эпоху больших моделей.

* JAX — это фреймворк от Google для научных и численных вычислений, особенно популярен в сфере машинного обучения.


**TPU (Tensor Processing Unit) — это специализированный чип от Google, созданный для ускорения AI-задач.


🟠Github: https://github.com/stanford-crfm/marin
🟠Блог: https://developers.googleblog.com/en/stanfords-marin-foundation-model-first-fully-open-model-developed-using-jax/
🟠Гайд: https://docs.jax.dev/en/latest/quickstart.html

@ai_machinelearning_big_data

#ai #ml #tpu #jax #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1