Аналитик данных
6.06K subscribers
215 photos
28 videos
2 files
200 links
Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам
Download Telegram
Forwarded from Machinelearning
✔️ Stanford и Google представили Marin — первую полностью открытую LLM, разработанную на JAX

Что делает Marin особенной:
— Полностью открыты не только веса, но показан весь процесс обучения: код, данные, гиперпараметры модели, логи, эксперименты — всё доступно на GitHub
— Модель обучена на 12.7 трлн токенов и в 14 из 19 тестов обошла Llama 3.1 8B
— Лицензия Apache 2.0, всё можно использовать, модифицировать и воспроизводить
— Levanter + JAX обеспечивают bit‑exact повторяемость и масштабируемость на TPU/GPU

Проект позиционируется как открытая лаборатория: каждый эксперимент оформляется через pull request, логируется в WandB, обсуждается в issue и фиксируется в истории репозитория. Даже неудачные эксперименты сохраняются ради прозрачности.

Выпущены две версии:
- Marin‑8B‑Base — сильный base-модель, превосходит Llama 3.1 8B
- Marin‑8B‑Instruct — обучена с помощью SFT, обгоняет OLMo 2, немного уступает Llama 3.1 Tulu

Это не просто открытые веса, а новый стандарт для научных вычислений в эпоху больших моделей.

* JAX — это фреймворк от Google для научных и численных вычислений, особенно популярен в сфере машинного обучения.


**TPU (Tensor Processing Unit) — это специализированный чип от Google, созданный для ускорения AI-задач.


🟠Github: https://github.com/stanford-crfm/marin
🟠Блог: https://developers.googleblog.com/en/stanfords-marin-foundation-model-first-fully-open-model-developed-using-jax/
🟠Гайд: https://docs.jax.dev/en/latest/quickstart.html

@ai_machinelearning_big_data

#ai #ml #tpu #jax #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
📊 Argilla — инструмент для создания качественных датасетов под AI. Проект помогает разработчикам и экспертам совместно работать над разметкой данных для NLP, LLM и мультимодальных моделей.

Платформа предлагает удобный интерфейс для аннотирования с фильтрами, семантическим поиском и AI-подсказками. Argilla используют в Red Cross и других организациях для задач классификации, RAG и тонкой настройки моделей.

🖥 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧹 ObjectClear — инструмент для удаления объектов с изображений с помощью ИИ

Что умеет:
🖼 Загружаешь изображение
🎯 Выделяешь объект, который хочешь убрать
Модель автоматически удаляет его и восстанавливает фон

Под капотом:
— Segment Anything (SAM) от Meta для выделения объекта
— Inpaint-Anything для генерации фона
— Поддержка работы в браузере (Gradio UI)

Можно запускать локально. Всё open-source.

📎 GitHub: https://github.com/zjx0101/ObjectClear
1👍1🔥1
📊 Metabase Learn — лучший старт для изучения аналитики и дашбордов

🔥 Официальный обучающий портал от Metabase: от первых шагов до продвинутых сценариев с embedding и администрированием.

Что внутри:
Подключение БД и создание запросов без кода
Визуализация данных, фильтры, метрики, дашборды
SQL-гайды, объединение данных, отладка
Встраивание аналитики в свои продукты через SDK
Управление пользователями и масштабирование
Бонус: советы по аналитике для команд и стартапов

🧠 Всё подаётся пошагово: от базового интерфейса до сложных use-case’ов

https://github.com/metabase/metabase
2🔥2👍1
🧠 OpenBAS — open-source платформа для создания собственных ИИ‑агентов

Хочешь запускать автономных ИИ‑агентов на своём сервере? Без внешних API и подписок?

⚡️ OpenBAS (Open Behavioral Agent System) — это:

Полноценная AGI‑архитектура с памятью, планированием и обучением
Локальное исполнение: всё работает на вашем железе
Поддержка LLM, сенсоров, действий, целей и окружения
Модульность — можно кастомизировать и дорабатывать под задачи

💡 Отлично подходит для исследований, прототипов и создания автономных ИИ‑систем.

🔗 GitHub: https://github.com/OpenBAS-Platform/openbas
2👍1
🤖 Прокачай вайб-кодинг: Anthropic выкатили 17 бесплатных лекций по разработке с ИИ-агентами

💡 За 8 часов ты узнаешь:
— как правильно писать код с помощью LLM
— как создавать идеальные промпты
— как собрать собственного агента на Claude или другой модели
— и какие лучшие практики реально работают в проде

📚 Полный гайд по работе с ИИ — от основ до тонкостей.
4👍2💩1
📈 ИИ уже дал миру $97 млрд пользы — но их не видно в статистике

Официальные доходы OpenAI, Google, Microsoft и Anthropic от генеративного ИИ — около $7 млрд в год.
Но новая экономическая модель показывает: реальная ценность для людей — почти $97 млрд.

💡 Почему эту сумму не видно в ВВП?

Потому что люди используют ChatGPT, Gemini и другие ИИ-сервисы бесплатно или условно-бесплатно.
А ВВП считает только реальные деньги, которые прошли через кассу.

🧪 Как это посчитали?

Экономисты проводили онлайн-эксперименты:
👤 человеку говорят:
> «Хочешь продолжить пользоваться ИИ в следующем месяце — или отказаться и получить $X?»

📉 Увеличивают X, пока человек не скажет "ладно, забирайте".
Этот X — ценность доступа для конкретного человека.

📊 Среднее значение оказалось $98 в месяц.
82 млн пользователей × 12 месяцев × $98 = $97 миллиардов годовой "невидимой" пользы.

📌 Это называется consumer surplus — выгода, которую получает пользователь, не заплатив за продукт.
И она в 14 раз превышает все официальные продажи генеративного ИИ.

🧠 Исследователи предлагают учитывать это в новой метрике — GDP‑B, которая включает и скрытую цифровую ценность.

💬 Вывод:
ИИ уже радикально меняет экономику. Только большая часть этой пользы — не в отчётах компаний, а в жизни пользователей.

🔗 Статья: https://www.wsj.com/opinion/ais-overlooked-97-billion-contribution-to-the-economy-users-service-da6e8f55
👍31🔥1😁1🌚1
📊 AI уже пишет 30% кода в США — исследование на 80 млн коммитов Python

Команда исследователей просканировала 80 миллионов open-source коммитов и выявила, что к 2024 году:
🇺🇸 США — 30% кода пишется ИИ
🇩🇪 Германия, 🇫🇷 Франция — ~24%
🇮🇳 Индия — 22%
🇷🇺 Россия — 15%
🇨🇳 Китай — 12%

🚀 Как они это выяснили?
Они обучили детектор:
1️⃣ Один LLM объясняет код
2️⃣ Второй — генерирует его заново
🎯 Это дало сбалансированные пары и позволило натренировать GraphCodeBERT

🧠 Результат:
— 31 млн AI‑написанных функций из 80 млн
— Рост точно совпадает с релизами Copilot, ChatGPT и GPT‑4
— Новички больше полагаются на ИИ, чем ветераны
— Разницы по полу — нет

📈 Эффект:
+2.4% коммитов в квартал при переходе от 0% к 30% AI-кода
= $9.6–14.4 млрд в год прибавки к продуктивности в США
(максимум — до $96 млрд)

🧪 Также:
+2.2% новых библиотек
+3.5% новых комбинаций библиотек

ИИ помогает не только быстрее писать, но и осваивать новые области.

📄 Исследование: arxiv.org/abs/2506.08945v1
3👍2😱2
Это, пожалуй, самый важный бенчмарк и доказательство продолжающегося экспоненциального роста.

Сегодня состоялся Релиз Chatgpt, если кто не в курсе
🤔7
🎓 TheAlgorithms/Python — крупнейший открытый репозиторий с реализациями алгоритмов на Python

📌 Что это?
TheAlgorithms — глобальное комьюнити, создающее учебные реализации алгоритмов на множестве языков. Репозиторий Python — один из самых популярных и активно развиваемых. Он содержит тысячи алгоритмов для образовательных целей.
Основные цифры:
- 204k звёзд — один из самых "звёздных" проектов на GitHub

💡 Что внутри:
- Реализации алгоритмов разных категорий: сортировки, графы, машинное обучение, криптография, динамическое программирование, структуры данных и многое другое
- Полная документация, справка по API и гайды по контрибуции на сайте проекта

Кому это будет полезно:
- Студентам и начинающим — учебная база, чтобы видеть как работает алгоритм в коде.
- Подготовка к интервью — практические реализация и примеры.
- Желающим поучаствовать — проект открыт для всех: есть гайды по контрибуции, обсуждения, Discord/Gitter сообщество

https://github.com/TheAlgorithms/Python
2👍1
Forwarded from Machinelearning
🚀 GLM-4.5V — новый лидер в open-source визуальном рассуждении .

Модель показывает лучшие результаты в своём классе среди открытых решений, лидируя на 41 бенчмарке.

📌 Возможности:
- Image Reasoning — понимание изображений, анализ нескольких изображений, распознавание объектов.
- Video Understanding — раскадровка длинных видео, определение событий, которые происходят на кадрах из видео.
- GUI-задачи — понимание интрефейсов, распознавание иконок, кнопок и тд, помощь в управлении рабочим столом.
- Сложный анализ графиков и документов — разбор различных отчётов, извлечение информации их них.
- Grounding — точная локализация элементов на изображениях.

📌 Особенности:
🟠 Основана на GLM-4.5-Air и использует наработки из GLM-4.1V-Thinking.

🟠 Архитектура — MoE с 106B параметров для эффективного масштабирования.

Здесь можно почитать про GLM-4.5, а здесь посмотреть техрепорт, там много интересного.

🟢 Hugging Face: https://huggingface.co/zai-org/GLM-4.5V
🟢 GitHub: https://github.com/zai-org/GLM-V
🟢 Документация API: https://docs.z.ai/guides/vlm/glm-4.5v
🟢 Попробовать: https://chat.z.ai

@ai_machinelearning_big_data

#GLM #opensource #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
На GitHub выложили 40 бесплатных гайдов по созданию ИИ-агентов — объясняют, как собрать ботов под разные задачи: от записи созвонов до сложной разработки.

Отдают с готовым кодом, который сразу можно запускать на своем ПК. Путь от идеи до работающего кастомного агента может занять несколько минут. Все шаги расписаны достаточно подробно.

Создаем своих ботов тут.
2👍1
🚀 DeepSeek R2 могут выпустить между 15 и 30 августа на чипах Huawei Ascend 910B.

Мощность: 512 PFLOPS FP16 (примерно как 91% кластера NVIDIA A100) при этом затраты меньше на 97%.

Загрузка чипов — около 82%.

Архитектура: гибридный Mixture of Experts — при обработке токена активируются только нужные эксперты (78B из 1.2T параметров), что ускоряет работу и снижает вычисления.

Ходят слухи о собственном стеке для распределённого обучения, но подтверждений пока нет.

Все технические данные совпадают с предыдущими утечками по железу.
🚀 Ускоряем работу с данными с помощью Delta Lake

Когда нужно добавить новые данные к уже существующему набору, есть два подхода:

🔴 Без Delta Lake
- Сначала загружаешь все старые данные (например, 10 000 записей) из CSV.
- Загружаешь новые данные (например, 50 записей).
- Объединяешь их, что требует обработки всех 10 050 записей.
- Это медленно, расходует память и ресурсы.

🟢 С Delta Lake
- Хранишь данные в формате Delta Lake.
- Загружаешь только новые записи (например, 50 штук).
- Добавляешь их напрямую в существующую таблицу с помощью append, обрабатывая только новые данные.
- Экономия времени, памяти и ресурсов.

💡 Преимущества Delta Lake:
- Инкрементальная загрузка данных.
- Работа с большими объёмами без полной перезагрузки.
- Поддержка транзакций (ACID).
- Совместимость с большими дата-платформами (Spark, Pandas и др.).

📊 Если у тебя миллионы строк — выигрыш в скорости будет колоссальным.
4👍3
🚀 На Baidu AI Day представили GenFlow 2.0 — универсального AI-агента для упрощения сложных задач и рабочих процессов.

Что умеет:
🤖 Управляет более чем 100 специализированными агентами одновременно
Выполняет 5+ сложных задач параллельно
Сокращает время обработки с часов до менее 3 минут
🛠️ Позволяет пользователям контролировать процесс и вмешиваться на любом этапе
🎨 Поддерживает широкий спектр мультимодальных выходов

Проект создан на базе Baidu Wenku и Baidu Drive.

#GenFlow #Baidu #AI #Agents

wenku.baidu.com

@machinelearning_interview
1👍1
Отличный курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).

Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:

Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.

https://github.com/karpathy/nn-zero-to-hero/
3🔥2
🔎 A Primer on LLM Post-Training (разбор статьи PyTorch)

1. Что такое post-training?
Это этап «доводки» модели после pre-training. Цель — научить LLM вести диалог, следовать правилам и предпочтениям. Используются: system prompt, SFT, reward shaping.

2. Формат данных
Метки позволяют модели понимать роли участников и завершение диалога:

<|begin_of_text|>
<|start|system|>…<|end|system|>
<|start|user|>…<|end|user|>
<|start|assistant|>…<|end|assistant|>


3. Техники post-training

a) SFT (Supervised Fine-Tuning)
Подражание «правильным» ответам. Потеря считается только по части ответа. Проблемы: ограничена качеством датасета, плохие примеры сильно портят результат. Решение → rejection sampling (генерируем несколько ответов и выбираем лучший).

b) RL (Reinforcement Learning, напр. RLHF)
Модель оптимизируется по наградной функции. Может превзойти авторов данных. Использует policy gradient. Минусы: вычислительно тяжёлый, нестабильный, требует сложной инфраструктуры.

c) DPO (Direct Preference Optimization)
Похоже на RLHF, но без RL. Обучение на парах: «лучший vs худший ответ». Преимущества: стабильность, эффективность. Минусы: нет exploration, зависит от качества пар.

4. Сравнение методов

| Метод | Exploration | Обучение | Сложность | Стабильность | Нагрузка |
|-------------|-------------|-----------------|-----------------|--------------|----------|
| SFT | Нет | Supervised | Низкая | Высокая | Низкая |
| DPO | Нет | Offline, sup. | Низкая | Очень высокая| Низкая |
| PPO (RL) | Есть | On-policy RL | Очень высокая | Низкая | Очень высокая |

5. Reward Models
- Outcome RM — оценивают результат.
- Process RM — оценивают шаги рассуждения (chain-of-thought).
- Rule-based reward — проверки на соответствие правилам (например, код прошёл тесты).

6. Test-time compute & reasoning
Подходы: Chain-of-Thought, ReAct, DeepSeek R1. Часто вводят токены <think>...</think>. Требуется reward-оценка рассуждений и сильная инфраструктура.

7. Инфраструктурные аспекты
RL требует массового inference, хранения KV cache, collectors и синхронизаций весов. Pipelines должны быть гибкими: разные loss-функции, reward модели, sandbox-тесты.

Выводы
Post-training превращает LLM из «просто автодополнителя» в осмысленного собеседника.
SFT — базовый и простой, но ограниченный.
DPO — лёгкий и эффективный способ обучения на предпочтениях.
RL (PPO) — мощный, но очень дорогой и сложный.
Будущее — за моделями, которые учат не только ответы, но и процесс мышления.

Источник: https://pytorch.org/blog/a-primer-on-llm-post-training/
1👍1