Аналитик данных

✔️

Stanford и Google представили Marin — первую полностью открытую LLM, разработанную на JAX

Что делает Marin особенной:
— Полностью открыты не только веса, но показан весь процесс обучения: код, данные, гиперпараметры модели, логи, эксперименты — всё доступно на GitHub
— Модель обучена на 12.7 трлн токенов и в 14 из 19 тестов обошла Llama 3.1 8B
— Лицензия Apache 2.0, всё можно использовать, модифицировать и воспроизводить
— Levanter + JAX обеспечивают bit‑exact повторяемость и масштабируемость на TPU/GPU

Проект позиционируется как открытая лаборатория: каждый эксперимент оформляется через pull request, логируется в WandB, обсуждается в issue и фиксируется в истории репозитория. Даже неудачные эксперименты сохраняются ради прозрачности.

Выпущены две версии:
- Marin‑8B‑Base — сильный base-модель, превосходит Llama 3.1 8B
- Marin‑8B‑Instruct — обучена с помощью SFT, обгоняет OLMo 2, немного уступает Llama 3.1 Tulu

Это не просто открытые веса, а новый стандарт для научных вычислений в эпоху больших моделей.

* JAX — это фреймворк от Google для научных и численных вычислений, особенно популярен в сфере машинного обучения.

**TPU (Tensor Processing Unit) — это специализированный чип от Google, созданный для ускорения AI-задач.

🟠

Github: https://github.com/stanford-crfm/marin

🟠

Блог: https://developers.googleblog.com/en/stanfords-marin-foundation-model-first-fully-open-model-developed-using-jax/

🟠

Гайд: https://docs.jax.dev/en/latest/quickstart.html

@ai_machinelearning_big_data

#ai #ml #tpu #jax #google

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

1.19K views13:06

Аналитик данных

📊 Argilla — инструмент для создания качественных датасетов под AI. Проект помогает разработчикам и экспертам совместно работать над разметкой данных для NLP, LLM и мультимодальных моделей.

Платформа предлагает удобный интерфейс для аннотирования с фильтрами, семантическим поиском и AI-подсказками. Argilla используют в Red Cross и других организациях для задач классификации, RAG и тонкой настройки моделей.

🖥

Github

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🔥1

1.04K viewsedited 08:14

Аналитик данных

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

🧹 ObjectClear — инструмент для удаления объектов с изображений с помощью ИИ

Что умеет:
🖼 Загружаешь изображение
🎯 Выделяешь объект, который хочешь убрать
✨ Модель автоматически удаляет его и восстанавливает фон

Под капотом:
— Segment Anything (SAM) от Meta для выделения объекта
— Inpaint-Anything для генерации фона
— Поддержка работы в браузере (Gradio UI)

Можно запускать локально. Всё open-source.

📎 GitHub: https://github.com/zjx0101/ObjectClear

❤1👍1🔥1

1.2K viewsedited 11:43

Аналитик данных

📊 Metabase Learn — лучший старт для изучения аналитики и дашбордов

🔥 Официальный обучающий портал от Metabase: от первых шагов до продвинутых сценариев с embedding и администрированием.

Что внутри:
✅ Подключение БД и создание запросов без кода
✅ Визуализация данных, фильтры, метрики, дашборды
✅ SQL-гайды, объединение данных, отладка
✅ Встраивание аналитики в свои продукты через SDK
✅ Управление пользователями и масштабирование
✅ Бонус: советы по аналитике для команд и стартапов

🧠 Всё подаётся пошагово: от базового интерфейса до сложных use-case’ов

https://github.com/metabase/metabase

❤2🔥2👍1

1.43K viewsedited 12:07

Аналитик данных

🧠 OpenBAS — open-source платформа для создания собственных ИИ‑агентов

Хочешь запускать автономных ИИ‑агентов на своём сервере? Без внешних API и подписок?

⚡️ OpenBAS (Open Behavioral Agent System) — это:

✅ Полноценная AGI‑архитектура с памятью, планированием и обучением
✅ Локальное исполнение: всё работает на вашем железе
✅ Поддержка LLM, сенсоров, действий, целей и окружения
✅ Модульность — можно кастомизировать и дорабатывать под задачи

💡 Отлично подходит для исследований, прототипов и создания автономных ИИ‑систем.

🔗 GitHub: https://github.com/OpenBAS-Platform/openbas

❤2👍1

1.24K viewsedited 09:22

Аналитик данных

🤖 Прокачай вайб-кодинг: Anthropic выкатили 17 бесплатных лекций по разработке с ИИ-агентами

💡 За 8 часов ты узнаешь:
— как правильно писать код с помощью LLM
— как создавать идеальные промпты
— как собрать собственного агента на Claude или другой модели
— и какие лучшие практики реально работают в проде

📚 Полный гайд по работе с ИИ — от основ до тонкостей.

❤4👍2💩1

1.27K views12:11

Аналитик данных

📈 ИИ уже дал миру $97 млрд пользы — но их не видно в статистике

Официальные доходы OpenAI, Google, Microsoft и Anthropic от генеративного ИИ — около $7 млрд в год.
Но новая экономическая модель показывает: реальная ценность для людей — почти $97 млрд.

💡 Почему эту сумму не видно в ВВП?

Потому что люди используют ChatGPT, Gemini и другие ИИ-сервисы бесплатно или условно-бесплатно.
А ВВП считает только реальные деньги, которые прошли через кассу.

🧪 Как это посчитали?

Экономисты проводили онлайн-эксперименты:
👤 человеку говорят:
> «Хочешь продолжить пользоваться ИИ в следующем месяце — или отказаться и получить $X?»

📉 Увеличивают X, пока человек не скажет "ладно, забирайте".
Этот X — ценность доступа для конкретного человека.

📊 Среднее значение оказалось $98 в месяц.
82 млн пользователей × 12 месяцев × $98 = $97 миллиардов годовой "невидимой" пользы.

📌 Это называется consumer surplus — выгода, которую получает пользователь, не заплатив за продукт.
И она в 14 раз превышает все официальные продажи генеративного ИИ.

🧠 Исследователи предлагают учитывать это в новой метрике — GDP‑B, которая включает и скрытую цифровую ценность.

💬 Вывод:
ИИ уже радикально меняет экономику. Только большая часть этой пользы — не в отчётах компаний, а в жизни пользователей.

🔗 Статья: https://www.wsj.com/opinion/ais-overlooked-97-billion-contribution-to-the-economy-users-service-da6e8f55

👍3❤1🔥1😁1🌚1

1.1K views12:31

Аналитик данных

📊 AI уже пишет 30% кода в США — исследование на 80 млн коммитов Python

Команда исследователей просканировала 80 миллионов open-source коммитов и выявила, что к 2024 году:
🇺🇸 США — 30% кода пишется ИИ
🇩🇪 Германия, 🇫🇷 Франция — ~24%
🇮🇳 Индия — 22%
🇷🇺 Россия — 15%
🇨🇳 Китай — 12%

🚀 Как они это выяснили?
Они обучили детектор:
1️⃣ Один LLM объясняет код
2️⃣ Второй — генерирует его заново
🎯 Это дало сбалансированные пары и позволило натренировать GraphCodeBERT

🧠 Результат:
— 31 млн AI‑написанных функций из 80 млн
— Рост точно совпадает с релизами Copilot, ChatGPT и GPT‑4
— Новички больше полагаются на ИИ, чем ветераны
— Разницы по полу — нет

📈 Эффект:
+2.4% коммитов в квартал при переходе от 0% к 30% AI-кода
= $9.6–14.4 млрд в год прибавки к продуктивности в США
(максимум — до $96 млрд)

🧪 Также:
+2.2% новых библиотек
+3.5% новых комбинаций библиотек

ИИ помогает не только быстрее писать, но и осваивать новые области.

📄 Исследование: arxiv.org/abs/2506.08945v1

arXiv.org

Who is using AI to code? Global diffusion and impact of generative AI

Generative coding tools promise big productivity gains, but uneven uptake could widen skill and income gaps. We train a neural classifier to spot AI-generated Python functions in over 30 million...

❤3👍2😱2

1.35K views12:10

Аналитик данных

Это, пожалуй, самый важный бенчмарк и доказательство продолжающегося экспоненциального роста.

Сегодня состоялся Релиз Chatgpt, если кто не в курсе

🤔7

1.28K views20:40

Аналитик данных

🎓 TheAlgorithms/Python — крупнейший открытый репозиторий с реализациями алгоритмов на Python

📌 Что это?
TheAlgorithms — глобальное комьюнити, создающее учебные реализации алгоритмов на множестве языков. Репозиторий Python — один из самых популярных и активно развиваемых. Он содержит тысячи алгоритмов для образовательных целей.
⭐ Основные цифры:
- 204k звёзд ⭐ — один из самых "звёздных" проектов на GitHub

💡 Что внутри:
- Реализации алгоритмов разных категорий: сортировки, графы, машинное обучение, криптография, динамическое программирование, структуры данных и многое другое
- Полная документация, справка по API и гайды по контрибуции на сайте проекта

⏭ Кому это будет полезно:
- Студентам и начинающим — учебная база, чтобы видеть как работает алгоритм в коде.
- Подготовка к интервью — практические реализация и примеры.
- Желающим поучаствовать — проект открыт для всех: есть гайды по контрибуции, обсуждения, Discord/Gitter сообщество

https://github.com/TheAlgorithms/Python

❤2👍1

1.14K views11:27

Аналитик данных

Forwarded from Machinelearning

🚀 GLM-4.5V — новый лидер в open-source визуальном рассуждении .

Модель показывает лучшие результаты в своём классе среди открытых решений, лидируя на 41 бенчмарке.

📌 Возможности:
- Image Reasoning — понимание изображений, анализ нескольких изображений, распознавание объектов.
- Video Understanding — раскадровка длинных видео, определение событий, которые происходят на кадрах из видео.
- GUI-задачи — понимание интрефейсов, распознавание иконок, кнопок и тд, помощь в управлении рабочим столом.
- Сложный анализ графиков и документов — разбор различных отчётов, извлечение информации их них.
- Grounding — точная локализация элементов на изображениях.

📌

Особенности:
🟠 Основана на GLM-4.5-Air и использует наработки из GLM-4.1V-Thinking.

🟠 Архитектура — MoE с 106B параметров для эффективного масштабирования.

Здесь можно почитать про GLM-4.5, а здесь посмотреть техрепорт, там много интересного.

🟢

Hugging Face: https://huggingface.co/zai-org/GLM-4.5V

🟢

GitHub: https://github.com/zai-org/GLM-V

🟢

Документация API: https://docs.z.ai/guides/vlm/glm-4.5v

🟢

Попробовать: https://chat.z.ai

@ai_machinelearning_big_data

#GLM #opensource #vlm

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

983 views13:56

Аналитик данных

На GitHub выложили 40 бесплатных гайдов по созданию ИИ-агентов — объясняют, как собрать ботов под разные задачи: от записи созвонов до сложной разработки.

Отдают с готовым кодом, который сразу можно запускать на своем ПК. Путь от идеи до работающего кастомного агента может занять несколько минут. Все шаги расписаны достаточно подробно.

Создаем своих ботов тут.

❤2👍1

1.24K views07:40

Аналитик данных

🚀 DeepSeek R2 могут выпустить между 15 и 30 августа на чипах Huawei Ascend 910B.

Мощность: 512 PFLOPS FP16 (примерно как 91% кластера NVIDIA A100) при этом затраты меньше на 97%.

Загрузка чипов — около 82%.

Архитектура: гибридный Mixture of Experts — при обработке токена активируются только нужные эксперты (78B из 1.2T параметров), что ускоряет работу и снижает вычисления.

Ходят слухи о собственном стеке для распределённого обучения, но подтверждений пока нет.

Все технические данные совпадают с предыдущими утечками по железу.

1.15K views08:56

Аналитик данных

🚀 Ускоряем работу с данными с помощью Delta Lake

Когда нужно добавить новые данные к уже существующему набору, есть два подхода:

🔴 Без Delta Lake
- Сначала загружаешь все старые данные (например, 10 000 записей) из CSV.
- Загружаешь новые данные (например, 50 записей).
- Объединяешь их, что требует обработки всех 10 050 записей.
- Это медленно, расходует память и ресурсы.

🟢 С Delta Lake
- Хранишь данные в формате Delta Lake.
- Загружаешь только новые записи (например, 50 штук).
- Добавляешь их напрямую в существующую таблицу с помощью append, обрабатывая только новые данные.
- Экономия времени, памяти и ресурсов.

💡 Преимущества Delta Lake:
- Инкрементальная загрузка данных.
- Работа с большими объёмами без полной перезагрузки.
- Поддержка транзакций (ACID).
- Совместимость с большими дата-платформами (Spark, Pandas и др.).

📊 Если у тебя миллионы строк — выигрыш в скорости будет колоссальным.

❤4👍3

1.39K viewsedited 15:11

Аналитик данных

🚀 На Baidu AI Day представили GenFlow 2.0 — универсального AI-агента для упрощения сложных задач и рабочих процессов.

Что умеет:
🤖 Управляет более чем 100 специализированными агентами одновременно
✅ Выполняет 5+ сложных задач параллельно
⚡ Сокращает время обработки с часов до менее 3 минут
🛠️ Позволяет пользователям контролировать процесс и вмешиваться на любом этапе
🎨 Поддерживает широкий спектр мультимодальных выходов

Проект создан на базе Baidu Wenku и Baidu Drive.

#GenFlow #Baidu #AI #Agents

wenku.baidu.com

@machinelearning_interview

❤1👍1

1.3K views12:06

Аналитик данных

Отличный курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).

Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:

Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.

https://github.com/karpathy/nn-zero-to-hero/

❤3🔥2

1.32K views15:10

Аналитик данных

🔎 A Primer on LLM Post-Training (разбор статьи PyTorch)

1. Что такое post-training?
Это этап «доводки» модели после pre-training. Цель — научить LLM вести диалог, следовать правилам и предпочтениям. Используются: system prompt, SFT, reward shaping.

2. Формат данных
Метки позволяют модели понимать роли участников и завершение диалога:

<|begin_of_text|>
<|start|system|>…<|end|system|>
<|start|user|>…<|end|user|>
<|start|assistant|>…<|end|assistant|>

3. Техники post-training

a) SFT (Supervised Fine-Tuning)
Подражание «правильным» ответам. Потеря считается только по части ответа. Проблемы: ограничена качеством датасета, плохие примеры сильно портят результат. Решение → rejection sampling (генерируем несколько ответов и выбираем лучший).

b) RL (Reinforcement Learning, напр. RLHF)
Модель оптимизируется по наградной функции. Может превзойти авторов данных. Использует policy gradient. Минусы: вычислительно тяжёлый, нестабильный, требует сложной инфраструктуры.

c) DPO (Direct Preference Optimization)
Похоже на RLHF, но без RL. Обучение на парах: «лучший vs худший ответ». Преимущества: стабильность, эффективность. Минусы: нет exploration, зависит от качества пар.

4. Сравнение методов

| Метод | Exploration | Обучение | Сложность | Стабильность | Нагрузка |
|-------------|-------------|-----------------|-----------------|--------------|----------|
| SFT | ❌ Нет | Supervised | Низкая | Высокая | Низкая |
| DPO | ❌ Нет | Offline, sup. | Низкая | Очень высокая| Низкая |
| PPO (RL) | ✅ Есть | On-policy RL | Очень высокая | Низкая | Очень высокая |

5. Reward Models
- Outcome RM — оценивают результат.
- Process RM — оценивают шаги рассуждения (chain-of-thought).
- Rule-based reward — проверки на соответствие правилам (например, код прошёл тесты).

6. Test-time compute & reasoning
Подходы: Chain-of-Thought, ReAct, DeepSeek R1. Часто вводят токены <think>...</think>. Требуется reward-оценка рассуждений и сильная инфраструктура.

7. Инфраструктурные аспекты
RL требует массового inference, хранения KV cache, collectors и синхронизаций весов. Pipelines должны быть гибкими: разные loss-функции, reward модели, sandbox-тесты.

✅ Выводы
Post-training превращает LLM из «просто автодополнителя» в осмысленного собеседника.
SFT — базовый и простой, но ограниченный.
DPO — лёгкий и эффективный способ обучения на предпочтениях.
RL (PPO) — мощный, но очень дорогой и сложный.
Будущее — за моделями, которые учат не только ответы, но и процесс мышления.

Источник: https://pytorch.org/blog/a-primer-on-llm-post-training/

❤1👍1

1.54K views20:19

About

Blog

Apps

Platform