📈 ИИ уже дал миру $97 млрд пользы — но их не видно в статистике
Официальные доходы OpenAI, Google, Microsoft и Anthropic от генеративного ИИ — около $7 млрд в год.
Но новая экономическая модель показывает: реальная ценность для людей — почти $97 млрд.
💡 Почему эту сумму не видно в ВВП?
Потому что люди используют ChatGPT, Gemini и другие ИИ-сервисы бесплатно или условно-бесплатно.
А ВВП считает только реальные деньги, которые прошли через кассу.
🧪 Как это посчитали?
Экономисты проводили онлайн-эксперименты:
👤 человеку говорят:
> «Хочешь продолжить пользоваться ИИ в следующем месяце — или отказаться и получить $X?»
📉 Увеличивают X, пока человек не скажет "ладно, забирайте".
Этот X — ценность доступа для конкретного человека.
📊 Среднее значение оказалось $98 в месяц.
82 млн пользователей × 12 месяцев × $98 = $97 миллиардов годовой "невидимой" пользы.
📌 Это называется consumer surplus — выгода, которую получает пользователь, не заплатив за продукт.
И она в 14 раз превышает все официальные продажи генеративного ИИ.
🧠 Исследователи предлагают учитывать это в новой метрике — GDP‑B, которая включает и скрытую цифровую ценность.
💬 Вывод:
ИИ уже радикально меняет экономику. Только большая часть этой пользы — не в отчётах компаний, а в жизни пользователей.
🔗 Статья: https://www.wsj.com/opinion/ais-overlooked-97-billion-contribution-to-the-economy-users-service-da6e8f55
Официальные доходы OpenAI, Google, Microsoft и Anthropic от генеративного ИИ — около $7 млрд в год.
Но новая экономическая модель показывает: реальная ценность для людей — почти $97 млрд.
💡 Почему эту сумму не видно в ВВП?
Потому что люди используют ChatGPT, Gemini и другие ИИ-сервисы бесплатно или условно-бесплатно.
А ВВП считает только реальные деньги, которые прошли через кассу.
🧪 Как это посчитали?
Экономисты проводили онлайн-эксперименты:
👤 человеку говорят:
> «Хочешь продолжить пользоваться ИИ в следующем месяце — или отказаться и получить $X?»
📉 Увеличивают X, пока человек не скажет "ладно, забирайте".
Этот X — ценность доступа для конкретного человека.
📊 Среднее значение оказалось $98 в месяц.
82 млн пользователей × 12 месяцев × $98 = $97 миллиардов годовой "невидимой" пользы.
📌 Это называется consumer surplus — выгода, которую получает пользователь, не заплатив за продукт.
И она в 14 раз превышает все официальные продажи генеративного ИИ.
🧠 Исследователи предлагают учитывать это в новой метрике — GDP‑B, которая включает и скрытую цифровую ценность.
💬 Вывод:
ИИ уже радикально меняет экономику. Только большая часть этой пользы — не в отчётах компаний, а в жизни пользователей.
🔗 Статья: https://www.wsj.com/opinion/ais-overlooked-97-billion-contribution-to-the-economy-users-service-da6e8f55
👍3❤1🔥1😁1🌚1
📊 AI уже пишет 30% кода в США — исследование на 80 млн коммитов Python
Команда исследователей просканировала 80 миллионов open-source коммитов и выявила, что к 2024 году:
🇺🇸 США — 30% кода пишется ИИ
🇩🇪 Германия, 🇫🇷 Франция — ~24%
🇮🇳 Индия — 22%
🇷🇺 Россия — 15%
🇨🇳 Китай — 12%
🚀 Как они это выяснили?
Они обучили детектор:
1️⃣ Один LLM объясняет код
2️⃣ Второй — генерирует его заново
🎯 Это дало сбалансированные пары и позволило натренировать GraphCodeBERT
🧠 Результат:
— 31 млн AI‑написанных функций из 80 млн
— Рост точно совпадает с релизами Copilot, ChatGPT и GPT‑4
— Новички больше полагаются на ИИ, чем ветераны
— Разницы по полу — нет
📈 Эффект:
+2.4% коммитов в квартал при переходе от 0% к 30% AI-кода
= $9.6–14.4 млрд в год прибавки к продуктивности в США
(максимум — до $96 млрд)
🧪 Также:
+2.2% новых библиотек
+3.5% новых комбинаций библиотек
ИИ помогает не только быстрее писать, но и осваивать новые области.
📄 Исследование: arxiv.org/abs/2506.08945v1
Команда исследователей просканировала 80 миллионов open-source коммитов и выявила, что к 2024 году:
🇺🇸 США — 30% кода пишется ИИ
🇩🇪 Германия, 🇫🇷 Франция — ~24%
🇮🇳 Индия — 22%
🇷🇺 Россия — 15%
🇨🇳 Китай — 12%
🚀 Как они это выяснили?
Они обучили детектор:
1️⃣ Один LLM объясняет код
2️⃣ Второй — генерирует его заново
🎯 Это дало сбалансированные пары и позволило натренировать GraphCodeBERT
🧠 Результат:
— 31 млн AI‑написанных функций из 80 млн
— Рост точно совпадает с релизами Copilot, ChatGPT и GPT‑4
— Новички больше полагаются на ИИ, чем ветераны
— Разницы по полу — нет
📈 Эффект:
+2.4% коммитов в квартал при переходе от 0% к 30% AI-кода
= $9.6–14.4 млрд в год прибавки к продуктивности в США
(максимум — до $96 млрд)
🧪 Также:
+2.2% новых библиотек
+3.5% новых комбинаций библиотек
ИИ помогает не только быстрее писать, но и осваивать новые области.
📄 Исследование: arxiv.org/abs/2506.08945v1
arXiv.org
Who is using AI to code? Global diffusion and impact of generative AI
Generative coding tools promise big productivity gains, but uneven uptake could widen skill and income gaps. We train a neural classifier to spot AI-generated Python functions in over 30 million...
❤3👍2😱2
Это, пожалуй, самый важный бенчмарк и доказательство продолжающегося экспоненциального роста.
Сегодня состоялся Релиз Chatgpt, если кто не в курсе
Сегодня состоялся Релиз Chatgpt, если кто не в курсе
🤔7
🎓 TheAlgorithms/Python — крупнейший открытый репозиторий с реализациями алгоритмов на Python
📌 Что это?
TheAlgorithms — глобальное комьюнити, создающее учебные реализации алгоритмов на множестве языков. Репозиторий Python — один из самых популярных и активно развиваемых. Он содержит тысячи алгоритмов для образовательных целей.
⭐ Основные цифры:
- 204k звёзд ⭐ — один из самых "звёздных" проектов на GitHub
💡 Что внутри:
- Реализации алгоритмов разных категорий: сортировки, графы, машинное обучение, криптография, динамическое программирование, структуры данных и многое другое
- Полная документация, справка по API и гайды по контрибуции на сайте проекта
⏭ Кому это будет полезно:
- Студентам и начинающим — учебная база, чтобы видеть как работает алгоритм в коде.
- Подготовка к интервью — практические реализация и примеры.
- Желающим поучаствовать — проект открыт для всех: есть гайды по контрибуции, обсуждения, Discord/Gitter сообщество
https://github.com/TheAlgorithms/Python
📌 Что это?
TheAlgorithms — глобальное комьюнити, создающее учебные реализации алгоритмов на множестве языков. Репозиторий Python — один из самых популярных и активно развиваемых. Он содержит тысячи алгоритмов для образовательных целей.
⭐ Основные цифры:
- 204k звёзд ⭐ — один из самых "звёздных" проектов на GitHub
💡 Что внутри:
- Реализации алгоритмов разных категорий: сортировки, графы, машинное обучение, криптография, динамическое программирование, структуры данных и многое другое
- Полная документация, справка по API и гайды по контрибуции на сайте проекта
⏭ Кому это будет полезно:
- Студентам и начинающим — учебная база, чтобы видеть как работает алгоритм в коде.
- Подготовка к интервью — практические реализация и примеры.
- Желающим поучаствовать — проект открыт для всех: есть гайды по контрибуции, обсуждения, Discord/Gitter сообщество
https://github.com/TheAlgorithms/Python
❤2👍1
Forwarded from Machinelearning
Модель показывает лучшие результаты в своём классе среди открытых решений, лидируя на 41 бенчмарке.
- Image Reasoning — понимание изображений, анализ нескольких изображений, распознавание объектов.
- Video Understanding — раскадровка длинных видео, определение событий, которые происходят на кадрах из видео.
- GUI-задачи — понимание интрефейсов, распознавание иконок, кнопок и тд, помощь в управлении рабочим столом.
- Сложный анализ графиков и документов — разбор различных отчётов, извлечение информации их них.
- Grounding — точная локализация элементов на изображениях.
Здесь можно почитать про GLM-4.5, а здесь посмотреть техрепорт, там много интересного.
@ai_machinelearning_big_data
#GLM #opensource #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
На GitHub выложили 40 бесплатных гайдов по созданию ИИ-агентов — объясняют, как собрать ботов под разные задачи: от записи созвонов до сложной разработки.
Отдают с готовым кодом, который сразу можно запускать на своем ПК. Путь от идеи до работающего кастомного агента может занять несколько минут. Все шаги расписаны достаточно подробно.
Создаем своих ботов тут.
Отдают с готовым кодом, который сразу можно запускать на своем ПК. Путь от идеи до работающего кастомного агента может занять несколько минут. Все шаги расписаны достаточно подробно.
Создаем своих ботов тут.
❤2👍1
🚀 DeepSeek R2 могут выпустить между 15 и 30 августа на чипах Huawei Ascend 910B.
Мощность: 512 PFLOPS FP16 (примерно как 91% кластера NVIDIA A100) при этом затраты меньше на 97%.
Загрузка чипов — около 82%.
Архитектура: гибридный Mixture of Experts — при обработке токена активируются только нужные эксперты (78B из 1.2T параметров), что ускоряет работу и снижает вычисления.
Ходят слухи о собственном стеке для распределённого обучения, но подтверждений пока нет.
Все технические данные совпадают с предыдущими утечками по железу.
Мощность: 512 PFLOPS FP16 (примерно как 91% кластера NVIDIA A100) при этом затраты меньше на 97%.
Загрузка чипов — около 82%.
Архитектура: гибридный Mixture of Experts — при обработке токена активируются только нужные эксперты (78B из 1.2T параметров), что ускоряет работу и снижает вычисления.
Ходят слухи о собственном стеке для распределённого обучения, но подтверждений пока нет.
Все технические данные совпадают с предыдущими утечками по железу.
🚀 Ускоряем работу с данными с помощью Delta Lake
Когда нужно добавить новые данные к уже существующему набору, есть два подхода:
🔴 Без Delta Lake
- Сначала загружаешь все старые данные (например, 10 000 записей) из CSV.
- Загружаешь новые данные (например, 50 записей).
- Объединяешь их, что требует обработки всех 10 050 записей.
- Это медленно, расходует память и ресурсы.
🟢 С Delta Lake
- Хранишь данные в формате Delta Lake.
- Загружаешь только новые записи (например, 50 штук).
- Добавляешь их напрямую в существующую таблицу с помощью
- Экономия времени, памяти и ресурсов.
💡 Преимущества Delta Lake:
- Инкрементальная загрузка данных.
- Работа с большими объёмами без полной перезагрузки.
- Поддержка транзакций (ACID).
- Совместимость с большими дата-платформами (Spark, Pandas и др.).
📊 Если у тебя миллионы строк — выигрыш в скорости будет колоссальным.
Когда нужно добавить новые данные к уже существующему набору, есть два подхода:
🔴 Без Delta Lake
- Сначала загружаешь все старые данные (например, 10 000 записей) из CSV.
- Загружаешь новые данные (например, 50 записей).
- Объединяешь их, что требует обработки всех 10 050 записей.
- Это медленно, расходует память и ресурсы.
🟢 С Delta Lake
- Хранишь данные в формате Delta Lake.
- Загружаешь только новые записи (например, 50 штук).
- Добавляешь их напрямую в существующую таблицу с помощью
append, обрабатывая только новые данные. - Экономия времени, памяти и ресурсов.
💡 Преимущества Delta Lake:
- Инкрементальная загрузка данных.
- Работа с большими объёмами без полной перезагрузки.
- Поддержка транзакций (ACID).
- Совместимость с большими дата-платформами (Spark, Pandas и др.).
📊 Если у тебя миллионы строк — выигрыш в скорости будет колоссальным.
❤4👍3
🚀 На Baidu AI Day представили GenFlow 2.0 — универсального AI-агента для упрощения сложных задач и рабочих процессов.
Что умеет:
🤖 Управляет более чем 100 специализированными агентами одновременно
✅ Выполняет 5+ сложных задач параллельно
⚡ Сокращает время обработки с часов до менее 3 минут
🛠️ Позволяет пользователям контролировать процесс и вмешиваться на любом этапе
🎨 Поддерживает широкий спектр мультимодальных выходов
Проект создан на базе Baidu Wenku и Baidu Drive.
#GenFlow #Baidu #AI #Agents
wenku.baidu.com
@machinelearning_interview
Что умеет:
🤖 Управляет более чем 100 специализированными агентами одновременно
✅ Выполняет 5+ сложных задач параллельно
⚡ Сокращает время обработки с часов до менее 3 минут
🛠️ Позволяет пользователям контролировать процесс и вмешиваться на любом этапе
🎨 Поддерживает широкий спектр мультимодальных выходов
Проект создан на базе Baidu Wenku и Baidu Drive.
#GenFlow #Baidu #AI #Agents
wenku.baidu.com
@machinelearning_interview
❤1👍1
Отличный курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).
Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:
Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
https://github.com/karpathy/nn-zero-to-hero/
Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:
Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
https://github.com/karpathy/nn-zero-to-hero/
❤3🔥2
🔎 A Primer on LLM Post-Training (разбор статьи PyTorch)
1. Что такое post-training?
Это этап «доводки» модели после pre-training. Цель — научить LLM вести диалог, следовать правилам и предпочтениям. Используются: system prompt, SFT, reward shaping.
2. Формат данных
Метки позволяют модели понимать роли участников и завершение диалога:
3. Техники post-training
a) SFT (Supervised Fine-Tuning)
Подражание «правильным» ответам. Потеря считается только по части ответа. Проблемы: ограничена качеством датасета, плохие примеры сильно портят результат. Решение → rejection sampling (генерируем несколько ответов и выбираем лучший).
b) RL (Reinforcement Learning, напр. RLHF)
Модель оптимизируется по наградной функции. Может превзойти авторов данных. Использует policy gradient. Минусы: вычислительно тяжёлый, нестабильный, требует сложной инфраструктуры.
c) DPO (Direct Preference Optimization)
Похоже на RLHF, но без RL. Обучение на парах: «лучший vs худший ответ». Преимущества: стабильность, эффективность. Минусы: нет exploration, зависит от качества пар.
4. Сравнение методов
|-------------|-------------|-----------------|-----------------|--------------|----------|
| SFT | ❌ Нет | Supervised | Низкая | Высокая | Низкая |
| DPO | ❌ Нет | Offline, sup. | Низкая | Очень высокая| Низкая |
| PPO (RL) | ✅ Есть | On-policy RL | Очень высокая | Низкая | Очень высокая |
5. Reward Models
- Outcome RM — оценивают результат.
- Process RM — оценивают шаги рассуждения (chain-of-thought).
- Rule-based reward — проверки на соответствие правилам (например, код прошёл тесты).
6. Test-time compute & reasoning
Подходы: Chain-of-Thought, ReAct, DeepSeek R1. Часто вводят токены
7. Инфраструктурные аспекты
RL требует массового inference, хранения KV cache, collectors и синхронизаций весов. Pipelines должны быть гибкими: разные loss-функции, reward модели, sandbox-тесты.
✅ Выводы
Post-training превращает LLM из «просто автодополнителя» в осмысленного собеседника.
SFT — базовый и простой, но ограниченный.
DPO — лёгкий и эффективный способ обучения на предпочтениях.
RL (PPO) — мощный, но очень дорогой и сложный.
Будущее — за моделями, которые учат не только ответы, но и процесс мышления.
Источник: https://pytorch.org/blog/a-primer-on-llm-post-training/
1. Что такое post-training?
Это этап «доводки» модели после pre-training. Цель — научить LLM вести диалог, следовать правилам и предпочтениям. Используются: system prompt, SFT, reward shaping.
2. Формат данных
Метки позволяют модели понимать роли участников и завершение диалога:
<|begin_of_text|>
<|start|system|>…<|end|system|>
<|start|user|>…<|end|user|>
<|start|assistant|>…<|end|assistant|>3. Техники post-training
a) SFT (Supervised Fine-Tuning)
Подражание «правильным» ответам. Потеря считается только по части ответа. Проблемы: ограничена качеством датасета, плохие примеры сильно портят результат. Решение → rejection sampling (генерируем несколько ответов и выбираем лучший).
b) RL (Reinforcement Learning, напр. RLHF)
Модель оптимизируется по наградной функции. Может превзойти авторов данных. Использует policy gradient. Минусы: вычислительно тяжёлый, нестабильный, требует сложной инфраструктуры.
c) DPO (Direct Preference Optimization)
Похоже на RLHF, но без RL. Обучение на парах: «лучший vs худший ответ». Преимущества: стабильность, эффективность. Минусы: нет exploration, зависит от качества пар.
4. Сравнение методов
| Метод | Exploration | Обучение | Сложность | Стабильность | Нагрузка ||-------------|-------------|-----------------|-----------------|--------------|----------|
| SFT | ❌ Нет | Supervised | Низкая | Высокая | Низкая |
| DPO | ❌ Нет | Offline, sup. | Низкая | Очень высокая| Низкая |
| PPO (RL) | ✅ Есть | On-policy RL | Очень высокая | Низкая | Очень высокая |
5. Reward Models
- Outcome RM — оценивают результат.
- Process RM — оценивают шаги рассуждения (chain-of-thought).
- Rule-based reward — проверки на соответствие правилам (например, код прошёл тесты).
6. Test-time compute & reasoning
Подходы: Chain-of-Thought, ReAct, DeepSeek R1. Часто вводят токены
<think>...</think>. Требуется reward-оценка рассуждений и сильная инфраструктура. 7. Инфраструктурные аспекты
RL требует массового inference, хранения KV cache, collectors и синхронизаций весов. Pipelines должны быть гибкими: разные loss-функции, reward модели, sandbox-тесты.
✅ Выводы
Post-training превращает LLM из «просто автодополнителя» в осмысленного собеседника.
SFT — базовый и простой, но ограниченный.
DPO — лёгкий и эффективный способ обучения на предпочтениях.
RL (PPO) — мощный, но очень дорогой и сложный.
Будущее — за моделями, которые учат не только ответы, но и процесс мышления.
Источник: https://pytorch.org/blog/a-primer-on-llm-post-training/
❤1👍1
Forwarded from Machinelearning
Что внутри:
- Доступны модели Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B
- Поддержка 33 языков
- Chimera-7B — это первая d индустрии откртытая ансамблевая модель
- 1-е место в 30 из 31 категорий на международном конкурсе WMT25 (Workshop on Machine Translation 2025, крупнейшая в мире конференция-соревнование по машинному переводу)
- Hunyuan-MT-7B лидирует среди моделей своего размера
Demo: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#AI #NLP #Translation #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Успех в IT = скорость + знания + окружение
Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!
AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_1001_notes
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat
💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!
Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!
AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_1001_notes
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat
💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy
Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!
Forwarded from Machinelearning
OpenAI опубликовали исследование о причинах галлюцинации LLM.
Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.
Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.
Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.
В работе вводится понятие
singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле. Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты:
03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью). В другом тесте, где нужно было сосчитать количество букв
D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7. При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний.
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ
я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата
я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг
singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.@ai_machinelearning_big_data
#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1❤🔥1
📊 Неожиданная статистика по ИИ-ассистентам
Сообщают, что Microsoft Copilot значительно опережает Gemini по числу пользователей. На первый взгляд это выглядит странно.
Возможное объяснение: речь идёт не о реальном использовании, а о количестве активированных аккаунтов и доступе по умолчанию (Copilot встроен в Windows и Office).
Ещё более удивительно, что Claude якобы сильно отстаёт — и это тоже вызывает вопросы, ведь его активно используют в сообществе.
⚡️ Мораль: статистику по ИИ стоит читать внимательно — важно, что именно считают: доступ, активации или реальное использование.
https://gs.statcounter.com/ai-chatbot-market-share#monthly-202508-202508-bar
#ai #copilot #gemini #claude
Сообщают, что Microsoft Copilot значительно опережает Gemini по числу пользователей. На первый взгляд это выглядит странно.
Возможное объяснение: речь идёт не о реальном использовании, а о количестве активированных аккаунтов и доступе по умолчанию (Copilot встроен в Windows и Office).
Ещё более удивительно, что Claude якобы сильно отстаёт — и это тоже вызывает вопросы, ведь его активно используют в сообществе.
⚡️ Мораль: статистику по ИИ стоит читать внимательно — важно, что именно считают: доступ, активации или реальное использование.
https://gs.statcounter.com/ai-chatbot-market-share#monthly-202508-202508-bar
#ai #copilot #gemini #claude
👍1
🔥 7 бесплатных интерактивов для аналитиков
Эти сервисы — не просто игрушки, а мощные симуляторы, которые помогают прокачивать аналитику через практику.
Они отлично подходят для подготовки к собеседованиям, изучения новых концепций или просто для того, чтобы «залипнуть» с пользой.
Вот подборка, в которую я сам возвращаюсь снова и снова:
1️⃣ Симулятор стартапа — teachmegrow.com
2️⃣ A/B-тесты на практике — lukasvermeer.nl/confidence
3️⃣ Эволюция доверия — notdotteam.github.io/trust
4️⃣ UX-игра на внимательность — cantunsee.space
5️⃣ UX Arcade — uxcel.com/arcade
6️⃣ Вероятности и статистика на пальцах — seeing-theory.brown.edu
7️⃣ Алгоритмы в картинках — visualgo.net
💡 Сохраняйте, проходите и делитесь с коллегами — это реально полезный интерактив.
Эти сервисы — не просто игрушки, а мощные симуляторы, которые помогают прокачивать аналитику через практику.
Они отлично подходят для подготовки к собеседованиям, изучения новых концепций или просто для того, чтобы «залипнуть» с пользой.
Вот подборка, в которую я сам возвращаюсь снова и снова:
1️⃣ Симулятор стартапа — teachmegrow.com
2️⃣ A/B-тесты на практике — lukasvermeer.nl/confidence
3️⃣ Эволюция доверия — notdotteam.github.io/trust
4️⃣ UX-игра на внимательность — cantunsee.space
5️⃣ UX Arcade — uxcel.com/arcade
6️⃣ Вероятности и статистика на пальцах — seeing-theory.brown.edu
7️⃣ Алгоритмы в картинках — visualgo.net
💡 Сохраняйте, проходите и делитесь с коллегами — это реально полезный интерактив.
❤3👍3
⚛️🔬🚀 PsiQuantum привлекла рекордные $1 млрд для строительства квантового компьютера с 1 млн кубитов к 2028 году — это крупнейший раунд финансирования в истории квантовых технологий.
📈 Теперь компания оценена в $7 млрд и напрямую конкурирует с Google и IBM в гонке за создание полнофункциональной машины.
💰 Среди инвесторов: BlackRock, Temasek, Baillie Gifford и венчурное подразделение Nvidia.
Квантовые компьютеры рассматриваются как ключ к созданию новых материалов и разработке лекарств, с чем классические методы справиться не могут. Но реальная польза от них появится только тогда, когда кубиты будут достаточно стабильны, а коррекция ошибок станет рабочим стандартом. PsiQuantum делает ставку на фотонные кубиты — частицы света, которые можно производить на обычных полупроводниковых фабриках и использовать с меньшим количеством криогенного оборудования. Именно эта ставка может позволить компании обойти конкурентов.
⚠️ Вызовы
- Полной коррекции ошибок пока нет
- Ранее цель на 2024 год по готовой системе была сорвана
- 1 млн физических кубитов нужен, чтобы получить лишь несколько надёжных логических кубитов для долгих программ
🌍 Контекст
- Конкуренты активно растут: Quantinuum собрал $600M (оценка $10B), IQM — $300M
- IonQ, Rigetti и D-Wave взлетели в капитализации до $22B (с <$5B в ноябре)
- Nvidia участвует в проекте, несмотря на осторожные прогнозы (20 лет до работающих систем), делая ставку на гибридный путь: квантовые + GPU суперкомпьютеры
🏗️ Первую полную квантовую установку PsiQuantum планирует построить в Австралии при поддержке правительства (A$940M), а вторую — в Чикаго.
🔗 Подробнее: https://ft.com/content/0a16281f-6bb4-4e60-a6f0-3a9d6f8d764a
#quantum #ai #nvidia #google #ibm #hardware #future
📈 Теперь компания оценена в $7 млрд и напрямую конкурирует с Google и IBM в гонке за создание полнофункциональной машины.
💰 Среди инвесторов: BlackRock, Temasek, Baillie Gifford и венчурное подразделение Nvidia.
Квантовые компьютеры рассматриваются как ключ к созданию новых материалов и разработке лекарств, с чем классические методы справиться не могут. Но реальная польза от них появится только тогда, когда кубиты будут достаточно стабильны, а коррекция ошибок станет рабочим стандартом. PsiQuantum делает ставку на фотонные кубиты — частицы света, которые можно производить на обычных полупроводниковых фабриках и использовать с меньшим количеством криогенного оборудования. Именно эта ставка может позволить компании обойти конкурентов.
⚠️ Вызовы
- Полной коррекции ошибок пока нет
- Ранее цель на 2024 год по готовой системе была сорвана
- 1 млн физических кубитов нужен, чтобы получить лишь несколько надёжных логических кубитов для долгих программ
🌍 Контекст
- Конкуренты активно растут: Quantinuum собрал $600M (оценка $10B), IQM — $300M
- IonQ, Rigetti и D-Wave взлетели в капитализации до $22B (с <$5B в ноябре)
- Nvidia участвует в проекте, несмотря на осторожные прогнозы (20 лет до работающих систем), делая ставку на гибридный путь: квантовые + GPU суперкомпьютеры
🏗️ Первую полную квантовую установку PsiQuantum планирует построить в Австралии при поддержке правительства (A$940M), а вторую — в Чикаго.
🔗 Подробнее: https://ft.com/content/0a16281f-6bb4-4e60-a6f0-3a9d6f8d764a
#quantum #ai #nvidia #google #ibm #hardware #future
😨1