📈 Взрывной рост OpenAI и Anthropic в 2025
— OpenAI удвоили годовую выручку (ARR) за 6 месяцев: с $6B → $12B
— Anthropic выросли в 5 раз за 7 месяцев: с $1B → $5B
💰 Разделение выручки интересно:
— OpenAI доминирует в подписках от частных и бизнес-пользователей
— Anthropic обогнали в API-доходах: $3.1B против $2.9B
— Но почти весь API-рост Anthropic — это кодинг
🧑💻 Cursor и GitHub Copilot дали $1.4B вместе
💡 Code Claude уже приносит $400M ARR — в 2 раза больше, чем месяц назад
⚠️ Но весь этот рост висит на тонком тросе — Claude 4 Sonnet стал стандартом для AI-кодинга. Если GPT-5 перехватит лидерство (и Copilot с Cursor уйдут к OpenAI), рынок может резко поменяться.
— OpenAI удвоили годовую выручку (ARR) за 6 месяцев: с $6B → $12B
— Anthropic выросли в 5 раз за 7 месяцев: с $1B → $5B
💰 Разделение выручки интересно:
— OpenAI доминирует в подписках от частных и бизнес-пользователей
— Anthropic обогнали в API-доходах: $3.1B против $2.9B
— Но почти весь API-рост Anthropic — это кодинг
🧑💻 Cursor и GitHub Copilot дали $1.4B вместе
💡 Code Claude уже приносит $400M ARR — в 2 раза больше, чем месяц назад
⚠️ Но весь этот рост висит на тонком тросе — Claude 4 Sonnet стал стандартом для AI-кодинга. Если GPT-5 перехватит лидерство (и Copilot с Cursor уйдут к OpenAI), рынок может резко поменяться.
❤4👍4🔥2
🧠 LogicRAG: умный RAG без предсобранных графов
LLM часто ошибаются, когда ответ требует связать много фактов. Классический GraphRAG строит огромный граф по всему корпусу, что дорого и не всегда соответствует логике вопроса.
LogicRAG решает это иначе:
Разбивает запрос на подзадачи и строит небольшой граф зависимостей только для этого вопроса.
Упорядочивает его топологической сортировкой и решает шаг за шагом, подгружая только нужные данные.
Ведёт «скользящую память» — краткое резюме найденных фактов, удаляя лишний контекст.
Объединяет подзадачи одного уровня, чтобы не делать лишние запросы.
Не повторяет почти одинаковые подзапросы.
📊 Результаты:
- 2WikiMQA: +14,7% точности к лучшему базовому методу.
- HotpotQA и MuSiQue: стабильное превосходство.
- Время ответа ~9,8 секунд без затрат на построение графа.
💡 Итог: извлечение данных следует логике вопроса, а не заранее заготовленной карте, что даёт точнее и дешевле ответы.
arxiv.org/abs/2508.06105
LLM часто ошибаются, когда ответ требует связать много фактов. Классический GraphRAG строит огромный граф по всему корпусу, что дорого и не всегда соответствует логике вопроса.
LogicRAG решает это иначе:
Разбивает запрос на подзадачи и строит небольшой граф зависимостей только для этого вопроса.
Упорядочивает его топологической сортировкой и решает шаг за шагом, подгружая только нужные данные.
Ведёт «скользящую память» — краткое резюме найденных фактов, удаляя лишний контекст.
Объединяет подзадачи одного уровня, чтобы не делать лишние запросы.
Не повторяет почти одинаковые подзапросы.
📊 Результаты:
- 2WikiMQA: +14,7% точности к лучшему базовому методу.
- HotpotQA и MuSiQue: стабильное превосходство.
- Время ответа ~9,8 секунд без затрат на построение графа.
💡 Итог: извлечение данных следует логике вопроса, а не заранее заготовленной карте, что даёт точнее и дешевле ответы.
arxiv.org/abs/2508.06105
👍6❤2🔥1
Forwarded from Machinelearning
Автономные агенты, способные управлять рабочим столом - это Грааль современного HCI. Но их обучение сопряжено с трудностями: GUI созданы для людей, а не для машин, а масштабирование RL упирается в неэффективность и нестабильность сред.
В Z.ai сделали фреймворк COMPUTERRL, который лег в основу агента AutoGLM-OS. Результат - state-of-the-art на бенчмарке OSWorld: 48.1% успешных выполнений и это лучше, чем у OpenAI CUA 03 (42.9%), UI-TARS-1.5 (42.5%) и Claude 4.0 Sonnet (30.7%).
OSWorld — это крупный бенчмарк из 369 заданий для проверки многомодальных ИИ-агентов в реальных условиях. Он работает в Ubuntu, Windows и macOS.
В нем ИИ выполняет открытые задачи: работает с веб- и десктопными приложениями, управляет файлами, запускает процессы. Каждое задание имеет четкие начальные условия и скрипты для оценки, чтобы результаты можно было воспроизвести.
Такие высокие показатели - результат комбинации 3-х инноваций.
Фреймворк объединяет GUI-взаимодействия с быстрыми и точными API-вызовами образуя систему, которая через LLM автоматически анализирует примеры задач, генерирует необходимый API-код для стандартных приложений Ubuntu и даже создает для него базовые тесты.
Таким образом, агент использует быстрые API там, где это возможно, и переключается на GUI для общих задач, что повышает и скорость, и надежность. Абляция показала, что переход от GUI-only к API-GUI поднимает средний показатель успеха с 11.2% до 26.2%.
OSWorld крайне ресурсоемок, и запуск множества его экземпляров на одном узле это тот еще квест. Z.ai полностью переработали эту среду, используя qemu-in-docker для легковесного развертывания VM, gRPC для связи между узлами и полностью асинхронный фреймворк AgentRL. Это позволило создать кластер из тысяч параллельных виртуальных сред, к котором онлайн-обучение RL-агентов стало максимально эффективным.
Entropulse решает проблему коллапса энтропии, чередуя фазы RL с периодическими сессиями SFT. Во время RL-фазы собираются все успешные траектории, и на их основе формируется новый SFT-датасет. Затем модель дообучается на этом датасете, что позволяет восстановить её исследовательскую способность без потери производительности. После этого запускается вторая, более эффективная фаза RL.
Эта стратегия позволила AutoGLM-OS, построенному на базе 9B GLM-4, достичь финального результата в 48.1%, в то время как после первой RL-фазы показатель был 42.0%.
@ai_machinelearning_big_data
#AI #ML #Agents #AutoGLM #Zai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥2🤔1
The LLM Evaluation Framework
🖥 Github: https://github.com/confident-ai/deepeval
📕 Colab: https://colab.research.google.com/drive/1PPxYEBa6eu__LquGoFFJZkhYgWVYE6kh?usp=sharing
🔗 Project: https://deepeval.com
@ArtificialIntelligencedl
🔗 Project: https://deepeval.com
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥1
Вчера была первая встреча AI VK & Pro – классный ивент про рекомендательные системы
Собрались все, кто так или иначе в теме RecSys и ML: от инженеров из BigTech до исследователей. Получилось на стиле: много общения, глитч-декор, активный нетворкинг
Команда RecSys из VK рассказала, куда движутся рекомендации внутри экосистемы, как они учатся глубже понимать контент и строят новые технологии вокруг этого.
Было ярко: DJ-сеты, активити и даже турнир по су-е-фа.
Собрались все, кто так или иначе в теме RecSys и ML: от инженеров из BigTech до исследователей. Получилось на стиле: много общения, глитч-декор, активный нетворкинг
Команда RecSys из VK рассказала, куда движутся рекомендации внутри экосистемы, как они учатся глубже понимать контент и строят новые технологии вокруг этого.
Было ярко: DJ-сеты, активити и даже турнир по су-е-фа.
❤5🔥4👍3👎1🥰1👏1😁1
Forwarded from Machinelearning
Нашёл простой и полезный ресурс: GitHub-репозиторий с 200+ бесплатными workflow для n8n.
Темы: продажи, маркетинг, учёт финансов, кодинг и личная продуктивность.
Что такое n8n
- Open-source инструмент для автоматизации без кода
- Визуальный конструктор: соединяете блоки и получаете процесс
- Есть сотни интеграций: почта, CRM, таблицы, мессенджеры, вебхуки
- Можно добавлять свою логику на JavaScript
- Запуск по расписанию или по событию, работает в облаке или на своём сервере
Как воспользоваться:
1) Скачайте нужный workflow (.json) и импортируйте в n8n
2) Вставьте свои API-ключи и учётные данные в блоки
3) Проверьте шаги и включите запуск по cron или webhook
▪ Github
@ai_machinelearning_big_data
#n8n #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
VaultGemma: The world's most capable differentially private LLM
VaultGemma, the most capable model trained from scratch with differential privacy.
🖥 Blog: https://github.com/ziangcao0312/PhysX-3D
@ArtificialIntelligencedl
VaultGemma, the most capable model trained from scratch with differential privacy.
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥1🤔1
📊 MIT показал, как экономить при обучении больших LLM
MIT и MIT-IBM Watson AI Lab выпустили плейбук о том, как правильно строить законы масштабирования — правила, по которым можно предсказывать, какой будет точность большой модели, не тратя миллионы на полный прогон.
Что выяснили:
- Достаточно обучить 5 моделей разных размеров, чтобы построить рабочий прогноз.
- Первые 10 миллиардов токенов обучения можно смело пропускать — данные там слишком шумные и бесполезные.
- Большую модель можно обучить всего на 30%, и по этой частичной кривой уже предсказать финальные результаты.
Что интересного в плейбуке:
Сильно сокращает расходы на тесты.
Позволяет исследователям заранее понимать, какой результат даст масштабирование.
- Делает разработку больших LLM быстрее и эффективнее.
Подробнее здесь:
https://news.mit.edu/2025/how-build-ai-scaling-laws-efficient-llm-training-budget-maximization-0916
@ArtificialIntelligencedl
MIT и MIT-IBM Watson AI Lab выпустили плейбук о том, как правильно строить законы масштабирования — правила, по которым можно предсказывать, какой будет точность большой модели, не тратя миллионы на полный прогон.
Что выяснили:
- Достаточно обучить 5 моделей разных размеров, чтобы построить рабочий прогноз.
- Первые 10 миллиардов токенов обучения можно смело пропускать — данные там слишком шумные и бесполезные.
- Большую модель можно обучить всего на 30%, и по этой частичной кривой уже предсказать финальные результаты.
Что интересного в плейбуке:
Сильно сокращает расходы на тесты.
Позволяет исследователям заранее понимать, какой результат даст масштабирование.
- Делает разработку больших LLM быстрее и эффективнее.
Подробнее здесь:
https://news.mit.edu/2025/how-build-ai-scaling-laws-efficient-llm-training-budget-maximization-0916
@ArtificialIntelligencedl
👍6❤3🔥2
Сейчас проходит конференция RecSys, а ребята из AI VK Hub разбирают самые интересные статьи у себя в канале.
Первая статья про то, как адаптировали рекомендательные алгоритмы под сценарий ‘холодного’ старта, когда система не знает ничего о новом пользователе или новом продукте
Первая статья про то, как адаптировали рекомендательные алгоритмы под сценарий ‘холодного’ старта, когда система не знает ничего о новом пользователе или новом продукте
Telegram
AI VK Hub
В онлайн-кинотеатрах холодный старт возникает как для новых пользователей, так и для контента, который только появился на платформе. Трудность в том, что история взаимодействий слишком короткая, чтобы построить качественные рекомендации. Ситуация осложняется…
❤2🔥2👏2
Продуктивная пятница для тех кто в теме Java и ML – приходите на VK JT Meetup!
3 октября VK проводит VK JT Meetup в Нижнем — офлайн-встречу ML-инженеров и Java-разработчиков.
Лиды VK расскажут про вызовы перед бэкендером, которые возникают в процессе создания B2B-продукта. А также поделятся пошаговым гайдом по выпуску RAG в прод и процессом создания единой инфраструктуры поисковой платформы.
А после докладов вас ждут командные кейс-батлы и нетворкинг.
Приходите посоревноваться за призы в кейс-батле и пообщаться с экспертами в нетворкинг-зоне.
📍 Нижний Новгород, только офлайн
📅 3 октября, сбор с 18:00
🎟 Вход по регистрации
3 октября VK проводит VK JT Meetup в Нижнем — офлайн-встречу ML-инженеров и Java-разработчиков.
Лиды VK расскажут про вызовы перед бэкендером, которые возникают в процессе создания B2B-продукта. А также поделятся пошаговым гайдом по выпуску RAG в прод и процессом создания единой инфраструктуры поисковой платформы.
А после докладов вас ждут командные кейс-батлы и нетворкинг.
Приходите посоревноваться за призы в кейс-батле и пообщаться с экспертами в нетворкинг-зоне.
📍 Нижний Новгород, только офлайн
📅 3 октября, сбор с 18:00
🎟 Вход по регистрации
❤1👍1