В статье исследуется применение обучения с подкреплением (RL) к большим языковым моделям (LLMs) улучшает их способность решать сложные задачи программирования и рассуждений. Авторы сравнивают три модели: общую модель o1, её специализированную версию o1-ioi (адаптированную для соревнований IOI) и более продвинутую модель o3.
Модель o1 значительно превосходит модели без цепочек рассуждений (например, gpt-4o) по показателям на платформе CodeForces.
Специализированная o1-ioi, оптимизированная для соревнований IOI, показывает хорошие результаты с ручными стратегиями, но её успех зависит от дополнительной настройки и тестовых стратегий.
Модель o3, обученная только с RL и без доменно-специфичных стратегий, демонстрирует ещё более высокую производительность, достигая результатов на уровне элитных программистов мира как на CodeForces, так и на IOI.
Применение в реальных задачах:
Масштабирование RL для общего использования, а не применение специализированных ручных стратегий, является эффективным путём достижения передового уровня ИИ в задачах рассуждения и программирования.
Статья
Тред
Релиз состоится 18 февраля в 04:00 (GMT+3). Похоже, что Grok-3 выйдет с режимом рассуждений.
выпустили новую очень сложную оценку рассуждений LLM:
EnigmaEval: 1184 мультимодальные головоломки, настолько сложные, что на их решение группам людей требуется от многих часов до нескольких дней.
Все топ-модели набрали 0% в Hard set и < 10% в Normal set
Scale
От оценки позы до обнаружения объектов в реальном времени - свежие, передовые инструменты компьютерного зрения на Hugging Face, которые очень просты в использовании.
- ViTPose для оценки позы
- RT-DETRv2 для обнаружения объектов в реальном времени
- DAB-DETR улучшает оригинальный DETR, решая проблемы медленного обучения
- DepthPro от Apple для оценки глубины на одном изображении, выдавая расстояния на уровне пикселей в метрах менее чем за секунду.
Свежий инструмент, который представляет собой готовое решение для создания десктопного GUI-агента. С его помощью можно отдавать команды и автоматизировать задачи на ПК (Windows и macOS) через веб-интерфейс, доступный с любого устройства с интернетом.
Github
@ai_machinelearning_big_data
#news #ai #ml #openai #grok #grok3 #Microsoft #ScaleAI #elonmusk #cv #sota #opensource #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49❤14🔥9😁2🐳1
Сейчас он доступен всем «пока серверы не рухнут», так что самое время протестировать его в деле
Вот главное:
- Вышло два варианта модели: Grok‑3 mini и полноразмерный Grok‑3.
- Беспрецедентные достижения: Первая модель, преодолевшая 1400 очков, и лидирует по всем категориям на арене.
- Режим рассуждений: Хотя базовая модель не «ризонинг», можно активировать режим рассуждений с двумя настройками –
«Thinking» и «Thinking Hard»
. Процесс рассуждения почти полностью прозрачен.- Выдающаяся производительность: На тестах Math24 hard Grok‑3 показывает результаты лучше, чем R1, o1 и даже o3‑mini high. AIME 24 — 52% [96% с обоснованием!]
GPQA —75% [85%]
Кодинг (LiveCodeBench) — 57% [80%].
- На бенчмарках версия mini сравнима с DeepSeek 3, GPT‑4o и Gemini Pro.
- Новый агент Deep (Re)search: Встроенный инструмент для быстрого интернет-поиска, кросс-валидации источников и корректировки плана, который на демонстрации справился всего за минуту.
https://x.com/i/grok
@ai_machinelearning_big_data
#grok #elonmusk #ai #ml #llm #reasoning #xAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82❤52🔥22🤔2
Новый XChat теперь доступен с шифрованием, самоуничтожением сообщений, возможностью отправки любых типов файлов и поддержкой аудио- и видеозвонков.
Приложение создано на Rust и использует шифрование (как в Биткойн) и новую архитектуру.
А еще можно звонить без номера телефона.
https://x.com/elonmusk/status/1929238157872312773
@ai_machinelearning_big_data
#elonmusk #ai #news #ml #grok
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣176👍54❤33🔥12🤷♂5🥱3😁2🥰1💯1
🚨 xAI привлекает $5 млрд через выпуск облигаций + $300 млн через продажу акций при оценке в $113 млрд
Компания Илона Маска xAI проводит две крупные финансовые операции:
Выпуск долговых обязательств на $5 млрд и продажу акций на $300 млн .
Подробности:
🔹 Облигации ($5 млрд)
Выпуск организует Morgan Stanley.
Средства пойдут на общие корпоративные нужды — например, развитие технологий, инфраструктуры или покрытие издержек.
🔹 Продажа акций ($300 млн)
Это вторичная эмиссия — компания не выпускает новые акции, а позволяет сотрудникам продать свои доли инвесторам , получив ликвидность (то есть выручку за свой "старый" пакет).
🔹 Оценка компании — $113 млрд
Это почти в 3,5 раза выше внутренней стоимости X (бывшего Twitter), который был куплен за $33 млрд.
Маск делает ставку на финансовые рынки, чтобы ускорить развитие xAI — раньше, чем компания представит зрелые решения.
Такой агрессивный подход может быть рискованным, но типичен для амбициозных технологических проектов и самого Маска.
Посмотрим, сыграет ли ставка 🤑
https://www.reuters.com/business/musks-xai-seeks-113-billion-valuation-300-million-share-sale-ft-reports-2025-06-02/
@ai_machinelearning_big_data
#elonmusk #grok #xai
Компания Илона Маска xAI проводит две крупные финансовые операции:
Выпуск долговых обязательств на $5 млрд и продажу акций на $300 млн .
Подробности:
🔹 Облигации ($5 млрд)
Выпуск организует Morgan Stanley.
Средства пойдут на общие корпоративные нужды — например, развитие технологий, инфраструктуры или покрытие издержек.
🔹 Продажа акций ($300 млн)
Это вторичная эмиссия — компания не выпускает новые акции, а позволяет сотрудникам продать свои доли инвесторам , получив ликвидность (то есть выручку за свой "старый" пакет).
🔹 Оценка компании — $113 млрд
Это почти в 3,5 раза выше внутренней стоимости X (бывшего Twitter), который был куплен за $33 млрд.
Маск делает ставку на финансовые рынки, чтобы ускорить развитие xAI — раньше, чем компания представит зрелые решения.
Такой агрессивный подход может быть рискованным, но типичен для амбициозных технологических проектов и самого Маска.
Посмотрим, сыграет ли ставка 🤑
https://www.reuters.com/business/musks-xai-seeks-113-billion-valuation-300-million-share-sale-ft-reports-2025-06-02/
@ai_machinelearning_big_data
#elonmusk #grok #xai
❤98👍45🔥25🗿9
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Илон Маск: с Neuralink можно будет “переселиться” в тело робота Tesla Optimus
Маск заявил, что люди с нейроимплантами Neuralink смогут полностью управлять роботом Tesla Optimus, ощущая его тело как своё собственное:
Не только рукой двигать — вы буквально сможете ‘ментально переселиться’ в робота.”*
По сути, речь идёт о телеприсутствии от первого лица — с полным контролем движений и тактильной обратной связью от всего тела робота.
Илон, как всегда, ставит цели на грани фантастики. Но Neuralink + Optimus действительно выглядит как первый шаг к кибер реальности такого робота.
Звучит как сюжет из «Аватара», но это уже обсуждается как реальная технология.
@ai_machinelearning_big_data
#neuralink #optimus #elonmusk #tesla #bci #robotics #futuretech #cyborg
Маск заявил, что люди с нейроимплантами Neuralink смогут полностью управлять роботом Tesla Optimus, ощущая его тело как своё собственное:
> *“Вы сможете иметь полный контроль и сенсоры всего тела Optimus.
Не только рукой двигать — вы буквально сможете ‘ментально переселиться’ в робота.”*
По сути, речь идёт о телеприсутствии от первого лица — с полным контролем движений и тактильной обратной связью от всего тела робота.
Илон, как всегда, ставит цели на грани фантастики. Но Neuralink + Optimus действительно выглядит как первый шаг к кибер реальности такого робота.
Звучит как сюжет из «Аватара», но это уже обсуждается как реальная технология.
@ai_machinelearning_big_data
#neuralink #optimus #elonmusk #tesla #bci #robotics #futuretech #cyborg
❤100👍40🔥22🗿8🤔5🍓5🥰3🤨3👀3😁2🌭1
Elon Musk заявил, что проблемы Grok (например когда модель считала себя Гитлером) связаны с "плохими обучающими данными", и пообещал, что в версии v7 всё будет исправлено, потому что они "очистят датасет".
Это больше похоже на попытку перевести фокус с реальных проблем, которые глубже и серьёзнее:
– Выравнивание (alignment) становится всё сложнее
– Проблемы не только в данных, а в самой архитектуре, управлении памятью, RLHF и недостаточной прозрачности модели
– “Плохие данные” — это симптом, а не корень проблемы
Возможно, Grok просто не справляется с масштабом данных, и это не фиксятся «переобучением на v7».
@ai_machinelearning_big_data
#elonmusk #grok
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106❤50😁28😨17👍16💯10🤔9👌5🌭5