GPT5 и Соннет 4 на простом завалились.
Ну в общем вывод такой, - старые ребусы можно и нужно использовать для тестирования мультимодалок.
а роботов нужно на 3х мерных детских загадках-конструкторах тестировать
#ребусы #бенчмарки
———
@tsingular
Ну в общем вывод такой, - старые ребусы можно и нужно использовать для тестирования мультимодалок.
а роботов нужно на 3х мерных детских загадках-конструкторах тестировать
#ребусы #бенчмарки
———
@tsingular
👍7✍3
💡 Meta* представила Byte Latent Transformer (BLT) — модель без токенов, которая обгоняет классические
Meta Research выложили исходник BLT (Byte Latent Transformer).
впервые байтовая модель догнала и местами превзошла токенизационные LLM вроде LLaMA 3, при этом снижая затраты на инференс до 50% и заметно повышая устойчивость.
🔍 Что нового в BLT
- Никакой токенизации: модель учится прямо на байтах, без фиксированного словаря.
- Динамические «патчи»: байты группируются в блоки переменной длины в зависимости от сложности текста (энтропии следующего байта).
- Эффективное распределение вычислений: сложные участки текста получают больше внимания и ресурсов, простые — меньше.
- Гибкое масштабирование: можно одновременно увеличивать размер модели и длину патча, сохраняя бюджет по FLOPs.
- Три уровня архитектуры: лёгкий байтовый энкодер, тяжёлый глобальный латентный трансформер и лёгкий декодер.
📈 Ключевые моменты из статьи
- Масштаб: обучение моделей до 8B параметров и 4T байт данных.
- Сравнение: при фиксированном бюджете инференса BLT обгоняет LLaMA 2/3 уже после compute-optimal точки.
- Качество: BLT-Entropy 8B превзошла LLaMA 3 на 4 из 7 стандартных бенчмарках, а в задачах устойчивости к шуму и работе с символами — с огромным отрывом (CUTE benchmark +25 пунктов).
- Переводы: +2 BLEU в среднем на низкоресурсных языках в FLORES-101.
- Инференс: патчи по 8 байт экономят ~50% FLOPs при минимальной потере качества.
💡 Почему это важно
BLT открывает путь к универсальным LLM, работающим с любыми языками и форматами без тонкой настройки токенизатора. Это особенно перспективно для:
— мультиязычных и низкоресурсных сценариев;
— устойчивости к ошибкам и «грязным» данным;
— мультимодальных моделей (байты можно применять и к аудио/видео-потокам).
📎 Репозиторий: github.com/facebookresearch/blt
Paper
TLDR: Meta убила токенизаторы
*Meta - запрещенная в РФ организация
#BLT #Meta #Transformers
———
@tsingular
Meta Research выложили исходник BLT (Byte Latent Transformer).
впервые байтовая модель догнала и местами превзошла токенизационные LLM вроде LLaMA 3, при этом снижая затраты на инференс до 50% и заметно повышая устойчивость.
🔍 Что нового в BLT
- Никакой токенизации: модель учится прямо на байтах, без фиксированного словаря.
- Динамические «патчи»: байты группируются в блоки переменной длины в зависимости от сложности текста (энтропии следующего байта).
- Эффективное распределение вычислений: сложные участки текста получают больше внимания и ресурсов, простые — меньше.
- Гибкое масштабирование: можно одновременно увеличивать размер модели и длину патча, сохраняя бюджет по FLOPs.
- Три уровня архитектуры: лёгкий байтовый энкодер, тяжёлый глобальный латентный трансформер и лёгкий декодер.
📈 Ключевые моменты из статьи
- Масштаб: обучение моделей до 8B параметров и 4T байт данных.
- Сравнение: при фиксированном бюджете инференса BLT обгоняет LLaMA 2/3 уже после compute-optimal точки.
- Качество: BLT-Entropy 8B превзошла LLaMA 3 на 4 из 7 стандартных бенчмарках, а в задачах устойчивости к шуму и работе с символами — с огромным отрывом (CUTE benchmark +25 пунктов).
- Переводы: +2 BLEU в среднем на низкоресурсных языках в FLORES-101.
- Инференс: патчи по 8 байт экономят ~50% FLOPs при минимальной потере качества.
💡 Почему это важно
BLT открывает путь к универсальным LLM, работающим с любыми языками и форматами без тонкой настройки токенизатора. Это особенно перспективно для:
— мультиязычных и низкоресурсных сценариев;
— устойчивости к ошибкам и «грязным» данным;
— мультимодальных моделей (байты можно применять и к аудио/видео-потокам).
📎 Репозиторий: github.com/facebookresearch/blt
Paper
TLDR: Meta убила токенизаторы
*Meta - запрещенная в РФ организация
#BLT #Meta #Transformers
———
@tsingular
🔥6👍3❤2
Forwarded from Анализ данных (Data analysis)
🤨 OpenAI заявила о 74.9% на SWE-Bench, чтобы обойти Opus 4.1 с его 74.5%…
Но тест они прогнали не на всех 500 задачах, а только на 477.
Ирония в том, что в официальной system card у них стоит просто 74%.
Источник: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
Но тест они прогнали не на всех 500 задачах, а только на 477.
Ирония в том, что в официальной system card у них стоит просто 74%.
Источник: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
1⚡2🔥2❤1👀1
Grok4 теперь бесплатный для всех
Илон Маск сделал Grok4 полностью бесплатным для пользователей.
Новая модель показывает прорыв в тестах на рассуждения - первая превысила 10% на бенчмарке ARC-AGI, достигнув 15,9%. В программировании набирает 72-75% на SWE-bench.
Основные фишки:
- архитектура "reasoning-first" вместо традиционных трансформеров
- нативная работа с инструментами в режиме "Grok Heavy"
- доступ к реальным данным из X в реальном времени
- меньше ограничений в ответах по сравнению с конкурентами
Пробуем тут: https://x.com/i/grok
Бесплатный сыр только в мышеловке, но пока что мышеловка выглядит довольно интересно.
До конца месяца обещают 4.5 версию.
#Grok4 #xAI
------
@tsingular
Илон Маск сделал Grok4 полностью бесплатным для пользователей.
Новая модель показывает прорыв в тестах на рассуждения - первая превысила 10% на бенчмарке ARC-AGI, достигнув 15,9%. В программировании набирает 72-75% на SWE-bench.
Основные фишки:
- архитектура "reasoning-first" вместо традиционных трансформеров
- нативная работа с инструментами в режиме "Grok Heavy"
- доступ к реальным данным из X в реальном времени
- меньше ограничений в ответах по сравнению с конкурентами
Пробуем тут: https://x.com/i/grok
Бесплатный сыр только в мышеловке, но пока что мышеловка выглядит довольно интересно.
До конца месяца обещают 4.5 версию.
#Grok4 #xAI
------
@tsingular
🔥25❤6🆒5⚡4
Forwarded from Denis Sexy IT 🤖
Это вот это же имеют ввиду под фразой «Прогресс не остановить?»
Stanford обновил полный курс по языковым моделям с нуля
CS336 от Стэнфорда учит создавать языковые модели от сбора данных до деплоя.
Ведут лекции Перси Лианг (директор CRFM) и Тацунори Хашимото. Курс покрывает трансформеры, обучение на ограниченных датасетах через синтетические данные, этику ИИ и работу с GPU.
Отдельные лекции посвящены параллелизму, оценке моделей через бенчмарки вроде MMLU и Stanford QA Dataset. Студенты проходят путь от теории до практических заданий по построению архитектуры.
Полный плейлист доступен на YouTube с детальным разбором каждого этапа создания языковых моделей.
Актуальная версия на 2025й год.
https://online.stanford.edu/courses/cs336-language-modeling-scratch
#Stanford #CS336 #обучение
------
@tsingular
CS336 от Стэнфорда учит создавать языковые модели от сбора данных до деплоя.
Ведут лекции Перси Лианг (директор CRFM) и Тацунори Хашимото. Курс покрывает трансформеры, обучение на ограниченных датасетах через синтетические данные, этику ИИ и работу с GPU.
Отдельные лекции посвящены параллелизму, оценке моделей через бенчмарки вроде MMLU и Stanford QA Dataset. Студенты проходят путь от теории до практических заданий по построению архитектуры.
Полный плейлист доступен на YouTube с детальным разбором каждого этапа создания языковых моделей.
Актуальная версия на 2025й год.
https://online.stanford.edu/courses/cs336-language-modeling-scratch
#Stanford #CS336 #обучение
------
@tsingular
❤7⚡4👍4🤝2✍1🔥1
Forwarded from Сиолошная
Sama СДУРЕЛ и решил поиграть в Деда Мороза: Plus юзеры теперь получат 3000 запросов к GPT-5-Thinking в неделю! Это кратно больше, чем все reasoning-модели вместе взятые (o3 / o4-mini) в подписке до этого.
GPU для обслуживания пользователей буквально плавятся: Sama сказал, что процент пользователей, получающих ответы от рассуждающих моделей, значительно увеличивается с каждым днем; например, для бесплатных пользователей этот показатель вырос с <1% до 7%, а для Plus-пользователей plus — с 7% до 24%.
То есть:
1) средний бесплатный пользователь всё ещё не знаком с рассуждающими моделями (но их число растёт -> существенно улучшается опыт)
2) до GPT-5 всего 7% Plus'овиков пользовалось рассуждающими моделями (я думал куда больше)
3) а теперь спрос на GPT-5-Thinking подпрыгнул в 3.5 раз и продолжает расти! Это должно существенно улучшить качество ответов для неискушенных пользователей
===
Напоминаю, что чтобы ваш запрос автоматом отправился в GPT-5-Thinking нужно в конце дописать "Think better" или "think for long" или "Подумай хорошенько над ответом". Ну или проще будет включить этот режим по умолчанию в селекторе сверху.
GPU для обслуживания пользователей буквально плавятся: Sama сказал, что процент пользователей, получающих ответы от рассуждающих моделей, значительно увеличивается с каждым днем; например, для бесплатных пользователей этот показатель вырос с <1% до 7%, а для Plus-пользователей plus — с 7% до 24%.
То есть:
1) средний бесплатный пользователь всё ещё не знаком с рассуждающими моделями (но их число растёт -> существенно улучшается опыт)
2) до GPT-5 всего 7% Plus'овиков пользовалось рассуждающими моделями (я думал куда больше)
3) а теперь спрос на GPT-5-Thinking подпрыгнул в 3.5 раз и продолжает расти! Это должно существенно улучшить качество ответов для неискушенных пользователей
===
Напоминаю, что чтобы ваш запрос автоматом отправился в GPT-5-Thinking нужно в конце дописать "Think better" или "think for long" или "Подумай хорошенько над ответом". Ну или проще будет включить этот режим по умолчанию в селекторе сверху.
😁4🔥3⚡2❤1
США берет 15% с продаж чипов Nvidia и AMD в Китай
Администрация Трампа заключила необычную сделку с Nvidia и AMD: компании будут отдавать 15% выручки от продаж ИИ-чипов в Китай американскому правительству.
Соглашение появилось через месяц после разрешения Nvidia продавать чип H20 в Поднебесную. Однако лицензии на фактические продажи до сих пор не выданы.
Главный переговорщик по сделке - CEO Nvidia Дженсен Хуанг, который встречался с Трампом на прошлой неделе в Белом доме. Механизм представляет новый подход к управлению технологическими поставками между странами.
Интересно как договорились
#Nvidia #Trump #Китай
------
@tsingular
Администрация Трампа заключила необычную сделку с Nvidia и AMD: компании будут отдавать 15% выручки от продаж ИИ-чипов в Китай американскому правительству.
Соглашение появилось через месяц после разрешения Nvidia продавать чип H20 в Поднебесную. Однако лицензии на фактические продажи до сих пор не выданы.
Главный переговорщик по сделке - CEO Nvidia Дженсен Хуанг, который встречался с Трампом на прошлой неделе в Белом доме. Механизм представляет новый подход к управлению технологическими поставками между странами.
Интересно как договорились
#Nvidia #Trump #Китай
------
@tsingular
✍4❤3⚡1👍1🔥1
Эти дни идёт интересная конференция - AGI-25
Через 2 часа начинается кейнот и будут разбирать доклады.
Посмотреть можно тут:
https://www.youtube.com/watch?v=XqYTQfQeMrE
#AGI25
———
@tsingular
Через 2 часа начинается кейнот и будут разбирать доклады.
Посмотреть можно тут:
https://www.youtube.com/watch?v=XqYTQfQeMrE
#AGI25
———
@tsingular
👍3✍2
Собираем ReAct-агент на базе LangGraph и GigaChat
Сбер опубликовал детальный гайд по созданию ReAct-агентов с помощью LangGraph на базе GigaChat Max.
ReAct-агенты объединяют пошаговое рассуждение с выполнением задач — непрерывный цикл размышления и действия.
Агенты автономно разбивают сложные задачи на подзадачи и выполняют их итеративно, динамично подключая внешние инструменты по мере необходимости.
LangGraph помогает быстро собрать такие мультиагентные процессы с параллельными ветками исполнения задач в виде графов.
В гайде подробная инструкция по сборке и код с вызовом функций, памятью, поиском в интернете и самооценкой действий.
#ReAct #LangGraph #Сбербанк #Gigachain #habr #агенты
———
@tsingular
Сбер опубликовал детальный гайд по созданию ReAct-агентов с помощью LangGraph на базе GigaChat Max.
ReAct-агенты объединяют пошаговое рассуждение с выполнением задач — непрерывный цикл размышления и действия.
Агенты автономно разбивают сложные задачи на подзадачи и выполняют их итеративно, динамично подключая внешние инструменты по мере необходимости.
LangGraph помогает быстро собрать такие мультиагентные процессы с параллельными ветками исполнения задач в виде графов.
В гайде подробная инструкция по сборке и код с вызовом функций, памятью, поиском в интернете и самооценкой действий.
#ReAct #LangGraph #Сбербанк #Gigachain #habr #агенты
———
@tsingular
⚡5👍4🔥3❤1
Llama.cpp позволил запустить 120B-параметровую MOE модель на 8GB VRAM
Новая опция --cpu-moe в llama.cpp отправляет экспертные слои MOE-архитектуры на процессор (17-25 токенов/сек на 14900K), а слои внимания оставляет на GPU.
Требуется всего 5-8GB VRAM вместо стандартных 22GB для полной модели. Система показала 25+ токенов/сек генерации на RTX 3060Ti с 64GB оперативки.
МOE-архитектура решает главную проблему домашнего AI — нехватку видеопамяти. Routing таблицы и LayerNorm остаются на GPU для быстрого prefill, гигантские MLP-веса перекочёвывают на CPU.
Видеокарточка за 300 долларов тянет модель на 120 миллиардов параметров. Скоро домашние компы будут умнее корпоративных серверов прошлого года.
народ в комментах пишет gpt-oss-120B запустили на 5090 (32GB VRAM) с 192GB DDR5 со скоростью 35 т/с
TLDR: запускаем 120B на 4090
#llamacpp #MOE #VRAM
------
@tsingular
Новая опция --cpu-moe в llama.cpp отправляет экспертные слои MOE-архитектуры на процессор (17-25 токенов/сек на 14900K), а слои внимания оставляет на GPU.
Требуется всего 5-8GB VRAM вместо стандартных 22GB для полной модели. Система показала 25+ токенов/сек генерации на RTX 3060Ti с 64GB оперативки.
МOE-архитектура решает главную проблему домашнего AI — нехватку видеопамяти. Routing таблицы и LayerNorm остаются на GPU для быстрого prefill, гигантские MLP-веса перекочёвывают на CPU.
Видеокарточка за 300 долларов тянет модель на 120 миллиардов параметров. Скоро домашние компы будут умнее корпоративных серверов прошлого года.
народ в комментах пишет gpt-oss-120B запустили на 5090 (32GB VRAM) с 192GB DDR5 со скоростью 35 т/с
TLDR: запускаем 120B на 4090
#llamacpp #MOE #VRAM
------
@tsingular
🔥18👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Google выпустил LangExtract для извлечения данных из текста
Google представил библиотеку LangExtract — инструмент для извлечения структурированных данных из неструктурированного текста через Gemini.
Особенность — точная привязка к источнику. Каждый извлечённый элемент привязывается к конкретному месту в оригинальном тексте с указанием символов. Есть интерактивная визуализация для проверки результатов.
Библиотека работает с документами до 147,843 символов, использует параллельную обработку и поддерживает обучение на примерах. Подходит для медицинских, юридических и литературных документов.
Можно обрабатывать тексты прямо по URL без предварительной подготовки.
Наглядно и удобно вытаскивать смысловые сущности из документов.
Можно использовать для строительства графов.
#Google #LangExtract #Gemini
———
@tsingular
Google представил библиотеку LangExtract — инструмент для извлечения структурированных данных из неструктурированного текста через Gemini.
Особенность — точная привязка к источнику. Каждый извлечённый элемент привязывается к конкретному месту в оригинальном тексте с указанием символов. Есть интерактивная визуализация для проверки результатов.
Библиотека работает с документами до 147,843 символов, использует параллельную обработку и поддерживает обучение на примерах. Подходит для медицинских, юридических и литературных документов.
Можно обрабатывать тексты прямо по URL без предварительной подготовки.
Наглядно и удобно вытаскивать смысловые сущности из документов.
Можно использовать для строительства графов.
#Google #LangExtract #Gemini
———
@tsingular
✍8⚡3🔥2
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
Что это
• Открытая и настраиваемая reasoning-VLM для физического ИИ и робототехники: модель понимает видео + текст, “думает” по шагам и принимает решения
в реальном мире.
Что умеет
👀 Видеть, рассуждать и действовать в реальном мире
🛠️ Решать многошаговые задачи и справляться с неоднозначными/новыми ситуациями
🤖 Подходит для разработки роботов, автономного транспорта и визуальных ИИ-агентов
Почему важно
• Пост-тюнинг даёт ощутимый буст: SFT ≈ +10% к базе, RL ещё ≈ +5%.
• Итог: средний результат ≈ 65.7 на профильных бенчмарках для роботов и автопилота.
📌 Подробнее
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
🐝 BionicBee от Festo: инженеры скопировали пчелиный рой
15 лет разработки биомиметических летательных аппаратов привели к созданию самого маленького автономного робота-пчелы весом всего 34 грамма.
Техническая начинка:
- Размах крыльев 24 см при длине 22 см — меньше чем у дрона DJI Mini
- Частота взмахов 15-20 Гц с углом 180° (как у настоящих пчел)
- 4 степени свободы через 3 сервомотора у основания крыльев
- Генеративный дизайн корпуса — ИИ просчитал оптимальную структуру для минимального веса
Революция в управлении роем:
- UWB-позиционирование через 8 меток в помещении — точность до сантиметра
- Каждая пчела самостоятельно вычисляет свою позицию по времени распространения сигнала
- Автокалибровка компенсирует производственные различия между роботами
- Центральный компьютер координирует траектории с учетом аэродинамических помех
Главный прорыв — впервые удалось создать рой из 10 роботов, летающих автономно без столкновений в замкнутом пространстве.
✔️ Черное Зеркало Сезон 3, Эпизод 6
#Festo #BionicBee #пчёлы #рой
———
@tsingular
15 лет разработки биомиметических летательных аппаратов привели к созданию самого маленького автономного робота-пчелы весом всего 34 грамма.
Техническая начинка:
- Размах крыльев 24 см при длине 22 см — меньше чем у дрона DJI Mini
- Частота взмахов 15-20 Гц с углом 180° (как у настоящих пчел)
- 4 степени свободы через 3 сервомотора у основания крыльев
- Генеративный дизайн корпуса — ИИ просчитал оптимальную структуру для минимального веса
Революция в управлении роем:
- UWB-позиционирование через 8 меток в помещении — точность до сантиметра
- Каждая пчела самостоятельно вычисляет свою позицию по времени распространения сигнала
- Автокалибровка компенсирует производственные различия между роботами
- Центральный компьютер координирует траектории с учетом аэродинамических помех
Главный прорыв — впервые удалось создать рой из 10 роботов, летающих автономно без столкновений в замкнутом пространстве.
#Festo #BionicBee #пчёлы #рой
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👾4❤3
Forwarded from Анализ данных (Data analysis)
Многие замечали, что Mistral Small 3.2 пишет очень похоже на DeepSeek V3.
Анализ их slop-профилей это подтверждает.
Визуализация в виде сети, а не «древа родства», лучше передаёт сложные и переплетённые связи между моделями.
Полный абсурд.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9