Forwarded from Machinelearning
Alibaba Group разработали HumanOmniV2, модель на базе
Qwen2.5-Omni-7B-thinker
, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ.Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге
<context>
. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think>
она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer>
.Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых:
Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.
Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).
Тестовая модель обошла открытые аналоги на 3 бенчмарках:
@ai_machinelearning_big_data
#AI #ML #MMLM #HumanOmniV2 #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤6
Нашли сайт, где десятки наглядных, интерактивных схем помогают понять, как работает всё вокруг нас.
Энергия, гравитация, электричество, клетки, ДНК, химические реакции, числа — всё показано просто, ясно и без лишнего текста.
Можно щёлкать, изучать, двигать элементы и разбираться в темах, которые обычно объясняют скучно и непонятно.
Подходит и для школьников, и для взрослых, которым интересно понять устройство мира на практике.
Сохрани себе — пригодится. 🔬🧪⚡
Учимся здесь.
Энергия, гравитация, электричество, клетки, ДНК, химические реакции, числа — всё показано просто, ясно и без лишнего текста.
Можно щёлкать, изучать, двигать элементы и разбираться в темах, которые обычно объясняют скучно и непонятно.
Подходит и для школьников, и для взрослых, которым интересно понять устройство мира на практике.
Сохрани себе — пригодится. 🔬🧪⚡
Учимся здесь.
❤12👍6🔥5👎2
Модель Phi-4-mini-flash-reasoning — это часть семейства Phi‑4 от Microsoft. Она специально создана для глубокого математического мышления, при этом остаётся лёгкой, быстрой и экономной по ресурсам.
🔍 Что делает её особенной
- Модель на 3.8B параметров, но приближается по качеству к 7B–8B аналогам.
- Контекст до 64K токенов — идеально для задач с длинной цепочкой логики.
- Оптимизирована под математику: подходит для доказательств, символьных вычислений, задач с несколькими шагами и сложных текстовых задач.
🚀 Достижения:
| Модель | AIME24 | AIME25 | Math500 | GPQA |
|----------------------------------|--------|--------|---------|------|
| Phi-4-mini-**Flash**-Reasoning | **52.29** | **33.59** | **92.45** | **45.08** |
| Phi-4-mini-Reasoning | 48.13 | 31.77 | 91.20 | 44.51 |
| DeepSeek-R1-Qwen-1.5B | 29.58 | 20.78 | 84.50 | 37.69 |
| DeepSeek-R1-LLaMA-8B | 43.96 | 27.34 | 87.48 | 45.83 |
| Bespoke-Stratos-7B | 21.51 | 18.28 | 80.73 | 38.51 |
📈 *Модель превосходит другие по точности, несмотря на компактный размер.*
⚙️ Производительность
- Модель построена на гибридной архитектуре decoder + SSM, что даёт:
- модель способна генерировать длинные ответы примерно в 10 раз быстрее, чем её базовая версия
- почти линейный рост задержки (в отличие от квадратичного у обычных моделей)
- Тестировалась на A100-80GB, без tensor parallelism.
📌 *Идеальна для мобильных устройств и приложений с ограниченными ресурсами.*
⚠️ На что стоит обратить внимание
- Оптимизирована только под математическое мышление, не предназначена для общего NLP.
- Из-за размера ограничена в фактических знаниях — желательно использовать с поиском или RAG.
Phi-4-mini-flash-reasoning — это пример того, как небольшая модель может быть очень умной, если её правильно обучить и оптимизировать под конкретные задачи.
📌 Модель: https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍5🔥3
🎯 Как молодой статистик спас тысячи жизней, заметив ошибку мышления, которая встречается до сих пор — "ошибку выжившего"
Во время Второй мировой войны аналитики ВВС США анализировали возвращающиеся с боевых вылетов бомбардировщики. Они отмечали на схемах, где на самолётах были пробоины от пуль и снарядов — чаще всего в крыльях, хвосте и фюзеляже.
Логичный вывод? Усилить броню именно там.
Но молодой статистик Абрахам Вальд сказал: это фатальная ошибка.
Он заметил, что все анализируемые самолёты — это *выжившие*. Мы не видим те, которые не вернулись.
💡 Его ключевая идея:
*Те зоны, где нет пробоин у выживших — это, скорее всего, фатальные места попадания для тех, кто не вернулся.*
То есть уцелевшие самолёты как раз могли выдержать попадания в крылья и хвост. А вот попадания в двигатель или кабину пилота были смертельны — и их не видно, потому что такие самолёты не вернулись.
На основе этой логики армия изменила стратегию и усилила двигатели, кабину и топливную систему. Это решение спасло тысячи жизней.
Так Вальд сформулировал ключевую идею — ошибку выжившего:
> Когда мы делаем выводы, основываясь только на тех, кто «выжил» или «успешен», и игнорируем тех, кто не дошёл до этой точки.
❗️ Эта ошибка повсюду — в бизнесе, в стартапах, в инвестициях, в образовании.
Мы читаем только об успешных компаниях и копируем их шаги, не понимая, что за кадром остались сотни провалов, которые двигались точно так же.
Истинная уязвимость часто скрыта в невидимом.
@data_math
Во время Второй мировой войны аналитики ВВС США анализировали возвращающиеся с боевых вылетов бомбардировщики. Они отмечали на схемах, где на самолётах были пробоины от пуль и снарядов — чаще всего в крыльях, хвосте и фюзеляже.
Логичный вывод? Усилить броню именно там.
Но молодой статистик Абрахам Вальд сказал: это фатальная ошибка.
Он заметил, что все анализируемые самолёты — это *выжившие*. Мы не видим те, которые не вернулись.
💡 Его ключевая идея:
*Те зоны, где нет пробоин у выживших — это, скорее всего, фатальные места попадания для тех, кто не вернулся.*
То есть уцелевшие самолёты как раз могли выдержать попадания в крылья и хвост. А вот попадания в двигатель или кабину пилота были смертельны — и их не видно, потому что такие самолёты не вернулись.
На основе этой логики армия изменила стратегию и усилила двигатели, кабину и топливную систему. Это решение спасло тысячи жизней.
Так Вальд сформулировал ключевую идею — ошибку выжившего:
> Когда мы делаем выводы, основываясь только на тех, кто «выжил» или «успешен», и игнорируем тех, кто не дошёл до этой точки.
❗️ Эта ошибка повсюду — в бизнесе, в стартапах, в инвестициях, в образовании.
Мы читаем только об успешных компаниях и копируем их шаги, не понимая, что за кадром остались сотни провалов, которые двигались точно так же.
Истинная уязвимость часто скрыта в невидимом.
@data_math
👍38❤21🔥11😨2🗿2👎1
🧮 Epoch AI представила FrontierMath Tier 4 — новый бенчмарк для оценки границ математических способностей ИИ
Tier 4 — это расширение серии FrontierMath, включающее 50 задач исследовательского уровня, разработанных постдоками и профессорами математики. Все задания тщательно проверены экспертами и считаются исключительно сложными: они требуют не только глубокой математической подготовки, но и нестандартного мышления и продвинутых навыков рассуждения.
📉 Результаты:
Лишь 3 из 50 задач были решены хоть одной из протестированных ИИ-моделей. И даже эти решения были получены за счёт упрощений и неаргументированных допущений.
🧠 Задачи были сконструированы так, чтобы исключить возможность угадывания или использования обходных приёмов. Epoch AI продолжит совместную работу с математиками, чтобы отслеживать, *как именно* ИИ-модели справляются с этими задачами.
📊 Tier 4 был заказан OpenAI. Компания получила доступ к условиям и решениям 30 задач, тогда как решения к оставшимся 20 были специально скрыты — для контроля переобучения и утечек.
Epoch AI планирует продолжить регулярные тестирования топовых моделей на задачах FrontierMath Tier 1–4.
🔗 Подробнее о бенчмарке и результатах: https://epoch.ai/frontiermath
Tier 4 — это расширение серии FrontierMath, включающее 50 задач исследовательского уровня, разработанных постдоками и профессорами математики. Все задания тщательно проверены экспертами и считаются исключительно сложными: они требуют не только глубокой математической подготовки, но и нестандартного мышления и продвинутых навыков рассуждения.
📉 Результаты:
Лишь 3 из 50 задач были решены хоть одной из протестированных ИИ-моделей. И даже эти решения были получены за счёт упрощений и неаргументированных допущений.
🧠 Задачи были сконструированы так, чтобы исключить возможность угадывания или использования обходных приёмов. Epoch AI продолжит совместную работу с математиками, чтобы отслеживать, *как именно* ИИ-модели справляются с этими задачами.
📊 Tier 4 был заказан OpenAI. Компания получила доступ к условиям и решениям 30 задач, тогда как решения к оставшимся 20 были специально скрыты — для контроля переобучения и утечек.
Epoch AI планирует продолжить регулярные тестирования топовых моделей на задачах FrontierMath Tier 1–4.
🔗 Подробнее о бенчмарке и результатах: https://epoch.ai/frontiermath
❤3👍1
Google объявила о выходе в общий доступ модели для создания текстовых эмбеддингов - Gemini-Embedding-001. Она доступна разработчикам через Gemini API и Vertex AI. С момента своего экспериментального запуска модель стабильно занимает лидирующие позиции в бенчмарке MTEB и поддерживает более 100 языков.
Gemini Embedding использует технику Matryoshka Representation Learning. Она позволяет разработчикам гибко настраивать размерность выходных векторов, чтобы оптимизировать производительность и затраты на хранение. Максимальная длина входных данных составляет 2048 токенов.
Стоимость использования модели : $0.15 за 1 миллион входных токенов. Доступ к ней можно получить через Gemini API, а бесплатно протестировать - в Google AI Studio.
📌 developers.googleblog.com
@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1
🧮 Результаты IMO‑2025 для LLM-моделей: кто решает задачи по-настоящему
MathArena опубликовала итоги тестирования LLM на задачах Международной математической олимпиады (IMO 2025) — самых сложных школьных задач, которых модели точно не видели в обучении.
📌 Что важно:
• Каждая модель решает каждую задачу 4 раза
• Баллы усредняются, чтобы сгладить "рандомность"
• Результаты не зависят от конкретного API — единая система оценивания
• Учитывается стоимость выполнения (в долларах)
🎯 Цель бенчмарка — честно сравнить способность моделей к рассуждению и обобщению на новых задачах, а не на выученных паттернах.
Ждём графики — интересно, кто справился лучше: GPT-4, Claude, Gemini или Mistral?
Следим за апдейтами от MathArena.
matharena.ai
MathArena опубликовала итоги тестирования LLM на задачах Международной математической олимпиады (IMO 2025) — самых сложных школьных задач, которых модели точно не видели в обучении.
📌 Что важно:
• Каждая модель решает каждую задачу 4 раза
• Баллы усредняются, чтобы сгладить "рандомность"
• Результаты не зависят от конкретного API — единая система оценивания
• Учитывается стоимость выполнения (в долларах)
🎯 Цель бенчмарка — честно сравнить способность моделей к рассуждению и обобщению на новых задачах, а не на выученных паттернах.
Ждём графики — интересно, кто справился лучше: GPT-4, Claude, Gemini или Mistral?
Следим за апдейтами от MathArena.
matharena.ai
❤5👍4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🏅 OpenAI взяли золото на Международной математической олимпиаде 2025 — самое громкое AI-событие года!
И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.
📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.
Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
• AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане
Добро пожаловать в эру AI, который *действительно* понимает.
#OpenAI #MathOlympiad #AI #GPT #PostLabor
И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.
📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.
Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
• AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане
Добро пожаловать в эру AI, который *действительно* понимает.
#OpenAI #MathOlympiad #AI #GPT #PostLabor
❤15💩15🔥2🥰1🤡1
🧠 Джон фон Нейман — математик, инженер, создатель теории игр и один из отцов современного компьютера.
Но его история началась ещё до школы:
— В 6 лет он бегло говорил на 8 языках, включая латинский и древнегреческий
— В уме делил восьмизначные числа
— В 8 лет освоил дифференциальное и интегральное исчисление
— В 15 поступил в Университет Будапешта
— В 19 стал инженером‑химиком
— В 22 — защитил PhD по математике в Берлине
Гений не только теоретический: он стал одним из архитекторов вычислительной эпохи.
Но его история началась ещё до школы:
— В 6 лет он бегло говорил на 8 языках, включая латинский и древнегреческий
— В уме делил восьмизначные числа
— В 8 лет освоил дифференциальное и интегральное исчисление
— В 15 поступил в Университет Будапешта
— В 19 стал инженером‑химиком
— В 22 — защитил PhD по математике в Берлине
Гений не только теоретический: он стал одним из архитекторов вычислительной эпохи.
❤28👍20🔥6🥰1
Forwarded from Machinelearning
OpenReasoning-Nemotron - набор LLM на архитектуре Qwen 2.5 и дистиллированных из DeepSeek-R1-0528 ( 671 млрд. параметров):
Семейство было обучено на 5 млн. примеров рассуждений в математике, естественных науках и программировании.
Модели показали достойные результаты pass@1 на бенчах GPQA, MMLU-PRO, AIME, HMMT и LiveCodeBench - без использования RL.
Старшая модель, 32B, выбила 96,7% по HMMT с декодированием GenSelect.
@ai_machinelearning_big_data
#AI #ML #LLM #Reasoning #Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2🥰1😁1
⚛️ Краткая история квантовой физики в одном посте✍️
1900 — Planck вводит квантовую гипотезу: энергия излучается дискретно.
1905 — Эйнштейн объясняет фотоэффект через "кванты света" (фотоны).
1924 — де Бройль: частицы могут вести себя как волны.
1925 — Гейзенберг формулирует матричную механику — первую версию КМ.
1926 — Шрёдингер создаёт уравнение волновой функции.
1927 — Принцип неопределённости: нельзя точно измерить и импульс, и координату.
1928 — Дирак объединяет квантовую механику и релятивизм, предсказывает антиматерию.
1935 — Парадокс ЭПР: квантовая механика вроде бы "неполна".
1947 — Фейнман, Швингер и Томонага создают Квантовую Электродинамику (QED).
1954 — Ян и Миллс вводят неабелевы калибровочные теории → фундамент QCD.
1961 — Глэшоу объединяет электромагнитное и слабое взаимодействие.
1964 — Белл формулирует теорему: запутанность нельзя объяснить скрытыми переменными.
1964 — Гелл-Манн и Цвейг предлагают кварковую модель.
1973 — Гросс, Вильчек и Полицер открывают "асимптотическую свободу" в QCD.
1979 — Нобелевка: Глэшоу, Салам и Вайнберг за объединение взаимодействий.
1982 — Ален Аспе экспериментально подтверждает квантовую запутанность.
🔬 От кванта энергии — к Стандартной модели. За 80 лет квантовая физика изменила всё.
1900 — Planck вводит квантовую гипотезу: энергия излучается дискретно.
1905 — Эйнштейн объясняет фотоэффект через "кванты света" (фотоны).
1924 — де Бройль: частицы могут вести себя как волны.
1925 — Гейзенберг формулирует матричную механику — первую версию КМ.
1926 — Шрёдингер создаёт уравнение волновой функции.
1927 — Принцип неопределённости: нельзя точно измерить и импульс, и координату.
1928 — Дирак объединяет квантовую механику и релятивизм, предсказывает антиматерию.
1935 — Парадокс ЭПР: квантовая механика вроде бы "неполна".
1947 — Фейнман, Швингер и Томонага создают Квантовую Электродинамику (QED).
1954 — Ян и Миллс вводят неабелевы калибровочные теории → фундамент QCD.
1961 — Глэшоу объединяет электромагнитное и слабое взаимодействие.
1964 — Белл формулирует теорему: запутанность нельзя объяснить скрытыми переменными.
1964 — Гелл-Манн и Цвейг предлагают кварковую модель.
1973 — Гросс, Вильчек и Полицер открывают "асимптотическую свободу" в QCD.
1979 — Нобелевка: Глэшоу, Салам и Вайнберг за объединение взаимодействий.
1982 — Ален Аспе экспериментально подтверждает квантовую запутанность.
🔬 От кванта энергии — к Стандартной модели. За 80 лет квантовая физика изменила всё.
👍17❤🔥4🥰4❤2👎1🔥1
Forwarded from Machinelearning
Hierarchical Reasoning Model, (HRM) - рекуррентная архитектура, которая черпает вдохновение в принципах работы человеческого мозга. В ее основе лежат 2 взаимозависимых рекуррентных модуля:
Эта структура дает модели достигать вычислительной глубины, необходимой для сложных рассуждений, при этом сохраняя стабильность и эффективность во время обучения, чего так не хватает стандартным трансформерам.
Процесс кардинально отличается от того, что происходит в обычных рекуррентных сетях, которые склонны к преждевременной сходимости, когда их скрытое состояние быстро стабилизируется, и дальнейшие вычисления практически прекращаются. В HRM все иначе:
Таким образом, вычислительный путь низкоуровневого модуля перезапускается, направляя его к новой точке локального равновесия. Механизм не дает системе застрять и позволяет ей последовательно выполнять множество различных, но взаимосвязанных этапов решения, выстраивая длинные логические цепочки.
Тестовая модель HRM с 27 млн. параметров, обученная всего на 1000 примерах без какого-либо претрейна или CoT-пар, показала неожиданно высокие результаты .
На задачах, требующих глубокого поиска и перебора вариантов ( Sudoku-Extreme ) и поиск оптимального пути ( Maze 30x30 ), HRM достигла почти идеальной точности, а вот CoT-методы полностью провалились с результатом 0%.
На бенчмарке ARC-AGI-1, HRM показывает точность в 40.3%. Для сравнения, o3-mini-high показала 34.5%, а Claude 3.7 с контекстом 8K - 21.2%.
@ai_machinelearning_big_data
#AI #ML #HRM #SapientInc
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥6🥰2👍1🤔1