Математика Дата саентиста

⚡️ Почему лучшие разработчики всегда на шаг впереди?

Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.

ИИ: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Мл собес t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
МЛ: t.iss.one/machinelearning_ru
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Физика: t.iss.one/fizmat

Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🖥 Chatgpt для кода в тг: @Chatgpturbobot -

📕Ит-книги: https://t.iss.one/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.iss.one/addlist/_zyy_jQ_QUsyM2Vi

Подпишись, чтобы всегда знать, куда двигаться дальше!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

3.09K views08:08

Математика Дата саентиста

🧠 Теперь можно вычислять LLM, которые «накрутили» баллы на бенчмарказ по математике, но не умеют больше ничего.

В свежем исследовании *“Does Math Reasoning Improve General LLM Capabilities?”* показано, что модели, обученные на математике с помощью SFT, часто не улучшаются вне математики — а иногда даже деградируют.

📊 Что выяснили:
• SFT на математике → ухудшение на нематематических задачах
• RL на математике → перенос улучшений в другие домены
• SFT вызывает сильное смещение представлений и токен-дистрибуций
• RL наоборот — сохраняет топологию модели и двигает только логические оси

🧪 Авторами разработан новый инструмент — Transferability Index:
Это простое соотношение между улучшением на математике и изменением на сбалансированном наборе задач. Помогает понять:
✔️ где модель реально умнее
❌ а где — просто бенчмарк‑максинг

📌 Вывод: RL-постобучение лучше предотвращает «забвение» и делает LLM более универсальными.
SFT — может казаться эффективным, но часто ухудшает общие способности модели.

📌 Подробнее

❤7👍3🔥1😁1

4.54K views10:05

Математика Дата саентиста

Forwarded from Machinelearning

🌟

HumanOmniV2: модель, которая понимает контекст видео.

Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ.

Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> .

Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых:

🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM;

🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их.

Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.

Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).

Тестовая модель обошла открытые аналоги на 3 бенчмарках:

🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6);
🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni);
🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni).

📌Лицензирование: Apache 2.0 License.

🟡

Модель

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #HumanOmniV2 #Alibaba

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤6

3.5K views09:04

Математика Дата саентиста

Нашли сайт, где десятки наглядных, интерактивных схем помогают понять, как работает всё вокруг нас.

Энергия, гравитация, электричество, клетки, ДНК, химические реакции, числа — всё показано просто, ясно и без лишнего текста.

Можно щёлкать, изучать, двигать элементы и разбираться в темах, которые обычно объясняют скучно и непонятно.

Подходит и для школьников, и для взрослых, которым интересно понять устройство мира на практике.

Сохрани себе — пригодится. 🔬🧪⚡

Учимся здесь.

❤12👍7🔥5👎2

3.36K views12:53

Математика Дата саентиста

🧠

** Phi-4-mini-flash-reasoning —новая компактная модель от Microsoft с мощной математической логикой**

Модель Phi-4-mini-flash-reasoning — это часть семейства Phi‑4 от Microsoft. Она специально создана для глубокого математического мышления, при этом остаётся лёгкой, быстрой и экономной по ресурсам.

🔍 Что делает её особенной

- Модель на 3.8B параметров, но приближается по качеству к 7B–8B аналогам.
- Контекст до 64K токенов — идеально для задач с длинной цепочкой логики.
- Оптимизирована под математику: подходит для доказательств, символьных вычислений, задач с несколькими шагами и сложных текстовых задач.

🚀 Достижения:

| Модель                            | AIME24 | AIME25 | Math500 | GPQA |
|----------------------------------|--------|--------|---------|------|
| Phi-4-mini-**Flash**-Reasoning   | **52.29** | **33.59** | **92.45** | **45.08** |
| Phi-4-mini-Reasoning             | 48.13  | 31.77  | 91.20   | 44.51 |
| DeepSeek-R1-Qwen-1.5B            | 29.58  | 20.78  | 84.50   | 37.69 |
| DeepSeek-R1-LLaMA-8B             | 43.96  | 27.34  | 87.48   | 45.83 |
| Bespoke-Stratos-7B               | 21.51  | 18.28  | 80.73   | 38.51 |

📈 *Модель превосходит другие по точности, несмотря на компактный размер.*

⚙️ Производительность

- Модель построена на гибридной архитектуре decoder + SSM, что даёт:
- модель способна генерировать длинные ответы примерно в 10 раз быстрее, чем её базовая версия
- почти линейный рост задержки (в отличие от квадратичного у обычных моделей)
- Тестировалась на A100-80GB, без tensor parallelism.

📌 *Идеальна для мобильных устройств и приложений с ограниченными ресурсами.*
⚠️ На что стоит обратить внимание

- Оптимизирована только под математическое мышление, не предназначена для общего NLP.
- Из-за размера ограничена в фактических знаниях — желательно использовать с поиском или RAG.

Phi-4-mini-flash-reasoning — это пример того, как небольшая модель может быть очень умной, если её правильно обучить и оптимизировать под конкретные задачи.

📌 Модель: https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍5🔥3

3.46K views11:18

Математика Дата саентиста

🎯 Как молодой статистик спас тысячи жизней, заметив ошибку мышления, которая встречается до сих пор — "ошибку выжившего"

Во время Второй мировой войны аналитики ВВС США анализировали возвращающиеся с боевых вылетов бомбардировщики. Они отмечали на схемах, где на самолётах были пробоины от пуль и снарядов — чаще всего в крыльях, хвосте и фюзеляже.

Логичный вывод? Усилить броню именно там.

Но молодой статистик Абрахам Вальд сказал: это фатальная ошибка.

Он заметил, что все анализируемые самолёты — это *выжившие*. Мы не видим те, которые не вернулись.

💡 Его ключевая идея:
*Те зоны, где нет пробоин у выживших — это, скорее всего, фатальные места попадания для тех, кто не вернулся.*

То есть уцелевшие самолёты как раз могли выдержать попадания в крылья и хвост. А вот попадания в двигатель или кабину пилота были смертельны — и их не видно, потому что такие самолёты не вернулись.

На основе этой логики армия изменила стратегию и усилила двигатели, кабину и топливную систему. Это решение спасло тысячи жизней.

Так Вальд сформулировал ключевую идею — ошибку выжившего:
> Когда мы делаем выводы, основываясь только на тех, кто «выжил» или «успешен», и игнорируем тех, кто не дошёл до этой точки.

❗️ Эта ошибка повсюду — в бизнесе, в стартапах, в инвестициях, в образовании.
Мы читаем только об успешных компаниях и копируем их шаги, не понимая, что за кадром остались сотни провалов, которые двигались точно так же.

Истинная уязвимость часто скрыта в невидимом.

@data_math

👍44❤21🔥11😨2🗿2👎1

3.1K viewsedited 13:42

Математика Дата саентиста

🧮 Epoch AI представила FrontierMath Tier 4 — новый бенчмарк для оценки границ математических способностей ИИ

Tier 4 — это расширение серии FrontierMath, включающее 50 задач исследовательского уровня, разработанных постдоками и профессорами математики. Все задания тщательно проверены экспертами и считаются исключительно сложными: они требуют не только глубокой математической подготовки, но и нестандартного мышления и продвинутых навыков рассуждения.

📉 Результаты:
Лишь 3 из 50 задач были решены хоть одной из протестированных ИИ-моделей. И даже эти решения были получены за счёт упрощений и неаргументированных допущений.

🧠 Задачи были сконструированы так, чтобы исключить возможность угадывания или использования обходных приёмов. Epoch AI продолжит совместную работу с математиками, чтобы отслеживать, *как именно* ИИ-модели справляются с этими задачами.

📊 Tier 4 был заказан OpenAI. Компания получила доступ к условиям и решениям 30 задач, тогда как решения к оставшимся 20 были специально скрыты — для контроля переобучения и утечек.

Epoch AI планирует продолжить регулярные тестирования топовых моделей на задачах FrontierMath Tier 1–4.

🔗 Подробнее о бенчмарке и результатах: https://epoch.ai/frontiermath

❤4👍1

3.24K views10:03

Математика Дата саентиста

✔️

Эмбеддинг-модель Gemini от Google стала общедоступной.

Google объявила о выходе в общий доступ модели для создания текстовых эмбеддингов - Gemini-Embedding-001. Она доступна разработчикам через Gemini API и Vertex AI. С момента своего экспериментального запуска модель стабильно занимает лидирующие позиции в бенчмарке MTEB и поддерживает более 100 языков.

Gemini Embedding использует технику Matryoshka Representation Learning. Она позволяет разработчикам гибко настраивать размерность выходных векторов, чтобы оптимизировать производительность и затраты на хранение. Максимальная длина входных данных составляет 2048 токенов.

Стоимость использования модели : $0.15 за 1 миллион входных токенов. Доступ к ней можно получить через Gemini API, а бесплатно протестировать - в Google AI Studio.

📌 developers.googleblog.com

@data_math

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

3.58K views15:03

Математика Дата саентиста

🧮 Результаты IMO‑2025 для LLM-моделей: кто решает задачи по-настоящему

MathArena опубликовала итоги тестирования LLM на задачах Международной математической олимпиады (IMO 2025) — самых сложных школьных задач, которых модели точно не видели в обучении.

📌 Что важно:
• Каждая модель решает каждую задачу 4 раза
• Баллы усредняются, чтобы сгладить "рандомность"
• Результаты не зависят от конкретного API — единая система оценивания
• Учитывается стоимость выполнения (в долларах)

🎯 Цель бенчмарка — честно сравнить способность моделей к рассуждению и обобщению на новых задачах, а не на выученных паттернах.

Ждём графики — интересно, кто справился лучше: GPT-4, Claude, Gemini или Mistral?
Следим за апдейтами от MathArena.

matharena.ai

❤7👍5🔥2

3.01K views10:26

Математика Дата саентиста

13:18

This media is not supported in your browser

VIEW IN TELEGRAM

🏅 OpenAI взяли золото на Международной математической олимпиаде 2025 — самое громкое AI-событие года!

И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.

📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.

Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
• AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане

Добро пожаловать в эру AI, который *действительно* понимает.

#OpenAI #MathOlympiad #AI #GPT #PostLabor

💩16❤15🔥2🥰1🤡1

3.2K views10:54

Математика Дата саентиста

🧠 Джон фон Нейман — математик, инженер, создатель теории игр и один из отцов современного компьютера.

Но его история началась ещё до школы:

— В 6 лет он бегло говорил на 8 языках, включая латинский и древнегреческий
— В уме делил восьмизначные числа
— В 8 лет освоил дифференциальное и интегральное исчисление
— В 15 поступил в Университет Будапешта
— В 19 стал инженером‑химиком
— В 22 — защитил PhD по математике в Берлине

Гений не только теоретический: он стал одним из архитекторов вычислительной эпохи.

❤31👍22🔥6🥰1

2.68K views10:02

About

Blog

Apps

Platform