Математика Дата саентиста
13.4K subscribers
392 photos
127 videos
37 files
338 links
Download Telegram
🧮 Epoch AI представила FrontierMath Tier 4 — новый бенчмарк для оценки границ математических способностей ИИ

Tier 4 — это расширение серии FrontierMath, включающее 50 задач исследовательского уровня, разработанных постдоками и профессорами математики. Все задания тщательно проверены экспертами и считаются исключительно сложными: они требуют не только глубокой математической подготовки, но и нестандартного мышления и продвинутых навыков рассуждения.

📉 Результаты:
Лишь 3 из 50 задач были решены хоть одной из протестированных ИИ-моделей. И даже эти решения были получены за счёт упрощений и неаргументированных допущений.

🧠 Задачи были сконструированы так, чтобы исключить возможность угадывания или использования обходных приёмов. Epoch AI продолжит совместную работу с математиками, чтобы отслеживать, *как именно* ИИ-модели справляются с этими задачами.

📊 Tier 4 был заказан OpenAI. Компания получила доступ к условиям и решениям 30 задач, тогда как решения к оставшимся 20 были специально скрыты — для контроля переобучения и утечек.

Epoch AI планирует продолжить регулярные тестирования топовых моделей на задачах FrontierMath Tier 1–4.

🔗 Подробнее о бенчмарке и результатах: https://epoch.ai/frontiermath
3👍1
✔️ Эмбеддинг-модель Gemini от Google стала общедоступной.

Google объявила о выходе в общий доступ модели для создания текстовых эмбеддингов - Gemini-Embedding-001. Она доступна разработчикам через Gemini API и Vertex AI. С момента своего экспериментального запуска модель стабильно занимает лидирующие позиции в бенчмарке MTEB и поддерживает более 100 языков.

Gemini Embedding использует технику Matryoshka Representation Learning. Она позволяет разработчикам гибко настраивать размерность выходных векторов, чтобы оптимизировать производительность и затраты на хранение. Максимальная длина входных данных составляет 2048 токенов.

Стоимость использования модели : $0.15 за 1 миллион входных токенов. Доступ к ней можно получить через Gemini API, а бесплатно протестировать - в Google AI Studio.

📌 developers.googleblog.com

@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
🧮 Результаты IMO‑2025 для LLM-моделей: кто решает задачи по-настоящему

MathArena опубликовала итоги тестирования LLM на задачах Международной математической олимпиады (IMO 2025) — самых сложных школьных задач, которых модели точно не видели в обучении.

📌 Что важно:
• Каждая модель решает каждую задачу 4 раза
• Баллы усредняются, чтобы сгладить "рандомность"
• Результаты не зависят от конкретного API — единая система оценивания
• Учитывается стоимость выполнения (в долларах)

🎯 Цель бенчмарка — честно сравнить способность моделей к рассуждению и обобщению на новых задачах, а не на выученных паттернах.

Ждём графики — интересно, кто справился лучше: GPT-4, Claude, Gemini или Mistral?
Следим за апдейтами от MathArena.

matharena.ai
5👍4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🏅 OpenAI взяли золото на Международной математической олимпиаде 2025 — самое громкое AI-событие года!

И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.

📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.

Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
• AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане

Добро пожаловать в эру AI, который *действительно* понимает.

#OpenAI #MathOlympiad #AI #GPT #PostLabor
15💩14🔥2🥰1🤡1
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы

Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥

🗓 Регистрация: https://cnrlink.com/ecup25datamath
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.

Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.

Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров

Регистрация на платформе Codenrock: https://cnrlink.com/ecup25datamath
Please open Telegram to view this post
VIEW IN TELEGRAM
2
🧠 Джон фон Нейман — математик, инженер, создатель теории игр и один из отцов современного компьютера.

Но его история началась ещё до школы:

— В 6 лет он бегло говорил на 8 языках, включая латинский и древнегреческий
— В уме делил восьмизначные числа
— В 8 лет освоил дифференциальное и интегральное исчисление
— В 15 поступил в Университет Будапешта
— В 19 стал инженером‑химиком
— В 22 — защитил PhD по математике в Берлине

Гений не только теоретический: он стал одним из архитекторов вычислительной эпохи.
27👍20🔥6🥰1
Forwarded from Machinelearning
🌟 OpenReasoning-Nemotron: набор ризонинг-моделей от NVIDIA.

OpenReasoning-Nemotron - набор LLM на архитектуре Qwen 2.5 и дистиллированных из DeepSeek-R1-0528 ( 671 млрд. параметров):

🟠OpenReasoning-Nemotron-1.5B;
🟠OpenReasoning-Nemotron-7B;
🟠OpenReasoning-Nemotron-14B;
🟢OpenReasoning-Nemotron-32B;

Семейство было обучено на 5 млн. примеров рассуждений в математике, естественных науках и программировании.

Модели показали достойные результаты pass@1 на бенчах GPQA, MMLU-PRO, AIME, HMMT и LiveCodeBench - без использования RL.

Старшая модель, 32B, выбила 96,7% по HMMT с декодированием GenSelect.


📌Лицензирование: CC-BY-4.0 License.


🟡Статья
🟡Набор моделей


@ai_machinelearning_big_data

#AI #ML #LLM #Reasoning #Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2🥰1😁1
⚛️ Краткая история квантовой физики в одном посте✍️

1900 — Planck вводит квантовую гипотезу: энергия излучается дискретно.
1905 — Эйнштейн объясняет фотоэффект через "кванты света" (фотоны).
1924 — де Бройль: частицы могут вести себя как волны.
1925 — Гейзенберг формулирует матричную механику — первую версию КМ.
1926 — Шрёдингер создаёт уравнение волновой функции.
1927 — Принцип неопределённости: нельзя точно измерить и импульс, и координату.
1928 — Дирак объединяет квантовую механику и релятивизм, предсказывает антиматерию.
1935 — Парадокс ЭПР: квантовая механика вроде бы "неполна".
1947 — Фейнман, Швингер и Томонага создают Квантовую Электродинамику (QED).
1954 — Ян и Миллс вводят неабелевы калибровочные теории → фундамент QCD.
1961 — Глэшоу объединяет электромагнитное и слабое взаимодействие.
1964 — Белл формулирует теорему: запутанность нельзя объяснить скрытыми переменными.
1964 — Гелл-Манн и Цвейг предлагают кварковую модель.
1973 — Гросс, Вильчек и Полицер открывают "асимптотическую свободу" в QCD.
1979 — Нобелевка: Глэшоу, Салам и Вайнберг за объединение взаимодействий.
1982 — Ален Аспе экспериментально подтверждает квантовую запутанность.

🔬 От кванта энергии — к Стандартной модели. За 80 лет квантовая физика изменила всё.
👍13🥰4❤‍🔥32👎1🔥1
Forwarded from Machinelearning
🌟 Hierarchical Reasoning Model: иерархическая модель рассуждений, имитирующая работу мозга человека.

Hierarchical Reasoning Model, (HRM) - рекуррентная архитектура, которая черпает вдохновение в принципах работы человеческого мозга. В ее основе лежат 2 взаимозависимых рекуррентных модуля:

🟢Первый, высокоуровневый модуль (H-модуль), отвечает за медленное, абстрактное планирование, подобно тета-волнам в мозге.

🟢Второй, низкоуровневый модуль (L-модуль), занимается быстрыми и детализированными вычислениями, аналогично гамма-волнам.

Эта структура дает модели достигать вычислительной глубины, необходимой для сложных рассуждений, при этом сохраняя стабильность и эффективность во время обучения, чего так не хватает стандартным трансформерам.

🟡Взаимодействие модулей назвали "Иерархической конвергенцией".

Процесс кардинально отличается от того, что происходит в обычных рекуррентных сетях, которые склонны к преждевременной сходимости, когда их скрытое состояние быстро стабилизируется, и дальнейшие вычисления практически прекращаются. В HRM все иначе:

🟠Сначала быстрый L-модуль выполняет серию итераций, находя локальное равновесие для текущего шага задачи. Его итоговое состояние передается медленному H-модулю.

🟠H-модуль, в свою очередь, осмысливает полученный результат, выполняет один шаг собственного, более абстрактного обновления и задает совершенно новый контекст для L-модуля.

Таким образом, вычислительный путь низкоуровневого модуля перезапускается, направляя его к новой точке локального равновесия. Механизм не дает системе застрять и позволяет ей последовательно выполнять множество различных, но взаимосвязанных этапов решения, выстраивая длинные логические цепочки.

Тестовая модель HRM с 27 млн. параметров, обученная всего на 1000 примерах без какого-либо претрейна или CoT-пар, показала неожиданно высокие результаты .

На задачах, требующих глубокого поиска и перебора вариантов ( Sudoku-Extreme ) и поиск оптимального пути ( Maze 30x30 ), HRM достигла почти идеальной точности, а вот CoT-методы полностью провалились с результатом 0%.

На бенчмарке ARC-AGI-1, HRM показывает точность в 40.3%. Для сравнения, o3-mini-high показала 34.5%, а Claude 3.7 с контекстом 8K - 21.2%.

▶️ Веса моделей для самостоятельного воспроизведения тестов:

🟢ARC-AGI-2;
🟢Sudoku 9x9 Extreme (1000 examples);
🟢Maze 30x30 Hard (1000 examples);


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #HRM #SapientInc
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥4👍1🥰1
🎯 ЗАДАЧА: Восстановление распределения из агрегатов

У вас есть CSV-файл, содержащий агрегированные данные по группам пользователей в виде:

| Группа | Среднее значение | Стандартное отклонение | Кол-во наблюдений |
|--------|------------------|-------------------------|--------------------|
| A | 50.0 | 10.0 | 100 |
| B | 60.0 | 15.0 | 80 |
| C | 55.0 | 12.0 | 120 |

Ваша задача: восстановить вероятностное распределение внутри каждой группы (на уровне отдельных наблюдений) и проверить гипотезу: *"Среднее значение в группе B статистически выше, чем в группе A, на уровне значимости 0.05."*

Условия:
- У вас нет сырых данных — только агрегаты.
- Вы должны сгенерировать выборки из нормального распределения на основе предоставленных параметров и выполнить статистический тест.

💡 Разбор:

1️⃣ Генерация синтетических данных:


import numpy as np

np.random.seed(42)
a = np.random.normal(loc=50, scale=10, size=100)
b = np.random.normal(loc=60, scale=15, size=80)


2️⃣ Проверка гипотезы:


from scipy.stats import ttest_ind

stat, p_value = ttest_ind(b, a, equal_var=False)
print(f"p-value = {p_value:.4f}")


3️⃣ Вывод:

Если p_value < 0.05, гипотеза подтверждается: группа B значимо выше по среднему.

В противном случае — различие незначимо.

🧠 Подвох:

Вы не знаете, что данные на самом деле НЕ обязательно нормально распределены.

Также важно понимать, что при генерации данных по агрегатам вы делаете допущение, что выборки соответствуют нормальным законам — что может быть неверно.

📌 Дополнительный уровень:
Проведите 1000 симуляций и постройте распределение p-value, чтобы оценить устойчивость вывода при варьирующихся выборках.

🔍 Эта задача проверяет:

- знание статистики и генерации данных
- навыки формулировки гипотез
- понимание ограничений моделирования из агрегатов
- умение мыслить критически и ставить под сомнение исходные допущения
🔥65👍4
⚡️ Почему лучшие разработчики всегда на шаг впереди?

Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.

ИИ: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Devops: t.iss.one/DevOPSitsec
Базы данных: t.iss.one/sqlhub
Мл собес t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
МЛ: t.iss.one/machinelearning_ru
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/java_library
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Физика: t.iss.one/fizmat
SQL: t.iss.one/databases_tg

Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🖥 Chatgpt для кода в тг: @Chatgpturbobot -

📕Ит-книги: https://t.iss.one/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.iss.one/addlist/_zyy_jQ_QUsyM2Vi

Подпишись, чтобы всегда знать, куда двигаться дальше!
Please open Telegram to view this post
VIEW IN TELEGRAM
2👎1
📐 Aryabhata 1.0* — интересный пример open-source подхода и model merging в действии.

Это небольшая языковая модель на 7B параметров, обученная для решения задач по математике. Её разработала индийская edtech-компания PhysicsWallah.

🧩 Как создавали модель:

1️⃣ *Model merging на старте*
Взяли три open-source модели:
— Qwen 2.5‑Math‑7B
— AceMath‑7B
— DeepSeek‑R1‑Distill‑Qwen‑7B

Объединили их веса (weighted average) и получили Aryabhata 0.5 — начальную модель без дополнительного обучения, просто усреднив параметры. Это заняло всего пару минут GPU-времени.

2️⃣ *Собрали датасет из задач по математике*
Взяли 250 000 заданий из своей базы JEE-экзаменов, очистили от лишнего, оставив ~130 000 актуальных заданий (2019–2024).

3️⃣ *Создание обучающих данных через CoT*
Aryabhata 0.5 решала каждую задачу, генерируя 4 цепочки рассуждений. Сохранили только те, что дали правильный ответ. Получилось 100 000 задач и 350 000 корректных reasoning-трейсов.

4️⃣ *Файнтюнинг (SFT)*
На этих парах дообучили модель, чтобы она писала решения в стиле студенческих ответов по стандарту экзаменов JEE.

💻 Обучение провели на связке из двух NVIDIA H100.

🧠 В результате получилась Aryabhata 1.0 — компактная, но точно заточенная под реальные экзаменационные задачи модель.

https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0
👍53🔥1