🧮 Epoch AI представила FrontierMath Tier 4 — новый бенчмарк для оценки границ математических способностей ИИ
Tier 4 — это расширение серии FrontierMath, включающее 50 задач исследовательского уровня, разработанных постдоками и профессорами математики. Все задания тщательно проверены экспертами и считаются исключительно сложными: они требуют не только глубокой математической подготовки, но и нестандартного мышления и продвинутых навыков рассуждения.
📉 Результаты:
Лишь 3 из 50 задач были решены хоть одной из протестированных ИИ-моделей. И даже эти решения были получены за счёт упрощений и неаргументированных допущений.
🧠 Задачи были сконструированы так, чтобы исключить возможность угадывания или использования обходных приёмов. Epoch AI продолжит совместную работу с математиками, чтобы отслеживать, *как именно* ИИ-модели справляются с этими задачами.
📊 Tier 4 был заказан OpenAI. Компания получила доступ к условиям и решениям 30 задач, тогда как решения к оставшимся 20 были специально скрыты — для контроля переобучения и утечек.
Epoch AI планирует продолжить регулярные тестирования топовых моделей на задачах FrontierMath Tier 1–4.
🔗 Подробнее о бенчмарке и результатах: https://epoch.ai/frontiermath
Tier 4 — это расширение серии FrontierMath, включающее 50 задач исследовательского уровня, разработанных постдоками и профессорами математики. Все задания тщательно проверены экспертами и считаются исключительно сложными: они требуют не только глубокой математической подготовки, но и нестандартного мышления и продвинутых навыков рассуждения.
📉 Результаты:
Лишь 3 из 50 задач были решены хоть одной из протестированных ИИ-моделей. И даже эти решения были получены за счёт упрощений и неаргументированных допущений.
🧠 Задачи были сконструированы так, чтобы исключить возможность угадывания или использования обходных приёмов. Epoch AI продолжит совместную работу с математиками, чтобы отслеживать, *как именно* ИИ-модели справляются с этими задачами.
📊 Tier 4 был заказан OpenAI. Компания получила доступ к условиям и решениям 30 задач, тогда как решения к оставшимся 20 были специально скрыты — для контроля переобучения и утечек.
Epoch AI планирует продолжить регулярные тестирования топовых моделей на задачах FrontierMath Tier 1–4.
🔗 Подробнее о бенчмарке и результатах: https://epoch.ai/frontiermath
❤3👍1
Google объявила о выходе в общий доступ модели для создания текстовых эмбеддингов - Gemini-Embedding-001. Она доступна разработчикам через Gemini API и Vertex AI. С момента своего экспериментального запуска модель стабильно занимает лидирующие позиции в бенчмарке MTEB и поддерживает более 100 языков.
Gemini Embedding использует технику Matryoshka Representation Learning. Она позволяет разработчикам гибко настраивать размерность выходных векторов, чтобы оптимизировать производительность и затраты на хранение. Максимальная длина входных данных составляет 2048 токенов.
Стоимость использования модели : $0.15 за 1 миллион входных токенов. Доступ к ней можно получить через Gemini API, а бесплатно протестировать - в Google AI Studio.
📌 developers.googleblog.com
@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1
🧮 Результаты IMO‑2025 для LLM-моделей: кто решает задачи по-настоящему
MathArena опубликовала итоги тестирования LLM на задачах Международной математической олимпиады (IMO 2025) — самых сложных школьных задач, которых модели точно не видели в обучении.
📌 Что важно:
• Каждая модель решает каждую задачу 4 раза
• Баллы усредняются, чтобы сгладить "рандомность"
• Результаты не зависят от конкретного API — единая система оценивания
• Учитывается стоимость выполнения (в долларах)
🎯 Цель бенчмарка — честно сравнить способность моделей к рассуждению и обобщению на новых задачах, а не на выученных паттернах.
Ждём графики — интересно, кто справился лучше: GPT-4, Claude, Gemini или Mistral?
Следим за апдейтами от MathArena.
matharena.ai
MathArena опубликовала итоги тестирования LLM на задачах Международной математической олимпиады (IMO 2025) — самых сложных школьных задач, которых модели точно не видели в обучении.
📌 Что важно:
• Каждая модель решает каждую задачу 4 раза
• Баллы усредняются, чтобы сгладить "рандомность"
• Результаты не зависят от конкретного API — единая система оценивания
• Учитывается стоимость выполнения (в долларах)
🎯 Цель бенчмарка — честно сравнить способность моделей к рассуждению и обобщению на новых задачах, а не на выученных паттернах.
Ждём графики — интересно, кто справился лучше: GPT-4, Claude, Gemini или Mistral?
Следим за апдейтами от MathArena.
matharena.ai
❤5👍4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🏅 OpenAI взяли золото на Международной математической олимпиаде 2025 — самое громкое AI-событие года!
И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.
📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.
Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
• AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане
Добро пожаловать в эру AI, который *действительно* понимает.
#OpenAI #MathOlympiad #AI #GPT #PostLabor
И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.
📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.
Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
• AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане
Добро пожаловать в эру AI, который *действительно* понимает.
#OpenAI #MathOlympiad #AI #GPT #PostLabor
❤15💩14🔥2🥰1🤡1
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы
Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥
🗓 Регистрация: https://cnrlink.com/ecup25datamath
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.
Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.
Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров
Регистрация на платформе Codenrock: https://cnrlink.com/ecup25datamath
Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥
Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.
Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
Регистрация на платформе Codenrock: https://cnrlink.com/ecup25datamath
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
🧠 Джон фон Нейман — математик, инженер, создатель теории игр и один из отцов современного компьютера.
Но его история началась ещё до школы:
— В 6 лет он бегло говорил на 8 языках, включая латинский и древнегреческий
— В уме делил восьмизначные числа
— В 8 лет освоил дифференциальное и интегральное исчисление
— В 15 поступил в Университет Будапешта
— В 19 стал инженером‑химиком
— В 22 — защитил PhD по математике в Берлине
Гений не только теоретический: он стал одним из архитекторов вычислительной эпохи.
Но его история началась ещё до школы:
— В 6 лет он бегло говорил на 8 языках, включая латинский и древнегреческий
— В уме делил восьмизначные числа
— В 8 лет освоил дифференциальное и интегральное исчисление
— В 15 поступил в Университет Будапешта
— В 19 стал инженером‑химиком
— В 22 — защитил PhD по математике в Берлине
Гений не только теоретический: он стал одним из архитекторов вычислительной эпохи.
❤27👍20🔥6🥰1
Forwarded from Machinelearning
OpenReasoning-Nemotron - набор LLM на архитектуре Qwen 2.5 и дистиллированных из DeepSeek-R1-0528 ( 671 млрд. параметров):
Семейство было обучено на 5 млн. примеров рассуждений в математике, естественных науках и программировании.
Модели показали достойные результаты pass@1 на бенчах GPQA, MMLU-PRO, AIME, HMMT и LiveCodeBench - без использования RL.
Старшая модель, 32B, выбила 96,7% по HMMT с декодированием GenSelect.
@ai_machinelearning_big_data
#AI #ML #LLM #Reasoning #Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2🥰1😁1
⚛️ Краткая история квантовой физики в одном посте✍️
1900 — Planck вводит квантовую гипотезу: энергия излучается дискретно.
1905 — Эйнштейн объясняет фотоэффект через "кванты света" (фотоны).
1924 — де Бройль: частицы могут вести себя как волны.
1925 — Гейзенберг формулирует матричную механику — первую версию КМ.
1926 — Шрёдингер создаёт уравнение волновой функции.
1927 — Принцип неопределённости: нельзя точно измерить и импульс, и координату.
1928 — Дирак объединяет квантовую механику и релятивизм, предсказывает антиматерию.
1935 — Парадокс ЭПР: квантовая механика вроде бы "неполна".
1947 — Фейнман, Швингер и Томонага создают Квантовую Электродинамику (QED).
1954 — Ян и Миллс вводят неабелевы калибровочные теории → фундамент QCD.
1961 — Глэшоу объединяет электромагнитное и слабое взаимодействие.
1964 — Белл формулирует теорему: запутанность нельзя объяснить скрытыми переменными.
1964 — Гелл-Манн и Цвейг предлагают кварковую модель.
1973 — Гросс, Вильчек и Полицер открывают "асимптотическую свободу" в QCD.
1979 — Нобелевка: Глэшоу, Салам и Вайнберг за объединение взаимодействий.
1982 — Ален Аспе экспериментально подтверждает квантовую запутанность.
🔬 От кванта энергии — к Стандартной модели. За 80 лет квантовая физика изменила всё.
1900 — Planck вводит квантовую гипотезу: энергия излучается дискретно.
1905 — Эйнштейн объясняет фотоэффект через "кванты света" (фотоны).
1924 — де Бройль: частицы могут вести себя как волны.
1925 — Гейзенберг формулирует матричную механику — первую версию КМ.
1926 — Шрёдингер создаёт уравнение волновой функции.
1927 — Принцип неопределённости: нельзя точно измерить и импульс, и координату.
1928 — Дирак объединяет квантовую механику и релятивизм, предсказывает антиматерию.
1935 — Парадокс ЭПР: квантовая механика вроде бы "неполна".
1947 — Фейнман, Швингер и Томонага создают Квантовую Электродинамику (QED).
1954 — Ян и Миллс вводят неабелевы калибровочные теории → фундамент QCD.
1961 — Глэшоу объединяет электромагнитное и слабое взаимодействие.
1964 — Белл формулирует теорему: запутанность нельзя объяснить скрытыми переменными.
1964 — Гелл-Манн и Цвейг предлагают кварковую модель.
1973 — Гросс, Вильчек и Полицер открывают "асимптотическую свободу" в QCD.
1979 — Нобелевка: Глэшоу, Салам и Вайнберг за объединение взаимодействий.
1982 — Ален Аспе экспериментально подтверждает квантовую запутанность.
🔬 От кванта энергии — к Стандартной модели. За 80 лет квантовая физика изменила всё.
👍13🥰4❤🔥3❤2👎1🔥1
Forwarded from Machinelearning
Hierarchical Reasoning Model, (HRM) - рекуррентная архитектура, которая черпает вдохновение в принципах работы человеческого мозга. В ее основе лежат 2 взаимозависимых рекуррентных модуля:
Эта структура дает модели достигать вычислительной глубины, необходимой для сложных рассуждений, при этом сохраняя стабильность и эффективность во время обучения, чего так не хватает стандартным трансформерам.
Процесс кардинально отличается от того, что происходит в обычных рекуррентных сетях, которые склонны к преждевременной сходимости, когда их скрытое состояние быстро стабилизируется, и дальнейшие вычисления практически прекращаются. В HRM все иначе:
Таким образом, вычислительный путь низкоуровневого модуля перезапускается, направляя его к новой точке локального равновесия. Механизм не дает системе застрять и позволяет ей последовательно выполнять множество различных, но взаимосвязанных этапов решения, выстраивая длинные логические цепочки.
Тестовая модель HRM с 27 млн. параметров, обученная всего на 1000 примерах без какого-либо претрейна или CoT-пар, показала неожиданно высокие результаты .
На задачах, требующих глубокого поиска и перебора вариантов ( Sudoku-Extreme ) и поиск оптимального пути ( Maze 30x30 ), HRM достигла почти идеальной точности, а вот CoT-методы полностью провалились с результатом 0%.
На бенчмарке ARC-AGI-1, HRM показывает точность в 40.3%. Для сравнения, o3-mini-high показала 34.5%, а Claude 3.7 с контекстом 8K - 21.2%.
@ai_machinelearning_big_data
#AI #ML #HRM #SapientInc
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥4👍1🥰1
🎯 ЗАДАЧА: Восстановление распределения из агрегатов
У вас есть CSV-файл, содержащий агрегированные данные по группам пользователей в виде:
| Группа | Среднее значение | Стандартное отклонение | Кол-во наблюдений |
|--------|------------------|-------------------------|--------------------|
| A | 50.0 | 10.0 | 100 |
| B | 60.0 | 15.0 | 80 |
| C | 55.0 | 12.0 | 120 |
Ваша задача: восстановить вероятностное распределение внутри каждой группы (на уровне отдельных наблюдений) и проверить гипотезу: *"Среднее значение в группе B статистически выше, чем в группе A, на уровне значимости 0.05."*
Условия:
- У вас нет сырых данных — только агрегаты.
- Вы должны сгенерировать выборки из нормального распределения на основе предоставленных параметров и выполнить статистический тест.
💡 Разбор:
1️⃣ Генерация синтетических данных:
2️⃣ Проверка гипотезы:
3️⃣ Вывод:
Если p_value < 0.05, гипотеза подтверждается: группа B значимо выше по среднему.
В противном случае — различие незначимо.
🧠 Подвох:
Вы не знаете, что данные на самом деле НЕ обязательно нормально распределены.
Также важно понимать, что при генерации данных по агрегатам вы делаете допущение, что выборки соответствуют нормальным законам — что может быть неверно.
📌 Дополнительный уровень:
Проведите 1000 симуляций и постройте распределение p-value, чтобы оценить устойчивость вывода при варьирующихся выборках.
🔍 Эта задача проверяет:
- знание статистики и генерации данных
- навыки формулировки гипотез
- понимание ограничений моделирования из агрегатов
- умение мыслить критически и ставить под сомнение исходные допущения
У вас есть CSV-файл, содержащий агрегированные данные по группам пользователей в виде:
| Группа | Среднее значение | Стандартное отклонение | Кол-во наблюдений |
|--------|------------------|-------------------------|--------------------|
| A | 50.0 | 10.0 | 100 |
| B | 60.0 | 15.0 | 80 |
| C | 55.0 | 12.0 | 120 |
Ваша задача: восстановить вероятностное распределение внутри каждой группы (на уровне отдельных наблюдений) и проверить гипотезу: *"Среднее значение в группе B статистически выше, чем в группе A, на уровне значимости 0.05."*
Условия:
- У вас нет сырых данных — только агрегаты.
- Вы должны сгенерировать выборки из нормального распределения на основе предоставленных параметров и выполнить статистический тест.
💡 Разбор:
1️⃣ Генерация синтетических данных:
import numpy as np
np.random.seed(42)
a = np.random.normal(loc=50, scale=10, size=100)
b = np.random.normal(loc=60, scale=15, size=80)
2️⃣ Проверка гипотезы:
from scipy.stats import ttest_ind
stat, p_value = ttest_ind(b, a, equal_var=False)
print(f"p-value = {p_value:.4f}")
3️⃣ Вывод:
Если p_value < 0.05, гипотеза подтверждается: группа B значимо выше по среднему.
В противном случае — различие незначимо.
🧠 Подвох:
Вы не знаете, что данные на самом деле НЕ обязательно нормально распределены.
Также важно понимать, что при генерации данных по агрегатам вы делаете допущение, что выборки соответствуют нормальным законам — что может быть неверно.
📌 Дополнительный уровень:
Проведите 1000 симуляций и постройте распределение p-value, чтобы оценить устойчивость вывода при варьирующихся выборках.
🔍 Эта задача проверяет:
- знание статистики и генерации данных
- навыки формулировки гипотез
- понимание ограничений моделирования из агрегатов
- умение мыслить критически и ставить под сомнение исходные допущения
🔥6❤5👍4
⚡️ Почему лучшие разработчики всегда на шаг впереди?
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Devops: t.iss.one/DevOPSitsec
Базы данных: t.iss.one/sqlhub
Мл собес t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
МЛ: t.iss.one/machinelearning_ru
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/java_library
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Физика: t.iss.one/fizmat
SQL: t.iss.one/databases_tg
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno
🖥 Chatgpt для кода в тг: @Chatgpturbobot -
📕Ит-книги: https://t.iss.one/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Devops: t.iss.one/DevOPSitsec
Базы данных: t.iss.one/sqlhub
Мл собес t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
МЛ: t.iss.one/machinelearning_ru
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/java_library
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Физика: t.iss.one/fizmat
SQL: t.iss.one/databases_tg
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno
📕Ит-книги: https://t.iss.one/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👎1
📐 Aryabhata 1.0* — интересный пример open-source подхода и model merging в действии.
Это небольшая языковая модель на 7B параметров, обученная для решения задач по математике. Её разработала индийская edtech-компания PhysicsWallah.
🧩 Как создавали модель:
1️⃣ *Model merging на старте*
Взяли три open-source модели:
— Qwen 2.5‑Math‑7B
— AceMath‑7B
— DeepSeek‑R1‑Distill‑Qwen‑7B
Объединили их веса (weighted average) и получили Aryabhata 0.5 — начальную модель без дополнительного обучения, просто усреднив параметры. Это заняло всего пару минут GPU-времени.
2️⃣ *Собрали датасет из задач по математике*
Взяли 250 000 заданий из своей базы JEE-экзаменов, очистили от лишнего, оставив ~130 000 актуальных заданий (2019–2024).
3️⃣ *Создание обучающих данных через CoT*
Aryabhata 0.5 решала каждую задачу, генерируя 4 цепочки рассуждений. Сохранили только те, что дали правильный ответ. Получилось 100 000 задач и 350 000 корректных reasoning-трейсов.
4️⃣ *Файнтюнинг (SFT)*
На этих парах дообучили модель, чтобы она писала решения в стиле студенческих ответов по стандарту экзаменов JEE.
💻 Обучение провели на связке из двух NVIDIA H100.
🧠 В результате получилась Aryabhata 1.0 — компактная, но точно заточенная под реальные экзаменационные задачи модель.
https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0
Это небольшая языковая модель на 7B параметров, обученная для решения задач по математике. Её разработала индийская edtech-компания PhysicsWallah.
🧩 Как создавали модель:
1️⃣ *Model merging на старте*
Взяли три open-source модели:
— Qwen 2.5‑Math‑7B
— AceMath‑7B
— DeepSeek‑R1‑Distill‑Qwen‑7B
Объединили их веса (weighted average) и получили Aryabhata 0.5 — начальную модель без дополнительного обучения, просто усреднив параметры. Это заняло всего пару минут GPU-времени.
2️⃣ *Собрали датасет из задач по математике*
Взяли 250 000 заданий из своей базы JEE-экзаменов, очистили от лишнего, оставив ~130 000 актуальных заданий (2019–2024).
3️⃣ *Создание обучающих данных через CoT*
Aryabhata 0.5 решала каждую задачу, генерируя 4 цепочки рассуждений. Сохранили только те, что дали правильный ответ. Получилось 100 000 задач и 350 000 корректных reasoning-трейсов.
4️⃣ *Файнтюнинг (SFT)*
На этих парах дообучили модель, чтобы она писала решения в стиле студенческих ответов по стандарту экзаменов JEE.
💻 Обучение провели на связке из двух NVIDIA H100.
🧠 В результате получилась Aryabhata 1.0 — компактная, но точно заточенная под реальные экзаменационные задачи модель.
https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0
👍5❤3🔥1