Forwarded from Machinelearning
🦙 Встречайте, дамы и господа, LLaMA 4: мультимодальные MoE модели!
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
У Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров, 16 экспертов, может быть запущена на 1ом GPU!
Llama 4 Maverick (400B) окно в 1M, 128 экспертов, 17B активных параметров.
У зверюги бегемота обещают окно в 2T!!! 16 экспертов, 288B активных параметров.
Сейчас выпущены только Scout и Maverick.
- Model Card
- Веса
- Релиз
@ai_machinelearning_big_data
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
У Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров, 16 экспертов, может быть запущена на 1ом GPU!
Llama 4 Maverick (400B) окно в 1M, 128 экспертов, 17B активных параметров.
У зверюги бегемота обещают окно в 2T!!! 16 экспертов, 288B активных параметров.
Сейчас выпущены только Scout и Maverick.
- Model Card
- Веса
- Релиз
@ai_machinelearning_big_data
⚡️ Implement minimal-GPT from scratch.
MinimalGPT — это небольшое учебное пособие (гайд), в котором демонстрируется «упрощённая» реализация архитектуры GPT. На странице раскрываются основные принципы работы модели и приводится минимально необходимый код для её запуска. Основная идея заключается в том, чтобы показать, как устроена GPT‑модель на базовом уровне, без избыточного усложнения и обилия вспомогательных библиотек.
Внутри гайда обычно можно найти:
▪ Описание основных слоёв GPT (внимание, Feed-Forward блоки и т.д.)
▪ Минимальные примеры кода (часто на Python с использованием PyTorch или аналогичных фреймворков)
▪ Краткие пояснения к каждому этапу (инициализация слоёв, механизм attention, обучение/инференс)
▪ Рекомендации по расширению и дальнейшему совершенствованию кода
Таким образом, MinimalGPT служит отправной точкой для понимания того, как работает GPT, и даёт возможность собрать простейшую версию модели своими руками.
🔗 Читать
@machinelearning_interview
MinimalGPT — это небольшое учебное пособие (гайд), в котором демонстрируется «упрощённая» реализация архитектуры GPT. На странице раскрываются основные принципы работы модели и приводится минимально необходимый код для её запуска. Основная идея заключается в том, чтобы показать, как устроена GPT‑модель на базовом уровне, без избыточного усложнения и обилия вспомогательных библиотек.
Внутри гайда обычно можно найти:
▪ Описание основных слоёв GPT (внимание, Feed-Forward блоки и т.д.)
▪ Минимальные примеры кода (часто на Python с использованием PyTorch или аналогичных фреймворков)
▪ Краткие пояснения к каждому этапу (инициализация слоёв, механизм attention, обучение/инференс)
▪ Рекомендации по расширению и дальнейшему совершенствованию кода
Таким образом, MinimalGPT служит отправной точкой для понимания того, как работает GPT, и даёт возможность собрать простейшую версию модели своими руками.
🔗 Читать
@machinelearning_interview
🔥 «Упражнения по машинному обучению»
В этой книге более 75 упражнений. И она абсолютно БЕСПЛАТНА.
🔗 Книга
🔗 GitHub
@machinelearning_interview
В этой книге более 75 упражнений. И она абсолютно БЕСПЛАТНА.
🔗 Книга
🔗 GitHub
@machinelearning_interview
Российская языковая модель A-Vibe от Авито возглавила рейтинг легких ИИ-решений (до 10 млрд параметров) в независимом бенчмарке MERA.
Разработка команды классифайда обошла признанных зарубежных конкурентов — GPT-4o mini от OpenAI, Gemma 3 27B от Google, Claude 3.5 Haiku от Anthropic и Mistral Large.
Модель демонстрирует впечатляющие результаты работы с русским языком. В тестах генерации кода A-Vibe показала результат на 25% лучше, чем Gemini 1.5. При ведении диалогов она оказалась на 32% точнее Llama 3.1. А в анализе смысла текста превзошла Claude 3.5 Haiku на 23%.
Технические возможности A-Vibe позволяют ей одновременно обрабатывать до 32 тысяч токенов контекста. Это дает модели серьезное преимущество при работе с объемными документами и поддержании длительных осмысленных диалогов. Уже сегодня технология активно используется в сервисах Авито, помогая продавцам создавать качественные описания товаров и ускоряя коммуникацию в мессенджере платформы.
«Первое место доказывает, что оптимизированная архитектура и качественные данные могут обеспечить отличные результаты даже при небольшом размере модели. A-Vibe создавалось оптимальной по соотношению между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет обеспечивать быструю обработку запросов даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию платформы», — отметил Андрей Рыбинцев, старший директор по данным и аналитике Авито.
До конца года Авито внедрит в свою нейросеть еще 20 сценариев, а в будущем может сделать ее общедоступной.
Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.
Разработка команды классифайда обошла признанных зарубежных конкурентов — GPT-4o mini от OpenAI, Gemma 3 27B от Google, Claude 3.5 Haiku от Anthropic и Mistral Large.
Модель демонстрирует впечатляющие результаты работы с русским языком. В тестах генерации кода A-Vibe показала результат на 25% лучше, чем Gemini 1.5. При ведении диалогов она оказалась на 32% точнее Llama 3.1. А в анализе смысла текста превзошла Claude 3.5 Haiku на 23%.
Технические возможности A-Vibe позволяют ей одновременно обрабатывать до 32 тысяч токенов контекста. Это дает модели серьезное преимущество при работе с объемными документами и поддержании длительных осмысленных диалогов. Уже сегодня технология активно используется в сервисах Авито, помогая продавцам создавать качественные описания товаров и ускоряя коммуникацию в мессенджере платформы.
«Первое место доказывает, что оптимизированная архитектура и качественные данные могут обеспечить отличные результаты даже при небольшом размере модели. A-Vibe создавалось оптимальной по соотношению между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет обеспечивать быструю обработку запросов даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию платформы», — отметил Андрей Рыбинцев, старший директор по данным и аналитике Авито.
До конца года Авито внедрит в свою нейросеть еще 20 сценариев, а в будущем может сделать ее общедоступной.
Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.
Forwarded from Machinelearning
📕 Андрей Карпаты опубликовал новый пост- необычный путь распространения LLM, их влияние на людей и организации, причины разрыва и взгляд в будущее.
В нем он анализирует необычное распространение больших языковых моделей (LLM).
Вот его содержание:
В отличие от традиционных технологий, которые обычно проходят путь от государственных и военных структур через корпорации к индивидуальным пользователям, LLM сразу стали широко доступны обычным людям.
Это позволило моделям значительно расширить свои возможности в таких областях, как программирование, анализ данных и создание контента, без необходимости привлекать узких специалистов.
ChatGPT — самое быстрорастущее приложение в истории, у него 400 миллионов активных пользователей в неделю.
Люди используют его для написания текстов, программирования, перевода, обучения, анализа, исследований и генерации идей
Это не просто улучшение жизни— это мощный бустер возможностей человека.
И барьер для входа использования LLM невероятно низкий: модели бесплатны или дешевы, быстры, доступны всем через API или локально, и говорят на любом языке, включая сленг и эмодзи.
Никогда еще человек не получал такого технологического скачка так быстро.
Почему же эффект для корпораций и государственных институтов не такой весомый?
Во-первых, LLM дают "
А вот для человека, который обычно эксперт лишь в одном, LLM открывают новые горизонты: программировать, разбираться в юриспруденции, анализировать данные или создавать контент — все это теперь возможно без посторонней помощи.
Во-вторых, организации решают более сложные задачи: интеграции, устаревшие системы, безопасность, регуляции, координация.
Ошибки LLM тут куда опаснее — "вайб кодить" не выйдет.
В-третьих, есть инерция: бюрократия, культура компаний, переобучение — все это тормозит внедрение.
Пока LLM радикально меняют жизнь людей, а не организаций.
Мэри, Джим и Джо получают больше, чем Google или правительство США. Но что дальше? Если топовые модели станут сильно дороже и лучше, крупные игроки смогут "купить интеллект", и элита снова уйдет в отрыв.
Сегодня Билл Гейтс использует тот же GPT-4o, что и вы, но завтра его ребенок может учиться у GPT-8-pro-max, а ваш — у GPT-6-mini.
Сейчас мы находимся в уникальном моменте: будущее уже здесь, и технологии удивительно равномерно распределены. Будущее тут, и оно доступно для всех. Власть людям!
🔗 Оригинал
@ai_machinelearning_big_data
#AndrejKarpathy #influencer
В нем он анализирует необычное распространение больших языковых моделей (LLM).
Вот его содержание:
В отличие от традиционных технологий, которые обычно проходят путь от государственных и военных структур через корпорации к индивидуальным пользователям, LLM сразу стали широко доступны обычным людям.
Это позволило моделям значительно расширить свои возможности в таких областях, как программирование, анализ данных и создание контента, без необходимости привлекать узких специалистов.
ChatGPT — самое быстрорастущее приложение в истории, у него 400 миллионов активных пользователей в неделю.
Люди используют его для написания текстов, программирования, перевода, обучения, анализа, исследований и генерации идей
Это не просто улучшение жизни— это мощный бустер возможностей человека.
И барьер для входа использования LLM невероятно низкий: модели бесплатны или дешевы, быстры, доступны всем через API или локально, и говорят на любом языке, включая сленг и эмодзи.
Никогда еще человек не получал такого технологического скачка так быстро.
Почему же эффект для корпораций и государственных институтов не такой весомый?
Во-первых, LLM дают "
квази-экспертные
" знания: широкие, но неглубокие и ненадежные. Для организаций, где уже есть эксперты (инженеры, юристы, аналитики), это лишь слегка повышает эффективность. А вот для человека, который обычно эксперт лишь в одном, LLM открывают новые горизонты: программировать, разбираться в юриспруденции, анализировать данные или создавать контент — все это теперь возможно без посторонней помощи.
Во-вторых, организации решают более сложные задачи: интеграции, устаревшие системы, безопасность, регуляции, координация.
Ошибки LLM тут куда опаснее — "вайб кодить" не выйдет.
В-третьих, есть инерция: бюрократия, культура компаний, переобучение — все это тормозит внедрение.
Пока LLM радикально меняют жизнь людей, а не организаций.
Мэри, Джим и Джо получают больше, чем Google или правительство США. Но что дальше? Если топовые модели станут сильно дороже и лучше, крупные игроки смогут "купить интеллект", и элита снова уйдет в отрыв.
Сегодня Билл Гейтс использует тот же GPT-4o, что и вы, но завтра его ребенок может учиться у GPT-8-pro-max, а ваш — у GPT-6-mini.
Сейчас мы находимся в уникальном моменте: будущее уже здесь, и технологии удивительно равномерно распределены. Будущее тут, и оно доступно для всех. Власть людям!
🔗 Оригинал
@ai_machinelearning_big_data
#AndrejKarpathy #influencer
🚀 Релиз от NVIDIA: Llama-Nemotron-Ultra 253B!
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Вышел мощный ИИ-ресерчер от AlphaXiv
С ним можно сделать всё: от контрольной до научной статьи в журнал.🔥
Нововведения:
🔎 ИСКАТЬ любые научные источники по любой теме
🧠 ПОНЯТНО объяснять даже самые сложные статьи — просто загрузи PDF и задавай вопросы
📚 СОВЕТОВАТЬ, что почитать дальше, выделять тренды и разбирать каждый источник по полочкам
💻 РАБОТАТЬ с кодом из статьи прямо в окне — правь, оптимизируй, получай объяснения
📝 ДЕЛАТЬ автоконспекты — чёткие и подробные
🚀 ПОСТОЯННО обновляется — фичи прилетают регулярно
А теперь самое главное:
🧬 Deep Research — встроенный ИИ-агент, который за 1 минуту создаёт системный обзор по любой научной теме. Статьи, выводы, тренды — всё на месте.
Гениального ассистента забираем отсюда 👉 https://www.alphaxiv.org/assistant
С ним можно сделать всё: от контрольной до научной статьи в журнал.🔥
Нововведения:
🔎 ИСКАТЬ любые научные источники по любой теме
🧠 ПОНЯТНО объяснять даже самые сложные статьи — просто загрузи PDF и задавай вопросы
📚 СОВЕТОВАТЬ, что почитать дальше, выделять тренды и разбирать каждый источник по полочкам
💻 РАБОТАТЬ с кодом из статьи прямо в окне — правь, оптимизируй, получай объяснения
📝 ДЕЛАТЬ автоконспекты — чёткие и подробные
🚀 ПОСТОЯННО обновляется — фичи прилетают регулярно
А теперь самое главное:
🧬 Deep Research — встроенный ИИ-агент, который за 1 минуту создаёт системный обзор по любой научной теме. Статьи, выводы, тренды — всё на месте.
Гениального ассистента забираем отсюда 👉 https://www.alphaxiv.org/assistant
🔥 Открыта регистрация на Летнюю школу машинного обучения Сколтеха.
SMILES-2025 — это 12-дневный интенсивный курс, посвященный генеративным методам в ИИ. Школа организована Сколтехом в сотрудничестве с Харбинским технологическим институтом в Китае. SMILES-2025 пройдет с 14 по 27 июля 2025 года.
Соорганизатор летней школы — HIT, генеральный партнер — Альфа-Банк, научный партнер — Институт AIRI.
👉 Участие бесплатное на основе конкурсного отбора. Подробности и подача заявки.
Реклама. СКОЛКОВСКИЙ ИНСТИТУТ НАУКИ И ТЕХНОЛОГИЙ, СКОЛТЕХ. ИНН 5032998454.
SMILES-2025 — это 12-дневный интенсивный курс, посвященный генеративным методам в ИИ. Школа организована Сколтехом в сотрудничестве с Харбинским технологическим институтом в Китае. SMILES-2025 пройдет с 14 по 27 июля 2025 года.
Соорганизатор летней школы — HIT, генеральный партнер — Альфа-Банк, научный партнер — Институт AIRI.
👉 Участие бесплатное на основе конкурсного отбора. Подробности и подача заявки.
Реклама. СКОЛКОВСКИЙ ИНСТИТУТ НАУКИ И ТЕХНОЛОГИЙ, СКОЛТЕХ. ИНН 5032998454.
⚡️ Flashbax - удобный ускоритель для reinforcement learning в JAX-экосистеме. Проект предлагает свежий взгляд на проблему с буферами воспроизведения, переосмысливая работу с данными.
Библиотека выделяется тем, что превращает буферы из пассивных хранилищ в интеллектуальные компоненты, которые можно встраивать в полностью скомпилированные JIT-функции. Удобно, что разработчики прописали оптимизированные версии для разных сценариев: от простых переходов (как в DQN) до сложных траекторий для R2D2, причём с поддержкой приоритетного семплирования.
🤖 GitHub
@machinelearning_interview
Библиотека выделяется тем, что превращает буферы из пассивных хранилищ в интеллектуальные компоненты, которые можно встраивать в полностью скомпилированные JIT-функции. Удобно, что разработчики прописали оптимизированные версии для разных сценариев: от простых переходов (как в DQN) до сложных траекторий для R2D2, причём с поддержкой приоритетного семплирования.
🤖 GitHub
@machinelearning_interview
📄 Scaling Laws for Native Multimodal Models
📌 Исследователи из Sorbonne и Apple проанализировали 457 мультимодальных моделей, чтобы понять, как масштабируются нативные мультимодальные архитектуры (NMM) — обученные с нуля, а не через “приклейку” vision-энкодеров к LLM.
🔍 Главное:
▪ Late-fusion (классика с vision encoder + LLM) ≠ обязательно лучше.
▪ Early-fusion модели, в которых всё учится совместно с нуля — обгоняют по качеству при меньшем количестве параметров, обучаются быстрее и проще в продакшене.
▪ Добавление Mixture of Experts (MoE) даёт прирост — модели учат модальность-специфичные веса, сохраняя ту же цену инференса.
▪ Scaling laws (законы масштабирования) у NMM — почти те же, что у LLM. Можно планировать бюджеты и рост моделей аналогично.
⚠️ Ограничения:
— Пока неясно, как точно это поведение переносится на downstream-задачи.
— Нужно больше экспериментов с разными пропорциями мультимодальных данных.
— Для early-fusion на высоких разрешениях нужны новые подходы к работе с токенами (контекст, пуллинг и т.д.).
📎 Вывод:
Early-fusion — не просто рабочий вариант, а оптимальный выбор для мультимодальных моделей при ограниченных ресурсах. Отказ от “склеек” делает обучение проще, быстрее и дешевле.
Читать
#ai #multimodal #scalinglaws #moe #llm #mlresearch #arxiv
📌 Исследователи из Sorbonne и Apple проанализировали 457 мультимодальных моделей, чтобы понять, как масштабируются нативные мультимодальные архитектуры (NMM) — обученные с нуля, а не через “приклейку” vision-энкодеров к LLM.
🔍 Главное:
▪ Late-fusion (классика с vision encoder + LLM) ≠ обязательно лучше.
▪ Early-fusion модели, в которых всё учится совместно с нуля — обгоняют по качеству при меньшем количестве параметров, обучаются быстрее и проще в продакшене.
▪ Добавление Mixture of Experts (MoE) даёт прирост — модели учат модальность-специфичные веса, сохраняя ту же цену инференса.
▪ Scaling laws (законы масштабирования) у NMM — почти те же, что у LLM. Можно планировать бюджеты и рост моделей аналогично.
⚠️ Ограничения:
— Пока неясно, как точно это поведение переносится на downstream-задачи.
— Нужно больше экспериментов с разными пропорциями мультимодальных данных.
— Для early-fusion на высоких разрешениях нужны новые подходы к работе с токенами (контекст, пуллинг и т.д.).
📎 Вывод:
Early-fusion — не просто рабочий вариант, а оптимальный выбор для мультимодальных моделей при ограниченных ресурсах. Отказ от “склеек” делает обучение проще, быстрее и дешевле.
Читать
#ai #multimodal #scalinglaws #moe #llm #mlresearch #arxiv