Forwarded from Machinelearning
GPT-OSS — долгожданysq опенсорс для продвинутого reasoning и агентных задач.
— GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
— GPT-OSS-20B — 21B параметров, работает на 16GB GPU (или даже локально!)
💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4), что обеспечивает быстрое и дешёвое инференс-время (активны только 3.6B и 5.1B параметров).
• Архитектура Token-choice MoE с SwiGLU
• Контекст до 128K токенов с RoPE
• Чередуются full-attn и sliding-window слои
• Модель хорошо работает с CoT (chain-of-thought)
• Поддержка instruction-following и tool-use
• Совместима с transformers, vLLM, llama.cpp, ollama
• Используется тот же токенизатор, что и в GPT-4o
• Открытая лицензия Apache 2.0 (есть небольшое policy-дополнение)
Младшая модель может запускаться даже на локальном железе — идеально для on-device и edge-сценариев.
📎 Пример кода инференса уже доступен — достаточно 16GB GPU с mxfp4!
https://github.com/huggingface/transformers/releases/tag/v4.55.0
@ai_machinelearning_big_data
#openai #opensource #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤6🔥5
🔥 Google представила новую игровую платформу для состязания искусственных интеллектов в стратегиях — начинается захватывающий чемпионат по шахматам между нейросетями! Сегодня стартовала онлайн-трансляция турнира, участие в котором принимают сразу восемь сильных претендентов, среди них модели o4-mini, Grok 4 и Claude Opus 4.
Каждый вечер зрителей ждут новые интригующие поединки, а финальный матч состоится уже 7 августа. Следите за ходом чемпионата и болейте за своего фаворита!
📌 Ссылка на стрим
@data_analysis_ml
Каждый вечер зрителей ждут новые интригующие поединки, а финальный матч состоится уже 7 августа. Следите за ходом чемпионата и болейте за своего фаворита!
📌 Ссылка на стрим
@data_analysis_ml
YouTube
Game Arena: Gemini 2.5 Pro vs Claude Opus 4 (Round 1) | Kaggle
Get ready for an epic AI chess showdown in the Kaggle Game Arena! This match is part of our inaugural 3-day exhibition tournament, where eight of the world’s most advanced language models compete to see which one reigns supreme.
Each model brings its own…
Each model brings its own…
❤9👍6🔥2
🔍 Как трансформеры меняют область NLP и что стоит за LLM?
На открытом уроке «Трансформеры как основа современного NLP» 12 августа в 18:00 МСК мы разберём, как архитектура трансформеров революционизирует обработку естественного языка. Вы познакомитесь с принципами работы трансформерных моделей и их применением в современных технологиях.
Это откроет вам доступ к самым актуальным методам NLP и поможет стать востребованным специалистом в Data Science.
🚀 Регистрируйтесь и получите скидку на курс «NLP / Natural Language Processing»: https://otus.pw/Jnvy/?erid=2W5zFK5eMyz
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
На открытом уроке «Трансформеры как основа современного NLP» 12 августа в 18:00 МСК мы разберём, как архитектура трансформеров революционизирует обработку естественного языка. Вы познакомитесь с принципами работы трансформерных моделей и их применением в современных технологиях.
Это откроет вам доступ к самым актуальным методам NLP и поможет стать востребованным специалистом в Data Science.
🚀 Регистрируйтесь и получите скидку на курс «NLP / Natural Language Processing»: https://otus.pw/Jnvy/?erid=2W5zFK5eMyz
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤3🔥3🤨1
🧠 Архитектурные фишки GPT-OSS: краткий разбор
gpt-oss — это MoE-трансформер в самом чистом виде. Минимум магии, максимум эффективности.
GPT-OSS использует передовые техники, собрав в себе лучшее из современных LLM:
1️⃣ Sliding Window Attention
📄 [arXiv:1901.02860](https://arxiv.org/abs/1901.02860)
Эффективное внимание для длинных контекстов без полной self-attention матрицы
2️⃣ Mixture of Experts (MoE)
📄 [arXiv:2101.03961](https://arxiv.org/abs/2101.03961)
Активация только части слоёв — масштаб + эффективность одновременно
3️⃣ RoPE + YaRN
📄 [arXiv:2309.00071](https://arxiv.org/abs/2309.00071)
Комбинация Rotary Embeddings с расширением контекста до 128K+
4️⃣ Attention Sinks
📄 [arXiv:2309.17453](https://arxiv.org/abs/2309.17453)
Стабильное стриминг-внимание для генерации в реальном времени
ПО итогу gpt-oss: - это максимально “стандартный” MoE-трансформер — и это неплохо
Модель собрана без лишних выкрутасов, но включает всё, что действительно работает. Вот несколько деталей:
🔹 Attention sinks (a.k.a. регистры) — помогают сохранить информацию между токенами
🔹 Sliding window attention — применяется через слой
🔹 YaRN — расширение контекста (до 128K)
🔹 RMSNorm без bias'ов
🔹 ❌ Нет QK normalization, ❌ нет attention softcap
⚙️ GPT-OSS — это не просто open-source альтернатива, а тщательно собранный набор проверенных инноваций для высокой скорости, длинного контекста и производительности на inference.
— GPT-OSS-120B
— GPT-OSS-20B
@data_analysis_ml
gpt-oss — это MoE-трансформер в самом чистом виде. Минимум магии, максимум эффективности.
GPT-OSS использует передовые техники, собрав в себе лучшее из современных LLM:
1️⃣ Sliding Window Attention
📄 [arXiv:1901.02860](https://arxiv.org/abs/1901.02860)
Эффективное внимание для длинных контекстов без полной self-attention матрицы
2️⃣ Mixture of Experts (MoE)
📄 [arXiv:2101.03961](https://arxiv.org/abs/2101.03961)
Активация только части слоёв — масштаб + эффективность одновременно
3️⃣ RoPE + YaRN
📄 [arXiv:2309.00071](https://arxiv.org/abs/2309.00071)
Комбинация Rotary Embeddings с расширением контекста до 128K+
4️⃣ Attention Sinks
📄 [arXiv:2309.17453](https://arxiv.org/abs/2309.17453)
Стабильное стриминг-внимание для генерации в реальном времени
ПО итогу gpt-oss: - это максимально “стандартный” MoE-трансформер — и это неплохо
Модель собрана без лишних выкрутасов, но включает всё, что действительно работает. Вот несколько деталей:
🔹 Attention sinks (a.k.a. регистры) — помогают сохранить информацию между токенами
🔹 Sliding window attention — применяется через слой
🔹 YaRN — расширение контекста (до 128K)
🔹 RMSNorm без bias'ов
🔹 ❌ Нет QK normalization, ❌ нет attention softcap
⚙️ GPT-OSS — это не просто open-source альтернатива, а тщательно собранный набор проверенных инноваций для высокой скорости, длинного контекста и производительности на inference.
— GPT-OSS-120B
— GPT-OSS-20B
@data_analysis_ml
🔥8❤4👍4
20 августа — последний день приёма статей по AI и последняя возможность получить приз 1 000 000 рублей! 🗓
Вы ещё успеваете войти в историю AI Journey 2025, представить свою работу по искусственному интеллекту и машинному обучению, получить признание и ценные призы:
✔️ публикацию в специальном выпуске журнала «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics
✔️ 1 000 000 рублей за лучшее исследование
Статья должна быть абсолютно оригинальна и написана на русском или английском языке.
Узнать о правилах и направить статью можно здесь – не упустите эту возможность!
Вы ещё успеваете войти в историю AI Journey 2025, представить свою работу по искусственному интеллекту и машинному обучению, получить признание и ценные призы:
✔️ публикацию в специальном выпуске журнала «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics
✔️ 1 000 000 рублей за лучшее исследование
Статья должна быть абсолютно оригинальна и написана на русском или английском языке.
Узнать о правилах и направить статью можно здесь – не упустите эту возможность!
❤4👍4
🎓 Как обучить LLM с логическим мышлением — за один уикенд и на одном GPU
NVIDIA выпустили новый туториал, где показывают, как за 48 часов обучить свою модель рассуждений — без суперкомпьютеров.
Что внутри:
⚙️ Используется NVIDIA NeMo — фреймворк для обучения LLM
📦 Обучение на специализированных задачах reasoning (аналог GSM8K)
💻 Достаточно одного GPU, чтобы получить маленькую, но умную LLM
Это отличный способ понять, как LLM "думают", и собрать свою reasoning‑модель для внутренних задач или исследований.
📹 Видео: https://youtu.be/hMGikmMFLAU
🧠 Блог: https://developer.nvidia.com/blog/train-a-reasoning-capable-llm-in-one-weekend-with-nvidia-nemo
NVIDIA выпустили новый туториал, где показывают, как за 48 часов обучить свою модель рассуждений — без суперкомпьютеров.
Что внутри:
⚙️ Используется NVIDIA NeMo — фреймворк для обучения LLM
📦 Обучение на специализированных задачах reasoning (аналог GSM8K)
💻 Достаточно одного GPU, чтобы получить маленькую, но умную LLM
Это отличный способ понять, как LLM "думают", и собрать свою reasoning‑модель для внутренних задач или исследований.
📹 Видео: https://youtu.be/hMGikmMFLAU
🧠 Блог: https://developer.nvidia.com/blog/train-a-reasoning-capable-llm-in-one-weekend-with-nvidia-nemo
👍6❤5🔥5
🎯 Записывает и транскрибирует всё, что вы слышите и говорите, сохраняет это на ваш сервер. Через мобильное/веб‑приложение вы общаетесь с ADeus уже в контексте — никаких сторонних облаков.
🔧 Состав:
• ACM‑металлическое устройство
• Мобильное/веб UI
• Supabase backend + LLM интеграция
💰 Стоимость ≈ 100 USD (DIY) за устройство и открытый код
⭐ Более 3 200 звёзд на GitHub, 19 контрибьюторов, активные фичи: Bluetooth, diarization, voice‑activity detection и UI‑улучшения.
📚 Подробнее:
• GitHub: https://github.com/adamcohenhillel/ADeus
• Документация: https://docs.adeus.ai/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2🔥2