Forwarded from Machinelearning
🦙 Встречайте, дамы и господа, LLaMA 4: новые мультимодальные MoE модели!
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров · 16 эксперто , 109B общих параметров.
Llama 4 Maverick (400B) 17 млрд активных параметров ,128 экспертов, 400 млрд общих параметров · Длина контекста более 1 млн
У зверюги бегемота (еще тренируется) суммарное количество 2T!!! 16 экспертов, 288B активных параметров. Служит в качестве модели для обучения по методу совместной дистилляции Maverick.
Сейчас выпущены только Scout и Maverick, Кот-бегемот еще обучается.
На сегодняшний день Llama 4 Maverick предлагает лучшее в своем классе соотношение производительности и стоимости,
🟡 Model Card
🟡 Веса
🟡 Релиз
@ai_machinelearning_big_data
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров · 16 эксперто , 109B общих параметров.
Llama 4 Maverick (400B) 17 млрд активных параметров ,128 экспертов, 400 млрд общих параметров · Длина контекста более 1 млн
У зверюги бегемота (еще тренируется) суммарное количество 2T!!! 16 экспертов, 288B активных параметров. Служит в качестве модели для обучения по методу совместной дистилляции Maverick.
Сейчас выпущены только Scout и Maverick, Кот-бегемот еще обучается.
На сегодняшний день Llama 4 Maverick предлагает лучшее в своем классе соотношение производительности и стоимости,
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤4👍4🤯1
Forwarded from Кибербез образование
Media is too big
VIEW IN TELEGRAM
Кто или что обладает интеллектом? Способен ли ИИ мыслить? Разбираемся с точки зрения философии (АГАсофии) 👨🏫
Эпиграфом к новой беседе с к.филос.н. Атамановым Г.А. я бы выбрал африканскую пословицу: "Чтобы вырастить ребенка, нужна деревня"✍️
Предварительно рекомендую посмотреть беседу о методологии 👩🎓
Таймкоды:
00:13 - Что такое АГАсофия?
03:26 - Ловушка нерелевантных аргументов вокруг ИИ
05:01 - Происхождение термина ИИ
06:21 - Структура методологии обсуждения вопроса
14:11 - Что такое ИИ? Что такое интеллект?
24:31 - Носитель интеллекта
01:06:35 - Подведение итогов беседы
👉 Запись также доступна в VK📺 RuTube 📺 и Яндекс.Музыке 🎵
Презентация по ссылке ⬅️
#подкаст #атаманов #ии
Эпиграфом к новой беседе с к.филос.н. Атамановым Г.А. я бы выбрал африканскую пословицу: "Чтобы вырастить ребенка, нужна деревня"
Предварительно рекомендую посмотреть беседу о методологии 👩🎓
Таймкоды:
00:13 - Что такое АГАсофия?
03:26 - Ловушка нерелевантных аргументов вокруг ИИ
05:01 - Происхождение термина ИИ
06:21 - Структура методологии обсуждения вопроса
14:11 - Что такое ИИ? Что такое интеллект?
24:31 - Носитель интеллекта
01:06:35 - Подведение итогов беседы
👉 Запись также доступна в VK
Презентация по ссылке ⬅️
#подкаст #атаманов #ии
Please open Telegram to view this post
VIEW IN TELEGRAM
👀1
Forwarded from Russian OSINT
Запрещённая в РФ Meta* представила две новые модели Llama 4, которые, по заявлению самой компании, опережают OpenAI и Google по целому ряду ключевых метрик.
🟢 Llama 4 Scout — компактная модель, рассчитанная на запуск всего на одном GPU Nvidia H100, при этом с контекстным окном 10 млн токенов. Meta утверждает, что Scout превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1 по результатам публичных бенчмарков.
🟡 Llama 4 Maverick — модель GPT-4o-класса, также превосходящая Gemini 2.0 Flash и GPT-4o, но при этом использующая менее половины активных параметров по сравнению с аналогами. В задачах программирования и логического вывода результаты сравнимы с DeepSeek-V3.
🔴 Llama 4 Behemoth (в разработке) — гигант на 2 трлн параметров (288 млрд активных). Meta утверждает, что Behemoth способен превзойти GPT-4.5 и Claude Sonnet 3.7 на STEM-бенчмарках.
🧠 Все модели построены по архитектуре MoE (Mixture of Experts).
🗓 Подробности обещают раскрыть на LlamaCon 29 апреля.
🤔Хотя Meta называет Llama 4 open-source, лицензия запрещает коммерческое использование компаниям с аудиторией свыше 700 млн MAU без отдельного разрешения.
🤨lmarena пишут, что Llama 4 Maverick заняла 2-е место в общем зачете. И якобы она №1 открытая модель, превосходящая DeepSeek. Как было сказано выше, у экспертного ИИ-сообщества есть вопросики к открытости.
Пользователи в комментариях очень неоднозначно отнеслись к benchmarks и результатам арены:
Я могу со 100% уверенностью сказать, что GPT 4.5 пишет лучше, чем Gemini 2.5. Забейте на бенчамарк, если он не соответствует реальности.
Каждый раз, когда я вижу этот чарт, а Claude в нем нет, это напоминает мне о том, насколько несерьезным является этот бенчмарк.
Первое впечатление от кодирования с помощью Maverick: не соответствует бенчмаркам; DeepSeek v3 значительно лучше.
модель 400b llama4... отстой
Такое ощущение, что эта модель обучалась на инфомусоре из Instagram, Messanger, Whatsapp.
Open source? 🤣
Те, кто пишет, что новые модели Llama 4 "рвут" ChatGPT и Gemini — не тестировали их от слова совсем. Maverick подвергается критике за слабую производительность в задачах кодирования. Отдельные пользователи сообщают о галлюцинациях и ошибках в задачах программирования.
Llama 4 (все модели) не просто плохи, а просто мусор, их контекстное окно в 10 миллионов токенов — не более чем маркетинговая ерунда, поскольку качество ответов снижается пропорционально длине предоставленного контекста.
— пишут в X.
Llama 4 Maverick набрала мизерные 16% в бенчмарке aider polyglot coding. Llama 4 находится на одном уровне с Qwen 2.5-Coder32B-Instruct. До Claude, Gemini, DeepSeek, GPT-4o, как до Китая раком.
По мнению отдельных конспирологов, топовые ИИ-компании в погоне за рейтингами платят "кому нужно", чтобы быть в топе lmarena, хотя пруфов не дают.
Глянуть можно на Hugging.
Модель недоступна в ЕС из-за регуляторных ограничений.
*Деятельность Meta (соцсети Facebook, Instagram, Threads) запрещена в России как 🏴☠️ экстремистская.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤4🤝3
Forwarded from Machine learning Interview
🚀 Релиз от NVIDIA: Llama-Nemotron-Ultra 253B!
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
👍7🔥7❤3
Forwarded from Machinelearning
Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.
По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.
Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.
Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.
Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.
Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.
Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥2
New code reasoning LLM fine-tuned from DeepSeek-R1-Distill-Qwen-14B using distributed RL with GRPO+ and iterative context lengthening. Trained on ~24K coding problems (TACO-Verified, PrimeIntellect SYNTHETIC-1, LCB v5), it improves Pass@1 on LiveCodeBench v5 to 60.6%, +7.6% over base and on par with OpenAI o3-mini.
- GRPO+: removes KL/entropy loss for stability; adds offline difficulty filtering, DAPO-inspired loss masking, and reward clipping.
- Iterative context scaling: 16K→32K→64K generalization with improved long-context reasoning.
Eval: Strong results on LiveCodeBench, Codeforces, HumanEval+
Open weights
https://huggingface.co/agentica-org/DeepCoder-14B-Preview
@opendatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1
Forwarded from База знаний AI
В Китае применили квантовый компьютер для точной настройки ИИ
Китайские ученые сообщили о том, что первыми в мире использовали квантовый компьютер для точной настройки искусственного интеллекта — большой языковой модели с 1 млрд параметров. Для этого был использован компьютер Wukong китайской компании Origin, основанный на 72 кубитах.
По словам специалистов, система Origin Wukong на 8,4% улучшила результаты обучения ИИ при одновременном сокращении количества параметров на 76%. В частности, ученые продемонстрировали преимущества точной настройки большой языковой модели с помощью квантовой системы в задаче для диагностики психических заболеваний, где число ошибок было снижено на 15%, а также при решении математических задач, где точность выросла с 68% до 82%.
«Это первый случай, когда настоящий квантовый компьютер был использован для точной настройки большой языковой модели в практических условиях. Это демонстрирует, что современное квантовое оборудование может начать поддерживать задачи обучения ИИ в реальном мире», — сказал Чэнь Чжаоюнь (Chen Zhaoyun), исследователь из Института искусственного интеллекта при Национальном научном центре в Хэфэе.
🔗 Источник 1: https://www.scmp.com/news/china/science/article/3305761/first-encounter-chinese-ai-meets-quantum-power-and-gets-smarter-faster
🔗 Источник 2: https://3dnews.ru/1120995/v-kitae-kvantoviy-kompyuter-vpervie-primenili-dlya-tochnoy-nastroyki-ii
Китайские ученые сообщили о том, что первыми в мире использовали квантовый компьютер для точной настройки искусственного интеллекта — большой языковой модели с 1 млрд параметров. Для этого был использован компьютер Wukong китайской компании Origin, основанный на 72 кубитах.
По словам специалистов, система Origin Wukong на 8,4% улучшила результаты обучения ИИ при одновременном сокращении количества параметров на 76%. В частности, ученые продемонстрировали преимущества точной настройки большой языковой модели с помощью квантовой системы в задаче для диагностики психических заболеваний, где число ошибок было снижено на 15%, а также при решении математических задач, где точность выросла с 68% до 82%.
«Это первый случай, когда настоящий квантовый компьютер был использован для точной настройки большой языковой модели в практических условиях. Это демонстрирует, что современное квантовое оборудование может начать поддерживать задачи обучения ИИ в реальном мире», — сказал Чэнь Чжаоюнь (Chen Zhaoyun), исследователь из Института искусственного интеллекта при Национальном научном центре в Хэфэе.
🔗 Источник 1: https://www.scmp.com/news/china/science/article/3305761/first-encounter-chinese-ai-meets-quantum-power-and-gets-smarter-faster
🔗 Источник 2: https://3dnews.ru/1120995/v-kitae-kvantoviy-kompyuter-vpervie-primenili-dlya-tochnoy-nastroyki-ii
🔥25😁3
Forwarded from Machinelearning
Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.
Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.
Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.
Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.
Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.
В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.
Модели доступны на Hugging Face в двух вариантах:
@ai_machinelearning_big_data
#AI #ML #VLM #KimiAI #MoonShotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥3❤1
Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬
Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.
Что будем делать на вебинаре:
Вебинар будет интересен как новичкам, так и уже опытным специалистам
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
Forwarded from Искусственный интеллект. Высокие технологии
Обычно в генерации видео модели обрабатывают весь ролик "размазанным" шумом — как бы в целом.
А тут модель управляет шумом отдельно для каждого кадра, и делает это с помощью векторизованных "timesteps" (временных шагов) — более гибко, точно и эффективно.
Новая модель генерации видео на базе Mochi1-Preview и поддерживает:
🔹 Text-to-Video
🔹 Image-to-Video
🔹 Frame Interpolation
🔹 Video Transitions
🔹 Looping, удлинение видео и многое другое
⚡ Эффективность:
▪ 16× H800 GPU
▪ 0.1k GPU-часов
▪ Обучение: 500 итераций, batch size 32
▪ По заявления разработчиков - стоимость обучения всего 100$ 🤯
▪Github
▪Paper
▪Dataset
▪Model
#diffusion #videogen #pusa #opensource #AI #text2video #mochi1 #fvdm
@vistehno
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2🥰2
Forwarded from НГУ|NSU
В НГУ пройдёт тринадцатая конференция «Artificial Intelligence and Natural Language» (AINL)
18-19 апреля 2025 года состоится тринадцатая конференция «Artificial Intelligence and Natural Language» (AINL) — крупнейшая восточноевропейская конференция по искусственному интеллекту и обработке текстов.
Мероприятия пройдут в старом корпусе НГУ, в аудитории 311 им. Академика А.И. Мальцева. На конференции выступят приглашенные спикеры: доктор наук, профессор Наталья Валентиновна Лукашевич из МГУ, а также управляющий директор SberDevices Сергей Марков.
Конференция AINL проводится с 2012 года, её материалы индексируются в SCOPUS. Цель конференции — объединить экспертов в области искусственного интеллекта и обработки естественного языка; создать платформу для обмена опытом, расширения контактов и поиска возможного сотрудничества. Конференция сочетает в себе черты промышленной выставки и научной конференции. В 2019 году она прошла в Тарту, Эстония, в 2023 году в Ереване, Армения, а в 2024 году — в Алматы, Казахстан.
Темы конференции:
- Обработка естественного языка
- Искусственный интеллект, глубокое обучение, машинное обучение для обработки естественного языка
- Информационный поиск
- Анализ социальных медиа и социальных сетей
- Генерация и распознавание речи, обработка устного языка
- Интерфейсы человек-компьютер, диалоговые системы
- Контекстный анализ, извлечение информации из текста
- Обнаружение плагиата, профилирование автора и определение авторства
- Машинный перевод, межъязыковые и многоязычные приложения
- Большие данные и анализ данных
Сотрудники Исследовательского центра в сфере искусственного интеллекта НГУ примут участие в предстоящей конференции. Центр существует с 2023 года. Главная цель работы Центра — разработать и подготовить к внедрению набор технологий «умного города» с использованием искусственного интеллекта, которые повысили бы качество жизни граждан и эффективность работы городского хозяйства.
Мероприятие проходит при поддержке компаний Сибирские Нейросети и MTS AI.
@nsuniversity
18-19 апреля 2025 года состоится тринадцатая конференция «Artificial Intelligence and Natural Language» (AINL) — крупнейшая восточноевропейская конференция по искусственному интеллекту и обработке текстов.
Мероприятия пройдут в старом корпусе НГУ, в аудитории 311 им. Академика А.И. Мальцева. На конференции выступят приглашенные спикеры: доктор наук, профессор Наталья Валентиновна Лукашевич из МГУ, а также управляющий директор SberDevices Сергей Марков.
Конференция AINL проводится с 2012 года, её материалы индексируются в SCOPUS. Цель конференции — объединить экспертов в области искусственного интеллекта и обработки естественного языка; создать платформу для обмена опытом, расширения контактов и поиска возможного сотрудничества. Конференция сочетает в себе черты промышленной выставки и научной конференции. В 2019 году она прошла в Тарту, Эстония, в 2023 году в Ереване, Армения, а в 2024 году — в Алматы, Казахстан.
Темы конференции:
- Обработка естественного языка
- Искусственный интеллект, глубокое обучение, машинное обучение для обработки естественного языка
- Информационный поиск
- Анализ социальных медиа и социальных сетей
- Генерация и распознавание речи, обработка устного языка
- Интерфейсы человек-компьютер, диалоговые системы
- Контекстный анализ, извлечение информации из текста
- Обнаружение плагиата, профилирование автора и определение авторства
- Машинный перевод, межъязыковые и многоязычные приложения
- Большие данные и анализ данных
— Конференция AINL'2025 будет включать работы в трех основных направлениях: доклады по технологиям и прикладным исследованиям, обзоры готовых приложений и продуктов, связанных с ИИ и NLP, демонстрации работающих прототипов или приложений. В этом году в рамках AINL проходило соревнование по детектированию сгенерированных текстов, узнать его результаты и выводы, которые сделали организаторы соревнования по его итогам можно будет в рамках специальной сессии, — отметила директор конференции Ольга Пивень.
Сотрудники Исследовательского центра в сфере искусственного интеллекта НГУ примут участие в предстоящей конференции. Центр существует с 2023 года. Главная цель работы Центра — разработать и подготовить к внедрению набор технологий «умного города» с использованием искусственного интеллекта, которые повысили бы качество жизни граждан и эффективность работы городского хозяйства.
Мероприятие проходит при поддержке компаний Сибирские Нейросети и MTS AI.
@nsuniversity
👍1
Forwarded from Rust
✨ Machine Learning na Rust ✨
🔍 Ключевое из статьи The Beginner’s Guide to Machine Learning with Rust:
▪ Rust — безопасный и быстрый: Исключает критические ошибки, дает скорость C/C++
▪ ndarray — аналог NumPy
▪ tch-rs — обертка над PyTorch
▪ linfa — алгоритмы МЛ на Rust
▪ Cargo — для управления проектами
📝 Rust еще рано заменять Python, но уже есть что пощупать 🚀
🔍 Ключевое из статьи The Beginner’s Guide to Machine Learning with Rust:
▪ Rust — безопасный и быстрый: Исключает критические ошибки, дает скорость C/C++
▪ ndarray — аналог NumPy
▪ tch-rs — обертка над PyTorch
▪ linfa — алгоритмы МЛ на Rust
▪ Cargo — для управления проектами
📝 Rust еще рано заменять Python, но уже есть что пощупать 🚀
👍8🔥3❤1
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров
Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.
Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями
🔍 Технологические инновации:
Стабильность обучения
• DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
• TinyInit – революционный метод инициализации параметров
Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация
⚡ Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU
Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования
📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.
Технический отчет
#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели
🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров
Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.
Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями
🔍 Технологические инновации:
Стабильность обучения
• DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
• TinyInit – революционный метод инициализации параметров
Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация
⚡ Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU
Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования
📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.
Технический отчет
#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели
GitHub
pangu-ultra/pangu-ultra-report.pdf at main · pangu-tech/pangu-ultra
Contribute to pangu-tech/pangu-ultra development by creating an account on GitHub.
🔥8
Come join us this Friday, 18:00 18.04 if you are around Dubai
We are coming together to listen to:
Nik Manolov – CEO of NV Protocol (ENVY), Co-founder and CTO of XOR.ai
🎯Topic: "AI Agents in DeFi & Web3 Trading"
Nikolai will present how automated AI trading agents are reshaping the future of DeFi and Web3. Discover how these agents operate 24/7, adapt trading strategies based on market indicators, and deliver seamless, bias-free trading solutions for both newcomers and experienced investors. Gain insights into the potential of AI-driven financial tools to revolutionize liquidity, asset management, and market efficiency.
🗣Speaker 2:
Boris Chernetsov – Product Manager for AI and Software Development, XPANCEO
🎯Topic: "Integrating LLM Tools in Deep-Tech R&D"
Boris will offer an inside look at how XPANCEO, a deep-tech company developing smart contact lenses, harnesses AI—particularly large language models—to accelerate research and development. He’ll share practical examples of AI’s role in streamlining scientific workflows and innovation pipelines, highlighting the next frontier in merging wearable technologies with advanced AI.
Offline: Limited seating available. Register early to reserve your spot at Daos Hub Dubai
Online: A livestream link will be provided upon registration for those who wish to attend virtually.
Link: https://lu.ma/ODS.aiCommunityMeetup
We are coming together to listen to:
Nik Manolov – CEO of NV Protocol (ENVY), Co-founder and CTO of XOR.ai
🎯Topic: "AI Agents in DeFi & Web3 Trading"
Nikolai will present how automated AI trading agents are reshaping the future of DeFi and Web3. Discover how these agents operate 24/7, adapt trading strategies based on market indicators, and deliver seamless, bias-free trading solutions for both newcomers and experienced investors. Gain insights into the potential of AI-driven financial tools to revolutionize liquidity, asset management, and market efficiency.
🗣Speaker 2:
Boris Chernetsov – Product Manager for AI and Software Development, XPANCEO
🎯Topic: "Integrating LLM Tools in Deep-Tech R&D"
Boris will offer an inside look at how XPANCEO, a deep-tech company developing smart contact lenses, harnesses AI—particularly large language models—to accelerate research and development. He’ll share practical examples of AI’s role in streamlining scientific workflows and innovation pipelines, highlighting the next frontier in merging wearable technologies with advanced AI.
Offline: Limited seating available. Register early to reserve your spot at Daos Hub Dubai
Online: A livestream link will be provided upon registration for those who wish to attend virtually.
Link: https://lu.ma/ODS.aiCommunityMeetup
🔥3❤2