Generative AI
2.43K subscribers
156 photos
44 videos
4 files
147 links
@haarrp - по всем вопросам
Download Telegram
Forwarded from Machinelearning
🚀 Релиз: Qwen3-Next-80B-A3B - эффективная модель заточенная на работа работу с очень длинным контекстом!

🔹 80B параметров, но активируется только 3B на токен → тренировка и инференс 10x дешевле и быстрее, чем у Qwen3-32B (особенно при 32K+ контексте).
🔹 Гибридная архитектура: Gated DeltaNet + Gated Attention → сочетает скорость и точность.
🔹 Ultra-sparse MoE: 512 экспертов, маршрутизируется 10 + 1 общий.
🔹 Multi-Token Prediction → ускоренное speculative decoding.
🔹 По производительности обходит Qwen3-32B и приближается к Qwen3-235B в рассуждениях и long-context задачах.

🟢Qwen3-Next-80B-A3B-Instruct показатели почти на уровне 235B flagship.
🟢 Qwen3-Next-80B-A3B-Thinking превосходит Gemini-2.5-Flash-Thinking.

Попробовать: https://chat.qwen.ai
Анонс: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
HuggingFace: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a
Kaggle: https://kaggle.com/models/qwen-lm/qwen3-next-80b
Alibaba Cloud API: https://alibabacloud.com/help/en/model-studio/models#c5414da58bjgj

@ai_machinelearning_big_data

#AI #LLM #Qwen #DeepLearning #MoE #EfficientModels #LongContext #Reasonin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
📈 Гайд по продвинутым вопросам для разработчика LLM

Собеседования на позицию разработчика больших языковых моделей (LLM) в топовых AI-компаниях предъявляют высокие требования к знаниям.

Кандидату необходимо понимать устройство архитектуры трансформеров, владеть методами эффективного обучения и инференса, разбираться в оптимизациях памяти и скорости (таких как LoRA, FlashAttention, vLLM, ZeRO), знать тонкости распределённого тренинга, принципов LLMOps (MLOps для больших моделей) и нюансов продакшн-развертывания LLM.

Также часто проверяют умение решать реальные задачи: от проектирования пайплайна для Sparse MoE до анализа проблем с памятью на GPU, понимания различий между методами обучения с подкреплением (RLHF vs DPO) и способов масштабирования моделей.

Этот гайд структурирован по ключевым темам, соответствующим областям знаний, которые обычно проверяются на собеседованиях. Для каждой темы мы рассмотрим, что пытаются проверить интервьюеры, приведём пример формулировки вопроса и дадим подробный разбор ответа с обсуждением трэйд-оффов, примеров кода или схем, где это уместно. Вы можете изучать материал по разделам, чтобы сфокусироваться на интересующей области.

👉 Гайд
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
✔️ Математика в машинном обучении» - бесплатный курс, который предназначен для тех, кто хочет углубить свои знания в области математики, необходимой для понимания и применения методов машинного обучения и искусственного интеллекта.

Этот курс охватывает ключевые математические концепции, лежащие в основе современных алгоритмов машинного обучения, таких как линейная алгебра, теория вероятностей, статистика и оптимизация.

Курс
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
ByteDance представила FaceCLIP - новую модель для генерации изображений с сохранением личности

Модель FaceCLIP обучается представлять лицо (Identity) и текстовое описание в едином векторном пространстве, что позволяет создавать изображения, где сохраняется похожесть субъекта и при этом учитывать желаемую стилистику или указания из текста. :contentReference[oaicite:0]{index=0}

Авторы отказались от подходов с адаптерами и предложили унифицированную мультимодальную стратегию кодирования: лицо + текст → общее представление, которое направляет генеративную модель (UNet / DiT) при синтезе.

Преимущества FaceCLIP:
- лучшие результаты в сохранении идентичности на портретах
- более точное соответствие текстовым инструкциям
- высокая реалистичность по сравнению с предыдущими методами
Модель доступна под лицензией MIT / некоммерческое исследовательское использование — с предупреждением об ответственном использовании. :contentReference[oaicite:4]{index=4}

📄 HF: https://huggingface.co/ByteDance/FaceCLIP
1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 ИИ генерации стали так реалистичны, что сами отказываются верить, что они сгенерированы.
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Художник представил анимацию, посвящённую эволюции глубокого обучения.

Работа под названием “Evolution of Deep Learning by Hand” визуально показывает, как развивались ключевые идеи, сформировавшие современный мир нейросетей.
Автор вручную изобразил путь от первых искусственных нейронов до сложных архитектур, чтобы почтить вклад Хинтона — одного из основателей глубокого обучения и лауреата Нобелевской премии.
Please open Telegram to view this post
VIEW IN TELEGRAM
2
🤖Всё об ИИ и нейросетях — в одном месте

Хочешь разбираться в искусственном интеллекте, автоматизации и IT-новинках? 💻

Мы собрали лучшие каналынейросети, ИИ-инструменты, автоматизация, гайды, новости технологий и обучение.
⚡️ Прокачай навыки, оптимизируй работу и создай свой цифровой доход!

👉 Открыть подборку каналов (ссылка будет активна 48 часов)
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Thinking Machines представила - On-Policy Distillation

Исследователи из Thinking Machines Lab предложили метод, который может изменить то, как обучаются языковые модели. Он называется on-policy distillation - и учит ИИ не просто копировать, а думать и анализировать свои ошибки.

Обычно «дистилляция» работает просто: большая модель-учитель показывает ответы, а маленькая модель-ученик запоминает их. Это похоже на заучивание по шпаргалке - быстро, но без понимания сути.

В новом подходе всё иначе. Ученик сам решает задачи, а учитель оценивает и направляет - объясняет, где логика сбоит и как улучшить рассуждение. Таким образом, меньшая модель перенимает не только знания, но и способ мышления более крупной модели.

Что показали результаты

Эксперименты проводились на задачах математического и логического рассуждения, где важно не просто выдать правильный ответ, а выстроить цепочку шагов.

Результаты впечатляют:

Модель-ученик после обучения с on-policy distillation показала почти ту же точность, что и гораздо более крупная модель-учитель.

При этом вычислительные затраты снизились в несколько раз, делая модель заметно эффективнее и дешевле.

Кроме того, ученик стал лучше понимать собственные ошибки, что повысило устойчивость и надёжность при решении новых, незнакомых задач.

Почему это важно
On-policy distillation решает ключевую проблему традиционных методов - отсутствие адаптивности.
Модель теперь учится на собственных шагах, как человек, — экспериментирует, ошибается, корректирует поведение и растёт.

Уникальность подхода - в балансе между качеством RL и экономичностью KD. Это реальная схема, где маленькая модель учится “в поле” (реагируя на собственные действия), но без дорогих RL-запусков и сложных reward-моделей.

Это не новый метод обучения, а новая инженерная формула, которая позволяет дешевле «учить» компактные модели, ведущие себя как большие.

Это открывает путь к созданию компактных LLM нового поколения, которые рассуждают почти как топовые модели, но стоят в разы дешевле.

Такие модели можно запускать на edge-устройствах, в автономных агентах и локальных сервисах, где важны скорость, приватность и энергоэффективность.

🟠 Подробнее: thinkingmachines.ai/blog/on-policy-distillation/

@ai_machinelearning_big_data


#ThinkingMachines #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🙏1