Forwarded from Machinelearning
Опубликован tech report по Qwen3-VL - мультимодальным моделям, работающим с изображениями и текстом.
Кратко :
- Три модели собрали 1M+ загрузок за месяц.
- Qwen3-VL-8B - более 2M скачиваний.
- Линейка развивает идеи Qwen2.5-VL (2800+ цитирований).
Что описано в отчёте:
- Архитектура vision–language модели.
- Процесс обучения: pretraining + post-training.
- Источники данных и методы фильтрации.
- Сравнения с другими VLM и ключевые метрики.
🔗 PDF: https://arxiv.org/pdf/2511.21631
🔗 Видео: https://www.youtube.com/watch?v=clwFmuJX_wQ
@ai_machinelearning_big_data
#Qwen #Qwen3 #QwenVL #Qwen3VL #LLM #AIModel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👌3⚡2👍1
Forwarded from 🟡NeuroGraph
Благодаря Nano Banana Pro можно читать лучшие книги, которые не переведены на русский.
Прямо сейчас читаю книгу Мастера – Роджера Дикинса «Reflections».
Переводит даже ручные заметки.
Прямо сейчас читаю книгу Мастера – Роджера Дикинса «Reflections».
Переводит даже ручные заметки.
🔥14⚡2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
На просторах интернета нашел вот такой вау кейс сочетания Ии моделей 😍😍😍
Попробуем повторить ⚡️⚡️⚡️
На просторах интернета нашел вот такой вау кейс сочетания Ии моделей 😍😍😍
Попробуем повторить ⚡️⚡️⚡️
👍9❤3🤗2
Media is too big
VIEW IN TELEGRAM
#unrealneural
Игровой движок на базе ИИ, способный за считанные минуты сгенерировать локацию для 3д шутера 💫
Игровой движок на базе ИИ, способный за считанные минуты сгенерировать локацию для 3д шутера 💫
👍5🔥2⚡1
#unrealneural
Ваши мысли буквально формируют ваш мозг
Когда вы концентрируетесь на хорошем, ваш мозг начинает перестраиваться, чтобы замечать ещё больше хорошего. Это не просто мотивация - это нейропластичность в действии. ✨✨✨Нейропластичность - это способность мозга реорганизовываться и создавать новые нейронные связи на основе ваших постоянных мыслей, чувств и внимания.
Ваши мысли буквально формируют ваш мозг
Когда вы концентрируетесь на хорошем, ваш мозг начинает перестраиваться, чтобы замечать ещё больше хорошего. Это не просто мотивация - это нейропластичность в действии. ✨✨✨Нейропластичность - это способность мозга реорганизовываться и создавать новые нейронные связи на основе ваших постоянных мыслей, чувств и внимания.
👍5⚡1
Forwarded from gonzo-обзоры ML статей
Последняя из работ-финалистов NeurIPS 2025, про геометрию репрезентаций и механистическое объяснение законов скейлинга. Работа прекрасна!
Superposition Yields Robust Neural Scaling
Yizhou Liu, Ziming Liu, and Jeff Gore
Статья: https://arxiv.org/abs/2505.10465, https://openreview.net/forum?id=knPz7gtjPW
Код: https://github.com/liuyz0/SuperpositionScaling
Ревью: https://arxiviq.substack.com/p/neurips-2025-superposition-yields
# TL;DR
ЧТО сделали: Предложили механистическое объяснение законов масштабирования (scaling laws), связав их с суперпозицией репрезентаций. Адаптировав фреймворк разреженных автоэнкодеров и проверив теорию на открытых LLM (OPT, Pythia, Qwen), авторы показали: когда модели работают в режиме «сильной суперпозиции» (кодируют значительно больше фичей, чем имеют измерений), лосс масштабируется обратно пропорционально ширине модели (
ПОЧЕМУ это важно: Работа — Best Paper Runner-Up на NeurIPS 2025. Она дает вывод законов скейлинга «из первых принципов», устойчивый к распределению данных. В отличие от предыдущих теорий, опирающихся на аппроксимацию многообразия, здесь утверждается, что степенной закон поведения LLM — это геометрическая неизбежность сжатия разреженных концептов в плотные пространства. Это означает, что для преодоления барьеров масштабирования нужны архитектурные вмешательства для управления интерференцией признаков — простое добавление данных не поможет обойти это геометрическое бутылочное горлышко.
Подробнее: https://t.iss.one/gonzo_ML_podcasts/1531
Superposition Yields Robust Neural Scaling
Yizhou Liu, Ziming Liu, and Jeff Gore
Статья: https://arxiv.org/abs/2505.10465, https://openreview.net/forum?id=knPz7gtjPW
Код: https://github.com/liuyz0/SuperpositionScaling
Ревью: https://arxiviq.substack.com/p/neurips-2025-superposition-yields
# TL;DR
ЧТО сделали: Предложили механистическое объяснение законов масштабирования (scaling laws), связав их с суперпозицией репрезентаций. Адаптировав фреймворк разреженных автоэнкодеров и проверив теорию на открытых LLM (OPT, Pythia, Qwen), авторы показали: когда модели работают в режиме «сильной суперпозиции» (кодируют значительно больше фичей, чем имеют измерений), лосс масштабируется обратно пропорционально ширине модели (
L ∝ 1/m). Этот скейлинг обусловлен геометрической интерференцией между векторами признаков, а не статистическими свойствами хвоста распределения данных.ПОЧЕМУ это важно: Работа — Best Paper Runner-Up на NeurIPS 2025. Она дает вывод законов скейлинга «из первых принципов», устойчивый к распределению данных. В отличие от предыдущих теорий, опирающихся на аппроксимацию многообразия, здесь утверждается, что степенной закон поведения LLM — это геометрическая неизбежность сжатия разреженных концептов в плотные пространства. Это означает, что для преодоления барьеров масштабирования нужны архитектурные вмешательства для управления интерференцией признаков — простое добавление данных не поможет обойти это геометрическое бутылочное горлышко.
Подробнее: https://t.iss.one/gonzo_ML_podcasts/1531
arXiv.org
Superposition Yields Robust Neural Scaling
The success of today's large language models (LLMs) depends on the observation that larger models perform better. However, the origin of this neural scaling law, that loss decreases as a power law...
👍5⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Главный действующий элемент здесь - нейрон, вероятно, ищущий связь (связи). Другие клетки справа, вероятно, представляют собой активно делящиеся и мигрирующие фибробласты.
Главный действующий элемент здесь - нейрон, вероятно, ищущий связь (связи). Другие клетки справа, вероятно, представляют собой активно делящиеся и мигрирующие фибробласты.
👍7❤1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
ViBT: первый bridge transformer Vision с параметрами 20B
Этот новаторский фреймворк является пионером в области преобразования данных, напрямую моделируя траектории для генерации условных изображений и видео. Он невероятно эффективен, работает до 4 раз быстрее и с лёгкостью справляется со сложными задачами.
https://huggingface.co/Yuanshi/ViBT
ViBT: первый bridge transformer Vision с параметрами 20B
Этот новаторский фреймворк является пионером в области преобразования данных, напрямую моделируя траектории для генерации условных изображений и видео. Он невероятно эффективен, работает до 4 раз быстрее и с лёгкостью справляется со сложными задачами.
https://huggingface.co/Yuanshi/ViBT
👍3❤2⚡1
Forwarded from Неискусственный интеллект (Илья Склюев)
Apple делает новый шаг к диверсификации ИИ-архитектур
На фоне кадровых перестановок совсем тихо прошла новость, что компания ищет свою альтернативу диффузионным нейросетям. Apple выпустила в паблик исходники STARFlow-V — первой модели для генерации видео на основе нормализующих потоков.
Модель делит работу на два уровня:
▪️ «Планировщик» предсказывает, что должно случиться дальше, глядя только в прошлые кадры (строго причинно, удобно для стриминга/интерактива);
▪️ «Художник» дорисовывает детали внутри каждого кадра, не заглядывая в будущее.
За счёт такой сборки меньше «сползания» сюжета на длинных роликах и естественная причинность. Не «разшумили сотней шагов», а идём покадрово слева направо, ближе к тому, как ролик реально выводится.
Датасет состоял из примерно 70 млн пар «текст–видео» и 400 млн «текст–изображение»; итоговая 7B-модель генерирует 480p при 16 fps. Работает в сжатом латентном пространстве и благодаря обратимости потоков из коробки поддерживает text-to-video, image-to-video, video-to-video и реконструкцию из латентного представления — без переделки архитектуры и дообучения под каждую задачу.
Демонстрации показывают уверенную обработку сложных движений, света, теней и перспективы, хоть и в низком разрешении. Пока это только эксперимент. Но кажется, что причинная генерация со стриминговым выводом — хороший вектор для развития интерактивного live-контента.
@anti_agi
На фоне кадровых перестановок совсем тихо прошла новость, что компания ищет свою альтернативу диффузионным нейросетям. Apple выпустила в паблик исходники STARFlow-V — первой модели для генерации видео на основе нормализующих потоков.
Модель делит работу на два уровня:
За счёт такой сборки меньше «сползания» сюжета на длинных роликах и естественная причинность. Не «разшумили сотней шагов», а идём покадрово слева направо, ближе к тому, как ролик реально выводится.
Датасет состоял из примерно 70 млн пар «текст–видео» и 400 млн «текст–изображение»; итоговая 7B-модель генерирует 480p при 16 fps. Работает в сжатом латентном пространстве и благодаря обратимости потоков из коробки поддерживает text-to-video, image-to-video, video-to-video и реконструкцию из латентного представления — без переделки архитектуры и дообучения под каждую задачу.
Демонстрации показывают уверенную обработку сложных движений, света, теней и перспективы, хоть и в низком разрешении. Пока это только эксперимент. Но кажется, что причинная генерация со стриминговым выводом — хороший вектор для развития интерактивного live-контента.
@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3⚡1
⚡2👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Пакет моделей от Google в 1 пайплайн:
1. За моделирование отвечал Gemini 3 Pro.
2. Nano Banana Pro отвечает за рендеринг/стилизацию.
3. Veo 3.1 отвечает за видео/анимацию.
Пакет моделей от Google в 1 пайплайн:
1. За моделирование отвечал Gemini 3 Pro.
2. Nano Banana Pro отвечает за рендеринг/стилизацию.
3. Veo 3.1 отвечает за видео/анимацию.
🔥4⚡2🤗2
Forwarded from эйай ньюз
Mistral Large 3 — у нас есть DeepSeek дома
Архитектурно модель DeepSeek V3 с немного другим конфигом. Из преимуществ перед линейкой V3 — Mistral 3 мультимодальная, что редкость для открытых моделей такого размера (самое близкое что вспоминается — Qwen 3 VL). Ризонер варианта нет, базовая модель тягается на бенчах с Kimi K2 и DeepSeek V3.1.
Вместе с Large 3 компания выпустили новые Ministral — 14B, 8B и 3B. 14B лучше Qwen схожего размера, а вот 8B и 3B уступают Qwen 3 8B и 4B. Эти модели тоже умеют в мультимодальность и у них есть ризонинг варианты. Все четыре модели уже доступны по лицензии Apache 2.0.
Веса Large 3
Веса Ministral 3
Блогпост
@ai_newz
Архитектурно модель DeepSeek V3 с немного другим конфигом. Из преимуществ перед линейкой V3 — Mistral 3 мультимодальная, что редкость для открытых моделей такого размера (самое близкое что вспоминается — Qwen 3 VL). Ризонер варианта нет, базовая модель тягается на бенчах с Kimi K2 и DeepSeek V3.1.
Вместе с Large 3 компания выпустили новые Ministral — 14B, 8B и 3B. 14B лучше Qwen схожего размера, а вот 8B и 3B уступают Qwen 3 8B и 4B. Эти модели тоже умеют в мультимодальность и у них есть ризонинг варианты. Все четыре модели уже доступны по лицензии Apache 2.0.
Веса Large 3
Веса Ministral 3
Блогпост
@ai_newz
⚡2👍2🤗1
Media is too big
VIEW IN TELEGRAM
#unrealneural
SamGeo v0.14.0
В этом выпуске реализована интерактивная сегментация изображений дистанционного зондирования с использованием SAM3 ⚡️⚡️⚡️
https://github.com/opengeos/segment-geospatial
SamGeo v0.14.0
В этом выпуске реализована интерактивная сегментация изображений дистанционного зондирования с использованием SAM3 ⚡️⚡️⚡️
https://github.com/opengeos/segment-geospatial
⚡1
