Команда t-tech представила коллекцию моделей T-pro 2.0 — гибридные модели рассуждения, построенные на основе Qwen 3 32B и показывающие неплохие результаты в русскоязычных бенчмарках.
Модель может работать в двух режимах:
- Thinking mode — для сложных задач с пошаговым рассуждением
- Non-thinking mode — для быстрых ответов на простые вопросы
T-pro-it-2.0 превосходит базовую модель Qwen 3 32B по всем ключевым метрикам
- T-pro-it-2.0 — основная модель (265 лайков!)
- T-pro-it-2.0-eagle — оптимизированная версия
- T-pro-it-2.0-GGUF — для локального запуска
- T-pro-it-2.0-FP8 — сжатая версия
- T-pro-it-2.0-AWQ — квантизованная модель
- 40B токенов данных для предобучения (1/3 — задачи на рассуждение)
- ~500K высококачественных инструкций для файнтюнинга
- ~100K тщательно отобранных примеров для preference tuning
- Простые запросы: temperature ≤ 0.3
- Стандартные задачи: temperature ≈ 0.6
- Сложные рассуждения: temperature ≥ 0.8
Модель справляется с математическими задачами, показывая пошаговое решение:
prompt = (
"Пожалуйста, вычисли определённый интеграл ∫_0^1 x² eˣ dx, "
"пошагово объясни решение и укажи окончательный результат."
)
И получает детальное решение с промежуточными рассуждениями
Ответ модели
Модель поддерживает запуск через:
- SGLang (рекомендуется)
- HuggingFace Transformers
- vLLM
Контекст: до 32K токенов (расширяется до 128K)
Hugging Face
Please open Telegram to view this post
VIEW IN TELEGRAM
✍24🔥16👍9👏4🗿4
Pusa-VidGen
Исследователи представили Pusa — модель диффузии для генерации видео, которая использует подход с векторизованными временными шагами вместо традиционных скалярных.
🔘 Что такое Pusa?
Pusa (от китайского "Тысячерукая Гуаньинь") — это парадигмальный сдвиг в моделировании видео-диффузии через покадровый контроль шума с векторизованными временными шагами.
🔘 Впечатляющие результаты Pusa V1.0
Эффективность:
- Превосходит Wan-I2V-14B при 1/200 стоимости обучения ($500 против $100,000)
- Обучается на датасете в 1/2500 раз меньше (4K против 10M образцов)
- Достигает VBench-I2V score 87.32% (против 86.86% у Wan-I2V-14B)
🔘 Ключевые возможности
Мультизадачность
- Text-to-Video — генерация видео из текста
- Image-to-Video — анимация статичных изображений
- Start-End Frames — создание видео между ключевыми кадрами
- Video Extension — продление существующих видео
- Video Transition — плавные переходы между роликами
🔘 Архитектура
Vectorized Timestep Adaptation (VTA):
- Покадровый контроль шума
- Неразрушительная модификация базовой модели
- Сохранение всех возможностей оригинальной T2V модели
🔘 Примеры использования
Генерация Image-to-Video
Мульти-кадровая генерация
🔘 Доступные версии
Pusa V1.0 (на базе Wan-T2V-14B)
✅ Полный открытый исходный код
✅ LoRA веса модели и датасет
✅ Технический отчет
✅ Скрипты обучения и инференса
Pusa V0.5 (на базе Mochi)
✅ Inference скрипты для всех задач
✅ Код полного fine-tuning
✅ Обучающий датасет
🔘 Что делает Pusa особенной?
1. Новая парадигма диффузии с векторизованными временными шагами
2. Универсальная применимость к другим SOTA моделям (Hunyuan Video, Wan2.1)
3. Неразрушительная адаптация — сохраняет все возможности базовой модели
4. Открытость — полный код, веса и датасеты доступны
📚 Научная основа
Pusa основана на исследовании FVDM, которое впервые представило концепцию покадрового контроля шума с векторизованными временными шагами.
🔗 Полезные ссылки:
- GitHub Repository
- Project Page
- Hugging Face Models
- Technical Report
Исследователи представили Pusa — модель диффузии для генерации видео, которая использует подход с векторизованными временными шагами вместо традиционных скалярных.
Pusa (от китайского "Тысячерукая Гуаньинь") — это парадигмальный сдвиг в моделировании видео-диффузии через покадровый контроль шума с векторизованными временными шагами.
Эффективность:
- Превосходит Wan-I2V-14B при 1/200 стоимости обучения ($500 против $100,000)
- Обучается на датасете в 1/2500 раз меньше (4K против 10M образцов)
- Достигает VBench-I2V score 87.32% (против 86.86% у Wan-I2V-14B)
Мультизадачность
- Text-to-Video — генерация видео из текста
- Image-to-Video — анимация статичных изображений
- Start-End Frames — создание видео между ключевыми кадрами
- Video Extension — продление существующих видео
- Video Transition — плавные переходы между роликами
Vectorized Timestep Adaptation (VTA):
- Покадровый контроль шума
- Неразрушительная модификация базовой модели
- Сохранение всех возможностей оригинальной T2V модели
Генерация Image-to-Video
python ./demos/cli_test_ti2v_release.py \
--model_dir "/path/to/Pusa-V0.5" \
--prompt "The camera remains still, the man is surfing" \
--image_dir "./input.jpg" \
--num_steps 30
Мульти-кадровая генерация
python ./demos/cli_test_multi_frames_release.py \
--prompt "Drone view of waves crashing" \
--multi_cond '{"0": ["start.jpg", 0.3], "20": ["end.jpg", 0.7]}'
Pusa V1.0 (на базе Wan-T2V-14B)
Pusa V0.5 (на базе Mochi)
1. Новая парадигма диффузии с векторизованными временными шагами
2. Универсальная применимость к другим SOTA моделям (Hunyuan Video, Wan2.1)
3. Неразрушительная адаптация — сохраняет все возможности базовой модели
4. Открытость — полный код, веса и датасеты доступны
Pusa основана на исследовании FVDM, которое впервые представило концепцию покадрового контроля шума с векторизованными временными шагами.
- GitHub Repository
- Project Page
- Hugging Face Models
- Technical Report
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34✍11👍8🤔4👏1
OpenAI незаметно запустила тестирование новой модели под кодовым названием "o3-alpha-responses-2025-07-17" на платформе WebArena — открытой арене для сравнения ИИ-моделей через предпочтения пользователей.
Специализация на кодинге:
- Улучшения в создании веб-страниц
- Улучшенные навыки разработки простых веб-игр
- Заметное превосходство над базовой версией o3 в задачах программирования
- На WebArena отображается как "Anonymous-Chatbot-0717"
- В коде платформы можно увидеть:
modelApiId: "o3-alpha-responses-2025-07-17"
- Provider: OpenAI
По отзывам разработчиков, o3 Alpha превосходит:
- o3-pro
- Загадочную модель "Kingfall"
- Claude 3.5 Sonnet
- Gemini 2.5 Pro
- Реальное тестирование — модель проходит краудсорс-тестирование от сообщества разработчиков
- Фокус на кодинг — подтверждает стратегию OpenAI по созданию специализированных моделей для программирования
- Конкурентное преимущество — показывает превосходство над конкурентами в coding-задачах
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20✍15👍11👏1🙉1
Forwarded from NeuroAPI - Официальный канал
Changelog 20.07.2025 - приём криптовалюты и мелкие технические изменения
Новые возможности
• Оплата криптовалютой - теперь можно пополнять баланс в USDT, BTC, TON и других.
• В документации появился раздел «TTS»: примеры запросов, лимиты и советы по качеству синтеза.
• В документации добавлен раздел «VS Code-расширения»: примеры работы с Cline и подобными инструментами.
Улучшения интерфейса
• В блоке «Цены» теперь можно копировать название модели нажатием на него.
• Чат запоминает последнюю выбранную модель.
Исправления
• Корректный подсчёт экономии в блоке «Вы сохранили».
Как всегда, если заметите странности или захотите поделиться идеями - пишите нам.
Спасибо, что остаетесь с NeuroAPI
Новые возможности
• Оплата криптовалютой - теперь можно пополнять баланс в USDT, BTC, TON и других.
• В документации появился раздел «TTS»: примеры запросов, лимиты и советы по качеству синтеза.
• В документации добавлен раздел «VS Code-расширения»: примеры работы с Cline и подобными инструментами.
Улучшения интерфейса
• В блоке «Цены» теперь можно копировать название модели нажатием на него.
• Чат запоминает последнюю выбранную модель.
Исправления
• Корректный подсчёт экономии в блоке «Вы сохранили».
Как всегда, если заметите странности или захотите поделиться идеями - пишите нам.
Спасибо, что остаетесь с NeuroAPI
👍8🔥5👏2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥19👏13
Qwen3-235B-A22B-Instruct-2507
21 июля 2025 — Alibaba выпустила обновленную версию флагманской модели Qwen3-235B-A22B в режиме без размышлений (non-thinking mode), получившую название Qwen3-235B-A22B-Instruct-2507
🔘 Ключевые улучшения:
🆙 Значительные улучшения в основных способностях:
- Следование инструкциям — более точное понимание команд
- Логическое мышление — улучшенные алгоритмы рассуждений
- Понимание текста — глубокий анализ контента
- Математика и наука — решение сложных задач
- Программирование — генерация качественного кода
- Работа с инструментами — интеграция с внешними API
🆙 Мультиязычность нового уровня:
- Существенные улучшения в покрытии редких знаний
- Поддержка 100+ языков и диалектов
- Лучшее понимание культурных особенностей
🆙 Превосходное выравнивание с пользователем:
- Более естественные и полезные ответы
- Улучшенная работа с субъективными задачами
- Высококачественная генерация текста
- Лучшее понимание предпочтений пользователей
🆙 Расширенный контекст:
- 256K токенов длинного контекста
- Лучшее понимание объемных документов
- Работа с большими массивами данных
💡 Что изменилось:
✅ Упрощенное использование — больше не нужно указывать
✅ Чистый вывод — модель не генерирует блоки
✅ Фокус на эффективности — оптимизирована для быстрых ответов
🔗 Ссылки:
- Модель: Qwen3-235B-A22B-Instruct-2507
- Документация: qwen.readthedocs.io
- Демо: Hugging Face Demo
- Чат: chat.qwen.ai
21 июля 2025 — Alibaba выпустила обновленную версию флагманской модели Qwen3-235B-A22B в режиме без размышлений (non-thinking mode), получившую название Qwen3-235B-A22B-Instruct-2507
- Следование инструкциям — более точное понимание команд
- Логическое мышление — улучшенные алгоритмы рассуждений
- Понимание текста — глубокий анализ контента
- Математика и наука — решение сложных задач
- Программирование — генерация качественного кода
- Работа с инструментами — интеграция с внешними API
- Существенные улучшения в покрытии редких знаний
- Поддержка 100+ языков и диалектов
- Лучшее понимание культурных особенностей
- Более естественные и полезные ответы
- Улучшенная работа с субъективными задачами
- Высококачественная генерация текста
- Лучшее понимание предпочтений пользователей
- 256K токенов длинного контекста
- Лучшее понимание объемных документов
- Работа с большими массивами данных
enable_thinking=False
<think></think>
- Модель: Qwen3-235B-A22B-Instruct-2507
- Документация: qwen.readthedocs.io
- Демо: Hugging Face Demo
- Чат: chat.qwen.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥8✍3🤔1
Qwen3-Coder
Alibaba представила свою самую мощную модель для программирования — Qwen3-Coder-480B-A35B-Instruct.
🔘 Основные характеристики
- 480 миллиардов параметров (Mixture-of-Experts архитектура)
- 35 миллиардов активных параметров во время инференса
- Контекст 256K токенов нативно (расширяется до 1M токенов)
- Поддержка 358 языков программирования
- Open-source модель с Apache 2.0 лицензией
🔘 Производительность
- SWE-Bench Verified: Лидирующие результаты среди open-source моделей
- Агентные задачи: Сравнима с Claude Sonnet 4 по качеству
- Многоязычность: Отличная работа с Python, JavaScript, Java, C++, Go, Rust и другими
🔘 Агентные возможности
1. Автономное программирование — модель может самостоятельно решать сложные задачи разработки
2. Работа с инструментами — интеграция с браузерами, терминалами, IDE
3. Многоэтапное планирование — способность к долгосрочному планированию и выполнению задач
4. Обучение с подкреплением — модель обучена на реальных задачах программирования
🔘 Инструменты и интеграция
Вместе с моделью выпущен Qwen Code — CLI-инструмент для агентного программирования:
Поддерживаемые интеграции:
- Claude Code
- Cline
- VS Code Extensions
- OpenAI-совместимый API
🔘 Начало работы
Попробовать Qwen3-Coder можно сейчас:
- API: Alibaba Studio
- Hugging Face: Qwen/Qwen3-Coder-480B-A35B-Instruct
- GitHub: QwenLM/Qwen3-Code
Alibaba представила свою самую мощную модель для программирования — Qwen3-Coder-480B-A35B-Instruct.
- 480 миллиардов параметров (Mixture-of-Experts архитектура)
- 35 миллиардов активных параметров во время инференса
- Контекст 256K токенов нативно (расширяется до 1M токенов)
- Поддержка 358 языков программирования
- Open-source модель с Apache 2.0 лицензией
- SWE-Bench Verified: Лидирующие результаты среди open-source моделей
- Агентные задачи: Сравнима с Claude Sonnet 4 по качеству
- Многоязычность: Отличная работа с Python, JavaScript, Java, C++, Go, Rust и другими
1. Автономное программирование — модель может самостоятельно решать сложные задачи разработки
2. Работа с инструментами — интеграция с браузерами, терминалами, IDE
3. Многоэтапное планирование — способность к долгосрочному планированию и выполнению задач
4. Обучение с подкреплением — модель обучена на реальных задачах программирования
Вместе с моделью выпущен Qwen Code — CLI-инструмент для агентного программирования:
npm i -g @qwen-code/qwen-code
export OPENAI_API_KEY="your_api_key"
export OPENAI_BASE_URL="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
qwen
Поддерживаемые интеграции:
- Claude Code
- Cline
- VS Code Extensions
- OpenAI-совместимый API
Попробовать Qwen3-Coder можно сейчас:
- API: Alibaba Studio
- Hugging Face: Qwen/Qwen3-Coder-480B-A35B-Instruct
- GitHub: QwenLM/Qwen3-Code
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍7✍3
This media is not supported in your browser
VIEW IN TELEGRAM
GitHub Spark — инструмент, который позволяет создавать полноценные приложения просто описав свою идею, без написания кода!
• Создание без кода — Просто опишите свою идею, и AI создаст приложение
• Мощный AI — Использует модель Anthropic's Claude Sonnet 4 для обработки запросов
• Full-stack решения — Создает и разворачивает полноценные AI-приложения
• Быстрый запуск — От идеи до готового приложения за минуты
GitHub Spark был впервые анонсирован в прошлом году и теперь доступен в публичном превью для подписчиков Copilot Pro Plus.
github.com/spark — основная страница для создания приложений
• Разработчики, которые хотят быстро прототипировать идеи
• Предприниматели без технического бэкграунда
• Команды, нуждающиеся в быстрой разработке MVP
• Все, кто хочет воплотить свои идеи в реальные приложения
Обучающие материалы:
- Документация GitHub Spark — подробные туториалы
- Создание первого приложения за минуты — пошаговое руководство
Сообщество:
- GitHub Community Discussion — обсуждения, отзывы и вопросыGitHub Spark
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👏6 4✍3🙉1
GPT-5 от OpenAI: уже в августе
🔘 Когда ждать?
Август 2025 — именно тогда компания OpenAI планирует представить свою новую модель искусственного интеллекта GPT-5. Изначально запуск планировался на май, но был перенесен для дополнительной доработки.
🔘 Ключевые особенности GPT-5
Универсальность
GPT-5 станет единой универсальной моделью, объединив в себе несколько технологических направлений OpenAI, включая логические возможности линейки моделей o3.
Мультимодальность
Новая модель будет поддерживать:
- Текст
- Изображения
- Аудио
- Видео (предположительно)
🔘 Варианты модели
OpenAI планирует выпустить GPT-5 в трех версиях:
1. GPT-5 (основная) — полнофункциональная версия для ChatGPT и API
2. GPT-5 Mini — облегченная версия для ChatGPT и API
3. GPT‑5 nano (только через API)
Август 2025 — компактная версия только через API для разработчиков
💬 Впечатления от тестирования
Сэм Альтман, генеральный директор OpenAI, уже поделился впечатлениями от тестирования GPT-5. По его словам, модель быстро справилась с вопросом, на который он сам не смог дать ответ, и назвал это переломным моментом.
Август 2025 — именно тогда компания OpenAI планирует представить свою новую модель искусственного интеллекта GPT-5. Изначально запуск планировался на май, но был перенесен для дополнительной доработки.
Универсальность
GPT-5 станет единой универсальной моделью, объединив в себе несколько технологических направлений OpenAI, включая логические возможности линейки моделей o3.
Мультимодальность
Новая модель будет поддерживать:
- Текст
- Изображения
- Аудио
- Видео (предположительно)
OpenAI планирует выпустить GPT-5 в трех версиях:
1. GPT-5 (основная) — полнофункциональная версия для ChatGPT и API
2. GPT-5 Mini — облегченная версия для ChatGPT и API
3. GPT‑5 nano (только через API)
Август 2025 — компактная версия только через API для разработчиков
Сэм Альтман, генеральный директор OpenAI, уже поделился впечатлениями от тестирования GPT-5. По его словам, модель быстро справилась с вопросом, на который он сам не смог дать ответ, и назвал это переломным моментом.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥7 6🤯5🙉1
Media is too big
VIEW IN TELEGRAM
Figma Make: дизайн с помощью ИИ
Figma Make — это инструмент от Figma, который превращает ваши идеи в полноценные прототипы и приложения с помощью ии.
🔘 Основные возможности
1️⃣ Быстрое прототипирование
Превращайте любую идею в высокореалистичные прототипы. Figma Make помогает визуализировать концепции.
2️⃣ Интеграция с дизайн-системами
Добавляйте контекст стилей из вашей библиотеки Figma, чтобы сохранить визуальную целостность с дизайн-системой. Устанавливайте кастомные правила или вставляйте фрейм для направления работы ИИ.
3️⃣ ИИ-редактирование
Выбирайте любую часть дизайна и используйте промпты для изменения внешнего вида. Даже если вы не знаете, как создать или закодировать результат, ИИ поможет вам этого достичь.
4️⃣ Совместная работа с ИИ
Напрямую редактируйте то, что создает Figma Make: переписывайте тексты, заменяйте изображения, изменяйте отступы и поля.
5️⃣ Создание приложений с реальными данными
Подключайтесь к Supabase и превращайте идеи в готовые веб-приложения без кодирования. Получите доступ к аутентификации пользователей, хранению данных, приватным API и многому другому.
🔗 Интеграция с экосистемой Figma
Figma Make работает бесшовно с другими продуктами Figma. Перенесите мощь Figma Make в Figma Sites для кастомизации веб-сайтов, тестирования взаимодействий и публикации. Выберите любой фрейм в Figma Sites и оживите его с помощью Figma Make.
🔘 Преимущества для команд
Для дизайнеров:
- Ускорение процесса создания прототипов
- Возможность экспериментировать с идеями без технических ограничений
- Сохранение консистентности с дизайн-системой
Для разработчиков:
- Быстрый переход от концепта к функциональному приложению
- Интеграция с реальными данными и API
- Совместная работа с ИИ для технической реализации
Для продуктовых команд:
- Быстрая валидация идей
- Создание интерактивных прототипов для тестирования
- Ускорение процесса от идеи до MVP
Figma Make — это инструмент от Figma, который превращает ваши идеи в полноценные прототипы и приложения с помощью ии.
Превращайте любую идею в высокореалистичные прототипы. Figma Make помогает визуализировать концепции.
Добавляйте контекст стилей из вашей библиотеки Figma, чтобы сохранить визуальную целостность с дизайн-системой. Устанавливайте кастомные правила или вставляйте фрейм для направления работы ИИ.
Выбирайте любую часть дизайна и используйте промпты для изменения внешнего вида. Даже если вы не знаете, как создать или закодировать результат, ИИ поможет вам этого достичь.
Напрямую редактируйте то, что создает Figma Make: переписывайте тексты, заменяйте изображения, изменяйте отступы и поля.
Подключайтесь к Supabase и превращайте идеи в готовые веб-приложения без кодирования. Получите доступ к аутентификации пользователей, хранению данных, приватным API и многому другому.
Figma Make работает бесшовно с другими продуктами Figma. Перенесите мощь Figma Make в Figma Sites для кастомизации веб-сайтов, тестирования взаимодействий и публикации. Выберите любой фрейм в Figma Sites и оживите его с помощью Figma Make.
Для дизайнеров:
- Ускорение процесса создания прототипов
- Возможность экспериментировать с идеями без технических ограничений
- Сохранение консистентности с дизайн-системой
Для разработчиков:
- Быстрый переход от концепта к функциональному приложению
- Интеграция с реальными данными и API
- Совместная работа с ИИ для технической реализации
Для продуктовых команд:
- Быстрая валидация идей
- Создание интерактивных прототипов для тестирования
- Ускорение процесса от идеи до MVP
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10✍4🔥2🙉2
This media is not supported in your browser
VIEW IN TELEGRAM
Runway Aleph
Runway представила Aleph — ИИ-модель для профессиональной работы с видео. Работает с реальным отснятым материалом, а не генерирует видео с нуля.
🔘 Ключевые возможности:
• Генерация новых ракурсов — создание крупных планов из одного общего плана
• Добавление/удаление объектов — изменение элементов сцены по текстовому запросу
• Изменение освещения — от полуденного солнца до золотого часа
• Модификация окружения — смена фона, погоды, атмосферы
• Стилизация — применение различных визуальных стилей
• Автоматический композитинг — создание хромакей-масок
🔘 Практическое применение:
Для киноиндустрии: Сокращение съёмочных дней, меньше техники и персонала, больше креативных возможностей в постпродакшене.
Для контент-мейкеров: Профессиональный уровень обработки видео без дорогостоящего оборудования и специалистов.
🔘 Доступность:
• Сейчас: Ранний доступ для Enterprise и Creative Partners
• Скоро: Открытый доступ для всех пользователей
https://runwayml.com/research/introducing-runway-aleph
Runway представила Aleph — ИИ-модель для профессиональной работы с видео. Работает с реальным отснятым материалом, а не генерирует видео с нуля.
• Генерация новых ракурсов — создание крупных планов из одного общего плана
• Добавление/удаление объектов — изменение элементов сцены по текстовому запросу
• Изменение освещения — от полуденного солнца до золотого часа
• Модификация окружения — смена фона, погоды, атмосферы
• Стилизация — применение различных визуальных стилей
• Автоматический композитинг — создание хромакей-масок
Для киноиндустрии: Сокращение съёмочных дней, меньше техники и персонала, больше креативных возможностей в постпродакшене.
Для контент-мейкеров: Профессиональный уровень обработки видео без дорогостоящего оборудования и специалистов.
• Сейчас: Ранний доступ для Enterprise и Creative Partners
• Скоро: Открытый доступ для всех пользователей
https://runwayml.com/research/introducing-runway-aleph
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41👍15✍4🤔2🙉1
Media is too big
VIEW IN TELEGRAM
Hunyuan3D World Model 1.0 от Tencent
🔘 Что такое HunyuanWorld 1.0?
HunyuanWorld 1.0 — это система, которая может создавать иммерсивные, исследуемые и интерактивные 3D-миры буквально из одного предложения или картинки. Представьте: вы вводите "Спокойный пейзаж с горами над морем облаков" — и получаете полноценный 3D-мир, который можно исследовать в VR
🔘 Ключевые особенности
1️⃣ 360° Панорамное погружение
- Полное 360-градусное покрытие сцены
- Совместимость с VR-платформами (Apple Vision Pro, Meta Quest)
- Бесшовные переходы между областями мира
2️⃣ Экспорт 3D-мешей
- Прямая совместимость с Unity и Unreal Engine
- Стандартные форматы 3D-файлов
- Готовность к физическому моделированию
3️⃣ Разделение объектов
- Каждый объект в сцене — отдельная сущность
- Возможность индивидуального редактирования
- Поддержка трансформаций (поворот, масштаб, перемещение)
🔘 Как это работает?
Трехэтапный процесс:
1. Генерация панорамы — создание 360° изображения-прокси
2. Семантическое расслоение — ИИ автоматически разделяет сцену на небо, фон и объекты
3. 3D-реконструкция — послойное построение 3D-мира с учетом глубины
🔘 Бенчмарки
Генерация из текста:
- BRISQUE: 34.6 (лучше на 30%+ от конкурентов)
- Q-Align: 4.2 (высший балл качества)
- CLIP-Score: 24.0 (лучшее соответствие тексту)
Генерация из изображений:
- CLIP-I: 84.5 (точность воспроизведения)
- Качество геометрии превосходит WonderJourney и DimensionX
🔘 Доступность
HunyuanWorld 1.0 уже доступен:
- Открытый исходный код на GitHub
- Модели на Hugging Face
- Техническая документация
- Официальная страница
- Размер моделей: от 120MB до 478MB
Поддерживаемые форматы:
- Text-to-Panorama
- Image-to-Panorama
- Scene Inpainting
- Mesh Export (OBJ, PLY, Draco)
Что дальше?
- TensorRT-версия для ускорения
- RGBD Video Diffusion для видео-генерации
- Расширенная поддержка игровых движков
HunyuanWorld 1.0 — это система, которая может создавать иммерсивные, исследуемые и интерактивные 3D-миры буквально из одного предложения или картинки. Представьте: вы вводите "Спокойный пейзаж с горами над морем облаков" — и получаете полноценный 3D-мир, который можно исследовать в VR
- Полное 360-градусное покрытие сцены
- Совместимость с VR-платформами (Apple Vision Pro, Meta Quest)
- Бесшовные переходы между областями мира
- Прямая совместимость с Unity и Unreal Engine
- Стандартные форматы 3D-файлов
- Готовность к физическому моделированию
- Каждый объект в сцене — отдельная сущность
- Возможность индивидуального редактирования
- Поддержка трансформаций (поворот, масштаб, перемещение)
Трехэтапный процесс:
1. Генерация панорамы — создание 360° изображения-прокси
2. Семантическое расслоение — ИИ автоматически разделяет сцену на небо, фон и объекты
3. 3D-реконструкция — послойное построение 3D-мира с учетом глубины
Генерация из текста:
- BRISQUE: 34.6 (лучше на 30%+ от конкурентов)
- Q-Align: 4.2 (высший балл качества)
- CLIP-Score: 24.0 (лучшее соответствие тексту)
Генерация из изображений:
- CLIP-I: 84.5 (точность воспроизведения)
- Качество геометрии превосходит WonderJourney и DimensionX
HunyuanWorld 1.0 уже доступен:
- Открытый исходный код на GitHub
- Модели на Hugging Face
- Техническая документация
- Официальная страница
- Размер моделей: от 120MB до 478MB
Поддерживаемые форматы:
- Text-to-Panorama
- Image-to-Panorama
- Scene Inpainting
- Mesh Export (OBJ, PLY, Draco)
Что дальше?
- TensorRT-версия для ускорения
- RGBD Video Diffusion для видео-генерации
- Расширенная поддержка игровых движков
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27✍6👏5🤯2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Google тестирует новое приложение для "вайб-кодинга" под названием Opal
🔘 Что такое Opal?
Opal — это новый инструмент "vibe-coding" от Google, доступный пользователям в США через Google Labs. Приложение позволяет создавать мини веб-приложения, используя только текстовые описания на естественном языке.
🔘 Ключевые возможности:
- Создание по описанию: Просто опишите, какое приложение вы хотите создать, и Opal сделает это за вас
- Галерея готовых решений: Можно использовать и модифицировать существующие приложения из встроенной галереи
- Визуальный редактор: Интуитивный интерфейс с панелью рабочих процессов для просмотра и редактирования логики приложения
- Публикация и шеринг: Готовые приложения можно опубликовать в интернете и поделиться ссылкой с другими пользователями
🔘 Как это работает?
1. Ввод описания: Пользователь описывает желаемое приложение текстом
2. Генерация: Различные модели Google создают приложение автоматически
3. Редактирование: В визуальном редакторе можно просмотреть и изменить каждый шаг workflow
4. Публикация: Готовое приложение публикуется в веб с возможностью тестирования другими пользователями
🔘 Конкуренция в сфере no-code
Opal конкурирует с такими решениями как:
- Lovable (достигла $100M ARR за 8 месяцев)
- Cursor (недавно приобрела Koala)
- Canva (добавила ИИ-ассистента для кодинга)
- Figma (инструменты для создания прототипов)
- Replit
🔘 Целевая аудитория
В отличие от существующего AI Studio от Google, который ориентирован на разработчиков, Opal нацелен на более широкую аудиторию — людей без технических навыков, которые хотят создавать прототипы приложений.
Opal — это новый инструмент "vibe-coding" от Google, доступный пользователям в США через Google Labs. Приложение позволяет создавать мини веб-приложения, используя только текстовые описания на естественном языке.
- Создание по описанию: Просто опишите, какое приложение вы хотите создать, и Opal сделает это за вас
- Галерея готовых решений: Можно использовать и модифицировать существующие приложения из встроенной галереи
- Визуальный редактор: Интуитивный интерфейс с панелью рабочих процессов для просмотра и редактирования логики приложения
- Публикация и шеринг: Готовые приложения можно опубликовать в интернете и поделиться ссылкой с другими пользователями
1. Ввод описания: Пользователь описывает желаемое приложение текстом
2. Генерация: Различные модели Google создают приложение автоматически
3. Редактирование: В визуальном редакторе можно просмотреть и изменить каждый шаг workflow
4. Публикация: Готовое приложение публикуется в веб с возможностью тестирования другими пользователями
Opal конкурирует с такими решениями как:
- Lovable (достигла $100M ARR за 8 месяцев)
- Cursor (недавно приобрела Koala)
- Canva (добавила ИИ-ассистента для кодинга)
- Figma (инструменты для создания прототипов)
- Replit
В отличие от существующего AI Studio от Google, который ориентирован на разработчиков, Opal нацелен на более широкую аудиторию — людей без технических навыков, которые хотят создавать прототипы приложений.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🤯10✍4👏4🙉1
FLUX.1-Krea-dev
🔘 Ключевые особенности и преимущества
FLUX.1-Krea-dev — это модель с 12 миллиардами параметров, основанная на архитектуре FLUX.1 [dev]. Демонстрирует хорошее понимание промптов, высокое качество и разнообразие генерируемых изображений. Цель разработчиков была создавать изображения, которые не будут перенасыщенными и неестественными в плане текстуры (это часто встречается у других моделей).
Модель отлично справляется с созданием реалистичных изображений, в том числе с деталями человеческой внешности. С помощью нее также можно точно встраивать текст в изображение.
🔘 Экосистема FLUX и доступность
- FLUX.1 [pro]: Самая продвинутая версия для коммерческого использования с высоким качеством и детализацией.
- FLUX.1 [schnell]: Более быстрая версия для личных и локальных проектов.
- FLUX.1-Kontext-dev: Мультимодальная модель для редактирования изображений, поддерживающая одновременный ввод текста и изображений.
Веса FLUX.1-Krea-dev доступны на Hugging Face. Для коммерческого использования предусмотрены лицензии через портал BFL Licensing. Доступ к модели также есть через API партнеров, таких как Fal.ai, Replicate и других.
🔘 Сравнение с аналогами
Перенес для вас большую статью с тестами в телетайп для удобства прочтения - статья
По оценкам, FLUX.1 превосходит Midjourney V6 и DALL-E 3, по качеству изображений, детализации и точности следования промпту. В то время как Midjourney может быть более креативным в обработке абстрактных запросов, FLUX демонстрирует лучшие результаты в создании реалистичных изображений и анатомии человека.
🔘 Как попробовать
Можно протестировать возможности FLUX.1-Krea-dev и других моделей семейства FLUX на Krea AI, где доступны бесплатные генерации. Также есть локальная установка через Comfy.
FLUX.1-Krea-dev — это модель с 12 миллиардами параметров, основанная на архитектуре FLUX.1 [dev]. Демонстрирует хорошее понимание промптов, высокое качество и разнообразие генерируемых изображений. Цель разработчиков была создавать изображения, которые не будут перенасыщенными и неестественными в плане текстуры (это часто встречается у других моделей).
Модель отлично справляется с созданием реалистичных изображений, в том числе с деталями человеческой внешности. С помощью нее также можно точно встраивать текст в изображение.
- FLUX.1 [pro]: Самая продвинутая версия для коммерческого использования с высоким качеством и детализацией.
- FLUX.1 [schnell]: Более быстрая версия для личных и локальных проектов.
- FLUX.1-Kontext-dev: Мультимодальная модель для редактирования изображений, поддерживающая одновременный ввод текста и изображений.
Веса FLUX.1-Krea-dev доступны на Hugging Face. Для коммерческого использования предусмотрены лицензии через портал BFL Licensing. Доступ к модели также есть через API партнеров, таких как Fal.ai, Replicate и других.
Перенес для вас большую статью с тестами в телетайп для удобства прочтения - статья
По оценкам, FLUX.1 превосходит Midjourney V6 и DALL-E 3, по качеству изображений, детализации и точности следования промпту. В то время как Midjourney может быть более креативным в обработке абстрактных запросов, FLUX демонстрирует лучшие результаты в создании реалистичных изображений и анатомии человека.
Можно протестировать возможности FLUX.1-Krea-dev и других моделей семейства FLUX на Krea AI, где доступны бесплатные генерации. Также есть локальная установка через Comfy.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥8✍2