Neurogen – Telegram

Neurogen

23.1K subscribers

651 photos

236 videos

17 files

656 links

Популяризатор нейросетей, разработчик-энтузиаст, блогер.

СEO NeuroIMG.ART
Реклама: https://telega.in/c/neurogen_news
По остальному: @roman_neurogen

Портативные сборки: https://boosty.to/neurogen

Live канал: @neurogen_blog
Реестр РКН: №4777528086

Download Telegram

About

Blog

Apps

Platform

23.1K subscribers

🏦

T-pro-it-2.0: Новое поколение гибридных рассуждающих моделей

Команда t-tech представила коллекцию моделей T-pro 2.0 — гибридные модели рассуждения, построенные на основе Qwen 3 32B и показывающие неплохие результаты в русскоязычных бенчмарках.

🔘

Что особенного в T-pro-it-2.0?

🧠

Гибридное рассуждение
Модель может работать в двух режимах:
- Thinking mode — для сложных задач с пошаговым рассуждением
- Non-thinking mode — для быстрых ответов на простые вопросы

📊

Впечатляющие результаты

T-pro-it-2.0 превосходит базовую модель Qwen 3 32B по всем ключевым метрикам

🔘

Полная коллекция форматов

- T-pro-it-2.0 — основная модель (265 лайков!)
- T-pro-it-2.0-eagle — оптимизированная версия
- T-pro-it-2.0-GGUF — для локального запуска
- T-pro-it-2.0-FP8 — сжатая версия
- T-pro-it-2.0-AWQ — квантизованная модель

🔘

Качество обучения

📚Данные для обучения:
- 40B токенов данных для предобучения (1/3 — задачи на рассуждение)
- ~500K высококачественных инструкций для файнтюнинга
- ~100K тщательно отобранных примеров для preference tuning

🔥Рекомендованные параметры:
- Простые запросы: temperature ≤ 0.3
- Стандартные задачи: temperature ≈ 0.6
- Сложные рассуждения: temperature ≥ 0.8

🔘

Практический пример

Модель справляется с математическими задачами, показывая пошаговое решение:

prompt = (
    "Пожалуйста, вычисли определённый интеграл ∫_0^1 x² eˣ dx, "
    "пошагово объясни решение и укажи окончательный результат."
)

И получает детальное решение с промежуточными рассуждениями
Ответ модели

🔘

Простой запуск

Модель поддерживает запуск через:
- SGLang (рекомендуется)
- HuggingFace Transformers
- vLLM

Контекст: до 32K токенов (расширяется до 128K)

Hugging Face

Please open Telegram to view this post

VIEW IN TELEGRAM

✍24🔥16👍9👏4🗿4

5.24K viewsmuzaffar, edited 16:29

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Pusa-VidGen

Исследователи представили Pusa — модель диффузии для генерации видео, которая использует подход с векторизованными временными шагами вместо традиционных скалярных.

🔘

Что такое Pusa?

Pusa (от китайского "Тысячерукая Гуаньинь") — это парадигмальный сдвиг в моделировании видео-диффузии через покадровый контроль шума с векторизованными временными шагами.

🔘Впечатляющие результаты Pusa V1.0

Эффективность:
- Превосходит Wan-I2V-14B при 1/200 стоимости обучения ($500 против $100,000)
- Обучается на датасете в 1/2500 раз меньше (4K против 10M образцов)
- Достигает VBench-I2V score 87.32% (против 86.86% у Wan-I2V-14B)

🔘

Ключевые возможности

Мультизадачность
- Text-to-Video — генерация видео из текста
- Image-to-Video — анимация статичных изображений
- Start-End Frames — создание видео между ключевыми кадрами
- Video Extension — продление существующих видео
- Video Transition — плавные переходы между роликами

🔘

Архитектура

Vectorized Timestep Adaptation (VTA):
- Покадровый контроль шума
- Неразрушительная модификация базовой модели
- Сохранение всех возможностей оригинальной T2V модели

🔘Примеры использования

Генерация Image-to-Video

python ./demos/cli_test_ti2v_release.py \
  --model_dir "/path/to/Pusa-V0.5" \
  --prompt "The camera remains still, the man is surfing" \
  --image_dir "./input.jpg" \
  --num_steps 30

Мульти-кадровая генерация

python ./demos/cli_test_multi_frames_release.py \
  --prompt "Drone view of waves crashing" \
  --multi_cond '{"0": ["start.jpg", 0.3], "20": ["end.jpg", 0.7]}'

🔘

Доступные версии

Pusa V1.0 (на базе Wan-T2V-14B)
✅Полный открытый исходный код
✅LoRA веса модели и датасет
✅Технический отчет
✅Скрипты обучения и инференса

Pusa V0.5 (на базе Mochi)
✅Inference скрипты для всех задач
✅Код полного fine-tuning
✅Обучающий датасет

🔘

Что делает Pusa особенной?

1. Новая парадигма диффузии с векторизованными временными шагами
2. Универсальная применимость к другим SOTA моделям (Hunyuan Video, Wan2.1)
3. Неразрушительная адаптация — сохраняет все возможности базовой модели
4. Открытость — полный код, веса и датасеты доступны

📚

Научная основа

Pusa основана на исследовании FVDM, которое впервые представило концепцию покадрового контроля шума с векторизованными временными шагами.

🔗Полезные ссылки:
- GitHub Repository
- Project Page
- Hugging Face Models
- Technical Report

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥34✍11👍8🤔4👏1

7.21K viewsmuzaffar, 09:36

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🎨

OpenAI тестирует новую модель o3 Alpha для программирования на WebArena

OpenAI незаметно запустила тестирование новой модели под кодовым названием "o3-alpha-responses-2025-07-17" на платформе WebArena — открытой арене для сравнения ИИ-моделей через предпочтения пользователей.

🔘

Основные особенности o3 Alpha:

Специализация на кодинге:
- Улучшения в создании веб-страниц
- Улучшенные навыки разработки простых веб-игр
- Заметное превосходство над базовой версией o3 в задачах программирования

🔍Как найти модель:
- На WebArena отображается как "Anonymous-Chatbot-0717"
- В коде платформы можно увидеть: modelApiId: "o3-alpha-responses-2025-07-17"
- Provider: OpenAI

📊Производительность:
По отзывам разработчиков, o3 Alpha превосходит:
- o3-pro
- Загадочную модель "Kingfall"
- Claude 3.5 Sonnet
- Gemini 2.5 Pro

🔘

Почему это важно:

- Реальное тестирование — модель проходит краудсорс-тестирование от сообщества разработчиков
- Фокус на кодинг — подтверждает стратегию OpenAI по созданию специализированных моделей для программирования
- Конкурентное преимущество — показывает превосходство над конкурентами в coding-задачах

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥20✍15👍11👏1🙉1

6.74K viewsmuzaffar, 13:38

Forwarded from NeuroAPI - Официальный канал

Changelog 20.07.2025 - приём криптовалюты и мелкие технические изменения

Новые возможности
• Оплата криптовалютой - теперь можно пополнять баланс в USDT, BTC, TON и других.
• В документации появился раздел «TTS»: примеры запросов, лимиты и советы по качеству синтеза.
• В документации добавлен раздел «VS Code-расширения»: примеры работы с Cline и подобными инструментами.

Улучшения интерфейса
• В блоке «Цены» теперь можно копировать название модели нажатием на него.
• Чат запоминает последнюю выбранную модель.

Исправления
• Корректный подсчёт экономии в блоке «Вы сохранили».

Как всегда, если заметите странности или захотите поделиться идеями - пишите нам.
Спасибо, что остаетесь с NeuroAPI

👍8🔥5👏2

5.83K views11:20

🗓

Нейро дайджест за неделю

🔘

NeuroAPI UPDATE

🧠

Модели:

🟡

Аниме компаньоны в Grok 4 - xAI добавила в Grok 4 аниме-компаньонов — виртуальных персонажей, как Ани Форджер, для флирта, общения и голосового диалога. Функция стала хитом в Японии и будет расширяться — xAI уже нанимает аниматоров с зарплатой до $440,000.

🟡

ComfyUI v0.3.44 - changelog в посте

🟡

Обновление Le Chat - добавлен режим «глубоких исследований», мультиязычное мышление, голосовое управление, улучшенное редактирование изображений и интеграция с корпоративными данными без облака

🟡

ChatGPT Agent - ИИ-агент с "виртуальным компьютером", способный выполнять сложные задачи (планирование, ресёрч, бронирования) с доступом к терминалу, браузерам и календарям. Пока медленный, но работает автономно и безопасно. Доступен для Pro, Plus и Team.

🟡

Runway Act-Two - новая AI-система захвата движений с поддержкой мимики и жестов. Достаточно загрузить видео и референс-персонажа — модель перенесёт движения автоматически. Пока доступно для Enterprise и CPP.

🟡

T-pro-it-2.0 - новое поколение гибридных моделей на базе Qwen 3 32B с двумя режимами работы: для простых ответов и сложного пошагового рассуждения. Показывает отличные результаты в русскоязычных задачах, доступна в нескольких форматах и легко запускается локально.

🟡

Pusa-VidGen - новая видеогенеративная модель с векторизованными временными шагами вместо скалярных, что позволяет точно управлять шумом по кадрам. Модель превосходит Wan-I2V-14B по качеству при в 200 раз меньших затратах на обучение и в 2500 раз меньшем датасете.

🟡

o3 Alpha - модель отмечена как "Anonymous-Chatbot-0717" и превосходит o3-pro и Gemini 2.5 в разработке.

🧑‍💻

Разработки/технологии/исследования/прочее:

🟡

Очередной скандал с Grok - xAI объяснила, что Grok начал публиковать антисемитские посты из-за ошибки в коде: 7 июля активировались старые промпты с установкой "говорить резко и без политкорректности", что привело к усилению hate speech и токсичных ответов.

🟡

Новый способ самообучения LLM – SOAR - удалось повысить результат ARC-AGI до 52% (почти вдвое лучше, чем у Qwen2.5-32B). Фишка — в сочетании эволюционного поиска с обучением на собственных попытках, что даёт стабильный рост качества.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥19👏13

5.96K viewsmuzaffar, 09:08

Qwen3-235B-A22B-Instruct-2507

21 июля 2025 — Alibaba выпустила обновленную версию флагманской модели Qwen3-235B-A22B в режиме без размышлений (non-thinking mode), получившую название Qwen3-235B-A22B-Instruct-2507

🔘

Ключевые улучшения:

🆙Значительные улучшения в основных способностях:
- Следование инструкциям — более точное понимание команд
- Логическое мышление — улучшенные алгоритмы рассуждений
- Понимание текста — глубокий анализ контента
- Математика и наука — решение сложных задач
- Программирование — генерация качественного кода
- Работа с инструментами — интеграция с внешними API

🆙Мультиязычность нового уровня:
- Существенные улучшения в покрытии редких знаний
- Поддержка 100+ языков и диалектов
- Лучшее понимание культурных особенностей

🆙

Превосходное выравнивание с пользователем:
- Более естественные и полезные ответы
- Улучшенная работа с субъективными задачами
- Высококачественная генерация текста
- Лучшее понимание предпочтений пользователей

🆙

Расширенный контекст:
- 256K токенов длинного контекста
- Лучшее понимание объемных документов
- Работа с большими массивами данных

💡

Что изменилось:

✅

Упрощенное использование — больше не нужно указывать enable_thinking=False

✅

Чистый вывод — модель не генерирует блоки <think></think>

✅

Фокус на эффективности — оптимизирована для быстрых ответов

🔗

Ссылки:
- Модель: Qwen3-235B-A22B-Instruct-2507
- Документация: qwen.readthedocs.io
- Демо: Hugging Face Demo
- Чат: chat.qwen.ai

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥8✍3🤔1

5.69K viewsmuzaffar, 20:34

Qwen3-Coder

Alibaba представила свою самую мощную модель для программирования — Qwen3-Coder-480B-A35B-Instruct.

🔘

Основные характеристики

- 480 миллиардов параметров (Mixture-of-Experts архитектура)
- 35 миллиардов активных параметров во время инференса
- Контекст 256K токенов нативно (расширяется до 1M токенов)
- Поддержка 358 языков программирования
- Open-source модель с Apache 2.0 лицензией

🔘

Производительность

- SWE-Bench Verified: Лидирующие результаты среди open-source моделей
- Агентные задачи: Сравнима с Claude Sonnet 4 по качеству
- Многоязычность: Отличная работа с Python, JavaScript, Java, C++, Go, Rust и другими

🔘

Агентные возможности

1. Автономное программирование — модель может самостоятельно решать сложные задачи разработки
2. Работа с инструментами — интеграция с браузерами, терминалами, IDE
3. Многоэтапное планирование — способность к долгосрочному планированию и выполнению задач
4. Обучение с подкреплением — модель обучена на реальных задачах программирования

🔘

Инструменты и интеграция

Вместе с моделью выпущен Qwen Code — CLI-инструмент для агентного программирования:

npm i -g @qwen-code/qwen-code
export OPENAI_API_KEY="your_api_key"
export OPENAI_BASE_URL="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
qwen

Поддерживаемые интеграции:
- Claude Code
- Cline
- VS Code Extensions
- OpenAI-совместимый API

🔘

Начало работы

Попробовать Qwen3-Coder можно сейчас:

- API: Alibaba Studio
- Hugging Face: Qwen/Qwen3-Coder-480B-A35B-Instruct
- GitHub: QwenLM/Qwen3-Code

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥25👍7✍3

6.04K viewsmuzaffar, 09:02

Neurogen pinned Deleted message

10:15

This media is not supported in your browser

VIEW IN TELEGRAM

🐱

GitHub запустил свой AI-инструмент для создания приложений в публичном превью

GitHub Spark — инструмент, который позволяет создавать полноценные приложения просто описав свою идею, без написания кода!

🔘

Ключевые особенности:

• Создание без кода — Просто опишите свою идею, и AI создаст приложение
• Мощный AI — Использует модель Anthropic's Claude Sonnet 4 для обработки запросов
• Full-stack решения — Создает и разворачивает полноценные AI-приложения
• Быстрый запуск — От идеи до готового приложения за минуты

🔘

Доступность:

GitHub Spark был впервые анонсирован в прошлом году и теперь доступен в публичном превью для подписчиков Copilot Pro Plus.
github.com/spark — основная страница для создания приложений

🔘

Для кого это?

• Разработчики, которые хотят быстро прототипировать идеи
• Предприниматели без технического бэкграунда
• Команды, нуждающиеся в быстрой разработке MVP
• Все, кто хочет воплотить свои идеи в реальные приложения

📕

Полезные ресурсы для начала:

Обучающие материалы:
- Документация GitHub Spark — подробные туториалы
- Создание первого приложения за минуты — пошаговое руководство

Сообщество:
- GitHub Community Discussion — обсуждения, отзывы и вопросыGitHub Spark

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21👏64✍3🙉1

5.32K viewsmuzaffar, 14:36

GPT-5 от OpenAI: уже в августе

🔘

Когда ждать?

Август 2025 — именно тогда компания OpenAI планирует представить свою новую модель искусственного интеллекта GPT-5. Изначально запуск планировался на май, но был перенесен для дополнительной доработки.

🔘

Ключевые особенности GPT-5

Универсальность
GPT-5 станет единой универсальной моделью, объединив в себе несколько технологических направлений OpenAI, включая логические возможности линейки моделей o3.

Мультимодальность
Новая модель будет поддерживать:
- Текст
- Изображения
- Аудио
- Видео (предположительно)

🔘

Варианты модели

OpenAI планирует выпустить GPT-5 в трех версиях:

1. GPT-5 (основная) — полнофункциональная версия для ChatGPT и API
2. GPT-5 Mini — облегченная версия для ChatGPT и API
3. GPT‑5 nano (только через API)

Август 2025 — компактная версия только через API для разработчиков

💬

Впечатления от тестирования

Сэм Альтман, генеральный директор OpenAI, уже поделился впечатлениями от тестирования GPT-5. По его словам, модель быстро справилась с вопросом, на который он сам не смог дать ответ, и назвал это переломным моментом.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥76🤯5🙉1

5.18K viewsmuzaffar, 14:31

Media is too big

VIEW IN TELEGRAM

Figma Make: дизайн с помощью ИИ

Figma Make — это инструмент от Figma, который превращает ваши идеи в полноценные прототипы и приложения с помощью ии.

🔘

Основные возможности

1️⃣

Быстрое прототипирование
Превращайте любую идею в высокореалистичные прототипы. Figma Make помогает визуализировать концепции.

2️⃣

Интеграция с дизайн-системами
Добавляйте контекст стилей из вашей библиотеки Figma, чтобы сохранить визуальную целостность с дизайн-системой. Устанавливайте кастомные правила или вставляйте фрейм для направления работы ИИ.

3️⃣

ИИ-редактирование
Выбирайте любую часть дизайна и используйте промпты для изменения внешнего вида. Даже если вы не знаете, как создать или закодировать результат, ИИ поможет вам этого достичь.

4️⃣

Совместная работа с ИИ
Напрямую редактируйте то, что создает Figma Make: переписывайте тексты, заменяйте изображения, изменяйте отступы и поля.

5️⃣

Создание приложений с реальными данными
Подключайтесь к Supabase и превращайте идеи в готовые веб-приложения без кодирования. Получите доступ к аутентификации пользователей, хранению данных, приватным API и многому другому.

🔗

Интеграция с экосистемой Figma

Figma Make работает бесшовно с другими продуктами Figma. Перенесите мощь Figma Make в Figma Sites для кастомизации веб-сайтов, тестирования взаимодействий и публикации. Выберите любой фрейм в Figma Sites и оживите его с помощью Figma Make.

🔘

Преимущества для команд

Для дизайнеров:
- Ускорение процесса создания прототипов
- Возможность экспериментировать с идеями без технических ограничений
- Сохранение консистентности с дизайн-системой

Для разработчиков:
- Быстрый переход от концепта к функциональному приложению
- Интеграция с реальными данными и API
- Совместная работа с ИИ для технической реализации

Для продуктовых команд:
- Быстрая валидация идей
- Создание интерактивных прототипов для тестирования
- Ускорение процесса от идеи до MVP

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10✍4🔥2🙉2

4.84K viewsmuzaffar, edited 19:34

This media is not supported in your browser

VIEW IN TELEGRAM

Runway Aleph

Runway представила Aleph — ИИ-модель для профессиональной работы с видео. Работает с реальным отснятым материалом, а не генерирует видео с нуля.

🔘

Ключевые возможности:

• Генерация новых ракурсов — создание крупных планов из одного общего плана
• Добавление/удаление объектов — изменение элементов сцены по текстовому запросу
• Изменение освещения — от полуденного солнца до золотого часа
• Модификация окружения — смена фона, погоды, атмосферы
• Стилизация — применение различных визуальных стилей
• Автоматический композитинг — создание хромакей-масок

🔘

Практическое применение:

Для киноиндустрии: Сокращение съёмочных дней, меньше техники и персонала, больше креативных возможностей в постпродакшене.

Для контент-мейкеров: Профессиональный уровень обработки видео без дорогостоящего оборудования и специалистов.

🔘

Доступность:

• Сейчас: Ранний доступ для Enterprise и Creative Partners
• Скоро: Открытый доступ для всех пользователей

https://runwayml.com/research/introducing-runway-aleph

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥41👍15✍4🤔2🙉1

5.31K viewsmuzaffar, 08:20

Media is too big

VIEW IN TELEGRAM

Hunyuan3D World Model 1.0 от Tencent

🔘

Что такое HunyuanWorld 1.0?

HunyuanWorld 1.0 — это система, которая может создавать иммерсивные, исследуемые и интерактивные 3D-миры буквально из одного предложения или картинки. Представьте: вы вводите "Спокойный пейзаж с горами над морем облаков" — и получаете полноценный 3D-мир, который можно исследовать в VR

🔘

Ключевые особенности

1️⃣

360° Панорамное погружение
- Полное 360-градусное покрытие сцены
- Совместимость с VR-платформами (Apple Vision Pro, Meta Quest)
- Бесшовные переходы между областями мира

2️⃣

Экспорт 3D-мешей
- Прямая совместимость с Unity и Unreal Engine
- Стандартные форматы 3D-файлов
- Готовность к физическому моделированию

3️⃣

Разделение объектов
- Каждый объект в сцене — отдельная сущность
- Возможность индивидуального редактирования
- Поддержка трансформаций (поворот, масштаб, перемещение)

🔘

Как это работает?

Трехэтапный процесс:

1. Генерация панорамы — создание 360° изображения-прокси
2. Семантическое расслоение — ИИ автоматически разделяет сцену на небо, фон и объекты
3. 3D-реконструкция — послойное построение 3D-мира с учетом глубины

🔘Бенчмарки

Генерация из текста:
- BRISQUE: 34.6 (лучше на 30%+ от конкурентов)
- Q-Align: 4.2 (высший балл качества)
- CLIP-Score: 24.0 (лучшее соответствие тексту)

Генерация из изображений:
- CLIP-I: 84.5 (точность воспроизведения)
- Качество геометрии превосходит WonderJourney и DimensionX

🔘

Доступность

HunyuanWorld 1.0 уже доступен:
- Открытый исходный код на GitHub
- Модели на Hugging Face
- Техническая документация
- Официальная страница
- Размер моделей: от 120MB до 478MB

Поддерживаемые форматы:
- Text-to-Panorama
- Image-to-Panorama
- Scene Inpainting
- Mesh Export (OBJ, PLY, Draco)

Что дальше?
- TensorRT-версия для ускорения
- RGBD Video Diffusion для видео-генерации
- Расширенная поддержка игровых движков

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥27✍6👏5🤯2🤔1

5.64K viewsmuzaffar, 11:38

This media is not supported in your browser

VIEW IN TELEGRAM

Google тестирует новое приложение для "вайб-кодинга" под названием Opal

🔘

Что такое Opal?

Opal — это новый инструмент "vibe-coding" от Google, доступный пользователям в США через Google Labs. Приложение позволяет создавать мини веб-приложения, используя только текстовые описания на естественном языке.

🔘

Ключевые возможности:

- Создание по описанию: Просто опишите, какое приложение вы хотите создать, и Opal сделает это за вас
- Галерея готовых решений: Можно использовать и модифицировать существующие приложения из встроенной галереи
- Визуальный редактор: Интуитивный интерфейс с панелью рабочих процессов для просмотра и редактирования логики приложения
- Публикация и шеринг: Готовые приложения можно опубликовать в интернете и поделиться ссылкой с другими пользователями

🔘

Как это работает?

1. Ввод описания: Пользователь описывает желаемое приложение текстом
2. Генерация: Различные модели Google создают приложение автоматически
3. Редактирование: В визуальном редакторе можно просмотреть и изменить каждый шаг workflow
4. Публикация: Готовое приложение публикуется в веб с возможностью тестирования другими пользователями

🔘

Конкуренция в сфере no-code

Opal конкурирует с такими решениями как:
- Lovable (достигла $100M ARR за 8 месяцев)
- Cursor (недавно приобрела Koala)
- Canva (добавила ИИ-ассистента для кодинга)
- Figma (инструменты для создания прототипов)
- Replit

🔘

Целевая аудитория

В отличие от существующего AI Studio от Google, который ориентирован на разработчиков, Opal нацелен на более широкую аудиторию — людей без технических навыков, которые хотят создавать прототипы приложений.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🤯10✍4👏4🙉1

6.61K viewsmuzaffar, 16:59

https://teletype.in/@rzaev/bP-H9XHuguL

WAN 2.2 что за зверь и почему о нем все говорят

WAN 2.2 - Новые модели для генерации видео от Alibaba. Всего было опубликовано 6 моделей, среди них t2v и i2v на 14B и 5B.

🔥30✍10👍6

3.94K viewsmuzaffar, 08:11

FLUX.1-Krea-dev

🔘Ключевые особенности и преимущества

FLUX.1-Krea-dev — это модель с 12 миллиардами параметров, основанная на архитектуре FLUX.1 [dev]. Демонстрирует хорошее понимание промптов, высокое качество и разнообразие генерируемых изображений. Цель разработчиков была создавать изображения, которые не будут перенасыщенными и неестественными в плане текстуры (это часто встречается у других моделей).

Модель отлично справляется с созданием реалистичных изображений, в том числе с деталями человеческой внешности. С помощью нее также можно точно встраивать текст в изображение.

🔘Экосистема FLUX и доступность

- FLUX.1 [pro]: Самая продвинутая версия для коммерческого использования с высоким качеством и детализацией.
- FLUX.1 [schnell]: Более быстрая версия для личных и локальных проектов.
- FLUX.1-Kontext-dev: Мультимодальная модель для редактирования изображений, поддерживающая одновременный ввод текста и изображений.

Веса FLUX.1-Krea-dev доступны на Hugging Face. Для коммерческого использования предусмотрены лицензии через портал BFL Licensing. Доступ к модели также есть через API партнеров, таких как Fal.ai, Replicate и других.

🔘Сравнение с аналогами

Перенес для вас большую статью с тестами в телетайп для удобства прочтения - статья

По оценкам, FLUX.1 превосходит Midjourney V6 и DALL-E 3, по качеству изображений, детализации и точности следования промпту. В то время как Midjourney может быть более креативным в обработке абстрактных запросов, FLUX демонстрирует лучшие результаты в создании реалистичных изображений и анатомии человека.

🔘Как попробовать

Можно протестировать возможности FLUX.1-Krea-dev и других моделей семейства FLUX на Krea AI, где доступны бесплатные генерации. Также есть локальная установка через Comfy.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥8✍2

3.01K views03:41