Нейронавт | Нейросети в творчестве
9.84K subscribers
3.88K photos
3.27K videos
41 files
4.27K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
Download Telegram
Forwarded from Сиолошная
OpenAI разродились двумя опенсурсными моделями, на 120b и 20b параметров.

Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.

Ссылки:
https://openai.com/open-models/
https://openai.com/index/gpt-oss-model-card/
https://cookbook.openai.com/articles/openai-harmony
https://gpt-oss.com/ - тут можно поиграть с моделью

Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.

И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.
1🔥92👍1
Wan2.2 Image | Krea

Все, генерацию картинок силами #WAN22 завезли на Krea.ai

Бесплатных кредитов хватило на две генерации

#text2image #image2image #neuronaut_art
👍4😁31
Claude Opus 4.1

Ну, да, выпустили. Модель улучшена в области решения агентских задач, реального кодирования и логического мышления. доступна для платных пользователей

#news #assistant
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Kitten TTS

#sota маленьких голосовых моделей.
Работает без GPU, всего 15М параметров. Оптимизирована для рилтайма

По языкам нет информации. Должна завестись даже на Raspberry Pi

Младшая весит всего 25 мегабайт.
За две недели сделали - огонь!

Код
Веса

#tts #text2speech #realtime
🔥12😱2🤔1
MiDashengLM

Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы

Код
Демо
Веса ~50Гб

#audio2text #alm #assistant
🔥5👍2🤔1👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Browser MCP

Автоматизация задач в браузере

Устанавливаем браузерное расширение, дальше вас проведут через процесс настройки

Гитхаб

#mcp #agent
👍8
LoRA Training for Qwen-Image

Ладно, интересных картинок от qwen image из коробки получить не удалось. Может с лорами она себя покажет?
Есть смельчаки-первопроходцы обучить лору?

Инструмент для обучения подогнали FlyMy.ai

А также опубликовали лору реализм

qwen-image-realism-lora

#TEXT2IMAGE #LORA #FINETUNING
👍84
Seed Diffusion Preview

экспериментальная языковая модель от ByteDance Seed для генерации кода на основе дискретной диффузии.

работает в два этапа: сначала заполняет пропуски в коде, а потом исправляет его, проверяя на глобальные ошибки.

Быстрее в 4-5 раз авторегрессионных моделей схожего масштаба

Попробовать - меня не пускают говорят встань в очередь

#assistant #coding
👍81🔥1
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

Генератор-пониматор-редактор картинок на авторегрессии.
Редактирует по текстовым указаниям

1.5B параметров.
На создание изображения 1024х1024 расходует меньше 15Гб VRAM

Код
Веса
Демо

#vlm #imageediting #text2image
👍7
Qwen3-4B-Instruct-2507

недумающая модель от Qwen на 4B параметров.
Контекст 256К

HF ~8.1Gb
—————————

Qwen3-4B-Thinking-2507

думающая модель от Qwen на 4B параметров.
Контекст 256К

HF ~8.1Gb

#assistant
🔥71👍1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
AI Video Inpainting Plugin for After Effects

Плагин к #aftereffects для инпейнтинга на wan2.1 по маске и #wan22 по промпту но качественнее
Работает через API fal.ai так что готовьте денежки

В процессе разработки

Код

#videoinpainting
👍6🔥2
Арена видеогенераторов запущена. Даже две

Добавили еще 4 модели:
Hailuo-02-pro
Hailuo-02-fast
Sora
Runway-Gen4-turbo

Text-to-Video Arena


Image-to-Video Arena

#text2image #image2image #arena #leaderboard
👍7🤔1
Смотрите как умеет Genie 3

Сгенерил видео в котором кожаный мешок взаимодействует с Genie 3, пока по телевизору идет симуляция Genie 3. Все синхронизировано

Автор видео - из команды разработчиков Genie 3

Второе видео - сцена из фильма Космобольцы

#text2world #research #text2game
😁8👍31