VLM Image Captioning Tool
Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.
Поддерживает большинство VLM провайдеров, в том числе локальные VLM
Видео
#captioning #image2text #vlm
Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.
Поддерживает большинство VLM провайдеров, в том числе локальные VLM
Видео
#captioning #image2text #vlm
GitHub
GitHub - victorchall/vlm-caption: Multiturn VLM Bulk captioning using your api service
Multiturn VLM Bulk captioning using your api service - victorchall/vlm-caption
👍5❤3
Media is too big
VIEW IN TELEGRAM
Moonvalley Marey
Новый видеогенератор
1. Натренирован не на ворованных видео (важно бизнесам, юзер больше пофик)
2. Много контроля: поза, перенос движения, траектории движения, образцы объектов, контроль камеры в 3D
3. Качество t2v на данный момент объективно похуже конкурентов
4. Нативная поддержка в CumfyUI
Бесплатного тарифа нет, приветственных кредитов не насыпают
Marey Realism v1.5 in ComfyUI
Спасибо @p0lygon
#text2video #comfyUI
Новый видеогенератор
1. Натренирован не на ворованных видео (важно бизнесам, юзер больше пофик)
2. Много контроля: поза, перенос движения, траектории движения, образцы объектов, контроль камеры в 3D
3. Качество t2v на данный момент объективно похуже конкурентов
4. Нативная поддержка в CumfyUI
Бесплатного тарифа нет, приветственных кредитов не насыпают
Marey Realism v1.5 in ComfyUI
Спасибо @p0lygon
#text2video #comfyUI
👍8🤯4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Sara - AI Interviewer for hiring
Трепещите, кожаные. Теперь вас будет отвергать железяка.
ИИ-собеседователь.
Я попытался получить у нее позицию коммерческого директора. Мои знания о том как быть коммерческим директором равны нулю. Но она высоко оценила мою уверенность.
Дают 10-дневную триалку.
А поболтать можно бесплатно
#assistant #hr #interviewer
Трепещите, кожаные. Теперь вас будет отвергать железяка.
ИИ-собеседователь.
Я попытался получить у нее позицию коммерческого директора. Мои знания о том как быть коммерческим директором равны нулю. Но она высоко оценила мою уверенность.
Дают 10-дневную триалку.
А поболтать можно бесплатно
#assistant #hr #interviewer
😁7👀3👎2😱2🍌1
Flux Kontext Character Turnaround Sheet LoRA
Лора #kontext на рабочий лист персонажа
HF
Civitai
#lora #image2image
Лора #kontext на рабочий лист персонажа
HF
Civitai
#lora #image2image
👍17❤1
Media is too big
VIEW IN TELEGRAM
DLoRAL: One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution
Новый апскейлер с фокусом на точность, а не креатив. По капотом SD2.1
Код
Бонус: список диффузных видео апскейлеров
#upscale #Upscalevideo #superresolution
Новый апскейлер с фокусом на точность, а не креатив. По капотом SD2.1
Код
Бонус: список диффузных видео апскейлеров
#upscale #Upscalevideo #superresolution
👍8🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
StreamDiT: Real-Time Streaming Text-to-Video Generation
Генерация видео из текста в режиме реального времени, ресерч от Meta и ко.
Разрешение 512p, 16 fps на H100
Первая тройка видео - на модели 4B параметров
Вторая тройка видео - на модели 30B, не рилтайм
Кода нет
#realtime #text2video #research
Генерация видео из текста в режиме реального времени, ресерч от Meta и ко.
Разрешение 512p, 16 fps на H100
Первая тройка видео - на модели 4B параметров
Вторая тройка видео - на модели 30B, не рилтайм
Кода нет
#realtime #text2video #research
👍11
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
Ресерч.
Если встретите название HumanOmniV2, не путайте его с OmniHuman
Проект HumanOmniV2 от Alibaba направлен на улучшение способности больших языковых моделей (LLM) понимать и интерпретировать человеческие намерения и эмоции через мультимодальные данные.
Если кому нужен код, вот
Код
#llm #research
Ресерч.
Если встретите название HumanOmniV2, не путайте его с OmniHuman
Проект HumanOmniV2 от Alibaba направлен на улучшение способности больших языковых моделей (LLM) понимать и интерпретировать человеческие намерения и эмоции через мультимодальные данные.
Если кому нужен код, вот
Код
#llm #research
huggingface.co
Paper page - HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
Join the discussion on this paper page
👍6
Media is too big
VIEW IN TELEGRAM
Проактивного ИИ-агента Proactor уже можно потестить
На бесплатном тарифе дают 30 минут транскрибации и 100 кредитов на прочие ИИ-ничтяки
Попробовать
#agent #realtime
На бесплатном тарифе дают 30 минут транскрибации и 100 кредитов на прочие ИИ-ничтяки
Попробовать
#agent #realtime
👍3🍌1
Dubnote
‼️ Бесплатную пожизненную подписку можно получить до 10 июля 11:00 МСК
iOS приложение для записи музыкальных идей
AI Split: автоматическое разделение аудио на секции.
- Smart & Manual Edits: возможность редактировать секции с помощью AI или вручную.
- Export Sections: экспорт отдельных секций в файлы .wav или .aac
- Auto-Tagging: автоматическое тегирование аудио.
- On-Device Speech-to-Text: преобразование речи в текст без подключения к интернету
Я до сих пор пользовался MusicMemo но тут кажется покруче
AppStore
#iOS #mobile #memo #assistant
iOS приложение для записи музыкальных идей
AI Split: автоматическое разделение аудио на секции.
- Smart & Manual Edits: возможность редактировать секции с помощью AI или вручную.
- Export Sections: экспорт отдельных секций в файлы .wav или .aac
- Auto-Tagging: автоматическое тегирование аудио.
- On-Device Speech-to-Text: преобразование речи в текст без подключения к интернету
Я до сих пор пользовался MusicMemo но тут кажется покруче
AppStore
#iOS #mobile #memo #assistant
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥2😁1
Media is too big
VIEW IN TELEGRAM
4DSloMo: 4D Reconstruction for High Speed Scene with Asynchronous Capture
Работа с участием NVIDIA.
Реконструкция #4D слоумошен сцены из видео с нескольких ракурсов, снятого обычными камерами в 25 fps. Эффективная частота кадров получается 100-200 fps
Под капотом 4D модель на гауссианах
Код ждем
#videoto4d #gaussian #4d
Работа с участием NVIDIA.
Реконструкция #4D слоумошен сцены из видео с нескольких ракурсов, снятого обычными камерами в 25 fps. Эффективная частота кадров получается 100-200 fps
Под капотом 4D модель на гауссианах
Код ждем
#videoto4d #gaussian #4d
👍9🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Perplexity Comet
Новый ИИ-браузер от Perplexity
Умный поиск Perplexity
Агентный поИСк
Умные вкладки
Блокировщик рекламы
Сейчас доступ дают только подписчикам MAX. Обещают в будущем бесплатный функционал.
Записаться в вейтлист
#search #browser
Новый ИИ-браузер от Perplexity
Умный поиск Perplexity
Агентный поИСк
Умные вкладки
Блокировщик рекламы
Сейчас доступ дают только подписчикам MAX. Обещают в будущем бесплатный функционал.
Записаться в вейтлист
#search #browser
👍6👎1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield Soul ID
Тут были наезды на Higgsfield Soul, что у них лица слегка одинаковые и вообще похоже не на генерацию, а на вытаскивание максимально похожих из датасета.
На что разрабы ответили с помощью Higgsfield Soul ID
Это типа быстрая тренировка (внутренняя) лор под ВАШИ фотачки.
Теперь вы можете загрузить 10+ своих фотографий, и Soul создаст вашу версию, которая будет выглядеть, двигаться и вести себя как вы:
- остается неизменной независимо от угла, выражения лица или освещения
- почти никаких подсказок не требуется
Дальше резвитесь промптами.
https://higgsfield.ai/
@cgevent
Тут были наезды на Higgsfield Soul, что у них лица слегка одинаковые и вообще похоже не на генерацию, а на вытаскивание максимально похожих из датасета.
На что разрабы ответили с помощью Higgsfield Soul ID
Это типа быстрая тренировка (внутренняя) лор под ВАШИ фотачки.
Теперь вы можете загрузить 10+ своих фотографий, и Soul создаст вашу версию, которая будет выглядеть, двигаться и вести себя как вы:
- остается неизменной независимо от угла, выражения лица или освещения
- почти никаких подсказок не требуется
Дальше резвитесь промптами.
https://higgsfield.ai/
@cgevent
🔥10👍1