Forwarded from Продакт аналитикс
Приветствую, дорогие друзья! 👋
Давно у нас с вами не было рубрики полезностей для вопрошающих, #какворватьсяваналитику .
Их, как и всегда, есть у меня!
В связи с чем, рада поделиться своими недавними изысканиями:
- весьма любопытный ресурс с весьма понятным и незатейливым интерфейсом (а то иногда без бутылки не разберешься )
Что понравилось?
Да все.
Тут и Python,
и прикладные задачи анализа данных, и даже машинное обучение от небезызвестного Евгения Соколова.
Словом, категорически агитирую вас к ознакомлению!
Еще из интересного - наткнулась на вот такой подробный разбор решения задачки про нахождение паттернов трафика на одном из самых высоконагруженных шоссе в США. Туториал очень годный, так что рекомендую к просмотру.
На сим откланиваюсь и прошу вас стряхнуть пыль со своих резюме. Новый сезон #прожарки резюме стартует уже совсем скоро!
Давно у нас с вами не было рубрики полезностей для вопрошающих, #какворватьсяваналитику .
Их, как и всегда, есть у меня!
В связи с чем, рада поделиться своими недавними изысканиями:
- весьма любопытный ресурс с весьма понятным и незатейливым интерфейсом (
Что понравилось?
Тут и Python,
и прикладные задачи анализа данных, и даже машинное обучение от небезызвестного Евгения Соколова.
Словом, категорически агитирую вас к ознакомлению!
Еще из интересного - наткнулась на вот такой подробный разбор решения задачки про нахождение паттернов трафика на одном из самых высоконагруженных шоссе в США. Туториал очень годный, так что рекомендую к просмотру.
На сим откланиваюсь и прошу вас стряхнуть пыль со своих резюме. Новый сезон #прожарки резюме стартует уже совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Concise Research (Sergey Kastryulin)
Step1X-Edit: A Practical Framework for General Image Editing
[моделька + код, отдельно GEdit бенч]
Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных.
Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.
Данные
Проблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.
Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации.
Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.
К сожалению, сам датасет не выложили, только код его подготовки.
Модель
Подход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.
Замеры
Для замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚
Результаты
Уверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.
[моделька + код, отдельно GEdit бенч]
Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных.
Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.
Данные
Проблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.
Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации.
Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.
К сожалению, сам датасет не выложили, только код его подготовки.
Модель
Подход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.
Замеры
Для замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚
Результаты
Уверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.
Forwarded from Onigiri
Какими нейросетями я пользуюсь?
Начну с моделей от OpenAI:
gpt-4o - в основном для простых общих вопросов
gpt-4.5 - одна из лучших моделей в для написания красивого текста и переводов на другие языки. 14 июля ее закроют😒
Говорят, что gemeni 2.5 pro такая же в написании текстов, а может и лучше, но я ей пока не пользовался
gpt-4.1 - использую больше для несложных технических вопросов
o3 - для сложных вопросов. Например, для решения математических задач, для продумывания архитектуры кода, для улучшения и переписывания кода, где я сам не знаю, как это сделать
o4-mini-high - сначала не обращал внимания на эту модель, но в последнее время все чаще использую вместо o3. Работает быстрее, на некоторые вопросы отвечает лучше, но не всегда. Поэтому можно один вопрос отправлять сразу и в o3, и в o4-mini-high, так еще лучше
Картинки:
gpt-image-1 - заменила для меня почти все другие генераторы картинок. Вроде как это и есть gpt-4o, которая благодаря своей мультимодальности делает изображения, но часто ее называют отдельной моделью. Это та, которая генерирует картинки в chatgpt. Но через chatgpt она генерирует их часто по 1 штуке и в неверном соотношении сторон. Гораздо удобнее ей пользоваться через их же отдельный сайт sora.com
Раньше еще пользовался Midjourney и локальным Stable Diffusion, но с появлением gpt-image-1 использую почти только его. Хотя иногда еще пользуюсь:
Photoshop - по текущим меркам встроенная модель уже так себе, но зато ей можно быстро и удобно что-то поправить
Illustartor - да, в нем тоже есть генерация картинок, да еще и векторных, что иногда бывает нужно
Вайбкодинг:
Github copilot - большую часть кода пишет за меня. Начал пользоваться им еще с бета версии и остался на нем. Еще из популярных существуют Cursor и Windsurf, у них даже многие фичи появляются раньше, но в целом, сейчас они довольно похожи.
В самом копайлоте обычно использую claude-4 - это наверно самая оптимальная на данный момент модель для кода. Реже использую gpt-4.1 для простых задач
А какими вы пользуетесь?
Начну с моделей от OpenAI:
gpt-4o - в основном для простых общих вопросов
gpt-4.5 - одна из лучших моделей в для написания красивого текста и переводов на другие языки. 14 июля ее закроют
Говорят, что gemeni 2.5 pro такая же в написании текстов, а может и лучше, но я ей пока не пользовался
gpt-4.1 - использую больше для несложных технических вопросов
o3 - для сложных вопросов. Например, для решения математических задач, для продумывания архитектуры кода, для улучшения и переписывания кода, где я сам не знаю, как это сделать
o4-mini-high - сначала не обращал внимания на эту модель, но в последнее время все чаще использую вместо o3. Работает быстрее, на некоторые вопросы отвечает лучше, но не всегда. Поэтому можно один вопрос отправлять сразу и в o3, и в o4-mini-high, так еще лучше
Картинки:
gpt-image-1 - заменила для меня почти все другие генераторы картинок. Вроде как это и есть gpt-4o, которая благодаря своей мультимодальности делает изображения, но часто ее называют отдельной моделью. Это та, которая генерирует картинки в chatgpt. Но через chatgpt она генерирует их часто по 1 штуке и в неверном соотношении сторон. Гораздо удобнее ей пользоваться через их же отдельный сайт sora.com
Раньше еще пользовался Midjourney и локальным Stable Diffusion, но с появлением gpt-image-1 использую почти только его. Хотя иногда еще пользуюсь:
Photoshop - по текущим меркам встроенная модель уже так себе, но зато ей можно быстро и удобно что-то поправить
Illustartor - да, в нем тоже есть генерация картинок, да еще и векторных, что иногда бывает нужно
Вайбкодинг:
Github copilot - большую часть кода пишет за меня. Начал пользоваться им еще с бета версии и остался на нем. Еще из популярных существуют Cursor и Windsurf, у них даже многие фичи появляются раньше, но в целом, сейчас они довольно похожи.
В самом копайлоте обычно использую claude-4 - это наверно самая оптимальная на данный момент модель для кода. Реже использую gpt-4.1 для простых задач
А какими вы пользуетесь?
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Пресидский залив
Почему технологический moat больше не работает, и что такое Levered Beta 🌊
🤝 Недавно общались с бизнес-ангелом, и он спросил, какой у нас в Aesty moat. Я, конечно, начала рассказывать про технологию и наш движок, на что он ответил:
- Нет, погоди. В технологический moat я больше не верю. Что у вас есть еще?
Тогда я быстро переключилась и рассказала ему про другие аспекты: данные, партнерства и понятный путь к быстрому acquisition-циклу. Но все равно ощущение, что мой ответ получился слегка разобранным и я почувствовала, что чего-то не хватает👎
Недавно @bogdanisssimo скинул мне статью Levered beta is all you need, которая хорошо структурировала мои мысли. Делюсь с вами😎
Раньше стартапы охотились за так называемым Alpha. Но сейчас куда важнее Levered Beta😐
Откуда вообще эти термины - Alpha, Beta и Levered Beta?
📍 Alpha - это твое уникальное преимущество за счет инсайта, технологии, опыта или патентов. Alpha — это как раз тот самый moat, о котором мы привыкли говорить в стартапах. Это то, что пытается построить каждый основатель, когда пишет в деке слово revolutionizing🧠
📍 Beta - это просто корреляция с рынком. Если рынок вырос на 10%, твой портфель с beta=1 тоже вырос на 10%. Никакого уникального вклада, но ты все равно едешь на волне🤵
📍 Levered Beta - это beta на стероидах. Ты не просто следуешь за рынком, а делаешь агрессивную ставку, занимая категорию первым. Если рынок растет на 10%, твоя ставка на 50%, потому что ты раньше и "громче" всех оседлал волну. Правда, и падать ты будешь так же быстро, но это проблема для future you🤭
В стартапах вокруг AI это особенно видно. Бигтех каждые 6–9 месяцев выкатывает новую модель, которая автоматически улучшает твой продукт. GPT-4.1 за полгода стала на 26% дешевле и быстрее. Твой дорогой технологический moat легко обесценивается за один релиз openai (😎 всем кто смотрел недавнюю трансляцию привет)
🙂 как пример - стартапы в AI sales. Они часто пишут ужасные имейлы, churn огромный, UX слабый. И тем не менее, они подняли десятки миллионов долларов и сделали миллионы выручки просто потому, что заняли категорию раньше и "громче" остальных. Это и есть Levered Beta в действии, они выигрывают не потому, что лучше, а потому что первыми встали на волну 🏄
Используя Levered Beta:
1️⃣ Ты бесплатно получаешь прирост качества от больших платформ
OpenAI и Google постоянно обновляют модели, твой продукт улучшается сам собой
2️⃣ Большие игроки сами валидируют рынок
Если раньше никто не понимал, зачем нужен AI-гардероб, то теперь Google и Snapchat уже научили рынок, и тебе остается просто предложить более персонализированное решение. Как раз чуть выше есть пост про это
3️⃣ Твой бренд становится moat-ом вместо технологии
Когда технология выравнивается, выигрывает тот, кто раньше занял место в голове пользователя. Тут, кстати, сразу вспоминается Cursor
Получается теперь в стартапах главное не первым собрать продукт, а первым залить его на Product Hunt с заголовком 'We're disrupting disruption'😁
@neural_prosecco
- Нет, погоди. В технологический moat я больше не верю. Что у вас есть еще?
Тогда я быстро переключилась и рассказала ему про другие аспекты: данные, партнерства и понятный путь к быстрому acquisition-циклу. Но все равно ощущение, что мой ответ получился слегка разобранным и я почувствовала, что чего-то не хватает
Недавно @bogdanisssimo скинул мне статью Levered beta is all you need, которая хорошо структурировала мои мысли. Делюсь с вами
Раньше стартапы охотились за так называемым Alpha. Но сейчас куда важнее Levered Beta
Откуда вообще эти термины - Alpha, Beta и Levered Beta?
📍 Alpha - это твое уникальное преимущество за счет инсайта, технологии, опыта или патентов. Alpha — это как раз тот самый moat, о котором мы привыкли говорить в стартапах. Это то, что пытается построить каждый основатель, когда пишет в деке слово revolutionizing
📍 Beta - это просто корреляция с рынком. Если рынок вырос на 10%, твой портфель с beta=1 тоже вырос на 10%. Никакого уникального вклада, но ты все равно едешь на волне
📍 Levered Beta - это beta на стероидах. Ты не просто следуешь за рынком, а делаешь агрессивную ставку, занимая категорию первым. Если рынок растет на 10%, твоя ставка на 50%, потому что ты раньше и "громче" всех оседлал волну. Правда, и падать ты будешь так же быстро, но это проблема для future you
В стартапах вокруг AI это особенно видно. Бигтех каждые 6–9 месяцев выкатывает новую модель, которая автоматически улучшает твой продукт. GPT-4.1 за полгода стала на 26% дешевле и быстрее. Твой дорогой технологический moat легко обесценивается за один релиз openai (
Используя Levered Beta:
OpenAI и Google постоянно обновляют модели, твой продукт улучшается сам собой
Если раньше никто не понимал, зачем нужен AI-гардероб, то теперь Google и Snapchat уже научили рынок, и тебе остается просто предложить более персонализированное решение. Как раз чуть выше есть пост про это
Когда технология выравнивается, выигрывает тот, кто раньше занял место в голове пользователя. Тут, кстати, сразу вспоминается Cursor
Получается теперь в стартапах главное не первым собрать продукт, а первым залить его на Product Hunt с заголовком 'We're disrupting disruption'
@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Лига Хруща // League of Hrusch
Scaling LLM training to hundreds of GPUs: a playbook from HuggingFace research.
Available as a book for pro subscription users at https://huggingface.co/nanotron, or for free (less formatted, not polished visuals) https://huggingface.co/spaces/nanotron/ultrascale-playbook/resolve/main/The_Ultra-Scale_Playbook_Training_LLMs_on_GPU_Clusters.pdf
Available as a book for pro subscription users at https://huggingface.co/nanotron, or for free (less formatted, not polished visuals) https://huggingface.co/spaces/nanotron/ultrascale-playbook/resolve/main/The_Ultra-Scale_Playbook_Training_LLMs_on_GPU_Clusters.pdf
Forwarded from Artem Ryblov’s Data Science Weekly
Linear Algebra for Data Science by Prof. Wanmo Kang and Prof. Kyunghyun Cho
Authors have been discussing over the past few years how they should teach linear algebra to students in this new era of data science and artificial intelligence.
Over these discussions, which also led to some research collaboration as well, they realized that (one of the central concepts from linear algebra that is used frequently in practice, if not every day, was) the central concepts from linear algebra invoked frequently in practice, if not every day, were projection, and consequently singular value decomposition (SVD) as well as even less frequently positive definiteness.
Unfortunately, they noticed that existing courses on linear algebra often focus much more on the invertibility (or lack thereof), to the point that many concepts are introduced not in the order of their practicality nor usefulness but in the order of the conveniences in mathematical derivations/introductions.
They began to wonder a lot whether they can introduce concepts and results in linear algebra in a radically different way.
So, here’s a new textbook on linear algebra, where they re-imagined how and in which order linear algebra could be taught.
Links:
- Site
- Book
Navigational hashtags: #armbooks
General hashtags: #math #mathematics #linearalgebra
@data_science_weekly
Authors have been discussing over the past few years how they should teach linear algebra to students in this new era of data science and artificial intelligence.
Over these discussions, which also led to some research collaboration as well, they realized that (one of the central concepts from linear algebra that is used frequently in practice, if not every day, was) the central concepts from linear algebra invoked frequently in practice, if not every day, were projection, and consequently singular value decomposition (SVD) as well as even less frequently positive definiteness.
Unfortunately, they noticed that existing courses on linear algebra often focus much more on the invertibility (or lack thereof), to the point that many concepts are introduced not in the order of their practicality nor usefulness but in the order of the conveniences in mathematical derivations/introductions.
They began to wonder a lot whether they can introduce concepts and results in linear algebra in a radically different way.
So, here’s a new textbook on linear algebra, where they re-imagined how and in which order linear algebra could be taught.
Links:
- Site
- Book
Navigational hashtags: #armbooks
General hashtags: #math #mathematics #linearalgebra
@data_science_weekly
Forwarded from Тагир Анализирует
ШАД регулярно проводит классные активности – в этот раз ребята проводили бесплатный интенсив по А/Б тестированию. Если пропустили – не страшно, все материалы уже выложены, а к ним можно будет вернуться перед нужным собесом
Я рассказывал об интенсиве у себя в канале и предложил в комментах сделать отдельный чятик для участников моего канала. Не знал, будет ли такое от организаторов
Оказалось, у организаторов тоже был такой чатик, но чуть больше. В моменте в моем чате было 180 человек при 1400 в чате организаторов – офигенно большой процент (13%), хорошее здесь комьюнити собралось!!!
Ладно, что по материалам. Макс выложил большую подборку статей про а/б тесты от крупных компаний. Диля (лектор интенсива) тоже поделилась своей подборкой статей
Сами лекции и ссылки на них:
Статистика для A/B‑тестов: важные на практике распределения, параметры и оценки, гипотезы и статистические критерии, t‑критерий Стьюдента
Ошибки I и II рода, MDE. Одновыборочный критерий Колмогорова-Смирнова. Тест Шапиро-Уилка. Синтетические АА‑тесты для проверки валидности статистического критерия
Сравнение распределения двух выборок: двухвыборочный критерий Колмогорова-Смирнова, тест Манна-Уитни. Метрики отношения. Мощность теста и сравнение критериев между собой (синтетические А/B‑тесты)
Доверительные интервалы для метрик отношения, процентных изменений (uplift), персентилей. Методы повышения чувствительности метрик: работа с выбросами, CUPED
Методы повышения чувствительности метрик: стратификация, постстратификация. Проблема множественного тестирования. Проблема подглядывания и групповой последовательный тест (GST). Альтернативный метод работы с данными – Байес. Флоу анализа A/B‑тестов
Сохраняйте пост и возвращайтесь к нему, когда захотите заботать или освежить в памяти а/б тесты. Делитесь впечатлениями об интенсиве в комментариях, если участвовали
@tagir_analyzes
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Tensor Banana
Говорящий видео аватар в Silly Tavern (F5 TTS + Float / wav2lip)
- wav2lip (первое видео) - делает липсинк по видео + аудио (старый, быстрый, можно дать видео на вход, на выходе разрешение небольшое, видео размытое)
- Float (второе видео) - делает липсинк по картинке + аудио (новый, не очень быстрый, не умеет брать видео на вход, на выход квадрат 512х512)
# Установка
Нужно:
- свежая версия Silly Tavern (1.13.2, вышла 3 недели назад. До этого поддержки видео не было)
- ComfyUI и кастомные ноды: ComfyUI-F5-TTS, ComfyUI_wav2lip, ComfyUI-FLOAT_Optimized. Ноды устанавливать через ComfyUI Manager - via URL.
Русский язык в F5-TTS в комфи
нода: https://github.com/niknah/ComfyUI-F5-TTS
скачать русский файнтюн от misha24-10:
https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base_v2/model_last_inference.safetensors
https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base/vocab.txt
оба файла положить в папку models/checkpoints/F5-TTS/
оба файла переименовать в ru.safetensors и ru.txt
Референсное аудио для F5 должно быть коротким, 6-8 c. При 11 c - речь становится слишком быстрой.
в папку /comfyUI/input положить 2 файла emma_ru_xtts_3.wav и emma_ru_xtts_3.txt: https://github.com/Mozer/comfy_stuff/tree/main/input
в emma_ru_xtts_3.txt лежит текст сказанный в wav файле.
в комфи в ноде F5 TTS audio advanced выбрать:
model model:///ru.safetensors
model_type: F5TTS_v1_Base
sample_audio: emma_ru_xtts_3
# Float (говорящая голова по одной картинке) в комфи
- нода: https://github.com/set-soft/ComfyUI-FLOAT_Optimized
- на входе лицо должно смотреть строго прямо. Сверху кадра должно оставаться немного свободного места.
- галка face_align обрежет лицо как надо. Без нее будут артефакты.
- нет video2video, на вход только картинка
- Потоковый режим я пока не прикрутил. С ним можно сократить время ожидания в 2 раза.
- модельки скачаются сами при первом запуске
- пример головы: https://github.com/Mozer/comfy_stuff/blob/main/input/ComfyUI_00463_2(2).jpg
# Wav2lip в комфи
- моя нода: https://github.com/Mozer/ComfyUI_wav2lip - прикрутил кэширование для скорости и пару настроек для удобства.
- скачать модельку https://huggingface.co/Nekochu/Wav2Lip/blob/main/wav2lip_gan.pth и положить в \custom_nodes\ComfyUI_wav2lip\Wav2Lip\checkpoints
- без модели нода не запустится. Перезагрузить ComfyUI (restart).
- при первом запуске с новым видео обнаружение лица занимает около минуты.
- примера видео не дам, сами найдете
# Мои воркфлоу:
(F5 + Wav2lip) и (F5 + Float): https://github.com/Mozer/comfy_stuff/tree/main/workflows/silly_tavern
Скачать нужный ВФ и запустить в комфи. Проверить, что все работает, и он видит вашу картинку/видео. Затем нажать: верхнее меню - workflow -> Export (API)
Далее ВАШ воркфлоу можно импортировать в silly Tavern. Мой ВФ импортировать в ST не надо, там указаны мои имена файлов, их у вас нет.
# Настройка SillyTavern
Меню Extensions -> Image generation:
Source: comfyUI
URL: https://127.0.0.1:8188
Очищаем поля "Common prompt prefix" и "Negative common prompt prefix"
ComfyUI Workflow: жмем +. Пишем "F5_Wav2lip", вставляем ваш экспортированный воркфлоу.
Проверяем/заменяем, что вместо "speech": "Какой-то текст", стоит "speech": "%prompt%", так мы будем передавать текст сообщения из silly в comfy.
Верхнее меню - User Settings - Expand Message Actions (для удобства)
- Вместо F5 TTS можно поставить XTTSv2 (в комфи я не тестил, но видел ноды).
- на видео LLM - sainemo-remix-12b
Скорость на 3090 для аудио длиной 13-17 секунд:
- F5 + wav2lip - 17 секунд генерации, связка жрет 3 GB VRAM
- F5 + Float - 55 секунд генерации, связка жрет 10 GB VRAM
- На 3060: на 5 секунд дольше.
Планирую добавить стриминг режим для Float, будет в 2 раза быстрее, но видео будет отображаться в отельном окне.
- wav2lip (первое видео) - делает липсинк по видео + аудио (старый, быстрый, можно дать видео на вход, на выходе разрешение небольшое, видео размытое)
- Float (второе видео) - делает липсинк по картинке + аудио (новый, не очень быстрый, не умеет брать видео на вход, на выход квадрат 512х512)
# Установка
Нужно:
- свежая версия Silly Tavern (1.13.2, вышла 3 недели назад. До этого поддержки видео не было)
- ComfyUI и кастомные ноды: ComfyUI-F5-TTS, ComfyUI_wav2lip, ComfyUI-FLOAT_Optimized. Ноды устанавливать через ComfyUI Manager - via URL.
Русский язык в F5-TTS в комфи
нода: https://github.com/niknah/ComfyUI-F5-TTS
скачать русский файнтюн от misha24-10:
https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base_v2/model_last_inference.safetensors
https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base/vocab.txt
оба файла положить в папку models/checkpoints/F5-TTS/
оба файла переименовать в ru.safetensors и ru.txt
Референсное аудио для F5 должно быть коротким, 6-8 c. При 11 c - речь становится слишком быстрой.
в папку /comfyUI/input положить 2 файла emma_ru_xtts_3.wav и emma_ru_xtts_3.txt: https://github.com/Mozer/comfy_stuff/tree/main/input
в emma_ru_xtts_3.txt лежит текст сказанный в wav файле.
в комфи в ноде F5 TTS audio advanced выбрать:
model model:///ru.safetensors
model_type: F5TTS_v1_Base
sample_audio: emma_ru_xtts_3
# Float (говорящая голова по одной картинке) в комфи
- нода: https://github.com/set-soft/ComfyUI-FLOAT_Optimized
- на входе лицо должно смотреть строго прямо. Сверху кадра должно оставаться немного свободного места.
- галка face_align обрежет лицо как надо. Без нее будут артефакты.
- нет video2video, на вход только картинка
- Потоковый режим я пока не прикрутил. С ним можно сократить время ожидания в 2 раза.
- модельки скачаются сами при первом запуске
- пример головы: https://github.com/Mozer/comfy_stuff/blob/main/input/ComfyUI_00463_2(2).jpg
# Wav2lip в комфи
- моя нода: https://github.com/Mozer/ComfyUI_wav2lip - прикрутил кэширование для скорости и пару настроек для удобства.
- скачать модельку https://huggingface.co/Nekochu/Wav2Lip/blob/main/wav2lip_gan.pth и положить в \custom_nodes\ComfyUI_wav2lip\Wav2Lip\checkpoints
- без модели нода не запустится. Перезагрузить ComfyUI (restart).
- при первом запуске с новым видео обнаружение лица занимает около минуты.
- примера видео не дам, сами найдете
# Мои воркфлоу:
(F5 + Wav2lip) и (F5 + Float): https://github.com/Mozer/comfy_stuff/tree/main/workflows/silly_tavern
Скачать нужный ВФ и запустить в комфи. Проверить, что все работает, и он видит вашу картинку/видео. Затем нажать: верхнее меню - workflow -> Export (API)
Далее ВАШ воркфлоу можно импортировать в silly Tavern. Мой ВФ импортировать в ST не надо, там указаны мои имена файлов, их у вас нет.
# Настройка SillyTavern
Меню Extensions -> Image generation:
Source: comfyUI
URL: https://127.0.0.1:8188
Очищаем поля "Common prompt prefix" и "Negative common prompt prefix"
ComfyUI Workflow: жмем +. Пишем "F5_Wav2lip", вставляем ваш экспортированный воркфлоу.
Проверяем/заменяем, что вместо "speech": "Какой-то текст", стоит "speech": "%prompt%", так мы будем передавать текст сообщения из silly в comfy.
Верхнее меню - User Settings - Expand Message Actions (для удобства)
- Вместо F5 TTS можно поставить XTTSv2 (в комфи я не тестил, но видел ноды).
- на видео LLM - sainemo-remix-12b
Скорость на 3090 для аудио длиной 13-17 секунд:
- F5 + wav2lip - 17 секунд генерации, связка жрет 3 GB VRAM
- F5 + Float - 55 секунд генерации, связка жрет 10 GB VRAM
- На 3060: на 5 секунд дольше.
Планирую добавить стриминг режим для Float, будет в 2 раза быстрее, но видео будет отображаться в отельном окне.
Forwarded from Aspiring Data Science (Anatoly Alekseev)
#featureimportances
Отправил клиенту несколько обученных ML моделек. Он говорит - запилю-ка я метамодельку поверх. И присылает данные по важностям метапризнаков, которые он навайбкодил за пару дней. У меня аж челюсть хлопнула. Говорю, мол, и кто из нас после этого дата-сайентист? )
Отправил клиенту несколько обученных ML моделек. Он говорит - запилю-ка я метамодельку поверх. И присылает данные по важностям метапризнаков, которые он навайбкодил за пару дней. У меня аж челюсть хлопнула. Говорю, мол, и кто из нас после этого дата-сайентист? )
Forwarded from Aspiring Data Science Chat
feature_analyzer.py
19.6 KB
Ага. Универсальный с примерами делать нет сил, но, думаю, с небольшими адаптациями можно запустить на своих данных.
Forwarded from Инжиниринг Данных (Dmitry)
Все знакомы с понятием Ad-hoc запросов. Обычно мы воспринимаем их негативно, так как они отвлекают, время-то и так мало.
На самом деле, ad-hoc запросы могут бысть источником quick wins, и способом быстро показать impact и завоевать доверие (earn trust).
Ad-hoc — это не бардак. Это VIP-запросы, которые показывают: вам доверяют. Ваша задача - не утонуть, а превратить это в рычаг для влияния.
Вот пример фреймфорка:
1. Принять быстро
Ответ в течение пары минут (или автоответ, если в фокусе) показывает: у нас есть процесс, а не паника.
2. Быстрое фильтрование (2 минуты):
- Это повлияет на $Xk+ или стратегию?
- Нужно на этой неделе для принятия решений?
- Делается за полдня одним аналитиком?
- Если да → делаем. Если нет - в бэклог с пометкой по приоритету.
3. Минимум, но по делу
- Отправляем краткий инсайт, график или SQL - что реально помогает. Повторилось 3 раза? → автоматизация.
📌 Чтобы не сгореть:
- Назначаем on-call-аналитика/инженера (10% времени спринта)
- Не забываем про ротацию и отслеживание нагрузки
- Повторяемые запросы → обучающие материалы или дашборды
Эскалации - через менеджера, не через «договорился в курилке».
На самом деле, ad-hoc запросы могут бысть источником quick wins, и способом быстро показать impact и завоевать доверие (earn trust).
Ad-hoc — это не бардак. Это VIP-запросы, которые показывают: вам доверяют. Ваша задача - не утонуть, а превратить это в рычаг для влияния.
Вот пример фреймфорка:
1. Принять быстро
Ответ в течение пары минут (или автоответ, если в фокусе) показывает: у нас есть процесс, а не паника.
2. Быстрое фильтрование (2 минуты):
- Это повлияет на $Xk+ или стратегию?
- Нужно на этой неделе для принятия решений?
- Делается за полдня одним аналитиком?
- Если да → делаем. Если нет - в бэклог с пометкой по приоритету.
3. Минимум, но по делу
- Отправляем краткий инсайт, график или SQL - что реально помогает. Повторилось 3 раза? → автоматизация.
📌 Чтобы не сгореть:
- Назначаем on-call-аналитика/инженера (10% времени спринта)
- Не забываем про ротацию и отслеживание нагрузки
- Повторяемые запросы → обучающие материалы или дашборды
Эскалации - через менеджера, не через «договорился в курилке».