Мои знакомые (ex-deepcake) выпустили AI-сервис Rask.ai для локализации видео-контента на 50+ языках в несколько кликов.
На Rask.ai можно перевести видео длинной до минуты с любого языка на английский бесплатно.
Скоро обещают ещё и липсинк приделать. Такой сервис для блогеров и ютуберов – то что нужно, чтобы распространить свой контент на более широкую аудиторию.
На прикрепленных видео я перевел русский оригинал на английский и японский с помощью rask.
Кстати, ребята сейчас пытаются подняться в ранке на product hunt. Поддержать команду, а также попробовать продукт и дать фидбэк можно по ссылке.
@ai_newz
На Rask.ai можно перевести видео длинной до минуты с любого языка на английский бесплатно.
Скоро обещают ещё и липсинк приделать. Такой сервис для блогеров и ютуберов – то что нужно, чтобы распространить свой контент на более широкую аудиторию.
На прикрепленных видео я перевел русский оригинал на английский и японский с помощью rask.
Кстати, ребята сейчас пытаются подняться в ранке на product hunt. Поддержать команду, а также попробовать продукт и дать фидбэк можно по ссылке.
@ai_newz
🔥Stability.ai релизнули новую модель SDXL beta!
По слухам, новая модель имеет 2.3-2.4 B параметров, что в несколько раз больше чем предыдущая версия. Других подробностей пока нет.
Чтобы попробовать SDXL дают совсем немного бесплатных кредитов. Я потестил, и на мой взгляд, качестве сильно увеличилось, ещё лучше генерит иллюстрации. Но в этой модели сильно подкрутили фильтры и возможно порешали датасет. Теперь она не понимает некоторые известные имена. Вместо Яна ЛеКуна генерит азиата, хотя и слегка похожего на Яна.
Уходит примерно 8 сек, чтобы сгенерить 4 картинки за 50 шагов.
Интересно посмотреть, зарелизят ли веса этой модели, или кончилась эпоха щедрости?
Попробовать SDXL тут.
@ai_newz
По слухам, новая модель имеет 2.3-2.4 B параметров, что в несколько раз больше чем предыдущая версия. Других подробностей пока нет.
Чтобы попробовать SDXL дают совсем немного бесплатных кредитов. Я потестил, и на мой взгляд, качестве сильно увеличилось, ещё лучше генерит иллюстрации. Но в этой модели сильно подкрутили фильтры и возможно порешали датасет. Теперь она не понимает некоторые известные имена. Вместо Яна ЛеКуна генерит азиата, хотя и слегка похожего на Яна.
Уходит примерно 8 сек, чтобы сгенерить 4 картинки за 50 шагов.
Интересно посмотреть, зарелизят ли веса этой модели, или кончилась эпоха щедрости?
Попробовать SDXL тут.
@ai_newz
Media is too big
VIEW IN TELEGRAM
Segment Anything
[Meta AI]
Итак, ребята, что там по сегментации? Кажется, теперь не придется тренировать новую модель сегментации под каждую отдельную задачу (sic!). Мой товарищ Алекс Кириллов и коллеги из Meta AI разработали фундаментальную модель для сегментации картинок, которая может многое.
Из коробки модель Segment Anything (SA) умеет в сегментацию объектов по промпту. Промпт может быть текстовым, либо несколько точек, либо выделенная область.
SA выучила общую концепцию объектов и может генерировать маски для любого объекта на любом изображении или видео, даже включая объекты и типы изображений, которых не было в трейне. Она готова к использованию на разных "доменах" без дополнительного обучения".
Выход Segment Anything - это что-то вроде "GPT-3 момента" для сегментации. Когда можно взять большую общую модель и она сразу будет работать не хуже, а то и лучше (если данных мало), чем специализированная модель.
Мало того, веса и код модели полностью открыты!
Сайт проекта
Demo
@ai_newz
[Meta AI]
Итак, ребята, что там по сегментации? Кажется, теперь не придется тренировать новую модель сегментации под каждую отдельную задачу (sic!). Мой товарищ Алекс Кириллов и коллеги из Meta AI разработали фундаментальную модель для сегментации картинок, которая может многое.
Из коробки модель Segment Anything (SA) умеет в сегментацию объектов по промпту. Промпт может быть текстовым, либо несколько точек, либо выделенная область.
SA выучила общую концепцию объектов и может генерировать маски для любого объекта на любом изображении или видео, даже включая объекты и типы изображений, которых не было в трейне. Она готова к использованию на разных "доменах" без дополнительного обучения".
Выход Segment Anything - это что-то вроде "GPT-3 момента" для сегментации. Когда можно взять большую общую модель и она сразу будет работать не хуже, а то и лучше (если данных мало), чем специализированная модель.
Мало того, веса и код модели полностью открыты!
Сайт проекта
Demo
@ai_newz
Segment Anything: Архитектура
Структура модели:
Тут все по классике - большие трансформеры и кросс-аттеншены.
1. Encoder изображений ViT-H, который обрабатывает каждое изображение и выдает фичи.
2. Encoder запросов, который обрабатывает входные промпты, такие как клики, боксы или текст.
3. Легкий декодер на основе трансформера, который предсказывает маски объектов на основе фичей изображения и запросов.
Размер модели:
Image Encoder содержит 632M параметров.
Encoder запросов и decoder масок содержат 4M параметров. Это позволяет посчитать фичи картинки на GPU (0.15s на A100), и гонять все остальное реалиайм на CPU прямо в браузере (50ms на запрос).
Модель обучалась в течение 3-5 дней на 256 GPU A100, что не особо много в современных реалиях, когда SD или GPT-4 обучаются месяцами.
Для мощной генерализации модель нужно обучать на огромном датасете. Так вот авторы собрали и опубликовали самый большой датасет по сегментации: 1 млрд масок на 11 млн изображений. Его и использовали для обучения.
@ai_newz
Структура модели:
Тут все по классике - большие трансформеры и кросс-аттеншены.
1. Encoder изображений ViT-H, который обрабатывает каждое изображение и выдает фичи.
2. Encoder запросов, который обрабатывает входные промпты, такие как клики, боксы или текст.
3. Легкий декодер на основе трансформера, который предсказывает маски объектов на основе фичей изображения и запросов.
Размер модели:
Image Encoder содержит 632M параметров.
Encoder запросов и decoder масок содержат 4M параметров. Это позволяет посчитать фичи картинки на GPU (0.15s на A100), и гонять все остальное реалиайм на CPU прямо в браузере (50ms на запрос).
Модель обучалась в течение 3-5 дней на 256 GPU A100, что не особо много в современных реалиях, когда SD или GPT-4 обучаются месяцами.
Для мощной генерализации модель нужно обучать на огромном датасете. Так вот авторы собрали и опубликовали самый большой датасет по сегментации: 1 млрд масок на 11 млн изображений. Его и использовали для обучения.
@ai_newz
Хотите получить ценные знания из области машинного обучения и аналитики от эксперта и опытного менеджера? Рекомендую присоединиться к каналу Валеры Бабушкина @cryptovalerii
Валера - бывший топ-менеджер одного из крупнейших офлайн-ритейлеров и руководитель команд в Facebook(тоже бывший). На его канале вы найдете множество полезных материалов на такие темы как компенсации и ожидания от различных уровней в BigTech, разбор статей и алгоритмов, подготовка к собеседованию, системный дизайн и многое другое.
Ознакомьтесь с его LinkedIn профилем здесь и убедитесь в его опыте самостоятельно.
Не пропустите возможность послушать Валеру и его гостей о том, что несет нам будущее в этот четверг
@ai_newz
Валера - бывший топ-менеджер одного из крупнейших офлайн-ритейлеров и руководитель команд в Facebook(тоже бывший). На его канале вы найдете множество полезных материалов на такие темы как компенсации и ожидания от различных уровней в BigTech, разбор статей и алгоритмов, подготовка к собеседованию, системный дизайн и многое другое.
Ознакомьтесь с его LinkedIn профилем здесь и убедитесь в его опыте самостоятельно.
Не пропустите возможность послушать Валеру и его гостей о том, что несет нам будущее в этот четверг
@ai_newz
Telegram
Время Валеры
В четверг, 13 апреля, в 15 по Лондону делаем аудио чат в этом канале вместе с Игорем планируем разбирать различные твиты и контр-твиты, вроде этого, где делаются следующие заявление:
Relax.
The industrial revolution changed every aspect of daily life for…
Relax.
The industrial revolution changed every aspect of daily life for…
This media is not supported in your browser
VIEW IN TELEGRAM
Я протестил модельку Segment Anything у себя в браузере.
Запустил на картине Питера Брейгеля Старшего, который страсть как любил рисовать много мелких деталей. И вот, что получилось: Хоть в тренировочном датасете не было картин, модель хорошо сравляется сегментацией и нарисованых объектов. Иногда, когда одной точки не хватает, чтобы полность выделить объект, нужно кликнуть еще разок, либо выделить боксом.
Пока я двигал мышкой, prompt encoder и mask decoder крутились в реальном времени локально у меня на CPU.
Кстати, модель Segment Anything можно неплохо склеить в единый пайплайн с Instance деткекторами. Детктор будет выплевывать боксы, а SA будет выдавать маски по заданным боксам.
Или еще лучше. Для артистов: Вы текстом говорите, что поменять и как, затем Segment Anуthing выдает маску, а Stable Diffusion по маске генерит измененный регион в желаемом виде. Ждите скоро на просторах интернета.
Демка тут.
@ai_newz
Запустил на картине Питера Брейгеля Старшего, который страсть как любил рисовать много мелких деталей. И вот, что получилось: Хоть в тренировочном датасете не было картин, модель хорошо сравляется сегментацией и нарисованых объектов. Иногда, когда одной точки не хватает, чтобы полность выделить объект, нужно кликнуть еще разок, либо выделить боксом.
Пока я двигал мышкой, prompt encoder и mask decoder крутились в реальном времени локально у меня на CPU.
Кстати, модель Segment Anything можно неплохо склеить в единый пайплайн с Instance деткекторами. Детктор будет выплевывать боксы, а SA будет выдавать маски по заданным боксам.
Или еще лучше. Для артистов: Вы текстом говорите, что поменять и как, затем Segment Anуthing выдает маску, а Stable Diffusion по маске генерит измененный регион в желаемом виде. Ждите скоро на просторах интернета.
Демка тут.
@ai_newz
Альтернативные интерфейсы для ChatGPT
Пытался найти сторонний вариант интерфейса для бесед с ChatGPT, так как стал пользоваться им каждый день. Свой интерфейс на LangChain писать лень, поэтому проделал небольшой ресерч и оформил это в развернутый пост.
Итог: нашел класный тул на Rust, который позволяет вызывать ChatGPT из терминала.
Напишите в комментах, если есть какие-то хорошие враперы над ChatGPT, которыми пользуетесь.
Читать пост.
@ai_newz
Пытался найти сторонний вариант интерфейса для бесед с ChatGPT, так как стал пользоваться им каждый день. Свой интерфейс на LangChain писать лень, поэтому проделал небольшой ресерч и оформил это в развернутый пост.
Итог: нашел класный тул на Rust, который позволяет вызывать ChatGPT из терминала.
Напишите в комментах, если есть какие-то хорошие враперы над ChatGPT, которыми пользуетесь.
Читать пост.
@ai_newz
Teletype
Альтернативные интерфейсы для ChatGPT
Вас тоже бесит, что на chat.openai.com нужно каждый день логинитсья заново? В последнее время я всегда держу ChatGPT открытой...
Stable Diffusion + Grounding DINO + Segment Anything = Grounded-Segment-Anything
Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion.
Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой неделе.
Grounded-SAM — это проект, который объединил несколько моделей для контролируемого редактирования отдельных регионов изоюражания.
Segment Anything - мощная модель сегментации, но требует подсказок (таких как рамки/точки) для создания масок.
Grounding DINO - сильный zero-shot детектор, способный выдавать качественные рамки по текстову промпту.
Объединив, Grounding DINO и SA, мы можем по текстовому промпту генерировать маску, отвечающую описанию, а затем подавать картинку с маской в Stable Diffusion (или другую txt2img модель) и редактировать заданный регион.
Применять можно как в художествах, так и для генерации множества синтетических, но реалистичных аугментаций для тренировки других моделей.
Код на гитхабе.
@ai_newz
Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion.
Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой неделе.
Grounded-SAM — это проект, который объединил несколько моделей для контролируемого редактирования отдельных регионов изоюражания.
Segment Anything - мощная модель сегментации, но требует подсказок (таких как рамки/точки) для создания масок.
Grounding DINO - сильный zero-shot детектор, способный выдавать качественные рамки по текстову промпту.
Объединив, Grounding DINO и SA, мы можем по текстовому промпту генерировать маску, отвечающую описанию, а затем подавать картинку с маской в Stable Diffusion (или другую txt2img модель) и редактировать заданный регион.
Применять можно как в художествах, так и для генерации множества синтетических, но реалистичных аугментаций для тренировки других моделей.
Код на гитхабе.
@ai_newz
эйай ньюз
Stable Diffusion + Grounding DINO + Segment Anything = Grounded-Segment-Anything Вчера я пислал про то, как было бы круто поженить Segment Anything и Stable Diffusion. Это свершилось, и свершилось довольно быстро, учитывая, что SA только вышла на прошлой…
This media is not supported in your browser
VIEW IN TELEGRAM
Segment Anything + Stable Diffusion в Automatic1111
Как вы и просили, уже появилось расширение для Automatic1111*, которое позволяет использовать модель Segment Anything для быстрого редактирования выбранных регионов картинки! Нужно только кликнуть мышкой и SA автоматически выдаст маску.
Автор репозитория планирует добавить еще Grounded-Segment-Anything (см. предыдущий пост), чтобы можно было получать маску по текстовому промпту.
* Automatic1111 — самый мощный web GUI для Stable Diffusion, который можно запускать как локально, так и на сервере. Ну, вы и так в курсе.
❱❱ Код расширения
Как вы и просили, уже появилось расширение для Automatic1111*, которое позволяет использовать модель Segment Anything для быстрого редактирования выбранных регионов картинки! Нужно только кликнуть мышкой и SA автоматически выдаст маску.
Автор репозитория планирует добавить еще Grounded-Segment-Anything (см. предыдущий пост), чтобы можно было получать маску по текстовому промпту.
* Automatic1111 — самый мощный web GUI для Stable Diffusion, который можно запускать как локально, так и на сервере. Ну, вы и так в курсе.
❱❱ Код расширения
Все-таки, при всей закрытости OpenAI сейчас (какой оксиморон), они не всегда были такими. Во многом благодаря им мы получили такое быстрое развитие открытых text2image моделей вроде GLIDE и Stable Diffusion.
Ведь это OpenAI два года назад выложили на GitHub код guided-diffusion из статьи Diffusion Models Beat GANs on Image Synthesis. Ну, а там пошло-поехало, их код перекочевал в сотни репозиториев, в том числе в Latent Diffusion (Stable Diffusion), дав большой толчок в развитии.
@ai_newz
Ведь это OpenAI два года назад выложили на GitHub код guided-diffusion из статьи Diffusion Models Beat GANs on Image Synthesis. Ну, а там пошло-поехало, их код перекочевал в сотни репозиториев, в том числе в Latent Diffusion (Stable Diffusion), дав большой толчок в развитии.
@ai_newz
Telegram
эйай ньюз
Очередная крутая работа от OpenAI: Diffusion Models Beat GANs on Image Synthesis. SOTA для генерации картинок на ImageNet
Предлагается новый тип генеративных моделей — вероятностная модель диффузии (Diffusion Probabilistic Model), для краткости «диффузионная…
Предлагается новый тип генеративных моделей — вероятностная модель диффузии (Diffusion Probabilistic Model), для краткости «диффузионная…
🚀Dolly 2.0 – первая открытая 12B Chat-LLM, которую можно использовать в коммерческих продуктах
Databricks удивили! Ребята заметили, что все опен-соурсные ChatGPT-клоны либо используют LLaMA, в которой некоммерческая лицензия, либо используют данные, которые запрещают коммерческое использование (как например датасет инструкций от Alpaca, сгенерированный с помощью GPT-3).
В чем преимущество OpenAI перед опен-суорсом, если не брать в расчет размер GPU кластера? В данных. Чтобы дообучить ChatGPT было собрано много качественных диалогов и иструкций от реальных людей, ну, и плюс RL from Human Feedback (RLHF), где люди оценивали ответы языковой модели.
Было решено собрать свой датасет. В Databricks работает ≈5000 человек, их всех и попросили написать вручную несколько семплов для обучения клона ChatGPT. Нужно было составить качественные пары Вопрос-Ответ, либо Инструкция-Ответ, на которых можно было бы добучить опенсоурсную авторегрессионную LLM, которая умеет просто продолжать текст, а не вести диалог. В итоге с помощью пряников в виде бонусов за написание лучших примеров, было собран высококачественный датасет на 15000 семплов!
Далее, они взяли свежу языковую модель Pythia-12B от EleutherAI с MIT лицензией и дообучили на своем датасете, получив Dolly 2.0* которую тоже зарелизили под MIT лицензией вместе с кодом и весами. Разве не прелесть?
Умельцы уже кванитизовали Dolly 2.0 в 4 бита и ускорлили для запуска на CPU. Теперь ждём шага от OpenAssistant, которые по слухам зарелизят свою модел в ближайшие дни.
*Dolly 1.0 была обучена на тех же инструкциях, что и Alpaca.
Блогпост про Dolly 2.0
@ai_newz
Databricks удивили! Ребята заметили, что все опен-соурсные ChatGPT-клоны либо используют LLaMA, в которой некоммерческая лицензия, либо используют данные, которые запрещают коммерческое использование (как например датасет инструкций от Alpaca, сгенерированный с помощью GPT-3).
В чем преимущество OpenAI перед опен-суорсом, если не брать в расчет размер GPU кластера? В данных. Чтобы дообучить ChatGPT было собрано много качественных диалогов и иструкций от реальных людей, ну, и плюс RL from Human Feedback (RLHF), где люди оценивали ответы языковой модели.
Было решено собрать свой датасет. В Databricks работает ≈5000 человек, их всех и попросили написать вручную несколько семплов для обучения клона ChatGPT. Нужно было составить качественные пары Вопрос-Ответ, либо Инструкция-Ответ, на которых можно было бы добучить опенсоурсную авторегрессионную LLM, которая умеет просто продолжать текст, а не вести диалог. В итоге с помощью пряников в виде бонусов за написание лучших примеров, было собран высококачественный датасет на 15000 семплов!
Далее, они взяли свежу языковую модель Pythia-12B от EleutherAI с MIT лицензией и дообучили на своем датасете, получив Dolly 2.0* которую тоже зарелизили под MIT лицензией вместе с кодом и весами. Разве не прелесть?
generatetext = pipeline(model="databricks/dolly-v2-12b", torchdtype=torch.bfloat16, trustremotecode=True, devicemap="auto")
generatetext("Who is Shcmidhuber?")
Умельцы уже кванитизовали Dolly 2.0 в 4 бита и ускорлили для запуска на CPU. Теперь ждём шага от OpenAssistant, которые по слухам зарелизят свою модел в ближайшие дни.
*Dolly 1.0 была обучена на тех же инструкциях, что и Alpaca.
Блогпост про Dolly 2.0
@ai_newz
Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields
На днях барон всех нерфов, Джон Баррон, опубликовал еще одну статью, гдеразъебал сильно улучшил 3D реконструкцию и рендеринг больших сцен.
Серьезно, имя Джона Баррона нужно знать, если интересуетесь нейронным рендерингом. Чел работает Senior Staff Research Scientist в Google и опубликовал более 20 статей по теме за последние пару лет.
В новом методе он объединил
медленный, но мощный mip-NeRF 360, который решает проблему алиасинга при рендеринге объектов разного масштаба, и быструю модель Instant NGP, которая работает на воксельных гридах. Для вычисления цвета пикселя Mip-Nerf использует конусовидные фрустумы вместо трейсинга лучей, однако такой трюк не получится заюзать в лоб с методами, работающими на воксельных сетках. В Zip-Nerf барон изворачивается и эту проблему решает.
Качество рендеринга улучшилось на 8%–76%, а тренировка ускорена в 22 раза по сравнению с mip-NeRF 360.
Сайт проекта
Вот ещё ссылка на либу с GUI для разных нерфов
@ai_newz
На днях барон всех нерфов, Джон Баррон, опубликовал еще одну статью, где
Серьезно, имя Джона Баррона нужно знать, если интересуетесь нейронным рендерингом. Чел работает Senior Staff Research Scientist в Google и опубликовал более 20 статей по теме за последние пару лет.
В новом методе он объединил
медленный, но мощный mip-NeRF 360, который решает проблему алиасинга при рендеринге объектов разного масштаба, и быструю модель Instant NGP, которая работает на воксельных гридах. Для вычисления цвета пикселя Mip-Nerf использует конусовидные фрустумы вместо трейсинга лучей, однако такой трюк не получится заюзать в лоб с методами, работающими на воксельных сетках. В Zip-Nerf барон изворачивается и эту проблему решает.
Качество рендеринга улучшилось на 8%–76%, а тренировка ускорена в 22 раза по сравнению с mip-NeRF 360.
Сайт проекта
Вот ещё ссылка на либу с GUI для разных нерфов
@ai_newz