Мишин Лернинг 🇺🇦🇮🇱
7.89K subscribers
1.17K photos
141 videos
4 files
635 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
🫦 OpenAI обучили и опенсорснули трансформер Whisper для распознавания речи

TL;DR
>>> OpenAI обучили и выложили нейронную сеть Whisper, которая приближается к человеческому уровню распознавания английской речи.

🫦 Whisper это трансформер, обученный на 680,000 часах мультиязычной речи, собранной из интеренета. Такой огромный датасет позволил получить модель, устойчивую к разным акцентам, фоновому шуму, и понимающую технический язык. Кроме того, модель может не просто траскрибировать иностранную речь, а сразу переводить ее на английский язык!

🦾 Архитектура Whisper

1) Аудио семплы разбиваются на чанки по 30 секунд, которые преобразуются log-Mel спектрограмму

2) Затем спектрограмма обрабатывается двумя блоками 1D сверток c GELU активациями, к которым добавляются тригонометрические тайм-эмбеддинги

3) Затем все это добро подается в энкодер-декодер трансформер. Декодер же в свою очередь начинает транскрипцию после пары служебных токенов, отвечающих за язык семпла, время, и выбор задачи (перевод на английский или оригинальная траскрипция).

📇 Blog пост от OpenAI
📄 paper Whisper
💻 Код
🤗 Model Card

p.s.: В свете опенсорса stable diffusion, OpenAI решили прикунуться чуть-чуть open. Но не стоит питать иллюзий по поводу GPT-4

🤖 м и ш и н л е р н и н г
51👍71🔥1🏆1
😂 Keras обернул собой Stable Diffusion

что не сделает умирающий керас, чтобы хоть еще чуть-чуть удержаться за "жизнь"

👉 https://github.com/keras-team/keras-cv/pull/828

🤖 м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
33🌚10🕊4💯3❤‍🔥1👍1👎1🔥1
🪖 Стебель Диффузии добрался и до Юлии Латыниной

Листаю ютуб, а там такая обложка к видео про «частично-волновую» могилизацию создана в сервисе миджерни. Рад, что Латыниной зашло.

Прогресс и ИИ уже не остановить. Генерации действительно повсеместно заменяют иллюстрации.

🤖 м и ш и н л е р н и н г
👍56👎32🔥10💯1🏆1
Forwarded from AI для Всех
Всех подписчиков с Новым Годом. Рош-ха-Шана самеах!
❤‍🔥58👍8👎3🙏2💋2
😐 Полиглот от EleutherAI

В рамках нашей работы по демократизации и расширению доступа к языковым моделям во всем мире сформировалась команда Polyglot, лаба в EleutherAI, исследования которых сосредоточены вокруг многоязычного и неанглоязычного НЛП.

Мы (да да) рады объявить об их первых моделях: корейских LLM с параметрами 1.3B и 3.8B

Так что ждите и другие языки натрененные нормально 😅

🗣 Polyglot от Eleuther
🌐 твит Стэллы
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥39👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🪗 Играй, Гармонь, да хуярь, чтоб погромче, руби, топор, да ебашь, чтоб пошире

Не успел мир получить Стебель Диффузии от CompVis, как вдруг откуда ни возьмись, появился Dance Diffusion от Гармоней (Harmonai). Гармони решили сделать диффузионный jukebox и опенсорснуть его миру.

Получится ли что-то кроме семплов, которые можно продавать или использовать для чего-то серьезного — вопрос. Умельцы из любого семпла сделают что угодно, и музыка будет топ. Но вот вопрос даст ли нейросеть новую палитру, как это было с Text2Image в визуальном искусстве?

Кроме заявлений, что «это не просто очередной семпл, а семпл прям из инференса нейросети, слушай этот трек, качай этот трек, там семпл то нейронный», хотелось бы иметь именно контроль над генерацией. Я бы хотел видеть глубокое понимание, низкое количество шума (если это не требуется специально) и возможности модульного синтезатора с огромным количеством крутилок. И пускай это будут не очередные: vcf, lfo и adsr кривые поверх семпла, а именно параметры генерации. Например: «звук извлечённый смычком по нескольким струнам открытого рояля, который ломается в конце семпла и слышит треск дерева» -cfg 9, -seed 42, -time 10s… Ну что, мечтать не вредно..

🔈 примеры семплов в видео к посту

Ждёте ли вы аудио диффузию?

🎥 видоисик с Глав Гармонем
🪗 wandb blog гармоней
44👍10❤‍🔥3😍1💋1
🦊 OpenAI открыло DALL•E 2 для всех желающих.

Смотрите, что стебель живогенерящий с людьми творит. Не без регистрации и смс конечно. Но зато бесплатно с пару десятков можно генернуть.

🥁 регаться тут https://openai.com/dall-e-2/
👍45🔥163👎3
Завтра 🎬 WoW
🔥193🙏21👍1
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Просто Марк, просто фехтует в Mixed Reality с Олимпийскими золотыми медалистами.

Прибор в действии - новый хайэнд VR Headset, который выйдет в следующем месяце.

@ai_newz
👍35👎26🔥3🌚3
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 WoW! DALL-E 2 для генерации видео! MAKE-A-VIDEO от MetaAI

📄 tl;dr

Ресерчеры из MetaAI обучили диффузионную нейросеть (типа DALL-E 2, Imagen, Стебель) MAKE-A-VIDEO, способную генерировать короткие видео-ролики по текстовому описанию!

А самое крутое то, что для этого им не потребовался датасет, содержащий пары видео - текст!


🚬 Что же за заверь MAKE-A-VIDEO?

Начнем с того, что название MAKE-A-VIDEO, отсылает нас к Make-A-Scene от тех же MetaAI — DALL-E поколения, которая имела кондишн не только в тексте, но и в семантической маске. Название имхо не очень удачное, так как тут ничего подобного нет. НО это DALL-E-like 2-го поколения и, видно, они просто решили двигать свой бренд MAKE-A- ... Ок, их дело.

Основной фишкой этой работы является развитие мысли: "Картинка это видео с одним кадром". Но как это реализовано? И главное, как можно сделать Text-To-Video без Text-To-Video данных?!

Подход напоминает DALL-E 2разделяй и властвуй декомпозируй и генерь,с его CLIP_text_emb -> CLIP_image_emb Prior!

Генрация видео Y может быть представлена как композиция Модулей:

🗒 Y = SR(th) ◦ SR(tl) ◦ ↑F ◦ Dt ◦ P ◦ (X_t, C(X_i))

Идея очень простая и изящная давайте прост разберем ее элементы:

0. X_i — картинка, X_t — текст. {X_i, X_t} — пара картинка-текст.

1. C(X_i) — CLIP embedding изображения X_i. N-мерный вектор, содержащий в себе необходимые фичи для описания картинки.

2. P — Prior, диффузионная нейронная сеть, отображающая X_t текстовые CLIP embedding'и в CLIP image embedding'и

Теперь понятно, что имея текст, можно получить | P (X_t) —> C(X_i) | варианты визуальных эмбеддингов возможных изображений.

3. Дальше вступает модуль Dt, который готовит 16 RGB фреймов по 64 × 64 на основе CLIP эмбеддинга первого кадра!

И на этот этапе становится понятно, что не нужны пары текст-видео!

4. Модуль ↑F делает интерполяции между кадрами и SR(th) ◦ SR(tl) делают пространственно-временной апскейл из 64pix в 256 и 768

👾 Сайт Проект (тыкать обязательно!)
📄 Paper

🤖 м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25❤‍🔥11👍6💋3👎21🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
🦚 DreamFusion: Text-to-3D using 2D Diffusion от ?Google

Не успели мы насладиться Text2Video от MetaAI как выходит Text-To-3D диффузия.. Что за день..

🚀 Как работает? Идея супер изящная!

Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.

То есть по факту, проворачивая такой трюк, не нужно иметь 3D данных вообще!

Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)

2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию

3) Затем к картинке подмешивают шум, и все это подается на!!! внимание!! ИМАГЕН

4) После чего Имаген предсказывает необходимый денойз

5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель

А то что у ребят был доступ к IMAGEN мне на 99.9999999% кажется, что это Google. Ну, а так, чем Тьюринг не шутит..

👁 gallery
📄 paper
📇 project

🤖 м и ш и н л е р н и н г
🔥236👍4❤‍🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Google создал нейросеть, способную создавать 3D модели по текстовому описанию!

А самое крутое то, что самую сложную ее часть даже не нужно было обучать 💖 За основу Text-to-2D взяли Imagen!

🦾 подробнее тут
39🔥22👍4🏆4❤‍🔥3
☠️ Colab — Все!

Все мы любили колаб. Но увы, ничто не вечно под луной. И теперь можно купить или 100 или 500 compute units, что в переводе на бытовой означает, что колаб сдулся.

🪦 Царство небесное, вечн Йисгадал вэйискадаш шмэй рабо..

🤖 м и ш и н л е р н и н г
😢121🙏1
Полный зал народу
ну убейте уже эту тварь
👍295👎4137🙏17🔥13💯11😢7🌚63❤‍🔥2
😈 Новояз Машоба

— Генератор и дискриминатор вооруженных сил рф

— Loss продолжил отрицательное падение

— Dropout в рядах вооруженных сил

— Произошел хлопок градиентов

— "CUDA error: out of memory" — Обучение совершило жесткую посадку

— Чистка датасета в фильтрационных лагерях

— Шаг доброй воли по отрицательному направлению к сходимости

— Феномен пропадающих без вести градиентов

— Срочников будут посылать на глубокие обучения

— Параллельный import torch as th

— Превентивный gradient clipping

— Недружественные фреймворки

— Традиционные свертки вместо их нетрадиционных Трансформеров

— Локальные минимумы и седловые точки признаны Экстремистскими

— Показывает все признаки латентного вектора

— 140 миллионов точек Z-пространства

— Специальная градиентная аккумуляция

— Частичная квантизация

— Свой трейн не бросаем (С) Z-вектор Vq-gan'ов

— Денормализация и детокенизация

— RL-алгоритмы признаны иностранными агентами

— Прунинг войск с целью оптимизации

p.s.:
- А в какой концлагерь нас везут?
- Я не знаю, я вне политики.

🤖 м и ш и н л е р н и н г
Please open Telegram to view this post
VIEW IN TELEGRAM
👍98👎36🔥20🕊43💋3🐳21🌚1
🤷‍♀️ 55% подписчиков считают, что бункерный применит ядерное оружие

(да применит + попытается) / (все - посмотреть результат)

окей, пошёл работать дальше
🕊86👎21🌚11👍6😢2😍2🏆21🐳1💋1
👾 Мысли вслух про диффузионные модели

Я озвучу основную мысль из этого блог поста, а потом немного разовью ее. Мысль наивная, но все же:

Диффузионные модели — это автоэнкодеры. Особенно, если немного прищуришься.

Что еще можно сказать про диффузионные модели:

▪️Обучение скор-функции x log p(x) распределения сводится к предсказанию денойзинга распределения, которое изначально зашумили. Это супер просто — не нужно городить никаких сложных концепций, десяков лоссов, контролировать сходимость и ухищряться.

▪️В сравнении с вариационными автоэнкодерами (VAE), диффузиям не просто не нужно делать боттлнэк с репараметризациями или прчими vq-, gumbel- приколами, а вообще не нужно делать боттлнэк!

▪️На разных этапах денойзинга модель может сосредоточиться на разных задачах:
— на ранних шагах заниматься формой объектов
— на поздних прорисовывать детали

К чему я это веду? К тому "Почему Диффузии круче, чем VAE для обучения генеративок?"

1) Диффузу не нужен боттлнэк.

А без него намного проще обучать. Не нужно накладывать ограничения на глубину и размер, на vq-словарь и прочее, занимать репараметризацией. А вдобавок можно кидать резидиулы, делая полноценный юнет. И вот это все вместе прям очень-очень упрощает сходимость!

2) Многопроходные подходы лучше однопроходных.

Однопроходные сети (VAE, GAN) должны решить задачу генерации (или проявки изображения) за, простите за тавтологию, один forward pass. Диффузии же делают от 50 до 4000 шагов, имея возможность постепенно переходить от генерации формы к содержанию и деталям.

#мысли

🤖 м и ш и н л е р н и н г
👍53🐳5💯5🔥4🌚21🏆1
❤️‍🔥 AudioGen: нейросеть для генерации аудио по текстовому описанию

Очень много работы по визуальным диффузам, так что буду краток. Мета сделал то, что все мы ждали!

Как отметил Александр Шульгин, альфа-метилированные триптамины AudioGEN можно рассматривать как триптаминовые гомологи амфетамина аудиальный гомолог визуального DALL-E 1. И действительно, Александр Шульгин тут очень точно подметил!

Дело тут именно в том, что АудиоГена не гомологичен Имагену. Работа ведется не в пространстве пикселей — звуковой волны, и не в пространстве интегрального преобразования (фурье, вейвлет), а в VAE, в данном случае RVQ. И решение больше напоминает Parti, так как используется авторегрессия, а не диффуз.

1) Сначала аудио конвертируется при помощи VAE в латент.

2) Затем трансформер авторегрессионно предсказывает дискретные токены RVQ, через кроссаттеншен с текстового энкодинга, которые потом превращаются обратно в звук при помощи RVQ-декодера.

Результаты — WOW, писать можно долго, но это надо слушать.

📯 Примеры слушать обязательно: тут
📰 Пейпер Аудиогены
💻 код / будет тут?

🤖 м и ш и н л е р н и н г
🔥54👍4❤‍🔥2👌2💯21🙏1🏆1💋1