📣🤗 T0 — Быстрее, умнее и легче GPT-3 в 16 раз + собрал Colab | Zero-Shot NLP
Объясню разницу между T0 и GPT-3 через аналогию:
▪️ GPT-3 — ребенка заперли в большой библиотеке и сказали: читай. GPT-3 училась предсказывать следующие слова в текстах.
▪️ T0 — ребенка помладше посадили в библиотеку, но уже с преподавателем, который натаскивал его к олимпиадам. Взяв 62 датасетов дообучили T5 (11B) на специальных задачах.
T0 в 16x меньше GPT-3 и обходит GPT-3 на 9 из 11 сетах!
Создал сolab (3B, 100ms) для быстрого решения многих nlp задач, ведь T0 и GPT-3 — нейросети, которые можно не дообучать!
▫️Суммаризация начала “Generation П”:
“In the seventies, the Soviet Union was a country of children who drank Pe”
▫️Суммаризация абстракта DALL·E:
“A computer program has been trained to create a wide range of images from text”
▫️“Самое большое здание в мире?”:
“The Burj Khalifa”
▫️“А <...>
_______
Источник | #mishin_learning
Объясню разницу между T0 и GPT-3 через аналогию:
▪️ GPT-3 — ребенка заперли в большой библиотеке и сказали: читай. GPT-3 училась предсказывать следующие слова в текстах.
▪️ T0 — ребенка помладше посадили в библиотеку, но уже с преподавателем, который натаскивал его к олимпиадам. Взяв 62 датасетов дообучили T5 (11B) на специальных задачах.
T0 в 16x меньше GPT-3 и обходит GPT-3 на 9 из 11 сетах!
Создал сolab (3B, 100ms) для быстрого решения многих nlp задач, ведь T0 и GPT-3 — нейросети, которые можно не дообучать!
▫️Суммаризация начала “Generation П”:
“In the seventies, the Soviet Union was a country of children who drank Pe”
▫️Суммаризация абстракта DALL·E:
“A computer program has been trained to create a wide range of images from text”
▫️“Самое большое здание в мире?”:
“The Burj Khalifa”
▫️“А <...>
_______
Источник | #mishin_learning
🔫 Nvidia выпустила GeForce RTX 3090 Ti | Рекомендованная цена: 2000$
Вкратце пробежимся по деталям:
• 10% средний буст в сравнении с 3090
• VRAM остался 24gb
• VRAM Speed вырос до 21 Gbps vs 19.5 Gbps (3090)
• TFLOPS FP32: 40.0 vs 35.6 (3090)
• TFLOPS FP16: 160 vs 142 (3090)
• Рекомендованная цена: $1,999 vs $1,499 (3090)
• Кастомные карточки будут доходить в цене до 3000$
🚀 RTX 3090 Family: 3090 & 3090TI
_______
Источник | #mishin_learning
Вкратце пробежимся по деталям:
• 10% средний буст в сравнении с 3090
• VRAM остался 24gb
• VRAM Speed вырос до 21 Gbps vs 19.5 Gbps (3090)
• TFLOPS FP32: 40.0 vs 35.6 (3090)
• TFLOPS FP16: 160 vs 142 (3090)
• Рекомендованная цена: $1,999 vs $1,499 (3090)
• Кастомные карточки будут доходить в цене до 3000$
🚀 RTX 3090 Family: 3090 & 3090TI
_______
Источник | #mishin_learning
🗄 Stable Diffusion как мощный Lossy codec
На самом деле речь в блог посте больше идет о 8-bit пост-квантизации уже обученного f8 KL-VAE/GAN, но если добавить потенциальную возможностью манипуляции через CLIP, то выходит, что можно притянуть и Stable Diffusion.
В любом случае для 512x512 изображения в 5 kB — результат шикарный, но энкодинг декодинг несоизмеримо медленный в сравнении с JPEG. В любом случае, Deep Learning compression имеет большой потенциал для стримига в условиях низкого битрейта.
📇 собственно блог пост
_______
Источник | #mishin_learning
На самом деле речь в блог посте больше идет о 8-bit пост-квантизации уже обученного f8 KL-VAE/GAN, но если добавить потенциальную возможностью манипуляции через CLIP, то выходит, что можно притянуть и Stable Diffusion.
В любом случае для 512x512 изображения в 5 kB — результат шикарный, но энкодинг декодинг несоизмеримо медленный в сравнении с JPEG. В любом случае, Deep Learning compression имеет большой потенциал для стримига в условиях низкого битрейта.
📇 собственно блог пост
_______
Источник | #mishin_learning
❤️🔥 AudioGen: нейросеть для генерации аудио по текстовому описанию
Очень много работы по визуальным диффузам, так что буду краток. Мета сделал то, что все мы ждали!
Как отметил Александр Шульгин,альфа-метилированные триптамины AudioGEN можно рассматривать как триптаминовые гомологи амфетамина аудиальный гомолог визуального DALL-E 1. И действительно, Александр Шульгин тут очень точно подметил!
Дело тут именно в том, что АудиоГена не гомологичен Имагену. Работа ведется не в пространстве пикселей — звуковой волны, и не в пространстве интегрального преобразования (фурье, вейвлет), а в VAE, в данном случае RVQ. И решение больше напоминает Parti, так как используется авторегрессия, а не диффуз.
1) Сначала аудио конвертируется при помощи VAE в латент.
2) Затем трансформер авторегрессионно предсказывает дискретные токены RVQ, через кроссаттеншен с текстового энкодинга, которые потом превращаются обратно в звук при помощи RVQ-декодера.
Результаты — WOW, писать можно долго, но это надо слушать.
📯 Примеры слушать обязательно: тут
📰 Пейпер Аудиогены
💻 код / будет тут?
_______
Источник | #mishin_learning
Очень много работы по визуальным диффузам, так что буду краток. Мета сделал то, что все мы ждали!
Как отметил Александр Шульгин,
Дело тут именно в том, что АудиоГена не гомологичен Имагену. Работа ведется не в пространстве пикселей — звуковой волны, и не в пространстве интегрального преобразования (фурье, вейвлет), а в VAE, в данном случае RVQ. И решение больше напоминает Parti, так как используется авторегрессия, а не диффуз.
1) Сначала аудио конвертируется при помощи VAE в латент.
2) Затем трансформер авторегрессионно предсказывает дискретные токены RVQ, через кроссаттеншен с текстового энкодинга, которые потом превращаются обратно в звук при помощи RVQ-декодера.
Результаты — WOW, писать можно долго, но это надо слушать.
📯 Примеры слушать обязательно: тут
📰 Пейпер Аудиогены
💻 код / будет тут?
_______
Источник | #mishin_learning
📝 Официальный подробный гайд по Prompt Engineering в GPT-4 от OpenAI
platform.openai.com
_______
Источник | #mishin_learning
_______
профессия будущего "погонщик роботов" краткий гайд 👆
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram
platform.openai.com
_______
Источник | #mishin_learning
_______
профессия будущего "погонщик роботов" краткий гайд 👆
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram