эйай ньюз
77.7K subscribers
1.73K photos
900 videos
7 files
2.04K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел на реддите скриптик, который увеличивает детализируемость картинок с помощью прогона Stable Diffusion на маленьких пересекающихся патчах в виде круга.

Так можно использовать этот скрипт как постобработку и нехило улучшить свою генерацию. Посмотрите, как проявляются детали при увеличении.

❱❱ Код

@ai_newz
🔥87👍18😱12
Whisper - пошепчем про speech recognition

На днях OpenAI выпустила новую сеть для распознавания речи – Whisper. Это трансформер, который в максимальной комплектации содержит скромные полтора миллиарда параметров.

Чем отличается от уже существующих сеток для решения этой задачи? Я вам точно не скажу, потому что я статью детально не читал, но выглядит все так, что это, как обычно, победа инженерии и хорошо собранный и размеченный датасет на 680,000 часов.

Из приятного, на гитхабе доступны и код и веса моделей разной жирности. Тут они отрабатывают свое название "Open".

Модель знает несколько языков, автоматически их распознавая, русский язык в том числе. И она хорошо показывает себя на zero-shot бенчмарках.

Кстати, 90% этого текста я надиктовал в Виспере.

❱❱ Код с весами
❱❱ Блогпост

@ai_newz
🔥54👍172
Сейчас смотрю лекцию от Mark Chen'а, одного из ресерчеров в OpenAI. Рассказывает про сетку для генерирования программного кода Codex, о которой я писал раньше. Тренинировали сеть на 159 GB кода спижже скачанного из 54 миллионов (!) репозиториев на GitHub. Может и мой код там затесался.

Паскудники, где хоть одна маленькая модель в открытом доступе, которую вы натренили на открытом коде??? Да даже кода модели нет, не говоря уже о весах. Считаю, что OpenAI стоит начать более усердно отрабатывать свое имя.

Извините, накипело 🫥

@ai_newz
👍86🔥31😁1
эйай ньюз
Сейчас смотрю лекцию от Mark Chen'а, одного из ресерчеров в OpenAI. Рассказывает про сетку для генерирования программного кода Codex, о которой я писал раньше. Тренинировали сеть на 159 GB кода спижже скачанного из 54 миллионов (!) репозиториев на GitHub.…
Из хороших новостей для кодеров, кто боится потерять работу из-за AI. Сетка от Open AI почему-то жёстко обделывается, когда её просят сгенерировать функцию, выполняющую цепочку действий. И чем длиннее последовательностиь, тем меньше вероятность успеха для сетки.

См. пример такой "сложной" функции на картинке. На вход подают декларацию функции и docstring, и просят нейронку сгегерить тело функции.
😁50🌚7🔥6👍4👎31
This media is not supported in your browser
VIEW IN TELEGRAM
Просто Марк, просто фехтует в Mixed Reality с Олимпийскими золотыми медалистами.

Прибор в действии - новый хайэнд VR Headset, который выйдет в следующем месяце.

@ai_newz
🔥52👍17👎12🤡123🌭2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Google создал нейросеть, способную создавать 3D модели по текстовому описанию!

А самое крутое то, что самую сложную ее часть даже не нужно было обучать 💖 За основу Text-to-2D взяли Imagen!

🦾 подробнее тут
👍51🔥9👎63🤣2🤬1
This media is not supported in your browser
VIEW IN TELEGRAM
Make-A-Video: SOTA метод по генерации видео из текста

После Make-A-Scene для генерации картинок коллеги из Meta подсуетились и представили новый метод Make-A-Video, который уже генерирует целые видео по текстовому описанию!

Тут конечно, еще есть куда улучшать, но уже результаты генерации достойные! Такой скорый прогресс в генерации визуального контента сулит банкротством не только Нетфликсу 😂.

Кстати, генерировать видосы можно не только из текста, но и из картинок или других видео.

Это всё та же диффузия, только теперь добавилась еще и временная ось. Но за подробностями архитектуры отправляю вас в статью.

На сайте проекта можно стать в очередь на получение доступа к сетке, чтобы попробовать самому.

❱❱ Сайт проекта

@ai_newz
🔥34👍4🎉4🤩21👏1🤔1
Интуиция о том, как обучалась сеть Make-a-Video: (1) учи, как выглядит мир и как он описывается, из парных данных текст-изображение, и (2) изучай, как мир движется, по неразмеченным видео. То есть в тренировке не использовался датасет с парами текст-видео!

@ai_newz
37👍9😱1
Google Colab производит предсмертные хрипы. Он взял на себя, то, что не смог унести. Тысячи любителей халявы его подкосили и было решено выставить жёсткие лимиты на пользование ресурсами, даже если у вас есть платная подписка.

В общем было хорошо, спасибо. Понятное дело, от бесплатной версии профита компании никакого. В наши дни, в коллабе пытаются крутить код даже те, кто и "хелоу ворлд" с трудом напишет. А с приходом в наши дома text2image моделей таких пользователей стало ещё больше. Конечно, на всех ресурсов не напасёшься.

Дабы колаб совсем не сдох, надеюсь, что в ближайшие месяцы пересмотрят политику и введут новый тариф, которым можно будет пользоваться за адекватные деньги, но при этом который отсеет Легионы любителей бесплатного.

@ai_newz
😢35🙏18👍13👎3🌚21
Вот вам блог-постик c объяснением Variational Lower Bound или Evidence Lower Bound (ELBO). Никогда не поздно поднимать базу #fundamentals, да и на
ML собесах пригодится.

❱❱ Ссылка

@ai_newz
43👍8🤔7🤯4
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня на Tesla AI day показали тесла-бота. Вопрос только, зачем он такой нужен. Ему ещё срать и срать до Boston Dynamics 😂

@ai_newz
😁60👎9🔥6🤔6👍4🤡3🤯1😱1
Считаю, что робот-помощник не прошел испытания и не готов идти в продажу, если его перед этим разрабы не отпиздили клюшками и не сняли все действие на видео.

@ai_newz
😁95👍29👎4🔥41🤯1
Запуск AR очков Magic Leap 2

Спустя 4 года после Magic Leap One и после увольнения 50% сотрудников в 2020 компания нас порадовала новыми AR очками!

Выглядят очки довольно приятно, весят всего 260 г, есть джойстик, трекинг глаз и рук.

Из интересного:
- RGB камера 12.6MP, 4k video @30 fps
- 3 широкоугольные камеры для локализации
- Датчик глубины
- 4 камеры для трекинга глаз, по 2 на каждый.
- Два дисплея улучшенного разрешения 1440x1760, 120 Hz
- Диагональный угол обзора теперь стал 70°
- Пачка всяких IMU, гироскопов и акселерометров.

Мозги тоже хорошо обновили и запихнули в маленькую коробочку, которую нужно носить в кармане и от которой идёт проводок к очкам. Будет вас греть зимой. В коробочке стоит:
- Проц AMD Quad-core Zen2 с 4 ядрами по 2.4 GHz
- Дополнительно какой-то кастомный Computer Vision Processing Engine 14 ядрами (хз что за он)
- Видеокарта AMD RDNA 2
- 16 GB RAM
- 256 GB хранилище
- Батарея на 3.5 часа работы.

Стоит базовая версия $3299.
Либо версия Developer Pro за $4099.

@ai_newz
🔥24🤡14😱10👍8
И добивочка. Вот обзор и сравнение первой модели Magic Leap с новой версией Magic Leap 2.

Magic Leap не таргетирует обычных юзеров, фокус у них на Энтерпрайз. То есть они свой девайс видят как приблуду для улучшения бизнес процессов. Из примеров нашел, что Magic Leap запартнерились с NVIDIA в рамках создания цифровых двойников магазинов. История такая: идёшь в очках по магазину и тебе вылетает информация по любому товару, на который ты смотришь. Ну либо похожий кейс только для работников склада – они видят, где и на какой полке какого товара не хватает.

Вот только тут у меня возникают сомнения, что девелоперы захотят делать под эти очки приложения если пользовательская база будет полтора землекопа.

@ai_newz
👍163🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Принёс вам несколько результатов генерации видео с помощью Make-A-Video по запросу "two kangaroos busy cooking dinner in a kitchen" 😉.

@ai_newz
🔥109😱32🌭7😁4👍3😢32🤡2
This media is not supported in your browser
VIEW IN TELEGRAM
Отрисовка анимации в стиле Пикассо с помощью блендера и Stable Diffusion. Эффектно! Тут автор выкручивает ручку влияния стиля Пикассо от 40% до 70%.

@ai_newz
52🤯10👍4🔥4😁2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Диффузию применяют для решения все более разных проблем.

Тут ресерчеры генерируют motion последовательности по текстовым запросам с помощью диффузионной модели. Аниматорам на заметку.

Статья Motion Diffusion Model сейчас на ревью на ICLR 2023.

@ai_newz
40🤯16👍7
This media is not supported in your browser
VIEW IN TELEGRAM
А Microsoft генерит структуры белков с помощью диффузионных моделей (Folding Diffusion).

Код
Препринт

@ai_newz
👍38😱133