Forwarded from Denis Sexy IT 🤖
Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность
❤4🔥3😱2
Forwarded from 42 секунды
The Information: Stability AI обсуждает продажу бизнеса, стартапу не хватает средств на развитие
– Стартап начал переговоры с потенциальными покупателями
– Stability AI стало не хватать средств на дальнейшее развитие
– За все время от инвесторов стартап привлек около $101 млн
– Среди инвесторов: Coatue Management и Lightspeed Venture
– Оценка Stability AI для раунда два года назад была $1 млрд
– Стартап так и не научился зарабатывать деньги на своем ИИ
– Конкуренция от OpenAI и Midjourney усложнила ситуацию
– Выручка за 2023 составила $8 млн, за 2022 была $1,5 млн
– Доход Stability AI по итогам Q1 2024 составил уже $5 млн
– Но это далеко от планируемых десятков миллионов за год
– При этом за тот же Q1 2024 стартап потерял $30+ млн
– Stability AI также должен облачным поставщикам $100 млн
@ftsec
– Стартап начал переговоры с потенциальными покупателями
– Stability AI стало не хватать средств на дальнейшее развитие
– За все время от инвесторов стартап привлек около $101 млн
– Среди инвесторов: Coatue Management и Lightspeed Venture
– Оценка Stability AI для раунда два года назад была $1 млрд
– Стартап так и не научился зарабатывать деньги на своем ИИ
– Конкуренция от OpenAI и Midjourney усложнила ситуацию
– Выручка за 2023 составила $8 млн, за 2022 была $1,5 млн
– Доход Stability AI по итогам Q1 2024 составил уже $5 млн
– Но это далеко от планируемых десятков миллионов за год
– При этом за тот же Q1 2024 стартап потерял $30+ млн
– Stability AI также должен облачным поставщикам $100 млн
@ftsec
👍2❤1
Дмитрий Савостьянов Вещает
Альтман с Брокманом возвращаются в OpenAI. Остаётся вопрос, уйдет ли Chief Scientist (главный мозг конторы) Илья Суцкевер и какова вообще была его роль во всем переполохе? https://x.com/openai/status/1727206187077370115?s=46&t=zKsuhjPsLNK5nNwd2FB7rQ h…
Илья Суцкевер официально объявил об уходе из OpenAI.
Это бывший Chief Scientist, легендарный чувак, с которого началась компания в плане ресерча.
https://x.com/ilyasut/status/1790517455628198322
Это бывший Chief Scientist, легендарный чувак, с которого началась компания в плане ресерча.
https://x.com/ilyasut/status/1790517455628198322
👍2❤1
Forwarded from эйай ньюз
Курс по квантизации для тех, кто хочет быть в теме
Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.
Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.
Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.
Ссылочка на курс
#ликбез
@ai_newz
Эндрю Ын, о котором здесь писалось уже не раз, вместе со спецами из обнимающего лица _marcsun и younesbelkada дропнул очередной эйай #ликбез. На этот раз о квантизации.
Квантизация — это сжатие модели с 32 до 16, 8 или даже 2 бит, не особо теряя при этом в качестве. Считай, raw перевели в jpeg. Так же как и без MoE современные ллм дорого тренировать, так и без квантизации их дорого инференсить - железо которое тянет эти килотонны весов влетает в копеечку.
Чему учат:
- применять си/асимметричную линейную квантизацию.
- квантизации на разных уровнях: по тензорам, по каналам, по группам.
- созданию квантизатора на практике с упаковкой до 2-х бит.
Ссылочка на курс
#ликбез
@ai_newz
www.deeplearning.ai
Quantization in Depth - DeepLearning.AI
Try out different variants of Linear Quantization, including symmetric vs. asymmetric mode, and granularities like per tensor, per channel, and per group.
🔥1
Notion сделал конструктор сайтов.
В комплекте:
- Возможность прикрутить свой домен
- Фирменный дизайн
- База данных на основе notion-таблиц
- SEO оптимизация и аналитика
- AI для генерации контента
https://www.notion.so/product/sites
В комплекте:
- Возможность прикрутить свой домен
- Фирменный дизайн
- База данных на основе notion-таблиц
- SEO оптимизация и аналитика
- AI для генерации контента
https://www.notion.so/product/sites
Notion
Notion – Publish anything, fast
The easiest way to launch a website. Drag-and-drop building blocks. Effortless content management. AI to help you fill in the gaps.
👍10🤮1
Анализ видео на GPT-4o
Давненько я вам ничего не писал. Исправим это недоразумение.
Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там мы придумали занятный метод, про который сейчас расскажу.
В промпт GPT-4o можно прикладывать картинки. Видео — последовательность картинок с ~30-120 кадрами в секунду. Так вот оказывается, если у вас есть короткие ролики по 1-3 секунды, которые нужно проанализировать, то можно сэмплировать их на пару десятков кадров, которые влезут в context window модели.
Так уж вышло, что для обучения хорошей text-to-motion модели вам нужно несколько вещей: видеокарты, ML-специалисты и данные. Если по первым двум пунктам все неплохо, то вот с данными мы буксовали. Мы записывали анимации с помощью motion capture, покупали ассет-паки в сторах, собирали из открытых источников, но везде сталкивались с тем, что помимо анимации нужна аннотация — описание того, что на этой анимации происходит.
Руками людей размечать выходило долго и дорого. Поэтому решили попробовать генерировать описания с помощью GPT, а силами людей оценивать качество и исправлять ошибки. В итоге ускорили процесс х100 и удешевили х10. Такая вот история.
Держите инструкцию по заведению шарманки: https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding
Давненько я вам ничего не писал. Исправим это недоразумение.
Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там мы придумали занятный метод, про который сейчас расскажу.
В промпт GPT-4o можно прикладывать картинки. Видео — последовательность картинок с ~30-120 кадрами в секунду. Так вот оказывается, если у вас есть короткие ролики по 1-3 секунды, которые нужно проанализировать, то можно сэмплировать их на пару десятков кадров, которые влезут в context window модели.
Так уж вышло, что для обучения хорошей text-to-motion модели вам нужно несколько вещей: видеокарты, ML-специалисты и данные. Если по первым двум пунктам все неплохо, то вот с данными мы буксовали. Мы записывали анимации с помощью motion capture, покупали ассет-паки в сторах, собирали из открытых источников, но везде сталкивались с тем, что помимо анимации нужна аннотация — описание того, что на этой анимации происходит.
Руками людей размечать выходило долго и дорого. Поэтому решили попробовать генерировать описания с помощью GPT, а силами людей оценивать качество и исправлять ошибки. В итоге ускорили процесс х100 и удешевили х10. Такая вот история.
Держите инструкцию по заведению шарманки: https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding
🔥11❤1
Подъехала gpt-4o-mini — замена gpt-3.5-turbo для продакшена.
Вроде как скорость инференса примерно такая же, но при этом новая модель и умнее, и дешевле. Плюс докрутили качество для non-english языков.
https://community.openai.com/t/introducing-gpt-4o-mini-in-the-api/871594
Вроде как скорость инференса примерно такая же, но при этом новая модель и умнее, и дешевле. Плюс докрутили качество для non-english языков.
https://community.openai.com/t/introducing-gpt-4o-mini-in-the-api/871594
🔥6
MusicLM
Сходил за вдохновением в соседнюю индустрию — генерацию музыки по тексту. Проблема там заключалась в том, что музыки в интернете много, а вот текстовых описаний самих мелодий — мало. Для хорошей модели нужны подробные описания музыкальных сэмплов длиной 10-30 секунд. Пример: A rising synth is playing an arpeggio with a lot of reverb. It is backed by pads, sub bass line and soft drums. This song is full of synth sounds creating a soothing and adventurous atmosphere. It may be playing at a festival during two songs for a buildup.
Второй момент: хотя в text-to-image уже доминировали диффузионные модели, в MusicLM авторы использовали авторегрессионный подход. То есть языковой модели на вход подаётся текст, а она заканчивает предложение музыкальными токенами, которые затем декодируются в мелодию.
Архитектура состояла из трёх компонентов, которые обучались по отдельности:
1. SoundStream — это RVQ (Residual Vector Quantization), по сути многослойный VQ-VAE, который позволяет преобразовать непрерывный поток музыки в набор токенов и обратно. В MusicLM он отвечает за акустические токены — детали мелодии в моменте, например, барабаны с заданным ритмом.
2. w2v-BERT — это MLM-модель, обученная на 4.5М часов речи на различных языках. Она отвечает за семантические токены — долгосрочное планирование мелодии, например, джаз, плавно переходящий в death metal.
3. MuLan — это CLIP для музыки. Модель выучила совместное латентное пространство для музыки и текста. Причём тренировали её на датасете из посредственных описаний. Это были скорее наборы тегов с жанром, инструментом и т. д., используемые для фильтрации в музыкальных приложениях, а не детальные описания мелодий.
MusicLM тренировался на Free Music Archive (FMA) с 280k часов музыки, вообще без текстовых описаний. Трюк в том, что conditioning происходит через MuLan. На этапе обучения используется музыкальный эмбеддинг, а на инференсе он подменяется текстовым.
Статья и примеры: https://google-research.github.io/seanet/musiclm/examples/
Сходил за вдохновением в соседнюю индустрию — генерацию музыки по тексту. Проблема там заключалась в том, что музыки в интернете много, а вот текстовых описаний самих мелодий — мало. Для хорошей модели нужны подробные описания музыкальных сэмплов длиной 10-30 секунд. Пример: A rising synth is playing an arpeggio with a lot of reverb. It is backed by pads, sub bass line and soft drums. This song is full of synth sounds creating a soothing and adventurous atmosphere. It may be playing at a festival during two songs for a buildup.
Второй момент: хотя в text-to-image уже доминировали диффузионные модели, в MusicLM авторы использовали авторегрессионный подход. То есть языковой модели на вход подаётся текст, а она заканчивает предложение музыкальными токенами, которые затем декодируются в мелодию.
Архитектура состояла из трёх компонентов, которые обучались по отдельности:
1. SoundStream — это RVQ (Residual Vector Quantization), по сути многослойный VQ-VAE, который позволяет преобразовать непрерывный поток музыки в набор токенов и обратно. В MusicLM он отвечает за акустические токены — детали мелодии в моменте, например, барабаны с заданным ритмом.
2. w2v-BERT — это MLM-модель, обученная на 4.5М часов речи на различных языках. Она отвечает за семантические токены — долгосрочное планирование мелодии, например, джаз, плавно переходящий в death metal.
3. MuLan — это CLIP для музыки. Модель выучила совместное латентное пространство для музыки и текста. Причём тренировали её на датасете из посредственных описаний. Это были скорее наборы тегов с жанром, инструментом и т. д., используемые для фильтрации в музыкальных приложениях, а не детальные описания мелодий.
MusicLM тренировался на Free Music Archive (FMA) с 280k часов музыки, вообще без текстовых описаний. Трюк в том, что conditioning происходит через MuLan. На этапе обучения используется музыкальный эмбеддинг, а на инференсе он подменяется текстовым.
Статья и примеры: https://google-research.github.io/seanet/musiclm/examples/
👍5❤1
Linkin Park
Спустя 7 лет после смерти Честера, они взяли новую солистку Emily Armstrong, которая наваливает будь здоров, и организовывают мировое тур. Я аж прослезился.
Faint в ее исполнении: https://youtube.com/watch?v=PY-dFANAx2c&t=2730
Спустя 7 лет после смерти Честера, они взяли новую солистку Emily Armstrong, которая наваливает будь здоров, и организовывают мировое тур. Я аж прослезился.
Faint в ее исполнении: https://youtube.com/watch?v=PY-dFANAx2c&t=2730
🔥6
Forwarded from эйай ньюз
Что будет, если дать 1000 ботам сознание и запустить их в Minecraft?
Они построят цивилизацию...
Только недавно писал про агента, который научился крафтить каменную кирку и кучу всего другого. И вот теперь пожалуйста, они, как муравьи, собрались и построили свой лучший мир без кожаных ублюдков.
Эксперимент был проведён небольшой группой Project Sid. Они не просто научили агентов выполнять команды, но и действовать по своей воле.
Авторы прикрутили агентам понятия о социальном мире. Они способны понимать своё место в этом мире и роль окружающих. Например, они знают, что агент Б — полицейский, его нужно слушаться, а вот агента В, Васяна из соседнего дома можно послать нахрен. Эти роли могут динамически обновляться в зависимости от ситуации.
Более того, они научили квадратных мечтать (см. видос). Там один из агентов-фермеров, услышав о странствиях одного путешественника (разработчики поощряют смолтоки ни о чём), захотел отправиться в путешествие, но потом оставил эту идею "на потом", узнав, что без него деревня голодает. Но самого интересного – технических подробностей нет и, кажется, не предвидится. Жаль, т.к. очень любопытно, что за LLM они гоняли и сколько им это стоило.
Еще у ботов был Google-документ с конституцией, и они голосовали за правки, лол. Говорят, боты универсальные, умеют пользоваться Google-доками и их можно адаптировать под другие игры.
Короче, ребята подготовили достойную высокоморальную замену человечеству (мы то без системы сдержек и противовесов ни о чем договориться не можем). В ролик вставили небольшую полит агитацию Камалы против Трампа, но просто игнорьте это.
И вишенка на торте! С агентами уже может поиграть каждый! Для этого создаём мир в Майнкрафте, открываем для подключения, копируем код порта и вставляем на сайте. Там же можно создать своего кастомного подручного. С ботом можно поболтать или дать ему какие-нибудь задания. За отдельный кэш можно запустить свою симуляцию, но это в личном порядке.
Тред
Дискорд
Реддит
Блог-пост
Сайт с плейтестом
@ai_newz
Они построят цивилизацию...
Только недавно писал про агента, который научился крафтить каменную кирку и кучу всего другого. И вот теперь пожалуйста, они, как муравьи, собрались и построили свой лучший мир без кожаных ублюдков.
Эксперимент был проведён небольшой группой Project Sid. Они не просто научили агентов выполнять команды, но и действовать по своей воле.
Авторы прикрутили агентам понятия о социальном мире. Они способны понимать своё место в этом мире и роль окружающих. Например, они знают, что агент Б — полицейский, его нужно слушаться, а вот агента В, Васяна из соседнего дома можно послать нахрен. Эти роли могут динамически обновляться в зависимости от ситуации.
Более того, они научили квадратных мечтать (см. видос). Там один из агентов-фермеров, услышав о странствиях одного путешественника (разработчики поощряют смолтоки ни о чём), захотел отправиться в путешествие, но потом оставил эту идею "на потом", узнав, что без него деревня голодает. Но самого интересного – технических подробностей нет и, кажется, не предвидится. Жаль, т.к. очень любопытно, что за LLM они гоняли и сколько им это стоило.
Еще у ботов был Google-документ с конституцией, и они голосовали за правки, лол. Говорят, боты универсальные, умеют пользоваться Google-доками и их можно адаптировать под другие игры.
Короче, ребята подготовили достойную высокоморальную замену человечеству (мы то без системы сдержек и противовесов ни о чем договориться не можем). В ролик вставили небольшую полит агитацию Камалы против Трампа, но просто игнорьте это.
И вишенка на торте! С агентами уже может поиграть каждый! Для этого создаём мир в Майнкрафте, открываем для подключения, копируем код порта и вставляем на сайте. Там же можно создать своего кастомного подручного. С ботом можно поболтать или дать ему какие-нибудь задания. За отдельный кэш можно запустить свою симуляцию, но это в личном порядке.
Тред
Дискорд
Реддит
Блог-пост
Сайт с плейтестом
@ai_newz
🔥6🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Обучил нейросеть новым телодвижениям.
🔥25
Дмитрий Савостьянов Вещает
Анализ видео на GPT-4o Давненько я вам ничего не писал. Исправим это недоразумение. Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там…
Portland и Style Transfer
На прошлой неделе снова катался в Штаты. В этот раз заехал не только в ЛА, но и побывал в Портленде, штат Орегон. Очень зеленый на контрасте с ЛА, много деревьев и кустов. Архитектура приятнее, сам город меньше, можно даже пешком ходить. В этом смысле город более европейский. Но есть нюанс, что из-за небольшого размера плотность бомжей на квадратный метр выше и это слегка режет глаз.
Так вот сидели мы в Портленде в баре, обсуждали text-to-motion, он все еще недостаточно хорошо слушается промтпа. Сошлись на том, что до конца года мужики будут активно потеть в mocap-костюмах, чтобы увеличить разнообразие и качество датасета, а ML-челы пока займутся задачей style transfer.
Идея в том, что в Unreal Engine 5 завезли motion matching для генерации анимаций в Runtime. Чтобы MM неплохо работал нужно порядка 500 анимаций в стиле игры. Что если записать 500 движений в neutral style в mocap, а от игр брать небольшой набор по 20-50 стилизованных анимаций и генерировать весь MM-pack? Мысль показалась здравой, решили копнуть.
На прошлой неделе снова катался в Штаты. В этот раз заехал не только в ЛА, но и побывал в Портленде, штат Орегон. Очень зеленый на контрасте с ЛА, много деревьев и кустов. Архитектура приятнее, сам город меньше, можно даже пешком ходить. В этом смысле город более европейский. Но есть нюанс, что из-за небольшого размера плотность бомжей на квадратный метр выше и это слегка режет глаз.
Так вот сидели мы в Портленде в баре, обсуждали text-to-motion, он все еще недостаточно хорошо слушается промтпа. Сошлись на том, что до конца года мужики будут активно потеть в mocap-костюмах, чтобы увеличить разнообразие и качество датасета, а ML-челы пока займутся задачей style transfer.
Идея в том, что в Unreal Engine 5 завезли motion matching для генерации анимаций в Runtime. Чтобы MM неплохо работал нужно порядка 500 анимаций в стиле игры. Что если записать 500 движений в neutral style в mocap, а от игр брать небольшой набор по 20-50 стилизованных анимаций и генерировать весь MM-pack? Мысль показалась здравой, решили копнуть.
👍10❤1🔥1