эйай ньюз
72.3K subscribers
1.57K photos
847 videos
7 files
1.9K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
⚡️Lightning Studio: Альтернатива Google Colab если хотите поиграться c модельками или заняться пет-проектом

Я тут случайно набрел на такую штуку. Не знал, что Lightning, та контора, что делает фреймворк Pytorch Lightning, ещё и пилит свою студию. По сути это онлайн среда для разработки и прототипирования deep-learning моделек. Тут все что нужно есть: и терминал, и VS Code, и ноутбуки, и удобный доступ к файловой системе и persitent хранилище (а не грёбаный google drive).

Фичи, которые есть тут, но нет в Google Colab:
- free persistent storage, то есть локальные файлы не пропадают, когда вы закрыли ноутбук
- free persistent environments
- unlimited background execution
- VSCode, PyCharm, (any IDE) integration

Дают бесплатно 22 гпу-часов (T4) в месяц, плюс можно докупить еще, если нужно. Платишь только за время, когда GPU активирована. Можно отмасштабировать и арендовать 8xA100, если нужно натренировать что-то серьезное.

https://lightning.ai/

@ai_newz
🔥 Вышла Алиса нового поколения, которая научилась общаться как мудрый и внимательный собеседник

Про апгрейд из анонса: сейчас Алиса может ответить на 95% вопросов, тогда как раньше она отвечала на 40% и остальное предлагала найти в поиске. Все это потому что подключили новую модель – YandexGPT.

Общение тоже изменилось: Алиса научилась объяснять сложные вещи простыми словами, генерировать идеи и удерживать контекст беседы. Даже если пользователь отвлечется и через время задаст ей дополнительный вопрос.

Ещё выпустили опцию «Про» на мощнейшей на сегодня нейросети Яндекса — YandexGPT 3 Pro. Там есть все скиллы для брейншторма, придумывания концепций и даже виртуальная няня.

На русском языке, YandexGPT 3 Pro обходит GPT-3.5 Turbo в 58% случаях на side-by-side сравнениях.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
VoiceCraft: Zero-Shot редактор речи и Text2Speech

VoiceCraft - это нейрокодек, который может в редактирование записанной речи, позволяющий заменять сказанные слова на новые. На все про все ему нужно пару секунд референса, который можно взять из остальной записи.

Получается, можно полноценно редактировать какой-нибудь подкаст, вырезая лишнее и генеря заново текст.

Модель представляет собой авторегрессионный трансформер на 830М параметров, обученный на Gigaspeech XL. Чтобы перевести аудио в latent space используется модель EncodecModel с 56М параметров, натренированная по принципу VQGAN.

VoiceCraft генерит 13 секунд аудио примерно за 8 секунд на RTX 3080 (те быстрее самой записи), что по идее дает возможность редактировать речь в риалтайме.

Пока доступен только английский язык.

В перспективе, как уже сказано, можно использовать для монтажа подкастов, а также закадрового голоса. На данный момент, это вроде как SOTA из того, что есть в опенсорсе.

Ну а если прикрутить еще какой-нибудь wav2lip, то и видосы тоже можно будет редачить.

Статья
Сайт проекта с примерами
Код
Потыкать самостоятельно в хаггинге
Notebook

@ai_newz
Илонка молодец, Илонка анонсировал новую версию своей языковой модели Grok 1.5V. Теперь она понимает картинки. Судя по табличке с бенчмарками, Vision часть модели работает плюс-минус на уровне GPT-4V (правда, непонятно с какой версией они сравнивали).

Ещё и новый бенчмарк (RealWorldQA) зарелизили, для проверки того, как хорошо модель умеет понимать загружаемые фото. Там 700 фото и вопросов к этим фото, нацеленных оценить именно пространственное мышление модели – с этим у них часто проблемы, и Grok 1.5V на этом бенчмарке сильно лучше чем GPT-4V и Claude 3 Sonnet.

Доступ обещают "скоро", но базовой Grok 1.5 обещали на прошлой неделе, а всё ещё не релизнули. Напомню, что Grok-1 выпустили в опенсорс только месяц назад, но модель слишком большая, чтобы быть юзабельной (314 B параметров).

Ждем веса и код новой модели! 😑

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI запустила новую модельку GPT-4 Turbo в чатик. Теперь все подписчики могут на себе оценить возможности новой версии. Судя по твитам, помимо прочих улучшений и матеши, ответы стали более человечными. Жду ваши тесты в комментах! БТВ, катофф ее знаний все еще декабрь 2023.

Должна появиться у всех через какое-то время.

@ai_newz
Там на NeurIPS (топовая конфа по AI) объявили о создании трека для старшеклассников, чтоб они сабмитил научные статейки еще со школы.

Кажется, без двух статей на Нипсе скоро даже в бакалавриат брать не будут. 👀

Сейчас уже на PhD в топовые лабы не пробиться без top-tier публикаций. Я еще на дурничку проскочил в 2015, когда не было такого хайпа, и почти ни у кого до аспирантуры не было серьезных публикаций.

П.с. напишите в комментах, если хотите пост с моим мнением по поводу "нужно ли делать PhD".


@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейродайджест за неделю (#13)

1. Заметки
Канада выделила 1.5 млрд долларов на AI кластер. Молодежь радуется шансу разбогатеть. Государственики медленно просыпаются к AI-лихорадке.
ШАД от Яндекса - бесплатная программа по фундаменту в ML. Хороший буст по знаниям.
llm.c от Андрея Карпатого - тренируй LLM на умных лампочках
NeurIPS трек для старшеклассников. Скоро без статей на Нипсе и в шарагу не возьмут?

2. Релизы и обновления

JetMoE - очень дешевый трейн LLM. Можно юзать как основу для файнтюнов.
GPT-4 - теперь с картинками через API. В целом значительно лучше. Обнову уже завезли и в чатик.
Дроп Mixtral-8x22B. Веса уже на торренте.
Grok 1.5V от Маска с виженом и любовью. Скоро.

3. Утилиты и приложения

Креативный апскейл от Леонардо. Дают опрокинуть 5 бесплатных грузовиков с деталями в день.
Lightning Studio - альтернатива Google Colab с бесплатным хранилищем и интеграцией IDE. 22 GPU-часа бесплатно в месяц.
VoiceCraft - редактор речи. Как поменять кусок текста в аудиозаписи.

4. Подкасты
Разговор о RAG с Олой Пиктус, ресерч инженерном из Cohere. И о том как перекатиться из SWE а ресерч на ее примере.

5. Личное
Об авторе канала + подборка избранных постов для новоприбывших.

#дайджест
@ai_newz
Chatbot Arena: Альтман наносит ответный удар

Пару недель назад Claude 3 Opus сместил GPT-4 с вершины пищевой цепочки по общему рейтингу, но тут подоспели результаты новой GPT-4 Turbo 2024-04-09 в чатбот арене. Новая модель OpenAI смогла победить Opus, который продержался на первом месте чуть меньше трёх недель. Claude 3 Opus всё ещё лучше в отдельных задачах: понимании длинного контекста и китайском языке.

А ещё появились результаты DBRX, всё плохо: модель оказалась на 26 месте и отстаёт от Mixtral, у которого в два раза меньше параметров.

Под конец приведу цитату классика: "Сейчас я доверяю только двум бенчмаркам LLM: Chatbot Arena и разделу комментариев r/LocalLlama."

@ai_newz
Adobe закупается видосиками

По интернету и так ходят слухи, что в нём закончилась дата для тренировки диффузионок. А если ты Adobe и хочешь все делать на лицензионном контенте, то и того хуже. Так что теперь адобченко платят по 3 доллара (доходит и до $7) за минуту видео-контента для своих моделей. При чем на видео люди просто живут, двигают руками, ногами; злятся и говорят по телефону. Что, наверное, не так часто снимают специально. Может быть, таких данных действительно не хватает.

Никогда бы не подумал, что для того чтобы успеть в гонке ии-моделек, весь бигтех дружно перейдет на пиратский контент (хотя, считать это fair use или нет все еще является дилеммой). Кстати, слышал где-то, что 6-ю версию Midjourney тренировали на кадрах из фильмов. Поэтому там такие красивые картинки. Файнтюн на эстетику.

Ну, и теперь, очевидно, что Adobe готовят свою видео модель, конкурента SORA.

@ai_newz
Решил я стать промпт-инженером и получать $300кк/сек, поэтому посмотрел курс Эндрю Ына "ChatGPT Prompt Engineering for Developers". Шучу, конечно. Просто хотелось понять, насколько полезны такого рода курсы, может там действительно учат заклинать нейронки – я впервые смотрел лекции по промпт-инжинирингу.

Мой честный отзыв:
– Курс будет полезен для новичков, которые слабо представляют как работать с LLM, и что у нее можно просить (и как). Классно, что параллельно с видео можно самому играться с промптами и вызывать GPT-3.5 через API в бесплатном ноутбуке, который встроен в интерфейс курса.
– Кроме этого, особо ничему там не научат. Разве, что я увидел прикольную тулзу redlines для подсветки разницы между двумя текстами в python (см скрин в первом коммментарии).

Так что для новичков — рекомендую. Для остальных — нет, лучше почитайте статьи какие-нибудь.

Ссылка на курс (бесплатно)

#туториал
@ai_newz