эйай ньюз
63.5K subscribers
1.48K photos
789 videos
7 files
1.79K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
WebGPU puzzles

Если всегда было интересно, как работать с GPU, но вы не знали с чего начать, то принёс вам занятие на субботний вечер - WebGPU Puzzles. Это небольшой курс задачек, вдохновлённый оригинальными GPU Puzzles, но работает прямо в браузере! Несмотря на браузер, скорость молниеносная - всё компилится и запускается за долю секунды после каждого нажатия клавиши. Из минусов - пока поддерживается только Chrome.

Возможным это стало из-за gpu.cpp - библиотеки поверх WebGPU, упрощающей работу с компьютом. Answer AI с момента основания только и занимается тем, что создаёт такие мелочи, упрощающие жизнь. Они первыми заставили QLora работать с FSDP, а недавно выпустили FastHTML - фреймворк для создания небольших веб-приложений на чистом Python, хорошая альтернатива Gradio.

https://gpupuzzles.answer.ai/

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите что делают с фортнайтом в новом video to video режиме Runway GEN-3. На обычных десктопах в риалтайме это вряд-ли будет работать в ближайший год-два, но когда доускоряем... В геймдеве станет очень жарко, особенно когда такое будет доступно на консолях.

В посте ниже накидал еще, там есть пример того, как это реально можно применять в дешёвом продакшене. Соскрапил с твиттера, конечно же : )

@ai_newz
Ещё примеры video2video. Мой любимый 5-й: там чуваки вырезали из картона болванки и неплохо так их оживили + за смекалку.

Все же реактировать готовое видео – это гораздо более простая задача, чем генерить его по текстовому описанию с нуля.

Когда на вход дают видео, то там есть уже готовый реалистичный моушен и глобальная геометрия. Нужно только частично поменять, как оно рендерится, либо отредактировать только лишь какую-то часть видео. Думаю, что такие модели гораздо раньше найдут реальное применение в киноиндустрии чем text2video.

@ai_newz
Нейродайджест за неделю (#35)

LLM, гонки и клубника
- Гонка инференса Грок обогнал Cerebras, выдав >500 токенов/сек на Llama 70B.
- SambaNova. Еще один лидер, о котором раньше никто не слышал. Теперь у ребят самая быстрая лама 405B.
- Pixtral - 12B. Мультимодалка от Mistral теперь понимает картинки.
- OpenAI o1 или та самая Strawberry. Скейлить инференс комьют через CoT — похоже, всё, что нам осталось. Прайсинг, конечно, жестокий.

Генерация видео
- Runway зарелизила модель для генерации video2video. Смотрим примеры, и почему оно работает лучше чем text2video.

Гайды
- Визуализация LLM. Смотрим как работает LLM на интерактивной визуализации.
- WebGPU puzzles. Как оригинальный GPU Puzzles, но прямо в браузере. Кайфы, всё быстро и просто. Идем ботать программирование под GPU!

Всякое
- Разоблачаем AI-хапожоров или почему нужно читать проверенные источники.
- Преза Apple. "Главное" нововведение — это то, что в названии после 1 теперь не 5, а 6.

Интерактивчик!
- Стрим про карьеру и учебу. Поговорили про поступление в ЕС, PhD программу в Meta и еще кучу ништяков, кто не успел — тот опоздал. Жмякайте unmute :)

> Читать дайджест #34

#дайджест
@ai_newz
Media is too big
VIEW IN TELEGRAM
Если вам когда-либо было интересно, как получить мегакластер GPU, то вот вам подробный гайд от Ларри Эллисона, фаундера того самого Оракла. Челу 80, кстати, похоже, он всё-таки нашёл эликсир вечной молодости.

Ну так вот, записываем:
1) Приходим на ужин к Дженсену Хуангу.
2) Вместе с Маском умоляем Кожанку взять ваши миллиарды.
3) Поздравляю, если вам повезёт, то партию свеженьких GPU не задержат.

Теперь повторяем😂

Кроме шуток, Oracle – одна из немногих компаний, которая смогла заполучить контракт на более чем 100.000 видеокарт NVIDIA Blackwell (это GB200, например). Они уже строят огромный кластер, который заработает в первой половине 2025. А сбоку еще планируют пристроить 3 маленьких атомных реактора на ~1000 MW, чтобы все это дело запитывать электроэнергией.

Короче, если GPU - это новая нефть, то AI – это новый автомобиль.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Стрим про карьеру, собеседования и бигтех

Заметил, что у вас есть большой запрос на эту тему. Поэтому мы тут организовались с ребатами и будем проводить большой стрим, где поговорим про карьеру и собеседования в FAANG.

Choose your fighter. Бигтех-банда для стрима:

- Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера;

- Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы;

- Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами;

- Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Юра будет скоморошить (то есть модерировать) встречу;

- Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор @ai_newz (еще раз пост-приветствие). А вот тут я писал про то, как собеседую на разные синьорные позиции в Мету.

---

Вопросы можно задавать заранее тут в комментах, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?»

Время: 20 сентября, Пятница, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь).

Записи не будет, все вживую. Мест – максимум 1000 😀

#interviews
@ai_newz
Сегодня хочу поделиться мыслями об опенсорсе в AI/ML. Как человек, который сам тренирует большие модели, могу сказать - опенсорс это очень круто! Радует, что крупные компании это тоже понимают.

Открытые решения реально двигают всю сферу вперед, позволяя даже небольшим командам использовать SOTA инструменты и строить на них свои продукты. Например, та же Meta с релизом LLama3.1 и предыдущими версиями серьезно подтолкнула прогресс в области LLM.

Ну, и бигтехи в России тоже контрибьютят в опенсорс. Наткнулся на исследование ИТМО, где они посмотрели, кто больше всего выкладывает в открытый доступ штук по AI/ML. В тройке лидеров оказались Яндекс, Сбер и Т-Банк.

Вот мой личный топ их репозиториев:
• Яндекс:
- catboost - мощная библиотека для градиентного бустинга
- YaFSDP (я писал о ней тут) -  библиотека для ускорения распределенного обучения больших моделей.
• Сбер:
- Kandinsky-3 - крупная text2image модель на 3B параметров
- ru-gpts - одни из первых LLM на русском языке
• Т-Банк:
- T-lite – русскоязычная специализированная LLM на 8B параметров
- Rebased - (писал о ней тут) - улучшенная имплементация линейного трансформера

В общем, топим за опенсорс. И не стесняйтесь контрибьютить сами, если есть что предложить - кроме всего прочего, это еще и хорошо выглядит в CV.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Снапчат троллит Эпл.

Вчера прошла ежегодная презентация Снапчата. Заанонсили пару прикольных штук. Приложение со смешными масочками решило с двух ног залететь в AR/VR и AI. Казалось бы, ничего не предвещало...

Показали AR-очки с прозрачными линзами! Это уже 5-е поколение Spectacles, хотя раньше о них никто особо не слышал. Очки обещают утереть нос Эпл Вижену, как видно на видео выше. Функционал пока непонятен, но анонс многообещающий.

Пишут, что заряда хватит на 45 минут, и пока вся эта история выглядит как оверхайп. Девайс стоит 99 долларов в месяц с обязательной оплатой на 12 месяцев. Пока доступен только ограниченному кругу разработчиков, кому повезло попасть в developer-программу. Возможно, потом станет дешевле, если очечки выйдут на массовый рынок.

Ещё представили фильтр, который очень точно воспроизводит лицо на сгенерированной картинке (что-то вроде IP-Adapter на стероидах). Подробностей пока нет.

И последняя горячая новинка — text и img 2 video foundation модель. Новый конкурент Sora (да, опять, хах), но пока почти нет видео для сравнения.

@ai_newz
Вот и результаты Strawberry 🍓 на арену подъехали. И конечно же это новый лидер!

Похоже, o1 открывает свой новый тир, результаты (в среднем) на голову выше, чем у предшественников, улучшился перформанс даже на обычных не наукоёмких запрсах. А в хард-промптах и кодинге все остальные даже не близко (4o может немного).

Челам с подпиской повезло, им еще и лимиты недавно повысили. А вот стоит ли переплачивать в 30 раз (тк o1 тратит в ~6 раз больше токенов на запрос чем 4o) за API для обычного пользователя – пока непонятно.

А как вы планируете использовать новую модель на полную мощь?

@ai_newz