o1 - новая моделька от OpenAI, та самая 🍓
Основной прорыв - научили модель скейлить инференс компьют через CoT, чем больше компьюта - тем лучше результаты. Инференс выходит дорогущим, но результаты сильно лучше.
Доступ дают всем подписчикам ChatGPT и девам 5 тира (те кто потратили больше $1k на API). Подписчикам будут давать по 30 сообщений с o1 и 50 сообщений с o1-mini в неделю.
https://openai.com/index/learning-to-reason-with-llms/
@ai_newz
Основной прорыв - научили модель скейлить инференс компьют через CoT, чем больше компьюта - тем лучше результаты. Инференс выходит дорогущим, но результаты сильно лучше.
Доступ дают всем подписчикам ChatGPT и девам 5 тира (те кто потратили больше $1k на API). Подписчикам будут давать по 30 сообщений с o1 и 50 сообщений с o1-mini в неделю.
https://openai.com/index/learning-to-reason-with-llms/
@ai_newz
Наткнулся в Твиттере на шикарную визуализацию LLM. Как выяснилось, ей уже целый год, но для новичков это все ещё полезная штука.
Кроме красивой 3D-модельки, здесь еще подробный гайд по работе каждого элемента, как говорит автор, до каждого "сложить и умножить".
По архитектурам там есть GPT-2, nanoGPT, GPT-2 XL, ну и GPT-3.
Ссылочка на визуализацию
@ai_newz
Кроме красивой 3D-модельки, здесь еще подробный гайд по работе каждого элемента, как говорит автор, до каждого "сложить и умножить".
По архитектурам там есть GPT-2, nanoGPT, GPT-2 XL, ну и GPT-3.
Ссылочка на визуализацию
@ai_newz
WebGPU puzzles
Если всегда было интересно, как работать с GPU, но вы не знали с чего начать, то принёс вам занятие на субботний вечер - WebGPU Puzzles. Это небольшой курс задачек, вдохновлённый оригинальными GPU Puzzles, но работает прямо в браузере! Несмотря на браузер, скорость молниеносная - всё компилится и запускается за долю секунды после каждого нажатия клавиши. Из минусов - пока поддерживается только Chrome.
Возможным это стало из-за gpu.cpp - библиотеки поверх WebGPU, упрощающей работу с компьютом. Answer AI с момента основания только и занимается тем, что создаёт такие мелочи, упрощающие жизнь. Они первыми заставили QLora работать с FSDP, а недавно выпустили FastHTML - фреймворк для создания небольших веб-приложений на чистом Python, хорошая альтернатива Gradio.
https://gpupuzzles.answer.ai/
@ai_newz
Если всегда было интересно, как работать с GPU, но вы не знали с чего начать, то принёс вам занятие на субботний вечер - WebGPU Puzzles. Это небольшой курс задачек, вдохновлённый оригинальными GPU Puzzles, но работает прямо в браузере! Несмотря на браузер, скорость молниеносная - всё компилится и запускается за долю секунды после каждого нажатия клавиши. Из минусов - пока поддерживается только Chrome.
Возможным это стало из-за gpu.cpp - библиотеки поверх WebGPU, упрощающей работу с компьютом. Answer AI с момента основания только и занимается тем, что создаёт такие мелочи, упрощающие жизнь. Они первыми заставили QLora работать с FSDP, а недавно выпустили FastHTML - фреймворк для создания небольших веб-приложений на чистом Python, хорошая альтернатива Gradio.
https://gpupuzzles.answer.ai/
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите что делают с фортнайтом в новом video to video режиме Runway GEN-3. На обычных десктопах в риалтайме это вряд-ли будет работать в ближайший год-два, но когда доускоряем... В геймдеве станет очень жарко, особенно когда такое будет доступно на консолях.
В посте ниже накидал еще, там есть пример того, как это реально можно применять в дешёвом продакшене. Соскрапил с твиттера, конечно же : )
@ai_newz
В посте ниже накидал еще, там есть пример того, как это реально можно применять в дешёвом продакшене. Соскрапил с твиттера, конечно же : )
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Ещё примеры video2video. Мой любимый 5-й: там чуваки вырезали из картона болванки и неплохо так их оживили + за смекалку.
Все же реактировать готовое видео – это гораздо более простая задача, чем генерить его по текстовому описанию с нуля.
Когда на вход дают видео, то там есть уже готовый реалистичный моушен и глобальная геометрия. Нужно только частично поменять, как оно рендерится, либо отредактировать только лишь какую-то часть видео. Думаю, что такие модели гораздо раньше найдут реальное применение в киноиндустрии чем text2video.
@ai_newz
Все же реактировать готовое видео – это гораздо более простая задача, чем генерить его по текстовому описанию с нуля.
Когда на вход дают видео, то там есть уже готовый реалистичный моушен и глобальная геометрия. Нужно только частично поменять, как оно рендерится, либо отредактировать только лишь какую-то часть видео. Думаю, что такие модели гораздо раньше найдут реальное применение в киноиндустрии чем text2video.
@ai_newz
Нейродайджест за неделю (#35)
LLM, гонки и клубника
- Гонка инференса Грок обогнал Cerebras, выдав >500 токенов/сек на Llama 70B.
- SambaNova. Еще один лидер, о котором раньше никто не слышал. Теперь у ребят самая быстрая лама 405B.
- Pixtral - 12B. Мультимодалка от Mistral теперь понимает картинки.
- OpenAI o1 или та самая Strawberry. Скейлить инференс комьют через CoT — похоже, всё, что нам осталось. Прайсинг, конечно, жестокий.
Генерация видео
- Runway зарелизила модель для генерации video2video. Смотрим примеры, и почему оно работает лучше чем text2video.
Гайды
- Визуализация LLM. Смотрим как работает LLM на интерактивной визуализации.
- WebGPU puzzles. Как оригинальный GPU Puzzles, но прямо в браузере. Кайфы, всё быстро и просто. Идем ботать программирование под GPU!
Всякое
- Разоблачаем AI-хапожоров или почему нужно читать проверенные источники.
- Преза Apple. "Главное" нововведение — это то, что в названии после 1 теперь не 5, а 6.
Интерактивчик!
- Стрим про карьеру и учебу. Поговорили про поступление в ЕС, PhD программу в Meta и еще кучу ништяков, кто не успел — тот опоздал. Жмякайте unmute :)
> Читать дайджест #34
#дайджест
@ai_newz
LLM, гонки и клубника
- Гонка инференса Грок обогнал Cerebras, выдав >500 токенов/сек на Llama 70B.
- SambaNova. Еще один лидер, о котором раньше никто не слышал. Теперь у ребят самая быстрая лама 405B.
- Pixtral - 12B. Мультимодалка от Mistral теперь понимает картинки.
- OpenAI o1 или та самая Strawberry. Скейлить инференс комьют через CoT — похоже, всё, что нам осталось. Прайсинг, конечно, жестокий.
Генерация видео
- Runway зарелизила модель для генерации video2video. Смотрим примеры, и почему оно работает лучше чем text2video.
Гайды
- Визуализация LLM. Смотрим как работает LLM на интерактивной визуализации.
- WebGPU puzzles. Как оригинальный GPU Puzzles, но прямо в браузере. Кайфы, всё быстро и просто. Идем ботать программирование под GPU!
Всякое
- Разоблачаем AI-хапожоров или почему нужно читать проверенные источники.
- Преза Apple. "Главное" нововведение — это то, что в названии после 1 теперь не 5, а 6.
Интерактивчик!
- Стрим про карьеру и учебу. Поговорили про поступление в ЕС, PhD программу в Meta и еще кучу ништяков, кто не успел — тот опоздал. Жмякайте unmute :)
> Читать дайджест #34
#дайджест
@ai_newz
Media is too big
VIEW IN TELEGRAM
Если вам когда-либо было интересно, как получить мегакластер GPU, то вот вам подробный гайд от Ларри Эллисона, фаундера того самого Оракла. Челу 80, кстати, похоже, он всё-таки нашёл эликсир вечной молодости.
Ну так вот, записываем:
1) Приходим на ужин к Дженсену Хуангу.
2) Вместе с Маском умоляем Кожанку взять ваши миллиарды.
3) Поздравляю, если вам повезёт, то партию свеженьких GPU не задержат.
Теперь повторяем😂
Кроме шуток, Oracle – одна из немногих компаний, которая смогла заполучить контракт на более чем 100.000 видеокарт NVIDIA Blackwell (это GB200, например). Они уже строят огромный кластер, который заработает в первой половине 2025. А сбоку еще планируют пристроить 3 маленьких атомных реактора на ~1000 MW, чтобы все это дело запитывать электроэнергией.
Короче, если GPU - это новая нефть, то AI – это новый автомобиль.
@ai_newz
Ну так вот, записываем:
1) Приходим на ужин к Дженсену Хуангу.
2) Вместе с Маском умоляем Кожанку взять ваши миллиарды.
3) Поздравляю, если вам повезёт, то партию свеженьких GPU не задержат.
Теперь повторяем
Кроме шуток, Oracle – одна из немногих компаний, которая смогла заполучить контракт на более чем 100.000 видеокарт NVIDIA Blackwell (это GB200, например). Они уже строят огромный кластер, который заработает в первой половине 2025. А сбоку еще планируют пристроить 3 маленьких атомных реактора на ~1000 MW, чтобы все это дело запитывать электроэнергией.
Короче, если GPU - это новая нефть, то AI – это новый автомобиль.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Стрим про карьеру, собеседования и бигтех
Заметил, что у вас есть большой запрос на эту тему. Поэтому мы тут организовались с ребатами и будем проводить большой стрим, где поговорим про карьеру и собеседования в FAANG.
Choose your fighter. Бигтех-банда для стрима:
- Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера;
- Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы;
- Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами;
- Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Юра будет скоморошить (то есть модерировать) встречу;
- Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор @ai_newz (еще раз пост-приветствие). А вот тут я писал про то, как собеседую на разные синьорные позиции в Мету.
---
Вопросы можно задавать заранее тут в комментах, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?»
Время: 20 сентября, Пятница, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь).
Записи не будет, все вживую. Мест – максимум 1000 😀
#interviews
@ai_newz
Заметил, что у вас есть большой запрос на эту тему. Поэтому мы тут организовались с ребатами и будем проводить большой стрим, где поговорим про карьеру и собеседования в FAANG.
Choose your fighter. Бигтех-банда для стрима:
- Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера;
- Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы;
- Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами;
- Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Юра будет скоморошить (то есть модерировать) встречу;
- Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор @ai_newz (еще раз пост-приветствие). А вот тут я писал про то, как собеседую на разные синьорные позиции в Мету.
---
Вопросы можно задавать заранее тут в комментах, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?»
Время: 20 сентября, Пятница, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь).
Записи не будет, все вживую. Мест – максимум 1000 😀
#interviews
@ai_newz
Сегодня хочу поделиться мыслями об опенсорсе в AI/ML. Как человек, который сам тренирует большие модели, могу сказать - опенсорс это очень круто! Радует, что крупные компании это тоже понимают.
Открытые решения реально двигают всю сферу вперед, позволяя даже небольшим командам использовать SOTA инструменты и строить на них свои продукты. Например, та же Meta с релизом LLama3.1 и предыдущими версиями серьезно подтолкнула прогресс в области LLM.
Ну, и бигтехи в России тоже контрибьютят в опенсорс. Наткнулся на исследование ИТМО, где они посмотрели, кто больше всего выкладывает в открытый доступ штук по AI/ML. В тройке лидеров оказались Яндекс, Сбер и Т-Банк.
Вот мой личный топ их репозиториев:
• Яндекс:
- catboost - мощная библиотека для градиентного бустинга
- YaFSDP (я писал о ней тут) - библиотека для ускорения распределенного обучения больших моделей.
• Сбер:
- Kandinsky-3 - крупная text2image модель на 3B параметров
- ru-gpts - одни из первых LLM на русском языке
• Т-Банк:
- T-lite – русскоязычная специализированная LLM на 8B параметров
- Rebased - (писал о ней тут) - улучшенная имплементация линейного трансформера
В общем, топим за опенсорс. И не стесняйтесь контрибьютить сами, если есть что предложить - кроме всего прочего, это еще и хорошо выглядит в CV.
@ai_newz
Открытые решения реально двигают всю сферу вперед, позволяя даже небольшим командам использовать SOTA инструменты и строить на них свои продукты. Например, та же Meta с релизом LLama3.1 и предыдущими версиями серьезно подтолкнула прогресс в области LLM.
Ну, и бигтехи в России тоже контрибьютят в опенсорс. Наткнулся на исследование ИТМО, где они посмотрели, кто больше всего выкладывает в открытый доступ штук по AI/ML. В тройке лидеров оказались Яндекс, Сбер и Т-Банк.
Вот мой личный топ их репозиториев:
• Яндекс:
- catboost - мощная библиотека для градиентного бустинга
- YaFSDP (я писал о ней тут) - библиотека для ускорения распределенного обучения больших моделей.
• Сбер:
- Kandinsky-3 - крупная text2image модель на 3B параметров
- ru-gpts - одни из первых LLM на русском языке
• Т-Банк:
- T-lite – русскоязычная специализированная LLM на 8B параметров
- Rebased - (писал о ней тут) - улучшенная имплементация линейного трансформера
В общем, топим за опенсорс. И не стесняйтесь контрибьютить сами, если есть что предложить - кроме всего прочего, это еще и хорошо выглядит в CV.
@ai_newz
Media is too big
VIEW IN TELEGRAM
Снапчат троллит Эпл.
Вчера прошла ежегодная презентация Снапчата. Заанонсили пару прикольных штук. Приложение со смешными масочками решило с двух ног залететь в AR/VR и AI. Казалось бы, ничего не предвещало...
Показали AR-очки с прозрачными линзами! Это уже 5-е поколение Spectacles, хотя раньше о них никто особо не слышал. Очки обещают утереть нос Эпл Вижену, как видно на видео выше. Функционал пока непонятен, но анонс многообещающий.
Пишут, что заряда хватит на 45 минут, и пока вся эта история выглядит как оверхайп. Девайс стоит 99 долларов в месяц с обязательной оплатой на 12 месяцев. Пока доступен только ограниченному кругу разработчиков, кому повезло попасть в developer-программу. Возможно, потом станет дешевле, если очечки выйдут на массовый рынок.
Ещё представили фильтр, который очень точно воспроизводит лицо на сгенерированной картинке (что-то вроде IP-Adapter на стероидах). Подробностей пока нет.
И последняя горячая новинка — text и img 2 video foundation модель. Новый конкурент Sora (да, опять, хах), но пока почти нет видео для сравнения.
@ai_newz
Вчера прошла ежегодная презентация Снапчата. Заанонсили пару прикольных штук. Приложение со смешными масочками решило с двух ног залететь в AR/VR и AI. Казалось бы, ничего не предвещало...
Показали AR-очки с прозрачными линзами! Это уже 5-е поколение Spectacles, хотя раньше о них никто особо не слышал. Очки обещают утереть нос Эпл Вижену, как видно на видео выше. Функционал пока непонятен, но анонс многообещающий.
Пишут, что заряда хватит на 45 минут, и пока вся эта история выглядит как оверхайп. Девайс стоит 99 долларов в месяц с обязательной оплатой на 12 месяцев. Пока доступен только ограниченному кругу разработчиков, кому повезло попасть в developer-программу. Возможно, потом станет дешевле, если очечки выйдут на массовый рынок.
Ещё представили фильтр, который очень точно воспроизводит лицо на сгенерированной картинке (что-то вроде IP-Adapter на стероидах). Подробностей пока нет.
И последняя горячая новинка — text и img 2 video foundation модель. Новый конкурент Sora (да, опять, хах), но пока почти нет видео для сравнения.
@ai_newz