В ByteDance стажёр обиделся и два месяца саботировал тренировочные раны соседней команды, причём весьма изощрёнными методами:
➖ Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)
➖ Специально добавлял баги в форк PyTorch, который запускался на кластере
➖ Портил чекпоинты, чтобы результаты экспериментов не сходились
При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?
П.с. кроме шуток, мощный чел оказался.
@ai_newz
➖ Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)
➖ Специально добавлял баги в форк PyTorch, который запускался на кластере
➖ Портил чекпоинты, чтобы результаты экспериментов не сходились
При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?
П.с. кроме шуток, мощный чел оказался.
@ai_newz
11😁509🤯181🔥59👍27❤25😱21🫡5🦄5💯3⚡2🙏2
Нейродайджест за неделю (#40)
Юбилейный) 🎉
LLM
- Ministral. Борьба в сегменте мобильных LLM набирает обороты.
- Turbo Alignment. Библиотека для быстрого тюнинга LLM.
- Chatbot Arena для кодеров. Копайлот от лучшего бенчмарка, предназначенный для оценки эффективности моделей в написании кода.
Другие модальности
- Гайд по запуску Voice Mode ChatGPT. Классный метод обхода ограничений, который работает.
- tost.ai. Бесплатный сервис для генерации и тренировки LoRA на Flux.
Другие новости
- Месть подается холодной. История о том, как саботировать два месяца работы техногиганта. Надо было всем выделять GPU!
- DGX B200. Монстр от NVIDIA за 500 тысяч долларов.
> Читать дайджест #39
#дайджест
@ai_newz
Юбилейный) 🎉
LLM
- Ministral. Борьба в сегменте мобильных LLM набирает обороты.
- Turbo Alignment. Библиотека для быстрого тюнинга LLM.
- Chatbot Arena для кодеров. Копайлот от лучшего бенчмарка, предназначенный для оценки эффективности моделей в написании кода.
Другие модальности
- Гайд по запуску Voice Mode ChatGPT. Классный метод обхода ограничений, который работает.
- tost.ai. Бесплатный сервис для генерации и тренировки LoRA на Flux.
Другие новости
- Месть подается холодной. История о том, как саботировать два месяца работы техногиганта. Надо было всем выделять GPU!
- DGX B200. Монстр от NVIDIA за 500 тысяч долларов.
> Читать дайджест #39
#дайджест
@ai_newz
❤34🔥16⚡7👍4❤🔥3🦄1
Эквивалент GPT-2 Small теперь тренируют за 12 минут
Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.
➖ Поменяли функцию активации на relu^2, а норму - на RMSNorm.
➖ Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
➖ Projection matrices инициализируют теперь нулями.
➖ Добавили норму к QK-проекциям.
➖ Паддят эмбеддинг-матрицу до размерности, кратной 64.
Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.
Код для тренировки, кстати, всего 500 строк.
https://github.com/KellerJordan/modded-nanogpt
@ai_newz
Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.
➖ Поменяли функцию активации на relu^2, а норму - на RMSNorm.
➖ Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
➖ Projection matrices инициализируют теперь нулями.
➖ Добавили норму к QK-проекциям.
➖ Паддят эмбеддинг-матрицу до размерности, кратной 64.
Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.
Код для тренировки, кстати, всего 500 строк.
https://github.com/KellerJordan/modded-nanogpt
@ai_newz
👍144🤯72🔥50❤23❤🔥2😁1🦄1
XAI запустили API
Пока доступна только большая Grok 2. Mini-моделька есть в документации, но доступ к ней пока не дают. Ещё есть пустая секция с моделями для эмбеддингов, которая намекает на будущие релизы.
Цены довольно высокие — $5 input/$15 output за миллион токенов. У всех моделей-конкурентов цены заметно дешевле (дороже только o1, но Grok 2 до неё очень далеко). К тому же у конкурентов часто есть context caching и Batch API, которые помогают заметно снизить стоимость использования.
Важно понимать, что это бета-продукт, который сделали 6 человек за 4 месяца. Дальше наверняка будут добавлять новые функции, больше моделек и снижать цены. Как он будет соотноситься с конкурентами через полгода - вопрос открытый.
@ai_newz
Пока доступна только большая Grok 2. Mini-моделька есть в документации, но доступ к ней пока не дают. Ещё есть пустая секция с моделями для эмбеддингов, которая намекает на будущие релизы.
Цены довольно высокие — $5 input/$15 output за миллион токенов. У всех моделей-конкурентов цены заметно дешевле (дороже только o1, но Grok 2 до неё очень далеко). К тому же у конкурентов часто есть context caching и Batch API, которые помогают заметно снизить стоимость использования.
Важно понимать, что это бета-продукт, который сделали 6 человек за 4 месяца. Дальше наверняка будут добавлять новые функции, больше моделек и снижать цены. Как он будет соотноситься с конкурентами через полгода - вопрос открытый.
@ai_newz
🔥74👍42😁20❤7🦄6🤩3
Advanced Voice для ChatGPT теперь доступен в ЕС!
А также Швейцарии🕺 , Исландии, Норвегии и Лихтенштейне. Поздравляю всех с этим, welcome to the future. Лимиты всё ещё час разговора в сутки, поиграться можно, но постоянно использовать - нет.
@ai_newz
А также Швейцарии
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥96👍18🙏16🦄8❤5
В январе выйдет продолжение культовой книги "Cracking the coding interview". Книгу обновили, добавили новые темы и задачи + дополнительные главы например про то, как торговаться за Total Comp (зп) при получении оффера.
Первую версию этой книги я читал еще в 2014 году, когда готовился к своему первому интервью в FANNG - в Google. Я тогда хоть и зафейлил кодинг, но зато понял, что мало готовился :) И вместо гугла пошел делать PhD, о чем ни капли не жалею.
Книгу думаю все же заказать в свою коллекцию. Надеюсь, там будут какие-то инсайты, о которых я еще не знаю.
#books #interviews
@ai_newz
Первую версию этой книги я читал еще в 2014 году, когда готовился к своему первому интервью в FANNG - в Google. Я тогда хоть и зафейлил кодинг, но зато понял, что мало готовился :) И вместо гугла пошел делать PhD, о чем ни капли не жалею.
Книгу думаю все же заказать в свою коллекцию. Надеюсь, там будут какие-то инсайты, о которых я еще не знаю.
#books #interviews
@ai_newz
👍93❤27🔥14🦄6
Наша модель Movie Gen засветилась в Голливуде!
Короткометражка от Аниша Чаганти, одного из режиссёров Blumhouse (это крупнейшая студия, которая выпустила такие фильмы, как «Сплит», «МА»,«Крик» должны были делать «Крик 5» и другие ужастики), где он использует MovieGen для того, чтобы дать вторую жизнь старым кринжовым футажам. Вышел милый видос про детство автора, в котором он вспоминает, как любил творить и фантазировать, а теперь может снова это делать с MovieGen.
Думаю, когда генеративки проникнут в кино, мы все знатно выпадем от их возможностей в хоррорах.
Кстати, Аниш не единственный получил доступ, возможно нас ждет еще пара короткометражек от фильммейкеров студии. Интересно, что чуваки придумают с нашей моделькой. Также в будущем планируют запартнёриться с другими контентмейкерами (блогерами?). До следующего года MovieGen пока еще не будет в продуктах для общего пользования.
Приятно видеть такой импакт от проекта, над которым работал!😊
MovieGen
Про Blumhouse и MovieGen.
@ai_newz
Короткометражка от Аниша Чаганти, одного из режиссёров Blumhouse (это крупнейшая студия, которая выпустила такие фильмы, как «Сплит», «МА»,
Думаю, когда генеративки проникнут в кино, мы все знатно выпадем от их возможностей в хоррорах.
Кстати, Аниш не единственный получил доступ, возможно нас ждет еще пара короткометражек от фильммейкеров студии. Интересно, что чуваки придумают с нашей моделькой. Также в будущем планируют запартнёриться с другими контентмейкерами (блогерами?). До следующего года MovieGen пока еще не будет в продуктах для общего пользования.
Приятно видеть такой импакт от проекта, над которым работал!
MovieGen
Про Blumhouse и MovieGen.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥118❤🔥22🦄19👍15❤8🤯3🫡1
Stable Diffusion 3.5 Large
Stability наконец-то выпустили 8B модельку, которую тизерили ещё в феврале. Идёт в двух версиях - обычная и Turbo (которой нужно всего 4 степа). Ещё обещают обновённую Medium завезти, но только 29 октября, через неделю.
По качеству полная моделька, по заявлениям Stability находится между FLUX.1 dev и schnell. Turbo - чуть хуже schnell. До FLUX.1 Pro обоим далеко. Зато хвастаются что SD 3.5 лучше всех в понимании промптов.
Доступны по комьюнити лицензии - то есть если у вас годовая выручка до миллиона долларов, ничего платить не нужно. А вот если больше, то попросят раскошелиться на энтерпрайз лицензию.
После фиаско с Medium 3.0 (которая была ошибкой), к релизу отношусь настороженно.
Не жду, что Stability когда-либо сможет выпустить новую SOTA, т.к. все основные авторы SD ушли.
Веса
Turbo версия
Код
Блогпост
@ai_newz
Stability наконец-то выпустили 8B модельку, которую тизерили ещё в феврале. Идёт в двух версиях - обычная и Turbo (которой нужно всего 4 степа). Ещё обещают обновённую Medium завезти, но только 29 октября, через неделю.
По качеству полная моделька, по заявлениям Stability находится между FLUX.1 dev и schnell. Turbo - чуть хуже schnell. До FLUX.1 Pro обоим далеко. Зато хвастаются что SD 3.5 лучше всех в понимании промптов.
Доступны по комьюнити лицензии - то есть если у вас годовая выручка до миллиона долларов, ничего платить не нужно. А вот если больше, то попросят раскошелиться на энтерпрайз лицензию.
После фиаско с Medium 3.0 (которая была ошибкой), к релизу отношусь настороженно.
Не жду, что Stability когда-либо сможет выпустить новую SOTA, т.к. все основные авторы SD ушли.
Веса
Turbo версия
Код
Блогпост
@ai_newz
🔥50👍25❤11🤩11🙏2❤🔥1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Как думаете, когда выйдет первая опенсорсная Text to Voice модель?
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥290❤37👍27🤯13❤🔥6🤩3🫡3💯2🦄2⚡1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Настоящий автономный (почти) агент и обновление Claude.
Claude обновили Sonnet 3.5 и релизнули Haiku 3.5 (которая теперь мощнее Opus 3, хотя и является "ускоренной" версией), это не прям прорыв, но производительность знатно улучшится.
Антропики пишут, что теперь Sonnet даже лучше o1-preview. Но правда, вот на табличке с бенчмарками её почему-то нет...
Но не это главное, а новый Computer. Дали на вход скриншоты экрана, прикрутили виртуальную клавиатуру и мышь. И всё, пошла жара. С лёгкими задачами справляется на ура. Но я бы сказал, что на уровне первых версий GPT-3 в математике. С задачей справляется лишь в 20% случаев, так что пока быстрее сделать дело вручную. Но если у вас много рутинной работы, которую хотелось бы автоматизировать, то с пары попыток бота можно вполне обучить делать что-то полезное.
Я сейчас не открою какую-то тайну, но агенты были и до этого. Но все они работают через API. А это значит, что для работы таких агентов нужно задействовать дополнительные ресурсы. Делать второй "интерфейс" для агента, а потом ещё писать код для самого агента. Как-то не очень хочется этого в 2024 году. Нам подавай всё по текстовому запросу да с первого раза. Так что революция, если и не произошла, то попытка засчитана.
Мне нравится вектор развития Антропиков. Они не гонятся во всём за OpenAI, а реализуют своё видение. Тот же Artifacts — это пушка, во всяком случае для не-программистов. А Computer — это шаг к автономным агентам, которые как личные ассистенты смогут скоро планировать вам поездки и бронировать билеты и отели.
Кстати, о похожем функционале ещё в апреле мечтали Apple с их Apple Intelligence. Агент тоже должен был сканировать экран и взаимодействовать с интерфейсом, вот почитайте.
Подробнее здесь.
@ai_newz
Claude обновили Sonnet 3.5 и релизнули Haiku 3.5 (которая теперь мощнее Opus 3, хотя и является "ускоренной" версией), это не прям прорыв, но производительность знатно улучшится.
Антропики пишут, что теперь Sonnet даже лучше o1-preview. Но правда, вот на табличке с бенчмарками её почему-то нет...
Но не это главное, а новый Computer. Дали на вход скриншоты экрана, прикрутили виртуальную клавиатуру и мышь. И всё, пошла жара. С лёгкими задачами справляется на ура. Но я бы сказал, что на уровне первых версий GPT-3 в математике. С задачей справляется лишь в 20% случаев, так что пока быстрее сделать дело вручную. Но если у вас много рутинной работы, которую хотелось бы автоматизировать, то с пары попыток бота можно вполне обучить делать что-то полезное.
Я сейчас не открою какую-то тайну, но агенты были и до этого. Но все они работают через API. А это значит, что для работы таких агентов нужно задействовать дополнительные ресурсы. Делать второй "интерфейс" для агента, а потом ещё писать код для самого агента. Как-то не очень хочется этого в 2024 году. Нам подавай всё по текстовому запросу да с первого раза. Так что революция, если и не произошла, то попытка засчитана.
Мне нравится вектор развития Антропиков. Они не гонятся во всём за OpenAI, а реализуют своё видение. Тот же Artifacts — это пушка, во всяком случае для не-программистов. А Computer — это шаг к автономным агентам, которые как личные ассистенты смогут скоро планировать вам поездки и бронировать билеты и отели.
Кстати, о похожем функционале ещё в апреле мечтали Apple с их Apple Intelligence. Агент тоже должен был сканировать экран и взаимодействовать с интерфейсом, вот почитайте.
Подробнее здесь.
@ai_newz
❤98🔥37👍30🦄8❤🔥5😁2😱2
Meta выпустила официальные квантизированные версии Llama 3.2 1B и 3B практически без потерь в качестве. Модели стали более чем в два раза меньше, от 2 до 4 раз быстрее и используют на 41% меньше памяти.
Вышло добиться этого через умные схемы квантизации плюс quantization-aware training. Без этого средняя потеря в качестве от квантизации — почти 20%, а так вышло добиться потери в 8% на более быстрой квантизации SpinQuant и чуть больше 1% при квантизации с QLoRa.
Важное отличие от обычной квантизации — то, что тут квантизированы не только веса, но и активации. Это позволит запускать эти модели на NPU, которые куда лучше работают с 8-битными вычислениями. NPU в наше время есть во всех смартфонах и в последних поколениях всех десктопов и ноутбуков (AMD, Apple, Intel, Qualcomm); их использование позволит ещё сильнее ускорить модели при более высокой энергоэффективности.
Другим компаниям провернуть такое было бы крайне сложно, так как нет доступа к такому количеству ресурсов и изначальному процессу тренировки, и очень легко накосячить, особенно учитывая тот факт, что Llama 3 — это одна из самых сложных моделей для квантизации.
Веса (если уже есть доступ к Llama 3.2, ещё раз просить не нужно)
Блогпост
@ai_newz
Вышло добиться этого через умные схемы квантизации плюс quantization-aware training. Без этого средняя потеря в качестве от квантизации — почти 20%, а так вышло добиться потери в 8% на более быстрой квантизации SpinQuant и чуть больше 1% при квантизации с QLoRa.
Важное отличие от обычной квантизации — то, что тут квантизированы не только веса, но и активации. Это позволит запускать эти модели на NPU, которые куда лучше работают с 8-битными вычислениями. NPU в наше время есть во всех смартфонах и в последних поколениях всех десктопов и ноутбуков (AMD, Apple, Intel, Qualcomm); их использование позволит ещё сильнее ускорить модели при более высокой энергоэффективности.
Другим компаниям провернуть такое было бы крайне сложно, так как нет доступа к такому количеству ресурсов и изначальному процессу тренировки, и очень легко накосячить, особенно учитывая тот факт, что Llama 3 — это одна из самых сложных моделей для квантизации.
Веса (если уже есть доступ к Llama 3.2, ещё раз просить не нужно)
Блогпост
@ai_newz
🔥170👍43❤24🫡6🦄3⚡2
Media is too big
VIEW IN TELEGRAM
Вы ждали бой Илона и Марка в октагоне? Вот вам бой. Смотреть со звуком и до конца (никто не ожидал такого исхода).
@ai_newz
@ai_newz
😁340🤯77🔥20❤11😱9🫡6🦄4👍1
Скорость Llama 3.1 70B выросла в 4 раза
Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.
Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.
Попробовать можно тут.
@ai_newz
Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.
Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.
Попробовать можно тут.
@ai_newz
🔥83👍33❤25🤯6🦄4😁1🤩1
Google готовит к релизу Jarvis
Заказать билеты на самолёт, отменить подписку или сделать какую-то мелкую монотонную работу скоро за вас сможет ИИ агент на основе Gemini. В отличие от Anthropic, которые научили Claude использовать весь компьютер, Jarvis будет ограничен браузером и как-то интегрирован с Chrome. С одной стороны это меньшая гибкость, с другой - таким образом надёжность агента будет заметно выше, что очень важно для релиза на сотни миллионов человек.
Показать могут уже вместе с Gemini 2.0, в декабре. А вот попользоваться, скорее всего, сначала дадут лишь маленькой группе пользователей.
Rabbit нужно было всего лишь подождать годик с релизом
@ai_newz
Заказать билеты на самолёт, отменить подписку или сделать какую-то мелкую монотонную работу скоро за вас сможет ИИ агент на основе Gemini. В отличие от Anthropic, которые научили Claude использовать весь компьютер, Jarvis будет ограничен браузером и как-то интегрирован с Chrome. С одной стороны это меньшая гибкость, с другой - таким образом надёжность агента будет заметно выше, что очень важно для релиза на сотни миллионов человек.
Показать могут уже вместе с Gemini 2.0, в декабре. А вот попользоваться, скорее всего, сначала дадут лишь маленькой группе пользователей.
Rabbit нужно было всего лишь подождать годик с релизом
@ai_newz
🔥130👍38❤18🦄7😁6
Нейродайджест за неделю (#41)
LLM
- Computer от Anthropic. Вышло обновление моделей и почти автономный агент Computer, который может использовать интерфейс ПК. Пока сыровато, но какой потенциал!
- Jarvis. Почти тот самый! Вслед за Anthropic гугловские решили анонсировать их конкурента, правда, доступ будет только в Хроме.
- Натренеруй свой GPT-2 Small за 12 минут. Процесс настолько заоптимизировали, что теперь это стоит 5 баксов на 8xH100. Как? Подробнее в посте.
- API Grok 2. По деньгам дороговато: $5 input/$15 output на миллион токенов.
- Квантизированные Ламы. Официальные и лучшие сжатые модели на 1 и 3B.
- Llama 70B на 2200 токенов в секунду. Cerebras уже не впервые ставит рекорды скорости.
Подготовка к интервью
- Cracking the coding interview. Скоро релиз новой версии одной из лучших книг по подготовке к собесам. Рекомендасион!
Генеративные модели
- Movie Gen в Голливуде. Блюмхаус получил в руки нашу модельку и вовсю её тестит.
- Stable Diffusion 3.5 Large. Ну не SOTA, но хоть выложили, раз уж обещали.
- Voice Design. Первая text2voice модель. Не просто читает текст, а генерит именно тембр голоса по запросу.
- Бой Маска и Цукерберга. Жалко, что всё это только в латентном пространстве...
> Читать дайджест #40
#дайджест
@ai_newz
LLM
- Computer от Anthropic. Вышло обновление моделей и почти автономный агент Computer, который может использовать интерфейс ПК. Пока сыровато, но какой потенциал!
- Jarvis. Почти тот самый! Вслед за Anthropic гугловские решили анонсировать их конкурента, правда, доступ будет только в Хроме.
- Натренеруй свой GPT-2 Small за 12 минут. Процесс настолько заоптимизировали, что теперь это стоит 5 баксов на 8xH100. Как? Подробнее в посте.
- API Grok 2. По деньгам дороговато: $5 input/$15 output на миллион токенов.
- Квантизированные Ламы. Официальные и лучшие сжатые модели на 1 и 3B.
- Llama 70B на 2200 токенов в секунду. Cerebras уже не впервые ставит рекорды скорости.
Подготовка к интервью
- Cracking the coding interview. Скоро релиз новой версии одной из лучших книг по подготовке к собесам. Рекомендасион!
Генеративные модели
- Movie Gen в Голливуде. Блюмхаус получил в руки нашу модельку и вовсю её тестит.
- Stable Diffusion 3.5 Large. Ну не SOTA, но хоть выложили, раз уж обещали.
- Voice Design. Первая text2voice модель. Не просто читает текст, а генерит именно тембр голоса по запросу.
- Бой Маска и Цукерберга. Жалко, что всё это только в латентном пространстве...
> Читать дайджест #40
#дайджест
@ai_newz
5❤38🔥19👍5⚡3😍2❤🔥1🦄1
Forwarded from KaravAI
На прошлой неделе мы зарелизили мою последнюю статью на PhD - CoTracker3, следующую версию модели для трекинга точек на видео CoTracker (не спрашивайте где CoTracker2 - мы сами не поняли).
TLDR такой: мы сильно упростили архитектуру модели и дообучили ее на реальных видео с помощью псевдо-лейблинга другими моделями (прошлая модель обучена только на синтетических данных). У нас получилось обойти конкурирующую модель от DeepMind с X1000 раз меньше реальных видео, чему мой научрук был очень рад.
Нас даже успели потроллить по поводу того, что мы сами не знаем, кому и зачем эта модель нужна. Изначально это было слабо понятно, сейчас чуть лучше - трекинг точек оказался полезным для обучения роботов с помощью imitation learning. Тут, тут и тут используют нашу первую модель как раз для этого. Еще одно неожиданное применение - контролируемая видео генерация: раз, два, три.
https://www.linkedin.com/feed/update/urn:li:activity:7252361677868826624/?actorCompanyId=35482514
TLDR такой: мы сильно упростили архитектуру модели и дообучили ее на реальных видео с помощью псевдо-лейблинга другими моделями (прошлая модель обучена только на синтетических данных). У нас получилось обойти конкурирующую модель от DeepMind с X1000 раз меньше реальных видео, чему мой научрук был очень рад.
Нас даже успели потроллить по поводу того, что мы сами не знаем, кому и зачем эта модель нужна. Изначально это было слабо понятно, сейчас чуть лучше - трекинг точек оказался полезным для обучения роботов с помощью imitation learning. Тут, тут и тут используют нашу первую модель как раз для этого. Еще одно неожиданное применение - контролируемая видео генерация: раз, два, три.
https://www.linkedin.com/feed/update/urn:li:activity:7252361677868826624/?actorCompanyId=35482514
Linkedin
New AI research from Meta – CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos. | AI at Meta
New AI research from Meta – CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos.
More details ➡️ https://go.fb.me/xiyc63
Demo on Hugging Face ➡️ https://go.fb.me/yzuqd0
Building on the popular release of CoTracker, we're introducing…
More details ➡️ https://go.fb.me/xiyc63
Demo on Hugging Face ➡️ https://go.fb.me/yzuqd0
Building on the popular release of CoTracker, we're introducing…
❤58🔥52👍16😁3🤯1
Media is too big
VIEW IN TELEGRAM
Посмотрите как робот чуть больше часа учится играть в дженгу хлыстом полностью в реальной жизни, без всяких симуляций. По-моему результаты под конец впечатляющие. Настолько быстро учиться выходит из-за того что человеческие демонстрации и исправление ошибок встроено прямо в RL пайплайн.
Кроме дженги подход работает на куче других задач, например разные этапы сборки ПК и мебели, на обучение уходит до двух с половиной часов.
Сайт проекта
@ai_newz
Кроме дженги подход работает на куче других задач, например разные этапы сборки ПК и мебели, на обучение уходит до двух с половиной часов.
Сайт проекта
@ai_newz
👍94🤯46😁21🔥12🦄8❤1
И смешно и грустно. Увидел тут в ленте линкедина как выпускник магистратуры из ETH Zurich жалуется, как трудно найти интересную ML работу в Европе, если нет PhD. Все меньше ML вакансий, где не требуется узкая специализация и PhD (кроме стартапов). Нужно чтобы ваше резюме действительно выделялось, чтобы вас звали на собесы.
Да, что уж там - даже с PhD это еще не гарантия, что вы будете на расхват у рекрутеров. Нужно качать скилы и своё публичное портфолио. У PhD студента в это плане слегка больше инструментов, так как можно показать свои статьи, если они качественные и релевантные.
Как видите ценность глубоких специалистов возрастает. Так что занимаемся постоянным обучениеи, делаем пет-проекты и прокачиваем свой публичный рабочий профиль. А если есть возможность – публикуем статьи.
@ai_newz
Да, что уж там - даже с PhD это еще не гарантия, что вы будете на расхват у рекрутеров. Нужно качать скилы и своё публичное портфолио. У PhD студента в это плане слегка больше инструментов, так как можно показать свои статьи, если они качественные и релевантные.
Как видите ценность глубоких специалистов возрастает. Так что занимаемся постоянным обучениеи, делаем пет-проекты и прокачиваем свой публичный рабочий профиль. А если есть возможность – публикуем статьи.
@ai_newz
🤯234❤84🫡62🦄12👍6😁6💯6😱5🔥3
Я довольно внимательно слежу за русскоговорящими ЛЛМ. Кому-то может показаться, что в этом мало смысла, ведь GPT от OpenAI или какой-нибудь Claude будут всегда лучше, хотя бы просто из-за больших размеров и количества компьюта, потраченного на обучение. Но здесь есть пара нюансов.
Во-первых, модели, у которых русский — это первый язык, которого в тренировочных данных больше чем других, должны говорить на нем как носители, что-ли. Я бы, сколько английский ни учил, говорить как какой-нибудь чел из Бруклина никогда не смогу. Так вот, нативно русскоязычные модельки могут в каких-то уникальных случаях справляться со своей задачей лучше. Ну, навскидку, в каких-нибудь устойчивых выражениях или каламбурах. Про знание всяких ГОСТов и местных законов я вообще молчу.
А во-вторых, мне просто по приколу наблюдать, что там на рынке локальных моделей происходит.
Так вот, недавно вышла YandexGPT 4 в PRO и Lite версии. По внутренним тестам смотрится неплохо, но бенчам доверять, как всегда, не стоит. Хотя Яндекс и не слишком задирают нос, а ставят вполне адекватные цели — добраться до уровня LLaMA 70B, что у них почти получилось. Хотя, если взглянуть на RuArenaGeneral — это chatbot arena для русскоговорящих моделей, где судья GPT-4 — то уровень YandexGPT 4 PRO сейчас на уровне адаптированной и дообученной LLaMA 3 8B. Однако те фишки нативно русскоязычных моделей все еще в силе, так что правда где-то посередине.
Модельку можно потыкать в Yandex Cloud, по API либо через чатовый интерфейс (тут) для рядовых пользователей. Но цель у них явно работа по API для каких-то продуктовых решений.
Еще из приколов — увеличили контекст с 8 до 32к токенов и даже сделали какой-то намек на Chain of Thought. Но, как я понял, они его просто немного подтюнили на рассуждения. Кстати в облаке можно дообучить модельку под свою нужды.
1M токенов обойдется в $12.3. Причем для input/output цена одна. Правда у них там такая мудренная формула для расчета. Можете сами глянуть.
Пока еще не SOTA на русском, но потенциал есть. Для саммари отзывов и результатов выдачи сгодится. А дальше посмотрим.
@ai_newz
Во-первых, модели, у которых русский — это первый язык, которого в тренировочных данных больше чем других, должны говорить на нем как носители, что-ли. Я бы, сколько английский ни учил, говорить как какой-нибудь чел из Бруклина никогда не смогу. Так вот, нативно русскоязычные модельки могут в каких-то уникальных случаях справляться со своей задачей лучше. Ну, навскидку, в каких-нибудь устойчивых выражениях или каламбурах. Про знание всяких ГОСТов и местных законов я вообще молчу.
А во-вторых, мне просто по приколу наблюдать, что там на рынке локальных моделей происходит.
Так вот, недавно вышла YandexGPT 4 в PRO и Lite версии. По внутренним тестам смотрится неплохо, но бенчам доверять, как всегда, не стоит. Хотя Яндекс и не слишком задирают нос, а ставят вполне адекватные цели — добраться до уровня LLaMA 70B, что у них почти получилось. Хотя, если взглянуть на RuArenaGeneral — это chatbot arena для русскоговорящих моделей, где судья GPT-4 — то уровень YandexGPT 4 PRO сейчас на уровне адаптированной и дообученной LLaMA 3 8B. Однако те фишки нативно русскоязычных моделей все еще в силе, так что правда где-то посередине.
Модельку можно потыкать в Yandex Cloud, по API либо через чатовый интерфейс (тут) для рядовых пользователей. Но цель у них явно работа по API для каких-то продуктовых решений.
Еще из приколов — увеличили контекст с 8 до 32к токенов и даже сделали какой-то намек на Chain of Thought. Но, как я понял, они его просто немного подтюнили на рассуждения. Кстати в облаке можно дообучить модельку под свою нужды.
1M токенов обойдется в $12.3. Причем для input/output цена одна. Правда у них там такая мудренная формула для расчета. Можете сами глянуть.
Пока еще не SOTA на русском, но потенциал есть. Для саммари отзывов и результатов выдачи сгодится. А дальше посмотрим.
@ai_newz
3👍157😁50❤25🫡8🔥2😱2❤🔥1🙏1