В январе выйдет продолжение культовой книги "Cracking the coding interview". Книгу обновили, добавили новые темы и задачи + дополнительные главы например про то, как торговаться за Total Comp (зп) при получении оффера.
Первую версию этой книги я читал еще в 2014 году, когда готовился к своему первому интервью в FANNG - в Google. Я тогда хоть и зафейлил кодинг, но зато понял, что мало готовился :) И вместо гугла пошел делать PhD, о чем ни капли не жалею.
Книгу думаю все же заказать в свою коллекцию. Надеюсь, там будут какие-то инсайты, о которых я еще не знаю.
#books #interviews
@ai_newz
Первую версию этой книги я читал еще в 2014 году, когда готовился к своему первому интервью в FANNG - в Google. Я тогда хоть и зафейлил кодинг, но зато понял, что мало готовился :) И вместо гугла пошел делать PhD, о чем ни капли не жалею.
Книгу думаю все же заказать в свою коллекцию. Надеюсь, там будут какие-то инсайты, о которых я еще не знаю.
#books #interviews
@ai_newz
Наша модель Movie Gen засветилась в Голливуде!
Короткометражка от Аниша Чаганти, одного из режиссёров Blumhouse (это крупнейшая студия, которая выпустила такие фильмы, как «Сплит», «МА»,«Крик» должны были делать «Крик 5» и другие ужастики), где он использует MovieGen для того, чтобы дать вторую жизнь старым кринжовым футажам. Вышел милый видос про детство автора, в котором он вспоминает, как любил творить и фантазировать, а теперь может снова это делать с MovieGen.
Думаю, когда генеративки проникнут в кино, мы все знатно выпадем от их возможностей в хоррорах.
Кстати, Аниш не единственный получил доступ, возможно нас ждет еще пара короткометражек от фильммейкеров студии. Интересно, что чуваки придумают с нашей моделькой. Также в будущем планируют запартнёриться с другими контентмейкерами (блогерами?). До следующего года MovieGen пока еще не будет в продуктах для общего пользования.
Приятно видеть такой импакт от проекта, над которым работал!😊
MovieGen
Про Blumhouse и MovieGen.
@ai_newz
Короткометражка от Аниша Чаганти, одного из режиссёров Blumhouse (это крупнейшая студия, которая выпустила такие фильмы, как «Сплит», «МА»,
Думаю, когда генеративки проникнут в кино, мы все знатно выпадем от их возможностей в хоррорах.
Кстати, Аниш не единственный получил доступ, возможно нас ждет еще пара короткометражек от фильммейкеров студии. Интересно, что чуваки придумают с нашей моделькой. Также в будущем планируют запартнёриться с другими контентмейкерами (блогерами?). До следующего года MovieGen пока еще не будет в продуктах для общего пользования.
Приятно видеть такой импакт от проекта, над которым работал!
MovieGen
Про Blumhouse и MovieGen.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Stable Diffusion 3.5 Large
Stability наконец-то выпустили 8B модельку, которую тизерили ещё в феврале. Идёт в двух версиях - обычная и Turbo (которой нужно всего 4 степа). Ещё обещают обновённую Medium завезти, но только 29 октября, через неделю.
По качеству полная моделька, по заявлениям Stability находится между FLUX.1 dev и schnell. Turbo - чуть хуже schnell. До FLUX.1 Pro обоим далеко. Зато хвастаются что SD 3.5 лучше всех в понимании промптов.
Доступны по комьюнити лицензии - то есть если у вас годовая выручка до миллиона долларов, ничего платить не нужно. А вот если больше, то попросят раскошелиться на энтерпрайз лицензию.
После фиаско с Medium 3.0 (которая была ошибкой), к релизу отношусь настороженно.
Не жду, что Stability когда-либо сможет выпустить новую SOTA, т.к. все основные авторы SD ушли.
Веса
Turbo версия
Код
Блогпост
@ai_newz
Stability наконец-то выпустили 8B модельку, которую тизерили ещё в феврале. Идёт в двух версиях - обычная и Turbo (которой нужно всего 4 степа). Ещё обещают обновённую Medium завезти, но только 29 октября, через неделю.
По качеству полная моделька, по заявлениям Stability находится между FLUX.1 dev и schnell. Turbo - чуть хуже schnell. До FLUX.1 Pro обоим далеко. Зато хвастаются что SD 3.5 лучше всех в понимании промптов.
Доступны по комьюнити лицензии - то есть если у вас годовая выручка до миллиона долларов, ничего платить не нужно. А вот если больше, то попросят раскошелиться на энтерпрайз лицензию.
После фиаско с Medium 3.0 (которая была ошибкой), к релизу отношусь настороженно.
Не жду, что Stability когда-либо сможет выпустить новую SOTA, т.к. все основные авторы SD ушли.
Веса
Turbo версия
Код
Блогпост
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Как думаете, когда выйдет первая опенсорсная Text to Voice модель?
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Настоящий автономный (почти) агент и обновление Claude.
Claude обновили Sonnet 3.5 и релизнули Haiku 3.5 (которая теперь мощнее Opus 3, хотя и является "ускоренной" версией), это не прям прорыв, но производительность знатно улучшится.
Антропики пишут, что теперь Sonnet даже лучше o1-preview. Но правда, вот на табличке с бенчмарками её почему-то нет...
Но не это главное, а новый Computer. Дали на вход скриншоты экрана, прикрутили виртуальную клавиатуру и мышь. И всё, пошла жара. С лёгкими задачами справляется на ура. Но я бы сказал, что на уровне первых версий GPT-3 в математике. С задачей справляется лишь в 20% случаев, так что пока быстрее сделать дело вручную. Но если у вас много рутинной работы, которую хотелось бы автоматизировать, то с пары попыток бота можно вполне обучить делать что-то полезное.
Я сейчас не открою какую-то тайну, но агенты были и до этого. Но все они работают через API. А это значит, что для работы таких агентов нужно задействовать дополнительные ресурсы. Делать второй "интерфейс" для агента, а потом ещё писать код для самого агента. Как-то не очень хочется этого в 2024 году. Нам подавай всё по текстовому запросу да с первого раза. Так что революция, если и не произошла, то попытка засчитана.
Мне нравится вектор развития Антропиков. Они не гонятся во всём за OpenAI, а реализуют своё видение. Тот же Artifacts — это пушка, во всяком случае для не-программистов. А Computer — это шаг к автономным агентам, которые как личные ассистенты смогут скоро планировать вам поездки и бронировать билеты и отели.
Кстати, о похожем функционале ещё в апреле мечтали Apple с их Apple Intelligence. Агент тоже должен был сканировать экран и взаимодействовать с интерфейсом, вот почитайте.
Подробнее здесь.
@ai_newz
Claude обновили Sonnet 3.5 и релизнули Haiku 3.5 (которая теперь мощнее Opus 3, хотя и является "ускоренной" версией), это не прям прорыв, но производительность знатно улучшится.
Антропики пишут, что теперь Sonnet даже лучше o1-preview. Но правда, вот на табличке с бенчмарками её почему-то нет...
Но не это главное, а новый Computer. Дали на вход скриншоты экрана, прикрутили виртуальную клавиатуру и мышь. И всё, пошла жара. С лёгкими задачами справляется на ура. Но я бы сказал, что на уровне первых версий GPT-3 в математике. С задачей справляется лишь в 20% случаев, так что пока быстрее сделать дело вручную. Но если у вас много рутинной работы, которую хотелось бы автоматизировать, то с пары попыток бота можно вполне обучить делать что-то полезное.
Я сейчас не открою какую-то тайну, но агенты были и до этого. Но все они работают через API. А это значит, что для работы таких агентов нужно задействовать дополнительные ресурсы. Делать второй "интерфейс" для агента, а потом ещё писать код для самого агента. Как-то не очень хочется этого в 2024 году. Нам подавай всё по текстовому запросу да с первого раза. Так что революция, если и не произошла, то попытка засчитана.
Мне нравится вектор развития Антропиков. Они не гонятся во всём за OpenAI, а реализуют своё видение. Тот же Artifacts — это пушка, во всяком случае для не-программистов. А Computer — это шаг к автономным агентам, которые как личные ассистенты смогут скоро планировать вам поездки и бронировать билеты и отели.
Кстати, о похожем функционале ещё в апреле мечтали Apple с их Apple Intelligence. Агент тоже должен был сканировать экран и взаимодействовать с интерфейсом, вот почитайте.
Подробнее здесь.
@ai_newz
Meta выпустила официальные квантизированные версии Llama 3.2 1B и 3B практически без потерь в качестве. Модели стали более чем в два раза меньше, от 2 до 4 раз быстрее и используют на 41% меньше памяти.
Вышло добиться этого через умные схемы квантизации плюс quantization-aware training. Без этого средняя потеря в качестве от квантизации — почти 20%, а так вышло добиться потери в 8% на более быстрой квантизации SpinQuant и чуть больше 1% при квантизации с QLoRa.
Важное отличие от обычной квантизации — то, что тут квантизированы не только веса, но и активации. Это позволит запускать эти модели на NPU, которые куда лучше работают с 8-битными вычислениями. NPU в наше время есть во всех смартфонах и в последних поколениях всех десктопов и ноутбуков (AMD, Apple, Intel, Qualcomm); их использование позволит ещё сильнее ускорить модели при более высокой энергоэффективности.
Другим компаниям провернуть такое было бы крайне сложно, так как нет доступа к такому количеству ресурсов и изначальному процессу тренировки, и очень легко накосячить, особенно учитывая тот факт, что Llama 3 — это одна из самых сложных моделей для квантизации.
Веса (если уже есть доступ к Llama 3.2, ещё раз просить не нужно)
Блогпост
@ai_newz
Вышло добиться этого через умные схемы квантизации плюс quantization-aware training. Без этого средняя потеря в качестве от квантизации — почти 20%, а так вышло добиться потери в 8% на более быстрой квантизации SpinQuant и чуть больше 1% при квантизации с QLoRa.
Важное отличие от обычной квантизации — то, что тут квантизированы не только веса, но и активации. Это позволит запускать эти модели на NPU, которые куда лучше работают с 8-битными вычислениями. NPU в наше время есть во всех смартфонах и в последних поколениях всех десктопов и ноутбуков (AMD, Apple, Intel, Qualcomm); их использование позволит ещё сильнее ускорить модели при более высокой энергоэффективности.
Другим компаниям провернуть такое было бы крайне сложно, так как нет доступа к такому количеству ресурсов и изначальному процессу тренировки, и очень легко накосячить, особенно учитывая тот факт, что Llama 3 — это одна из самых сложных моделей для квантизации.
Веса (если уже есть доступ к Llama 3.2, ещё раз просить не нужно)
Блогпост
@ai_newz
Media is too big
VIEW IN TELEGRAM
Вы ждали бой Илона и Марка в октагоне? Вот вам бой. Смотреть со звуком и до конца (никто не ожидал такого исхода).
@ai_newz
@ai_newz
Скорость Llama 3.1 70B выросла в 4 раза
Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.
Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.
Попробовать можно тут.
@ai_newz
Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.
Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.
Попробовать можно тут.
@ai_newz
Google готовит к релизу Jarvis
Заказать билеты на самолёт, отменить подписку или сделать какую-то мелкую монотонную работу скоро за вас сможет ИИ агент на основе Gemini. В отличие от Anthropic, которые научили Claude использовать весь компьютер, Jarvis будет ограничен браузером и как-то интегрирован с Chrome. С одной стороны это меньшая гибкость, с другой - таким образом надёжность агента будет заметно выше, что очень важно для релиза на сотни миллионов человек.
Показать могут уже вместе с Gemini 2.0, в декабре. А вот попользоваться, скорее всего, сначала дадут лишь маленькой группе пользователей.
Rabbit нужно было всего лишь подождать годик с релизом
@ai_newz
Заказать билеты на самолёт, отменить подписку или сделать какую-то мелкую монотонную работу скоро за вас сможет ИИ агент на основе Gemini. В отличие от Anthropic, которые научили Claude использовать весь компьютер, Jarvis будет ограничен браузером и как-то интегрирован с Chrome. С одной стороны это меньшая гибкость, с другой - таким образом надёжность агента будет заметно выше, что очень важно для релиза на сотни миллионов человек.
Показать могут уже вместе с Gemini 2.0, в декабре. А вот попользоваться, скорее всего, сначала дадут лишь маленькой группе пользователей.
Rabbit нужно было всего лишь подождать годик с релизом
@ai_newz
Нейродайджест за неделю (#41)
LLM
- Computer от Anthropic. Вышло обновление моделей и почти автономный агент Computer, который может использовать интерфейс ПК. Пока сыровато, но какой потенциал!
- Jarvis. Почти тот самый! Вслед за Anthropic гугловские решили анонсировать их конкурента, правда, доступ будет только в Хроме.
- Натренеруй свой GPT-2 Small за 12 минут. Процесс настолько заоптимизировали, что теперь это стоит 5 баксов на 8xH100. Как? Подробнее в посте.
- API Grok 2. По деньгам дороговато: $5 input/$15 output на миллион токенов.
- Квантизированные Ламы. Официальные и лучшие сжатые модели на 1 и 3B.
- Llama 70B на 2200 токенов в секунду. Cerebras уже не впервые ставит рекорды скорости.
Подготовка к интервью
- Cracking the coding interview. Скоро релиз новой версии одной из лучших книг по подготовке к собесам. Рекомендасион!
Генеративные модели
- Movie Gen в Голливуде. Блюмхаус получил в руки нашу модельку и вовсю её тестит.
- Stable Diffusion 3.5 Large. Ну не SOTA, но хоть выложили, раз уж обещали.
- Voice Design. Первая text2voice модель. Не просто читает текст, а генерит именно тембр голоса по запросу.
- Бой Маска и Цукерберга. Жалко, что всё это только в латентном пространстве...
> Читать дайджест #40
#дайджест
@ai_newz
LLM
- Computer от Anthropic. Вышло обновление моделей и почти автономный агент Computer, который может использовать интерфейс ПК. Пока сыровато, но какой потенциал!
- Jarvis. Почти тот самый! Вслед за Anthropic гугловские решили анонсировать их конкурента, правда, доступ будет только в Хроме.
- Натренеруй свой GPT-2 Small за 12 минут. Процесс настолько заоптимизировали, что теперь это стоит 5 баксов на 8xH100. Как? Подробнее в посте.
- API Grok 2. По деньгам дороговато: $5 input/$15 output на миллион токенов.
- Квантизированные Ламы. Официальные и лучшие сжатые модели на 1 и 3B.
- Llama 70B на 2200 токенов в секунду. Cerebras уже не впервые ставит рекорды скорости.
Подготовка к интервью
- Cracking the coding interview. Скоро релиз новой версии одной из лучших книг по подготовке к собесам. Рекомендасион!
Генеративные модели
- Movie Gen в Голливуде. Блюмхаус получил в руки нашу модельку и вовсю её тестит.
- Stable Diffusion 3.5 Large. Ну не SOTA, но хоть выложили, раз уж обещали.
- Voice Design. Первая text2voice модель. Не просто читает текст, а генерит именно тембр голоса по запросу.
- Бой Маска и Цукерберга. Жалко, что всё это только в латентном пространстве...
> Читать дайджест #40
#дайджест
@ai_newz
Forwarded from KaravAI
На прошлой неделе мы зарелизили мою последнюю статью на PhD - CoTracker3, следующую версию модели для трекинга точек на видео CoTracker (не спрашивайте где CoTracker2 - мы сами не поняли).
TLDR такой: мы сильно упростили архитектуру модели и дообучили ее на реальных видео с помощью псевдо-лейблинга другими моделями (прошлая модель обучена только на синтетических данных). У нас получилось обойти конкурирующую модель от DeepMind с X1000 раз меньше реальных видео, чему мой научрук был очень рад.
Нас даже успели потроллить по поводу того, что мы сами не знаем, кому и зачем эта модель нужна. Изначально это было слабо понятно, сейчас чуть лучше - трекинг точек оказался полезным для обучения роботов с помощью imitation learning. Тут, тут и тут используют нашу первую модель как раз для этого. Еще одно неожиданное применение - контролируемая видео генерация: раз, два, три.
https://www.linkedin.com/feed/update/urn:li:activity:7252361677868826624/?actorCompanyId=35482514
TLDR такой: мы сильно упростили архитектуру модели и дообучили ее на реальных видео с помощью псевдо-лейблинга другими моделями (прошлая модель обучена только на синтетических данных). У нас получилось обойти конкурирующую модель от DeepMind с X1000 раз меньше реальных видео, чему мой научрук был очень рад.
Нас даже успели потроллить по поводу того, что мы сами не знаем, кому и зачем эта модель нужна. Изначально это было слабо понятно, сейчас чуть лучше - трекинг точек оказался полезным для обучения роботов с помощью imitation learning. Тут, тут и тут используют нашу первую модель как раз для этого. Еще одно неожиданное применение - контролируемая видео генерация: раз, два, три.
https://www.linkedin.com/feed/update/urn:li:activity:7252361677868826624/?actorCompanyId=35482514
Linkedin
AI at Meta on LinkedIn: New AI research from Meta – CoTracker3: Simpler and Better Point Tracking… | 89 comments
New AI research from Meta – CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos.
More details ➡️ https://go.fb.me/xiyc63
Demo on… | 89 comments on LinkedIn
More details ➡️ https://go.fb.me/xiyc63
Demo on… | 89 comments on LinkedIn
Media is too big
VIEW IN TELEGRAM
Посмотрите как робот чуть больше часа учится играть в дженгу хлыстом полностью в реальной жизни, без всяких симуляций. По-моему результаты под конец впечатляющие. Настолько быстро учиться выходит из-за того что человеческие демонстрации и исправление ошибок встроено прямо в RL пайплайн.
Кроме дженги подход работает на куче других задач, например разные этапы сборки ПК и мебели, на обучение уходит до двух с половиной часов.
Сайт проекта
@ai_newz
Кроме дженги подход работает на куче других задач, например разные этапы сборки ПК и мебели, на обучение уходит до двух с половиной часов.
Сайт проекта
@ai_newz
И смешно и грустно. Увидел тут в ленте линкедина как выпускник магистратуры из ETH Zurich жалуется, как трудно найти интересную ML работу в Европе, если нет PhD. Все меньше ML вакансий, где не требуется узкая специализация и PhD (кроме стартапов). Нужно чтобы ваше резюме действительно выделялось, чтобы вас звали на собесы.
Да, что уж там - даже с PhD это еще не гарантия, что вы будете на расхват у рекрутеров. Нужно качать скилы и своё публичное портфолио. У PhD студента в это плане слегка больше инструментов, так как можно показать свои статьи, если они качественные и релевантные.
Как видите ценность глубоких специалистов возрастает. Так что занимаемся постоянным обучениеи, делаем пет-проекты и прокачиваем свой публичный рабочий профиль. А если есть возможность – публикуем статьи.
@ai_newz
Да, что уж там - даже с PhD это еще не гарантия, что вы будете на расхват у рекрутеров. Нужно качать скилы и своё публичное портфолио. У PhD студента в это плане слегка больше инструментов, так как можно показать свои статьи, если они качественные и релевантные.
Как видите ценность глубоких специалистов возрастает. Так что занимаемся постоянным обучениеи, делаем пет-проекты и прокачиваем свой публичный рабочий профиль. А если есть возможность – публикуем статьи.
@ai_newz
Я довольно внимательно слежу за русскоговорящими ЛЛМ. Кому-то может показаться, что в этом мало смысла, ведь GPT от OpenAI или какой-нибудь Claude будут всегда лучше, хотя бы просто из-за больших размеров и количества компьюта, потраченного на обучение. Но здесь есть пара нюансов.
Во-первых, модели, у которых русский — это первый язык, которого в тренировочных данных больше чем других, должны говорить на нем как носители, что-ли. Я бы, сколько английский ни учил, говорить как какой-нибудь чел из Бруклина никогда не смогу. Так вот, нативно русскоязычные модельки могут в каких-то уникальных случаях справляться со своей задачей лучше. Ну, навскидку, в каких-нибудь устойчивых выражениях или каламбурах. Про знание всяких ГОСТов и местных законов я вообще молчу.
А во-вторых, мне просто по приколу наблюдать, что там на рынке локальных моделей происходит.
Так вот, недавно вышла YandexGPT 4 в PRO и Lite версии. По внутренним тестам смотрится неплохо, но бенчам доверять, как всегда, не стоит. Хотя Яндекс и не слишком задирают нос, а ставят вполне адекватные цели — добраться до уровня LLaMA 70B, что у них почти получилось. Хотя, если взглянуть на RuArenaGeneral — это chatbot arena для русскоговорящих моделей, где судья GPT-4 — то уровень YandexGPT 4 PRO сейчас на уровне адаптированной и дообученной LLaMA 3 8B. Однако те фишки нативно русскоязычных моделей все еще в силе, так что правда где-то посередине.
Модельку можно потыкать в Yandex Cloud, по API либо через чатовый интерфейс (тут) для рядовых пользователей. Но цель у них явно работа по API для каких-то продуктовых решений.
Еще из приколов — увеличили контекст с 8 до 32к токенов и даже сделали какой-то намек на Chain of Thought. Но, как я понял, они его просто немного подтюнили на рассуждения. Кстати в облаке можно дообучить модельку под свою нужды.
1M токенов обойдется в $12.3. Причем для input/output цена одна. Правда у них там такая мудренная формула для расчета. Можете сами глянуть.
Пока еще не SOTA на русском, но потенциал есть. Для саммари отзывов и результатов выдачи сгодится. А дальше посмотрим.
@ai_newz
Во-первых, модели, у которых русский — это первый язык, которого в тренировочных данных больше чем других, должны говорить на нем как носители, что-ли. Я бы, сколько английский ни учил, говорить как какой-нибудь чел из Бруклина никогда не смогу. Так вот, нативно русскоязычные модельки могут в каких-то уникальных случаях справляться со своей задачей лучше. Ну, навскидку, в каких-нибудь устойчивых выражениях или каламбурах. Про знание всяких ГОСТов и местных законов я вообще молчу.
А во-вторых, мне просто по приколу наблюдать, что там на рынке локальных моделей происходит.
Так вот, недавно вышла YandexGPT 4 в PRO и Lite версии. По внутренним тестам смотрится неплохо, но бенчам доверять, как всегда, не стоит. Хотя Яндекс и не слишком задирают нос, а ставят вполне адекватные цели — добраться до уровня LLaMA 70B, что у них почти получилось. Хотя, если взглянуть на RuArenaGeneral — это chatbot arena для русскоговорящих моделей, где судья GPT-4 — то уровень YandexGPT 4 PRO сейчас на уровне адаптированной и дообученной LLaMA 3 8B. Однако те фишки нативно русскоязычных моделей все еще в силе, так что правда где-то посередине.
Модельку можно потыкать в Yandex Cloud, по API либо через чатовый интерфейс (тут) для рядовых пользователей. Но цель у них явно работа по API для каких-то продуктовых решений.
Еще из приколов — увеличили контекст с 8 до 32к токенов и даже сделали какой-то намек на Chain of Thought. Но, как я понял, они его просто немного подтюнили на рассуждения. Кстати в облаке можно дообучить модельку под свою нужды.
1M токенов обойдется в $12.3. Причем для input/output цена одна. Правда у них там такая мудренная формула для расчета. Можете сами глянуть.
Пока еще не SOTA на русском, но потенциал есть. Для саммари отзывов и результатов выдачи сгодится. А дальше посмотрим.
@ai_newz
Mixture of Parrots: Experts improve memorization more than reasoning
Авторы замечают, что когда они проводили абляции моделей с одинаковым количеством параметров на разных задачах, MoE модель при таком же количестве параметров, как и dense модель, показывает себя хорошо на World Knowledge, но сильно проседает по математике и reasoning по сравнению с dense моделью.
Чтобы объяснить, почему возникает такое расхождение на бенчмарках для разных задач, авторы тренируют ряд моделей на синтетических тасках. Для оценки того, как модель может запоминать, генерируется синтетическая телефонная книга, и оценивается какую её часть модель может запомнить. Возможности к рассуждению оцениваются через поиск кратчайшего пути на графе.
Авторы доказывают, что достаточно широкая dense модель может решить задачи на графах, которые параметрически и по глубине заматченная MoE решить не может из-за недостаточной широты, что подтверждают и эксперименты. В то же время способность к запоминанию телефонной книги у модели с таким же количеством параметров не страдает из-за малой широты модели.
Лично мне хотелось бы чуть больше абляций с разной глубиной плюс абляций reasoning с одинаковой широтой модели, но время у авторов пейпера не бесконечное. Скорее всего, увидим это в каких-то follow-up.
Пейпер
@ai_newz
Авторы замечают, что когда они проводили абляции моделей с одинаковым количеством параметров на разных задачах, MoE модель при таком же количестве параметров, как и dense модель, показывает себя хорошо на World Knowledge, но сильно проседает по математике и reasoning по сравнению с dense моделью.
Чтобы объяснить, почему возникает такое расхождение на бенчмарках для разных задач, авторы тренируют ряд моделей на синтетических тасках. Для оценки того, как модель может запоминать, генерируется синтетическая телефонная книга, и оценивается какую её часть модель может запомнить. Возможности к рассуждению оцениваются через поиск кратчайшего пути на графе.
Авторы доказывают, что достаточно широкая dense модель может решить задачи на графах, которые параметрически и по глубине заматченная MoE решить не может из-за недостаточной широты, что подтверждают и эксперименты. В то же время способность к запоминанию телефонной книги у модели с таким же количеством параметров не страдает из-за малой широты модели.
Лично мне хотелось бы чуть больше абляций с разной глубиной плюс абляций reasoning с одинаковой широтой модели, но время у авторов пейпера не бесконечное. Скорее всего, увидим это в каких-то follow-up.
Пейпер
@ai_newz
Github Copilot начинает серьёзно конкурировать с Cursor
На Github Universe показали новые фичи Copilot, похоже после продолжительного застоя компания всерьёз взялась за конкуренцию.
➖ Добавили поддержку новых моделей - Gemini, Claude Sonnet (нужно отдельно включать в настройках) и o1-preview с o1-mini. Модельки будут раскатывать в течении следующих пары недель. У меня уже есть Sonnet и o1, жду Gemini.
➖ Наконец-то добавили multi-file editing.
➖ Кастомные промпты для моделек - наконец-то в чате не нужно будет повторяться каждый раз чтобы добиться нужного результата. Вот инструкция по конфигурации.
➖ Copilot теперь доступен в Xcode и Windows Terminal.
➖ Code Review - теперь коммит можно заревьювить с помощью ИИ прямо в редакторе.
Показали и Spark - платформу для создания и хостинга миниапок с помощью ИИ. Записаться в waitlist можно тут.
Большая часть показаных фич уже доступна, правда некоторые лишь в превью.
@ai_newz
На Github Universe показали новые фичи Copilot, похоже после продолжительного застоя компания всерьёз взялась за конкуренцию.
➖ Добавили поддержку новых моделей - Gemini, Claude Sonnet (нужно отдельно включать в настройках) и o1-preview с o1-mini. Модельки будут раскатывать в течении следующих пары недель. У меня уже есть Sonnet и o1, жду Gemini.
➖ Наконец-то добавили multi-file editing.
➖ Кастомные промпты для моделек - наконец-то в чате не нужно будет повторяться каждый раз чтобы добиться нужного результата. Вот инструкция по конфигурации.
➖ Copilot теперь доступен в Xcode и Windows Terminal.
➖ Code Review - теперь коммит можно заревьювить с помощью ИИ прямо в редакторе.
Показали и Spark - платформу для создания и хостинга миниапок с помощью ИИ. Записаться в waitlist можно тут.
Большая часть показаных фич уже доступна, правда некоторые лишь в превью.
@ai_newz
Ого! Кто-то посмел побить Flux 1.1 Pro на text2image арене.
Ребята из стартапа Recraft.ai выпустили свои модель V3, которая прям очень хорошо генерит картинки. Еще они очень круто обучились разным стилям, включая Vector Art, на котором у стартапа и был изначальный фокус.
Кстати, респект ребятам, кто тренил модель! Напишите в комментах (или в лс), если кто-то из вас читает канал:)
Потестить можно на Recraft.ai (50 бесплатных генераций)
@ai_newz
Ребята из стартапа Recraft.ai выпустили свои модель V3, которая прям очень хорошо генерит картинки. Еще они очень круто обучились разным стилям, включая Vector Art, на котором у стартапа и был изначальный фокус.
Кстати, респект ребятам, кто тренил модель! Напишите в комментах (или в лс), если кто-то из вас читает канал:)
Потестить можно на Recraft.ai (50 бесплатных генераций)
@ai_newz