эйай ньюз
77.5K subscribers
1.73K photos
899 videos
7 files
2.03K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Pixtral Large 🔥🔥🔥

Новая моделька от Mistral на 124B параметров является мультимодальным расширением Mistral Large 2, но с обновлённым системным промптом и улучшенным пониманием длинного контекста в 128K токенов. На мультимодальных бенчах показывает себя очень хорошо, по заявлениям чуть ли не SOTA.

Но Mistral часто убирает неудобные бенчи или модели из своих анонсов. Конкретно тут непонятно с какими версиями моделей сравнивают, плюс как-то очень удобно "забыли" про мультимодального Qwen2-VL и Molmo. Я добавил таблицу с ними тоже. По сути Pixtral Large даже слегка хуже чем Qwen.

Также можно потыкаться в Le Chat. Он, кстати, тоже мощно обновился. Добавили веб-поиск с ссылками на цитаты. Canvas для редактирования аутпута inline, не переписывая всё заново, как это недавно сделали в ChatGPT. Ещё прикрутили Flux Pro прямо в чат.

Веса уже лежат на Hugging Face
Le Chat
Или подключиться по API
Подробнее

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61👍1713😁5🤩2
И опять настало то время года, когда я ищу Research интернов к нам в команду в Meta GenAI в Цюрихе!

Интерн будет работать непосредственно со мной и моими коллегами. Основная цель стажировки публикация на ICLR/CVPR.

Работать будем над image&video генерацией (см. Movie Gen для примера).

Какой профиль я ищу:
- PhD студент, официально зачисленный в университет.
- Есть 2-3+ публикации на top-tier конференцииях вроде NeurIPS, CVPR, ICRL, ECCV и т.д.
- Опыт с диффузионными моделями (предпочтительно) либо с LLM.
- Дополнительным плюсом будет, если вы умеете ускорять модели либо работали с альтернативными архитектурами типа Mamba, RWKV, и тп.

Длительность стажировки: 24 недели.
Начало: весна-лета 2025.
Визу и переезд в Цюрих спонсируем.

Писать можно мне в ЛС, прикрепляя CV. Репост и решер приветствуется - может у вас есть кто-то знакомый, кому эта вакансия идеально подойдет.

@ai_newz
🔥14040😍26🫡8🦄7🤯6👍4😁4🤩3
Интеренcый видос про то, как чел натренил маленькую быструю 2B VLM, которая оказалась лучшей в своем классе.

Моделька - это Phi1.6B + SigLIP 400M vision encoder. Далее чел собрал синтетический датасет LNQA (Localized Narratives Question Answering) с вопросами-ответами по картинкам, 300к пар. И натренил на нем свою модель и выложил все в опен-сорс.

Полочилась довольно сильная шустрая модель. Далее чел поднял $4.5M и строит стартап moondream.ai по тренировке мелких моделей для прода.

В общем правильные данные решают.

Github
Demo
Blogpost про синтетический QA датасет
Видео
👍118🔥54🤯3412💯3
Новая модель GigaChat Max от Сбера

Сбер выложил новую модель GigaChat Max. У нее заявлены увеличенная база знаний и улучшенная логика. Еще добавили Vision.

Новый GigaChat эффективнее работает с текстом и пишет код. Дает более красивые и структурированные ответы, лучше решает комплексные и творческие задачи. А по бенчмаркам уступает лишь Llama-3.1 и GPT4o.

Также GigaChat MAX хорошо показала себя при создании агентов. Ещё у них есть специальная Studio, позволяющая создавать агентов без специальных знаний.

@ai_newz
😁165👍63🦄25🔥1716🤯9🫡7❤‍🔥3
😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс

Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.

По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.

Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.

Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.

Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.

chat.deepseek.com

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4125🔥80👍22❤‍🔥41
Llama 3.1 405B ускорили почти до тысячи токенов в секунду

Cerebras наконец-то нашли достаточное количество своих CS-3, чтобы запустить Llama 405B, применили к ней Speculative Decoding, который использовали для ускорения 70B до 2к токенов, и обскакали SambaNova почти в 6 раз. Стоить это будет $6 input/$12 output за миллион токенов и уже доступно в бете. Всем пользователям дадут доступ в первом квартале 2025.

Столько ждать нужно из-за крайне плохой доступности железа - для того чтобы запустить Llama 405B, нужно 20-30 CS-3. Для сравнения, в Condor Galaxy, суперкомпьютере на чипах Cerebras, всего 64 CS-3. А стоит он больше ста миллионов долларов. Надеюсь, что если им удастся перейти на массовое производство, то стоимость их систем значительно упадёт. Иначе прибыльность такого API сомнительна.

Проблемы с доступностью не только у Cerebras — есть они и у Groq, которые больше трёх месяцев обещают API 405B, но, видимо, чипов просто не хватает (для запуска 405B нужно около четырёх тысяч чипов Groq). А пока что они почти догнали Cerebras на инференсе Llama 70B — 1669 токенов в секунду, при этом обещая, что следующее поколение чипов будет сильно быстрее.

К сожалению, доступ всем юзерам через чат на этот раз не дали. Да и длина контекста пока что всего 8к, но на релизе обещают сделать доступным и 128к. Скорость при таком контексте, правда, проседает, но всё равно больше полутысячи токенов в секунду. Надеюсь, к полноценному релизу R1 они откопают ещё один суперкомпьютер, и будет у нас модель, думающая секунды вместо минут.

@ai_newz
53👍34🔥14🤩2
Прямо сейчас идет трансляция, где коллеги рассказывают про нашу 30B Movie Gen модель!

Не знаю, будет ли запись. Но еще не поздно присоединиться.

https://atscaleconference.com/event/live-now/

YouTube Stream

@ai_newz
🔥452214👍7❤‍🔥2
FLUX.1 Tools

Ну что, лучший генератор картинок (Recraft не в счет) решил не отставать от Midjourney и выпустил свой почти такой же набор инструментов. Все они, как полагается разработчикам модели, аутперформят решения от комьюнити.

В наборе:
- Ин/аутпейтингFLUX.1 Fill
- КонролнетFLUX.1 Depth и FLUX.1 Canny, которые также идут в формате LoRA.
- IP-адаптерFLUX.1 Redux

Классический набор готов, остальное могут сделать энтузиасты. О качестве судить пока рано — жду ваши тесты в комментариях.

А дальше, что дальше? На сайте BFL уже красуется громкая надпись:
"Up Next. State-of-the-Art Text to Video for all."

Анонс
Обнимающее лицо
GitHub

@ai_newz
🔥10230👍15😍13😁2🤯1
Amazon инвестирует ещё 4 миллиарда в Anthropic

Слухи ходили уже какое-то время, я уже писал об этом раунде в начале ноября. И вот свершилось - Amazon всё таки удалось заставить Anthropic тренировать на своих чипах Trainium, что позволит довести эти чипы до ума, а там, глядишь, и кто-то их начнёт арендовать у амазона.

Вообще поразительно как часто сейчас случаются такие многомиллиардные сделки - неделю назад xAI подняли ещё 5 миллиардов на дополнительные 100к GPU для их Colossus . Оценка компании за полгода удвоилась, до 50 миллиардов долларов, что в 500 раз больше её годовой выручки. А сейчас уже Databricks, по слухам, ищет 8 миллиардов по оценке в 61, причём, скорее всего, компания их найдёт.

Инвестиций, даже в большие компании, столько, что я не знаю, есть ли смысл писать про каждую отдельно. Канал ведь не финансовый. А ведь есть ещё и рыбёшки поменьше...

@ai_newz
1😍81🦄43👍25🔥25🫡63😁1💯1
☀️Computer Vision Research in 2023-2024: A Brief Overview

Наконец-то выкладываю видео моего доклада на мини-конфе в Тбилиси в марте.

Я рассказывал про основные интересности в Компьютерном Зрении (не GenAI), которые прозошли c марта 2023 до марта 2024. За пол года SOTA уже, конечно, обновилась, но концептуально я разобрал много базированных статей 23-го и 24-го года, поэтому доклад все еще актуален.

What matters in CV in 2024:

SCALE
COMPUTE
DATA


Contents:
• Visual representation learning:
• Scaling: Model & Compute & Data
• Self-supervised pre-training
• Multimodal models [briefly]
• Fine-grained tasks: Segmentation & Tracking

Papers dicsussed:
• NaViT: Vision Transformer for any Aspect Ratio and Resolution, NeurIPS 2023
• Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design, NeurIPS 2023
• ViT-22B: Scaling Vision Transformers to 22 Billion Parameters, ICML 2023
• EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters
• Data Filtering Networks (DFN), ICLR 2024
• What does clip know about a red circle? visual prompt engineering for VLMs, ICCV 2023
SigLip: Sigmoid Loss for Language Image Pre-Training, ICCV 2023
• Image Captioners Are Scalable Vision Learners Too, NeurIPS 2023
• The effectiveness of MAE pre-pretraining for billion-scale pretraining
• DINOv2: Learning Robust Visual Features without Supervision, ICLR 2024
• ImageBind: One Embedding Space To Bind Them All, CVPR 2023
• LLaVa 1.0 & 1.5: Visual Instruction Tuning, NeurIPS 2023, Improved Baselines with Visual Instruction Tuning, arXiv 2023
• PaLI-3 Vision Language Models: Smaller, Faster, Stronger
• Segment Anything, ICCV 2023
• CoTracker: It is Better to Track Together, ECCV 2024

Ну, и на последок, вот фото со встречи эйай ньюз в Тбилиси.

https://youtu.be/Nmnl9FCXlFw

#личное #personal
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍7738🔥16😁2😱2🦄2🤩1
На чатбот арене последние дни очень жарко 💃

Неделю назад Gemini-1114 заняла первое место на арене, обогнав все модели OpenAI. В среду OpenAI ответили более новой версией 4o, Artificial Analysis протестировали её, и выводы печальные - хоть рейтинг на арене и растёт, бенчи MATH и GPQA просели ниже результатов июльской 4o-mini. При этом, с просадкой по бенчам, более чем в два раза выросла скорость - с 80 до 180 токенов в секунду. Похоже, нам суют модель сильно поменьше за те же деньги.

Вот вам ещё одно напоминание, что теперь и арене верить решительно нельзя - несколько компаний уже несколько месяцев активно занимаются тюном под арену только чтобы повысить ELO. Живая демонстрация закона Гудхарта в действии: «Когда мера становится целью, она перестает быть хорошей мерой». Кстати, жёсткий тюн под арену не сильно помог OpenAI - новая 4o продержалась в топе всего лишь чуть больше суток. В четверг вечером первое место заняла уже Gemini-Exp-1121.

Под постом про набор интернов у меня спрашивали, чем лучше сейчас заняться в AI. Так вот, надеюсь, посмотрев на весь этот бардак с ареной, кто-то из подписчиков вдохновится темой оценки качества моделей и сможет предложить бенчи получше.

Вообще объективная автоматическая оценка качества генеративных моделей будь-то текстовых или картиночных и видео - задача важная, но все еще не решенная.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥124👍39❤‍🔥135😁2
Нейродайджест за неделю (#45)

LLM
- DeepSeek 2.5 – лучший в своем деле! Подъехали неожиданные результаты с Copilot Arena.
- Pixtral Large – Open source SOTA даже среди фронтирных моделей в мультимодалках, правда, и здесь не без подвоха.
- Phi1.6B + SigLIP 400M vision encoder – мини-моделька на коленке оказалась лучшей в своем классе, или о том, как случайно сделать стартап, подняв $4,5M.
- R1-Lite – опенсорс-аналог o1 от OpenAI. Пока слабенький, но главное, что мы теперь тоже научились в inference time scaling.
- Llama 3.1 405B – на скорости 1k токенов/сек. Гонки инференса продолжаются, Cerebras пока лидирует.
- Бойня на арене – Gemini топ-1, тюн под ELO арены и прочие грязные приемчики.

Генераторы всякого
- Cтримец про Movie Gen от коллег. Даже запись сохранилась.
- FLUX.1 Tools – BFL снабдили нас всем необходимым для полноценного пользования FLUX, остальное – на плечах опенсорса.

Про деньги
- Насильный манирейз от Amazon – сколько бы Anthropic ни отнекивались, все-таки взяли 4 миллиарда зеленых. И еще о других многомиллиардных сделках.

Мой ресерч

- Мой доклад про CV – видос лежит на YouTube, сделал обзор на новиночки в вижене за 2023-2024.
- Ищу Research интернов – требования серьезные, но, может, именно ты как раз проходишь.

Читать дайджест #44

#дайджест
@ai_newz
31👍14🔥13🙏41
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic показали универсальный способ общения LLM с внешним миром

MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).

Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.

MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.

Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.

Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.

Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.

Примеры интеграций
Туториал по протоколу

@ai_newz
27👍224🔥72🤯40275😱1🤩1🙏1🦄1
INTELLECT-1 - первая децентрализованно натренированная LLM

Наконец-то завершилась первая большая распределённая тренировка, продолжавшаяся больше месяца на трёх континентах - в Европе, Азии и Северной Америке. В результате вышла 10B модель, натренированная на одном триллионе токенов, на что ушло около 80к H100-часов.

В тренировке поучавствовало около 30 людей и организаций, компьютом скинулся даже Hugging Face. Большую часть времени тренировки регистрация была закрыта, а поучаствовать можно было только задеплоив готовый образ на машине с 8xH100 80Gb через Prime Intellect, агрегатор GPU-провайдеров, который и организовал тренировку. В следующих трейнинг ранах обещают открыть доступ к тренировке и с другого железа и не через Prime Intellect, ждём.

Но даже когда тренировать смогут все желающие на любом железе, на консьюмерских видеокартах поучаствовать вряд-ли выйдет - сейчас в 24 гига 4090, для тренировки, влезет максимум модель 3B класса. Но через пару прорывов в распределённой тренировке, Training@home может стать реальностью.

Вышла явно не SOTA - современные модели тренируют, используя на порядок больше данных. Если авторы сильно не налажали, результаты должны быть где-то в районе Llama 2 13B. Не идеально, но в качестве proof of concept более чем достаточно.

Сделали такую распределённую тренировку возможной через слегка модифицированный DiLoCo, а код тренировки открыт и лежит на гитхабе. Сейчас модель тюнят, полный релиз будет где-то на этой неделе. Потом обещают и пейпер.

@ai_newz
🔥168👍46❤‍🔥1310🤯7🦄1
AI Assistant API или RAG из коробки

RAG – это хороший способ залить в нейронку свою базу данных и избежать галлюцинаций (вот здесь я писал подробнее про это). RAG достаточно жестко задает контекст в виде фрагментов текста, на базе которых LLM должна скомпоновать ответ, то есть нейросеть не обучают на нем, а используют непосредственно в момент генерации. Имплементировать RAG самому, хоть и не очень сложно, но всё же требует специальных умений.

Тут Яндекс решил ещё упростить жизнь разработчиками и внедрил RAG в свой API. Идея в целом не новая, но в паре с неплохим облачным сервисом, на котором строятся местные компании, выходит удобный фреймворк. Он не требует специальных навыков, чтобы прикрутить AI-ассистента на сайт клиента — что сейчас, как будто бы, must-have для любого сайта. Ну а кроме этого, RAG полезен для работы с внутренней документацией, crm и прочими базами данных.

@ai_newz
👍7335😁28🔥12🫡9🦄7
SmolVLM - новая VLM с мизерным потреблением памяти

Huggingface заделали конкурента для moondream, маленькой 2B VLM, о которой я рассказывал на прошлой неделе. К SmolLM 2 1.7B прицепили visual encoder от SigLIP.
Модель при мизерном потреблении памяти еще и умудряется сильно обскакать moondream по качеству! Эх, догоняйте, стартаперы!

Так мало памяти SmolVLM кушает из-за более эффективной токенизации картинок. Из-за большего размера патчей в картинках, на тот же промпт, где у SmolVLM уходит 1,2к токенов, у Qwen2-VL 2B уходит 16к. Таким образом, при одинаковом количестве параметров, SmolVLM вплоть до 5x быстрее и кушает почти в три раза меньше памяти. Размер патча в SigLip увкличили за счет применения к закодированной кантинке блока Pixel shuffle, который дополнительно уменьшает количество токенов в 9 раз. Pixel Shuffle преобразует квадраты из 3x3 токенов в один токен, перещая токены из spacial размерности в channels.

Все же тут палка о двух концах - хоть Qwen и медленнее, но качество у него сильно выше.

В принципе из-за такой эффективности модель могла бы быть довольно хороша для понимания видео, но, к сожалению, длина контекста всего 16к.

Демо
Веса
Блогпост

@ai_newz
🔥54👍238🦄4🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот новая моделька SmolVLM работает на M1 Max на скорости в 80 токенов в секунду.

@ai_newz
🔥85👍178❤‍🔥6🦄2
СЛИВ SORA

или художника обидеть может каждый...

Я обычно скептически отношусь ко всем подобным заявлениям, вот, например, про strawberry. Но здесь ситуация еще более неоднозначная.

Что у нас есть:

1. Группа анонимных бетатестеров.

2. Hugging Face Space, куда захардкодили запрос на OpenAI Sora API endpoint.
Вот, зацените:
def generate_video(prompt, size, duration, generation_history, progress=gr.Progress()):
url = 'https://sora.openai.com/backend/video_gen?force_paragen=false'

headers = json.loads(os.environ["HEADERS"])

cookies = json.loads(os.environ["COOKIES"])
if size == "1080p":
width = 1920
height = 1080
elif size == "720p":
width = 1280
height = 720
elif size == "480p":
width = 854
height = 480
elif size == "360p":
width = 640
height = 360
payload = {
"type": "video_gen",
"prompt": prompt,
"n_variants": 1,
"n_frames": 30 * duration,
"height": height,
"width": width,
"style": "natural",
"inpaint_items": [],
"model": "turbo",
"operation": "simple_compose"
}

Здесь видно, что у нас есть возможность выбирать стиль, inpaint_items (можно инпейнтить?) и даже саму модель. В данном случае стоит Turbo.

3. Подозрительное письмо — "Корпоративным повелителям искусственного интеллекта", где обвиняют OpenAI в абьюзе бесплатного труда с целью пиара, ссылаясь на то, что лишь малая часть сгенерированных видео увидит свет. В письме также утверждается, что они хотят помочь OpenAI стать более "open". Мотивация, так скажем, натянутая.

4. Сами видео и тесты от успевших счастливчиков, которые выдают 1080p и продолжительность 10 секунд с высокой консистентностью, динамикой и адекватной анатомией, ура!

5. Водяной знак OpenAI, который, конечно, можно было подделать.

6. В качестве пруфа слили также имена некоторых ранних тестеров. Кстати, на демоспейсе сейчас написано, что спустя 3 часа доступ закрыли для всех.
some sora-alpha-artists, Jake Elwes, Memo Akten, CROSSLUCID, Maribeth Rauh, Joel Simon, Jake Hartnell, Bea Ramos, Power Dada, aurèce vettier, acfp, Iannis Bardakos, 204 no-content | Cintia Aguiar Pinto & Dimitri De Jonghe, Emmanuelle Collet, XU Cheng, Operator, Katie Peyton Hofstadter


Тяжело говорить о том, настоящий ли это слив, хотя выглядит очень похоже. Видео, хоть и немного, но действительно получше, чем у конкурентов. С другой стороны, бета-тестеры на то и бета-тестеры, чтобы работать бесплатно. Никто их не заставляет, так что жаловаться не на что. Я бы вот с удовольствием сам потестировал)

Sora ли это на самом деле или может это все часть маркетинговой кампании? Может быть модель еще не готова к релизу, т.к. обучена на некошерных данных, но хайпа нагнать очень хотелось? До официального релиза мы этого не узнаем.

@ai_newz
👍6222🔥15🤯81🦄1