эйай ньюз
68.4K subscribers
1.52K photos
810 videos
7 files
1.84K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Вы уже заметили, что есть две конкурентные статьи со схожей идеей: Наша Cache Me if You Can и работа DeepCache, которая появилась на архиве пару дней назад.

Основная разница в том, что в DeepCache алгоритм кеширования примитивный, мы же предлагаем более общий и адаптивный подход:

1️⃣ В DeepCache авторы вручную выбирают, какие блоки кешируются, и алгоритм пересчета кеша для всех блоков фиксированный. У нас же все адаптивно - автоматически подбираем какие блоки кешировать и как часто пересчитывать кеш. На картинке как раз показан алгоритм пересчета кеша, котрый мы получили для LDM c 20 шагами DPM++.

2️⃣ За счет этого наш алгоритм из коробки работает на разных text2image архитектурах, мы протестили на LDM c 900 млн параметров (аналог SD 1.5) и на Emu с 2.7 млрд параметров.

3️⃣ Мы предложили трюк с обучением shift & scale для кешируемых блоков, что сильно добрасывает качества, убирая мелкие артифакты.

4️⃣ У нас метрики от кеширования не падают как в DeepCache. И картинки получаются лучшего качества.

5️⃣ Мы показали, что при фиксированном бюджете на вычисления, Cache Me if You Can улучшает результаты генерации по сравнению с бейзлайном без кеширования, так как с нашим кешированием можно успеть прогнать большее число шагов солвера за фиксированное время. Например, вместо 14 шагов DPM++ для бейзлайна можно успеть прогнать 20 шагов DPM++ с нашим кешированием.

6️⃣ У нас можно варьировать trade-off между скоростью и качеством, меняя один гиперпараметр, который адаптивно определяет время жизни кеша для разных блоков. Чем больше врмя жизни кеша - тем быстрее инференс. После определенного порога скорость идет в урон качеству.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Хочу еще заметить, что всякие Latent Consistency Models (LCM) и SDXL-Turbo, работающие за ≤ 4 шага - это ортогональные к кешингу работы. При таком сильном снижении числа шагов, как правило значительно страдает чувствительность к промпту (так называемый text faithfulness). То есть ты просишь сгенерить "кота в сапогах и собаку", а модель теряет собаку.

На видео видно как лажает SDXL-Turbo на промптах с несколькими объектами. Да и сама картинка сильно хуже выглядит чем при 20 шагах, например.

@ai_newz
Не хотел писать про Gemini, который на днях анонсировали как мультимодальную модель уровня GPT-4, пока сам не пощупаю. Но Google обделался в пиаре своего Gemini, что тут грех не написать.

Демо-видео Gemini оказалось смонтированным, а не отражающим реальные возможности модели в реал-тайм. Видео нарезали, ускорили и смонтировали, выбросив то, какие именно промпты и какие кадры подавались модели, чтобы получить красивые ответы для демки.

Google признал монтаж, но утверждает, что целью было вдохновить разработчиков. ПРОСТО ГЕНИИ 🤣.

Кстати, у Гугла был похожий PR-провал во время анонса Bard 👍.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
БОЛЬШИЕ НОВОСТИ - Согласован Европейский The AI Act!

TL;DR: На большие AI модели наложено очень много ограничений. Кончилась лафа для компаний, строящих LLM в EU.

Основные последствия The AI Act:

1️⃣Система рисков по уровням: Для систем AI, классифицированных как высокорисковые, были согласованы четкие обязательства и требования прозрачности. Теперь потребуется обязательная оценка потенциально негативных воздействий на здравоохранение, безопасность, базовые права человека, и общество в целом.

2️⃣ Foundation модели будут регулироваться, если на их обучение ушло как минимум 10^25 flops вычислительной мощности - в эту категорию попадут модели как минимум уровня GPT-3.5.

3️⃣Благодаря немцам, французам и итальянцам удалось добиться значительных поблажек для Open-Source моделей. Это слегка снимает стресс с некоторых компаний которые публикуют опенсорсные модели, включая французскую компанию Mistral и немецкую Aleph Alpha, а также Meta с ее моделями LLaMA. Ян Лекун поспособствовал.

4️⃣ Следующие системы будут запрещены, и у компаний будет всего шесть месяцев, чтобы обеспечить соблюдение:
▪️системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
▪️ненаправленное скрейпинг изображений лиц из интернета или с камер видеонаблюдения для создания баз данных распознавания лиц;
▪️распознавание эмоций на рабочем месте и в образовательных учреждениях;
▪️социальное скоринг на основе социального поведения или личных характеристик;
▪️ AI, которые манипулируют человеческим поведением, чтобы обойти их свободную волю;
▪️AI, используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).

5️⃣Системы AI высокого риска будут особенно тщательно проверяться на наличие байесов, предвзятости, обеспечивая их недискриминационность и уважение основных прав человека.

6️⃣Поставщики систем AI высокого риска должны вести тщательную документацию, чтобы продемонстрировать свое соответствие регуляциям. Это включает запись методов обучения и используемых наборов данных.

7️⃣ Санкции: Несоблюдение может привести к значительным штрафам, варьирующимся от 35 миллионов евро или 7% от глобального оборота до 7,5 миллиона евро или 1,5% от оборота, в зависимости от нарушения и размера компании.

Усиленные требования к прозрачности могут вызвать проблемы с защитой интеллектуальной собственности, требуя баланса между раскрытием информации и сохранением коммерческой тайны.

Все это потенциально увеличит операционные затраты и наложет значительную административную нагрузку, что потенциально может повлиять на время выхода на рынок новых AI продуктов в Европе.

А скоро, думаю, и другие страны подтянутся со своими законами. В долгосрок выиграют те, кто не так сильно закинет удавку на разработчиков AI. Как же сейчас британские компании радуются, что они не в EU.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Мой кент Yann LeCun зашерил пост про нашу недавнюю статью к себе на страницу.

Мелочь, а приятно. 🚬

#personal
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Цук запости в инсте, что уже начал тестировать мультимодальную AI в очках Meta Ray Ban. Сеточка умеет распознавать то, что видит и отвечать на голосовые команды. Ждем, когда эта фича будет официально в проде!

Это реально круто же, если оно в риалтайме будет помогать жить вашу жизнь. А когда модель начнет локально бегать на телефоне - вот это будет пушка.

@ai_newz
⚡️У Гугла вышла новая text-2-image модель Imagen 2.

Есть блогпост да и только. Конечно, улучшение по сравнению с Imagen 1 налицо, но пока трудно сказать, в чем тут новшество. Статьи нет.

Обещают сильно улучшенный реализм и text faithfulness, то есть модель более чутко реагирует на текстовый запрос.

Обратите внимание, что на руке сгенерило 5 пальцев!

Доступна модель пока только через Imagen API in Google Cloud Vertex AI. Напишите, если кто разберется как пользоваться.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Короче, мы выкатили диффузию в инстаграм для редактирования изображений, а именно - генерацию фона по тексту. Эта модель была анонсирована еще на Connect, но только сейчас ее выкатили в прод в США.

Загружаешь фото, вводишь любой пропмт, например, "преследуемый динозаврами" или "я в Париже", и получаешь несколько новых версий своей фотки.

Моделька основана на нашей text2image диффузии Emu и технологии по типу SAM, которая позволяет автоматически находить нужную маску.

Тут я говорю "мы выкатили", потому что мы с нашей командой крутили и искоряли эту модель, чтобы она работала за пару секунд.

Диффузия Go Brrrrr! - это лозунг нашей команды.

Приятно, когда результатами твоей работы могут пользоваться миллионы людей. Даже работая в ресерче в фаанге, не всегда есть такая возможность. Мне в этом смысле повезло, т.к. наша GenAI орга, кроме написания статей, ещё и катит ресерч в продукты и имеет реальный импакт.

#personal #мойпуть
@ai_newz
Сегодня Яндекс подвел итоги своей премии за вклад в науку в области машинного обучения — Yandex ML Prize. Я просмотрел список лауреатов, их в этом году было 11, и многие из них получили премию за генеративные сети, вокруг которых был особый ажиотаж в этом году, а также за исследования в области распознавания и синтеза речи, компьютерного зрения, информационного поиска, обработки естественного языка.

Это классная инициатива — студентов и учёных-новичков мотивируют заниматься наукой и еще дополнительно поощряют за публикации статей и выступления на топовых международных конференциях. Размер премий — от 500k до 1kk рублей плюс грант на использование платформы Yandex Cloud, которые можно пустить на эксперименты и большие вычисления.

@ai_newz
Там сейчас идёт NeurIPS 2023 в новом Орлеане — топовое событие в мире AI. Год назад я писал о своей поездке на NeurIPS 2022, где я презентовал статью. Забавно, что в этом году конфа опять в Новом Орлеане (видать, очень удачный город для проведения таких тусовок), но у меня не получилось поехать из-за визы.

Кстати, это фото сделано на NIPS 2002 (не мной), когда конфа была маленькой и ламповой, а не как сейчас на более чем 10к человек.

Узнаете кого-нибудь на фото?

@ai_newz
Сейчас часто слышу мнение, что конкуренция в AI очень высокая, и опубликоваться на лучших конференциях почти нереально. В качестве мотивации для начинающих ресерчеров скажу, что сейчас не труднее чем 5 лет назад, просто нужно уметь креативно подходить к ресерчу, если нет кластера из 1000 GPU.

Вот хороший пример того, как молодые ребята могут и пишут статьи на топовые конфы. Парни написали 4 статьи [1, 2, 3, 4] на NeurIPS в этом году, и получили Yandex ML Prize. Один как научный руководитель, в второй как PhD студент с первой топовой публикацией. Заходить в PhD со статьи на Нипсе — это нагло! Я, кстати, тоже начал свою научную карьеру именно со статьи на Нипсе.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Слежу за прогрессом в работах по теме виртуальной примерки. В канале уже целая серия постов об этом — от ганов до диффузии (гляньте для наглядного сравнения). Ещё я даже сам пробовал демо с виртуальным зеркалом на ICCV 2023.

Если раньше проблема виртуальной примерки казалось почти нерешаемой в адекватном качестве, то сейчас я замечаю, что каждые полгода результаты становятся всё лучше и лучше. Вот на днях Alibaba опубликовали новый метод на основе диффузии.

Загружаешь фото и примеры шмоток, а на выходе получаешь не просто фото в одежде, а целую анимацию!

Демо на HF
Сайт проекта

@ai_newz
Media is too big
VIEW IN TELEGRAM
Так-с, там Эндрю Босворт тех дир Меты, выкатил программный пост с итогами десятилетия.
Что мне показалось интересным:

- ставка очень явно делается на смешанную реальность, а не VR.
У смешанной реальности намного больше юзкейсов, Мета внимательно следит, что люди делают с новым шлемом Квест 3.
7 из 20 лучших приложений к концу года - это приложения смешанной реальности.

- технология ИИ и технология "метаверса" (условно - "воплощенного" интернета, внутри которого мы будем находиться) идут навстречу друг другу. И в какой-то момент соединятся.

- Босворт хочет, чтобы ИИ видел мир нашими глазами (это отсылка к их умным очкам Рэйбан), даже больше - воспринимал мир как мы, люди. И не нуждался в подсказках.

- на основе метовских нейросеток Llama и Llama 2 уже напилено 13 тысяч приложений. Теперь, говорит Босворт, надо принести этот огонь людям (а не только задротам, которые ковыряются с API) и мы уже встраиваем все это добро во всякие инстаграмы.

А главный вопрос - это что нас ждет в следующее десятилетие.
Нужно сформировать видение уже сейчас, чтобы понимать куда нам ехать.
This media is not supported in your browser
VIEW IN TELEGRAM
Вы только посмотрите на этого обаятельного 30-летнего молодого человека. Это Джеф Безос, основатель Амазона, показывает первый офис компании в 1994 году. Амазончику тогда было всего несколько месяцев от основания, и только через 3 года он сделает IPO.

Съемку ведет отец Безоса, все действия проходят в гараже. Любопытно, что видео как бы нарочно записывалось, уже зная про безусловный будущий успех компании 📈, чтобы похвастаться через 30 лет, мол, посмотрите с чего я начинал — кабели кругом и бардак на столе.

Все равно видео атмосферное и вдохновляющее, да и Безос там ещё совсем скромный.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
🤯Локальные LLM-ки на подъеме — некий Кулибин запуcтил Карпатовскую llama2.c на Galaxy Watch 4!

Моделька не самая жирная, но это пока. Через год-два 1B параметров будет на часах бегать. Персональный ассистент у вас на руке!

Скорость:
Модель с 15M параметров: 22 токенов/сек*
Модель с 43M параметров: 8 токенов/сек

Вот вам еще небольшая подборка моих постов, про локальнные LLM:
- LLaMa с text-retrieval плагином: тык-1, тык-2
- LLama-7B на на макбуке: тык
- LLaMa-30B на макбуке (4-bit + mmap): тык
- llama2.c или Карпатый запускает LLaMa-2-7B на рисоварке: тык
- Falcon 180B дома на маке M2 Ultra: тык


*один токен - это чуть меньше одного слова.

@ai_newz
Решил разобрать детальнее статейку парней из Tinkoff Research — ReBRAC: Revisiting the Minimalist Approach to Offline Reinforcement Learning, которая была опубликована на NeurIPS в этом году.

Речь пойдет об Offline Reinforcement Learning. Это когда у агента нет доступа к энвайроменту, и он должен тренироваться на предписанном датасете. Это как если бы вы учились играть в Доту, только смотря реплеи и VOD-ы других игроков, но сами бы никогда не пробовали играть. Вот это и есть Offline RL.

Один из популярных методов для Offline RL — это Behavior-Regularized Actor-Critic (BRAC). Если в двух словах, то актор - это сеть, которая принимает решения о действиях агента в разных ситуациях. А критик оценивает действия, выполненные актером, и дает обратную связь о том, насколько хороши или плохи были эти действия. Важным дополнением здесь является, что актор в BRAC, в отличии от online-RL, старается выбирать действия близкие к датасету — это еще называют консервативностью.

Суть статьи в том, что авторы взяли этот минималистичный бейзлайн, Actor-Critic алгоритм, и накачали его стероидами в виде разных трюков, да так что он превратился из слабенького бейзлайна в очень сильный подход, который выдает результат на уровне гораздо более сложных специализированных подходов.

А теперь более детально. Дело в том что, часто в статьях ученые используют всевозможные мелкие трюки, на которых не акцентируют внимание, но которые по сути очень много добавляют к перформансу на практике. Авторы ReBRAC взяли основные трюки и провели детальный анализ влияния каждого из них, и затюнили их для алгоритма Actor-Critic:
- Большая глубина сети: почему-то в литературе до этого в основном использовали MLP c 2-мя скрытыми слоями. Очень странно, ведь это крошечная сетка.
- LayerNorm — полезно вставлять между слоями. Помогает критику преодолеть оверконсервативность.
- Батчи по-больше — всегда хорошо для повышения стабильности тренировки.
- Разная константа в MSE-регуляризации актера и критика.
- Увеличенный дискаунт-фактор для реворда — помогает когда реворд-сигнал довольно жидкий.

После этого оказалось, что даже такой простой алгоритм достиг уровня SOTA, и теперь его можно использовать как очень сильную отправную точку для всех дальнейших исследований в Offline RL.

Мораль такова, что маленькие детали имеют большое значение! Побольше бы таких статей с трюками в других областях, жаль что такое редко публикуется — все держат свои трюки при себе.

@ai_newz
Ура! Нас 40 тысяч! 😗 За год канал вырос на 15 тысяч читателей: c 25k до 40k.

Приятно видеть столько умных и заинтересованных в эйай людей вместе. Я, правда, не думал, что на русском языке можно набрать такую большую аудиторию, ведь контент в канале зачастую не самый легкий.

Поделюсь с вами, про мои самые любимые плюшки, которые я как автор обрел благодаря каналу.

1. Теперь, я получаю удовольствие вдвойне при прочтении новой статьи. Во-первых от получения новых знаний, а во-вторых мне радостно делиться информацией с вами и объяснять сложные вещи.

2. Огромное количество новых знакомств, которые принесло ведение канала. Мой нетворк значительно вырос и распространился по всему миру. Иногда поступают очень интересные предложения о коллаборациях и партнерствах либо просто встретиться на кофе в новом городе.

3. Во время нескольких последних поездок на конференции (CVPR, ICCV в этом году) у меня прям здорово получалось наводить движ благодаря комьюнити, которое образовалось вокруг канала. Было приятно знакомиться и общаться с вами! И я, кажется, понял, что мне очень нравится организовывать такие тусы.

В августе я проводил большой опрос читателей. Cкоро поделюсь его результатами и тем, как на базе этого я планирую развивать контент.

Надеюсь, что наше комьюнити будет и дальше активно развиваться! Merry Christmas! 🎄

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Галя, отмена! В 2024 AGI ещё не будет. 👍

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Принес вам 14 книг по Machine Learning для прочтения в 2024 году

Вкатывающимся в ML архиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!

🧠 Фундамент
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. The Little Book of Deep Learning (Fleuret, 2023). [тык]
4. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
5. Probabilistic Machine Learning (Murphy, 2012-2023)
6. Linear Algebra and Learning from Data (Strang, 2019)

💻 Более практические
7. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
9. Designing Machine Learning Systems (Huyen, 2022)
10. Fundamentals of Data Engineering (Reis & Housley, 2022)

🤗 LLM-ки
11. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
12. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)

🎉 Генеративный AI
13. Generative Deep Learning, 2nd Edition (Foster, 2023)
14. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)

Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.

Часть списка подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил. #книги #books

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Самая мощная LLM в опесорсе, Mixtral 8x7B MoE от Mistral AI, теперь доступна во фреймворке Сandle* - с поддержкой квантизации. За счет квантизации модели могут работать локально на ноутбуке с 32 GB RAM.

Например, 4-битная Mixtral 8x7B MoE занимает всего 26.44GB памяти. Тогда как в bf16 на GPU модель бы заняла 112+ GB VRAM (то есть влезла бы только на H100).

*Candle - это минималистский ML-фреймворк для Rust, сфокусированный на производительности (включая поддержку GPU) и простоте использования.

- Поддерживает 2-bit, 3-bit, 4-bit, 5-bit, 6-bit and 8-bit int квантизованные модели в gguf and ggml форматах.
- SIMD оптимизации для Apple Silicon и x86.

Вот тут можете попробовать демки разных моделей на Candle:
- Whisper, [пост в канале]
- LLaMa-2, [пост в канале]
- T5,
- YOLOv8,
- Segment Anything [пост в канале]

@ai_newz