эйай ньюз
57.8K subscribers
1.38K photos
727 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
Media is too big
VIEW IN TELEGRAM
Так-с, там Эндрю Босворт тех дир Меты, выкатил программный пост с итогами десятилетия.
Что мне показалось интересным:

- ставка очень явно делается на смешанную реальность, а не VR.
У смешанной реальности намного больше юзкейсов, Мета внимательно следит, что люди делают с новым шлемом Квест 3.
7 из 20 лучших приложений к концу года - это приложения смешанной реальности.

- технология ИИ и технология "метаверса" (условно - "воплощенного" интернета, внутри которого мы будем находиться) идут навстречу друг другу. И в какой-то момент соединятся.

- Босворт хочет, чтобы ИИ видел мир нашими глазами (это отсылка к их умным очкам Рэйбан), даже больше - воспринимал мир как мы, люди. И не нуждался в подсказках.

- на основе метовских нейросеток Llama и Llama 2 уже напилено 13 тысяч приложений. Теперь, говорит Босворт, надо принести этот огонь людям (а не только задротам, которые ковыряются с API) и мы уже встраиваем все это добро во всякие инстаграмы.

А главный вопрос - это что нас ждет в следующее десятилетие.
Нужно сформировать видение уже сейчас, чтобы понимать куда нам ехать.
This media is not supported in your browser
VIEW IN TELEGRAM
Вы только посмотрите на этого обаятельного 30-летнего молодого человека. Это Джеф Безос, основатель Амазона, показывает первый офис компании в 1994 году. Амазончику тогда было всего несколько месяцев от основания, и только через 3 года он сделает IPO.

Съемку ведет отец Безоса, все действия проходят в гараже. Любопытно, что видео как бы нарочно записывалось, уже зная про безусловный будущий успех компании 📈, чтобы похвастаться через 30 лет, мол, посмотрите с чего я начинал — кабели кругом и бардак на столе.

Все равно видео атмосферное и вдохновляющее, да и Безос там ещё совсем скромный.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
🤯Локальные LLM-ки на подъеме — некий Кулибин запуcтил Карпатовскую llama2.c на Galaxy Watch 4!

Моделька не самая жирная, но это пока. Через год-два 1B параметров будет на часах бегать. Персональный ассистент у вас на руке!

Скорость:
Модель с 15M параметров: 22 токенов/сек*
Модель с 43M параметров: 8 токенов/сек

Вот вам еще небольшая подборка моих постов, про локальнные LLM:
- LLaMa с text-retrieval плагином: тык-1, тык-2
- LLama-7B на на макбуке: тык
- LLaMa-30B на макбуке (4-bit + mmap): тык
- llama2.c или Карпатый запускает LLaMa-2-7B на рисоварке: тык
- Falcon 180B дома на маке M2 Ultra: тык


*один токен - это чуть меньше одного слова.

@ai_newz
Решил разобрать детальнее статейку парней из Tinkoff Research — ReBRAC: Revisiting the Minimalist Approach to Offline Reinforcement Learning, которая была опубликована на NeurIPS в этом году.

Речь пойдет об Offline Reinforcement Learning. Это когда у агента нет доступа к энвайроменту, и он должен тренироваться на предписанном датасете. Это как если бы вы учились играть в Доту, только смотря реплеи и VOD-ы других игроков, но сами бы никогда не пробовали играть. Вот это и есть Offline RL.

Один из популярных методов для Offline RL — это Behavior-Regularized Actor-Critic (BRAC). Если в двух словах, то актор - это сеть, которая принимает решения о действиях агента в разных ситуациях. А критик оценивает действия, выполненные актером, и дает обратную связь о том, насколько хороши или плохи были эти действия. Важным дополнением здесь является, что актор в BRAC, в отличии от online-RL, старается выбирать действия близкие к датасету — это еще называют консервативностью.

Суть статьи в том, что авторы взяли этот минималистичный бейзлайн, Actor-Critic алгоритм, и накачали его стероидами в виде разных трюков, да так что он превратился из слабенького бейзлайна в очень сильный подход, который выдает результат на уровне гораздо более сложных специализированных подходов.

А теперь более детально. Дело в том что, часто в статьях ученые используют всевозможные мелкие трюки, на которых не акцентируют внимание, но которые по сути очень много добавляют к перформансу на практике. Авторы ReBRAC взяли основные трюки и провели детальный анализ влияния каждого из них, и затюнили их для алгоритма Actor-Critic:
- Большая глубина сети: почему-то в литературе до этого в основном использовали MLP c 2-мя скрытыми слоями. Очень странно, ведь это крошечная сетка.
- LayerNorm — полезно вставлять между слоями. Помогает критику преодолеть оверконсервативность.
- Батчи по-больше — всегда хорошо для повышения стабильности тренировки.
- Разная константа в MSE-регуляризации актера и критика.
- Увеличенный дискаунт-фактор для реворда — помогает когда реворд-сигнал довольно жидкий.

После этого оказалось, что даже такой простой алгоритм достиг уровня SOTA, и теперь его можно использовать как очень сильную отправную точку для всех дальнейших исследований в Offline RL.

Мораль такова, что маленькие детали имеют большое значение! Побольше бы таких статей с трюками в других областях, жаль что такое редко публикуется — все держат свои трюки при себе.

@ai_newz
Ура! Нас 40 тысяч! 😗 За год канал вырос на 15 тысяч читателей: c 25k до 40k.

Приятно видеть столько умных и заинтересованных в эйай людей вместе. Я, правда, не думал, что на русском языке можно набрать такую большую аудиторию, ведь контент в канале зачастую не самый легкий.

Поделюсь с вами, про мои самые любимые плюшки, которые я как автор обрел благодаря каналу.

1. Теперь, я получаю удовольствие вдвойне при прочтении новой статьи. Во-первых от получения новых знаний, а во-вторых мне радостно делиться информацией с вами и объяснять сложные вещи.

2. Огромное количество новых знакомств, которые принесло ведение канала. Мой нетворк значительно вырос и распространился по всему миру. Иногда поступают очень интересные предложения о коллаборациях и партнерствах либо просто встретиться на кофе в новом городе.

3. Во время нескольких последних поездок на конференции (CVPR, ICCV в этом году) у меня прям здорово получалось наводить движ благодаря комьюнити, которое образовалось вокруг канала. Было приятно знакомиться и общаться с вами! И я, кажется, понял, что мне очень нравится организовывать такие тусы.

В августе я проводил большой опрос читателей. Cкоро поделюсь его результатами и тем, как на базе этого я планирую развивать контент.

Надеюсь, что наше комьюнити будет и дальше активно развиваться! Merry Christmas! 🎄

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Галя, отмена! В 2024 AGI ещё не будет. 👍

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Принес вам 14 книг по Machine Learning для прочтения в 2024 году

Вкатывающимся в ML архиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!

🧠 Фундамент
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. The Little Book of Deep Learning (Fleuret, 2023). [тык]
4. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
5. Probabilistic Machine Learning (Murphy, 2012-2023)
6. Linear Algebra and Learning from Data (Strang, 2019)

💻 Более практические
7. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
9. Designing Machine Learning Systems (Huyen, 2022)
10. Fundamentals of Data Engineering (Reis & Housley, 2022)

🤗 LLM-ки
11. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
12. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)

🎉 Генеративный AI
13. Generative Deep Learning, 2nd Edition (Foster, 2023)
14. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)

Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.

Часть списка подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил. #книги #books

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Самая мощная LLM в опесорсе, Mixtral 8x7B MoE от Mistral AI, теперь доступна во фреймворке Сandle* - с поддержкой квантизации. За счет квантизации модели могут работать локально на ноутбуке с 32 GB RAM.

Например, 4-битная Mixtral 8x7B MoE занимает всего 26.44GB памяти. Тогда как в bf16 на GPU модель бы заняла 112+ GB VRAM (то есть влезла бы только на H100).

*Candle - это минималистский ML-фреймворк для Rust, сфокусированный на производительности (включая поддержку GPU) и простоте использования.

- Поддерживает 2-bit, 3-bit, 4-bit, 5-bit, 6-bit and 8-bit int квантизованные модели в gguf and ggml форматах.
- SIMD оптимизации для Apple Silicon и x86.

Вот тут можете попробовать демки разных моделей на Candle:
- Whisper, [пост в канале]
- LLaMa-2, [пост в канале]
- T5,
- YOLOv8,
- Segment Anything [пост в канале]

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
🌡Геймификация - наше все! Как же все-таки странно устроен человеческий мозг. Есть куча уловок, заставить его что-то делать с охотой, но не все их знают или не умеют ими пользоваться.

Видос украден отсюда.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Поздравляю всех с Новым Годом!

Это был продуктивный 2023 год, а в 2024 году желаю вам всем хороших градиентов, быстрой сходимости и достижения абсолютно всех поставленных целей!

🎆 🥳🍾

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
О важности отдыха "с отключением"

Порой мне сложно разгрузить голову и оставить работу в офисе после того, как я пришел вечером домой. Постоянно крутятся мысли, идеи и хочется доделать задачу либо запустить эксперименты на ночь, чтобы ГПУшки не простаивали. Кроме того, тесная работа с коллегами из Калифорнии тоже поддаёт угля в огонь.

Работать в таком режиме продолжительное время, конечно, утомительно, хоть я и очень люблю то, чем занимаюсь. Поэтому заставляю себя на выходных и во время отпуска отключаться полностью, не проверять рабочую переписку и не читать научные статьи. Ну, либо читать, но только ради удовольствия — каюсь, не могу от них полностью отказаться 🤪.

Вот и сейчас у меня было 2 недели без рабочих вопросов, даже не писал в канал и почти не читал другие каналы, чтобы мозг отдохнул от беспрерывного потока информации.

По себе замечаю, что эффективность такого отдыха гораздо выше, чем когда в отпуске даже по часу в день занимаешься чем-то, связаным с работой. После отдыха "с отключением", приступая к работе, всегда чувствую много энергии и искрюсь новыми идеями. Также это хорошая пилюля против выгорания.

Так что, теперь я опять с вами!
Расскажите в комментариях, как вы отдыхаете от интенсивного умственного труда?


#personal
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

Кайфовая работа вышла. Позволяет генерить людей в разных стилях и амплуа по заданным фотографиям. Вон смотрите как кайфово ЛеКуна нагенерили.

Но, в отличие от DreamBoth и всяких LORA, в этой работе избавились от надобности файнтюнить модель под каждую новую личность.

Во время тренировки мы выдираем из входных фоток эмбеддинги, кодирующую личность, и учим диффузионную модель использовать их в качестве кондишенинга для генерации желаемых личностей.

А во время инференса, мы можем подать набор фотографий нового юзера и сгенерить для него аватарки без дополнительных тренировок. Это быстро и более эффективно, чем файнтюн под каждого юзера.

Идея простая и изящная, строящаяся на том, что давно существуют сетки, способные выдирать фичи, кодирующие внешность человека. Например, для ре-идентификации.

Сайт проекта
Код

Можно попробовать демки на HF:
1. Демо в реализмем
2. Демо со стилизацией

@ai_newz
🚬 Треним веса, тренимся с весами (с) Гигачад Шмидхубер

Всем бы в 60 быть в такой форме! Талантливый человек — талантлив во всем.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Вот так.

Credits: D. Vorotyntsev

@ai_newz
LLaMa 3 уже тренируется

Марк анонсировал сегодня у себя в IG, что уже тренирутся LLaMa 3, и на подходе другие клёвые AI модели.

Чтобы все это добро эффективно тренировать, по ходу строится огромный кластер, в котором будет 350,000 H100 до конца года. Общий размер компьюта будет примерно равен 600,000 H100, если перевести всё в H100 эквивалент.

@ai_newz
Stable LM 2 1.6B от Stability AI

Кажется, Stability AI решили немного улучшить состояние дел в маленьких LLM. Вот выпустили Stable LM 2 со скромными 1.6B. По бенчмаркам она показывает себя более чем достойно и является самой сильной моделью в весовой категории до 2 млрд параметров.

Тренили ее две эпохи на двух триллионах токенов. Датасет использовали мультиязычный - Английский, Испансикй, Немецкий, Итальянский, Французский, Португальский и Голландский. Русского, увы нет.

В целом, мне нравится тренд на создание уменьшенных моделей, не сильно теряя в качестве генерации. Проще и шустрее будет такие модельки запускать у себя на лаптопе либо на мобильниках.

Демка на HF
Базовая модель
Instruction-tuned версия

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
А вот теперь, мы начнем играть в VR по-взрослому! Disney представила свою новую крышесносную разработку HoloTile Floor. Это имено то, что я себе представлял в детстве, когда мы с парнями мечтали о будущих играх виратуальной реальности.

Да, я четко помню, что в году 2005 у нас уже были обсуждения и фантазии насчет "виртуальной реалтности", которая вот-вот появится на новых компах, и мы будем играть лесными эльфами, охраной дворца и злодеем. Можно будет грабить корованы...

А с таким полом, кажется, можно действительно испытать полное погружение в виртуальную реальность. HoloTile Floor первым делом будут устанавливать в парках развлечения Disney, но в какой-то момент они могут дойти и до домашних пользователей. Кроме обычных игр, фитнес приложения смогут выйти на совсем иной уровень.

Omni-directional беговые дорожки существовали и ранее (например virtuix), но они как правило выглядели громоздко и на игрока нужно было вешать кучу дополнительных приблуд. Кроме того, в HoloTile Floor, можно еще и перемещать предметы, и двигаться, сидя на предметах.

В общем, what a time to be alive! И ждем новых серий черного зеркала.🤯

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Я тут наткнулся на профиль одного паренька. Честно сказать, я в шоке. В 14 лет он закончил бакалавриат, в 19 лет он закончил PhD, а в 20 лет стал Research Director в Stability AI.

Он взломал жизнь?

@ai_newz
Нейросети пишут подкаст про нейросети (на русском)

Мне в личку постучался подписчик и рассказал про свой проект. Он сделал подкаст про AI на русском языке, который создается автоматически с помощью нейросетей! Это безумие, которое стало реальным благодаря мощному прогрессу в АI за последние пару лет, за которым мы тут и следим 👀.

Причем, нейросетевой подкаст D00M4ACE содержит полноценный пайплан с нейсколькими этапами поиска и обработки актуальной информации по теме подкаста, то есть это не просто озвучка блогпостов из интернета. Со слов автора, весь пайплайн заскриптован, и между шагами нет ручных действий. На вход тема подкаста - на выходе набор wav файлов.

Как это работает вкратце:
1. По заданной теме подкаста парсится реддит и собирается база текстов.
2. Далее эта база пропускается через ряд LLM-ок, которые разбивают ее на отдельные суммаризированные блоки, которые потом еще раз пропускаются через LLM-ки для ранжирования и отбора наиболее высоких по рейтингу кусков информации.
3. Затем это добро пропускается через API gpt-4-turbo, где системный промпт содержит инструкцию написать сценарий подкаста, задает описание ведущих и прочие требования.
4. И, наконец, Text-to-Speach нейронки преобразуют сценарий в аудиозапись и с помощью RVC (real-time voice cloning) голосам придается идентичность. Причем один из виртуальных подкастье имеет голос самого автора, а для со-ведущей автор натренировал нейронку, которая повторяет голос его супруги.

Пайплайн все ещё в процессе улучшения и автор планирует переделать его на базе опенсоурс решений без использоывания OpenAI апишек.

Внизу прикрепляю один из эпизодов.

Канал c подкастом
Ютуб
Сайт автора

@ai_newz
OpenAI проапдейтили API и выкатили новые text-embedding модели

1️⃣ Добавили 2 новые text-embeding модели, которые переводят текст в вектора.

2️⃣ Обновили GPT-3.5 Turbo. Теперь она будет более точно отвечать в формате, который вы запоосили в промпте.

Цену за входные токены уменьшили на 50%, до $0.0005 /1 KTok. А цену за генерируемые токены снизили на 25%, теперь она $0.0015 /1 KTok.

3️⃣ Обновили GPT-4 Turbo preview. Улучшили генерацию кода и уменьшили "ленивость" модели, когда ей приходилось подкидывать на чай, чтобы она выполняла задачу без халтуры.

Еще в ближайшие месяцы пообещали выкатить GPT-4 Turbo со зрением в общий доступ.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Кстати, если вы не заметили, новая text-embeding-3-large модель от OpenAI далеко не SOTA (увы).

Немного про бенчмарки и что сейчас SOTA:

1️⃣ MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) - бенчмарк с текстами на 18 разных языках, включая русский. Используется для измерения качества поиска по многоязычному корпусу.

Тут мы видим заметное улучшение у text-embeding-3-large - 54.9 (против 31.4 у `ada v2`). Что тут сейчас актульная SOTA я хз - подскажте в комментах, если знаете.

2️⃣ MTEB (Massive Text Embedding Benchmark) - крупнейший бенчмарк дял текстовых эмбеддингов. Есть публичнй лидерборд (см. скрин).
a. SOTA сейчас считается модель voyage-lite-02-instruct от Voyage AI (доступна через API) со скором 67.13.
b. на втором месте - E5-mistral-7b-instruct (в опен соурсе), выбивает скор 66.63.
с. text-embeding-3-large от OpenAI же выдает скромные 64.6, что соответствует 4-му месту на лидерборде.

Кажется, OpenAI потихоньку теряет свои лидерские позиции как SOTA API всего, что связано с текстом.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM