эйай ньюз
65.7K subscribers
1.48K photos
791 videos
7 files
1.8K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
JetMoE: так выглядит бюджетный претрейнинг в 2024

Модель - 8B MoE (2.2B - активные) на уровне прошлогодней LLaMA 2 7B. Из архитектурных особенностей - Mixture of Experts там не только MLP, но и Attention.

Авторы хвастаются, что потратили всего ~32k H100-часов (две недели трейна на 96×H100) с датасетом в 1.25 триллиона токенов. Тренили в две стадии: сначала триллион не самых качественных токенов, а за ним 250 миллиардов википедии, архива и т.д.. Потратили на все про все 80 тысяч долларов, это, считай, копейки по меркам современных LLM. Для сравнения, Лламу 2 тренировали ~180k A100 часов на 2 триллионах токенов.

Моделька не лучшая - в своей весовой категории по компьюту она уступает Qwen1.5-MoE-A2.7B (у которой в два раза больше параметров), но бьёт Gemma 2B и Stable LM 1.6B (не удивительно). Среди моделей с одинаковым количеством параметров она проигрывает Mistral-7B и Gemma 7B. Но зато она довольно дешёвая в тренировке и может быть хорошей отправной точкой для специализированных файнтюнов.

Вообще мне очень нравится тренд на удешевление тренировки, и на уменьшение моделей. За этим будущее, где LLM-ки или их потомки бегают на каждом электрочайнике.

Демка
Веса
Сайт модели

@ai_newz
🤔Теперь ваша рисоварка сможет не только запускать LLM, но и тренировать их — Карпатый в деле!

Андрей Карпатый выпустил llm.c – тысяча строк чистого C без зависимостей, которые компилируются меньше чем за секунду. llama.c – его предыдущий проект, позволявший запускать llama на всяких умных лампочках, а llm.c теперь даёт возможность ещё и тренировать.

МОЁ УВОЖЕНИЕ

Пока что можно только тренировать GPT-2 на CPU, но Андрей уже работает над поддержкой CUDA и более новых моделей вроде llama. Когда закончит - обещает выпустить несколько туториалов про это, в духе его же видео о написании GPT-2 на Python.

https://github.com/karpathy/llm.c

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Ну, что, любители сэма альтмана, вышел апдейт GPT-4 (gpt-4-turbo-2024-04-09).

Смотря невооруженным глазом, ничего особо не поменялось. Только теперь в модель можно пихать картинки через API, то есть это GPT-4V версия, и она теперь доступна всем.

Анонсы твердят, что это "значительное" улучшение, особенно по части математических способностей.

Что-ж, дождемся результатов Chatbot-арены, где в честном бою выяснится, кто сильнее Claude 3 Opus или GPT-4.

Напомню, что недавно Claude 3 Opus стал лучшей моделью на Chatbot-арене, побив долгоиграющего лидера GPT-4.

А сегодня открытая моделька Cohere Command R+ (писал о ней тут) вышла на 6-е место, побив старые версии GPT-4. И это не может не радовать!🎉

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Тэкс, свежий дроп - Mixtral-8x22B!

Mistral как обычно в своем стиле, тупо оставили magnet-ссылку на торрент с весами своей новой модели. Вот знатные троли.

Новая модель это Mixture of Experts Mixtral-8x22B:
- Размер модели 262 GB (я так понимаю веса в fp16)
- 8 экспертов / 2 активных
- В сумме 141 B параметров / активных 39B
- 56 слоев, hidden_dim=16384, 48 attention голов
- Размер контекста 65536 токенов.

Обстановочка в гонке моделей накаляется с каждым днем. Кажется, Command R+ могут подвинуть на лидерборде! Weclome to ARENA! 🍿

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, по сети гулял недавно серьезный сервис Magnigic AI для креативного апскейла картинок? Все бы ничего, но удовольствие такое стоит $40.

Так вот... Оказывается, Леонардо в тихую запустил такую же тулзу бесплатно! В день там даются 150 токенов, чего хватает на 5 апскейлов до 5 мегапикселей (в бесплатной версии).  То есть разрешение после Дали увеличить получиться только в 1,5 раза, но зато появится детализация. После, при желании, можно прогнать картинку еще через какой-нибудь апсейлер типа топаза или upscale media (разрешение до 1500х1500) и получить полноценный 4K (пример файлом).

Предположительно работает это так:

Сначала апскейлишь картинку билинейно (обычный апскейл), добавляешь нойза, режешь это все на тайлы (куски) с нахлестом и скармливашь каждый зашумленный кусок в Stable Diffusion (с контролнетом или без), усредняя результат в области пересечения тайлов после каждого шага. В конце собираешь все обратно.

В a1111 плагин называется ControlNet Tiles, штука старая и довольно известная, позволяет получить картинки вплоть до 32,000 и более пикселей, а также апскейлить на слабом железе. Здесь, в общем, то же самое, но довольно быстро (секунд за 30) и в удобном интерфейсе. Доводить картинки из Dalle 3 до уровня Миджорни самое то!

Leonardo

@ai_newz
UniversalUpscaler_forest_ai_newz.jpg
37.2 MB
Результат получается с очень большим количеством деталей. ❤️

@ai_newz
Еще раз обо мне

В канал пришло много новых людей, решил еще раз представиться и сделать подборку интересных постов.

Меня зовут Артём, я из Беларуси. Сейчас живу в Швейцарии и работаю в Meta GenAI на позиции Staff Research Scientist. До этого сделал PhD в университете Хайдельберга, в той самой научной группе, где придумали Stable Diffusion. За время в лабе я опубликовал кучу статей на топовых конфах. В перерывах между статьями я оттачивал свои эйай навыки на практике, упарываясь на Kaggle соревнованиях (я очень азартный тип в этом плане) – добрался до Top45 в мировом рейтинге с несколькими золотыми медалями. Больше про меня есть в этом посте и по тегам #personal и #мойпуть. [Если что, то я на фотке слева]

Подборка личных постов:
▪️Рассказ о том, как я вкатился в AI/ML
▪️Откуда AI хайп и как было, когда я начинал свое PhD
▪️Видео-интервью со мной
▪️Вот здесь делюсь личной радостью, ведь мы завезли диффузию в инсту,
▪️На основе emu, которую лично я оптимизировал, чтоб вот быстро и чётко
▪️Еще про то как мы сделали и ускорили генеративные стикеры для инсты, WhatsApp и FB Messenger.
▪️Про наш громкий релиз Imagine Flash, риалтайм генерацию картинок – проект, который я вел.
▪️Моя статья об ускорении диффузии с помощью кеширования, без потери качества конечно же.
▪️Как я приделывал ноги Аватарам в метаверсе [ч1, ч2], пока работа в Meta Reality Labs.
▪️Пост-апдейт и про, то как я недавно стал стафом в Meta GenAI (ну вы поняли).

Из еще почитать:
▪️Пост про грейды в бигтехе [ч1, ч2]. Все же в курсе, что сеньор это еще не все?:)
▪️Список книг для изучения ML в 2024.
▪️Гайд по ускорению диффузии [ч1, ч2], так сказать полевой опыт.
▪️Разбор того, как дистиллировали sd3 в 4 шага, который репостнул CEO бывший CEO Stability
▪️Список лекций и туториалов про 3D Human Understanding от топовых ученых из этой сферы.
▪️Лонгрид про парижский стартап Mistral и мое знакомство с фаундером.
▪️Пост про GR00T, модельку от nvidia, которая может стать chatgpt моментом в робототехнике.
▪️Еще вот про те самые чаевые в $200 для LMM и финальный список всех трюков, чтобы вставить в промпт по умолчанию.

Недавно запустился еженедельный #дайджест с кратким обзором новостей.

А также в ленте можно найти 1000 и 1 разбор свежих пейперов с мои авторитетным мнением, еще есть рубрика #ликбез с разбором базовых тем и #карьера с моими мыслями/байками по карьере в AI/ML.

Ну что, поздравляю всех новоприбывших! Обнял ❤️

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
эйай ньюз pinned «​Еще раз обо мне В канал пришло много новых людей, решил еще раз представиться и сделать подборку интересных постов. Меня зовут Артём, я из Беларуси. Сейчас живу в Швейцарии и работаю в Meta GenAI на позиции Staff Research Scientist. До этого сделал PhD…»
⚡️Lightning Studio: Альтернатива Google Colab если хотите поиграться c модельками или заняться пет-проектом

Я тут случайно набрел на такую штуку. Не знал, что Lightning, та контора, что делает фреймворк Pytorch Lightning, ещё и пилит свою студию. По сути это онлайн среда для разработки и прототипирования deep-learning моделек. Тут все что нужно есть: и терминал, и VS Code, и ноутбуки, и удобный доступ к файловой системе и persitent хранилище (а не грёбаный google drive).

Фичи, которые есть тут, но нет в Google Colab:
- free persistent storage, то есть локальные файлы не пропадают, когда вы закрыли ноутбук
- free persistent environments
- unlimited background execution
- VSCode, PyCharm, (any IDE) integration

Дают бесплатно 22 гпу-часов (T4) в месяц, плюс можно докупить еще, если нужно. Платишь только за время, когда GPU активирована. Можно отмасштабировать и арендовать 8xA100, если нужно натренировать что-то серьезное.

https://lightning.ai/

@ai_newz
🔥 Вышла Алиса нового поколения, которая научилась общаться как мудрый и внимательный собеседник

Про апгрейд из анонса: сейчас Алиса может ответить на 95% вопросов, тогда как раньше она отвечала на 40% и остальное предлагала найти в поиске. Все это потому что подключили новую модель – YandexGPT.

Общение тоже изменилось: Алиса научилась объяснять сложные вещи простыми словами, генерировать идеи и удерживать контекст беседы. Даже если пользователь отвлечется и через время задаст ей дополнительный вопрос.

Ещё выпустили опцию «Про» на мощнейшей на сегодня нейросети Яндекса — YandexGPT 3 Pro. Там есть все скиллы для брейншторма, придумывания концепций и даже виртуальная няня.

На русском языке, YandexGPT 3 Pro обходит GPT-3.5 Turbo в 58% случаях на side-by-side сравнениях.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM