AI для Всех

Форум: расскажите мне пожалуйста все что нужно знать про State Space Models?

Особенно интересует применение к аудио. Например, видел AudioMamba, но они зачем то из аудио наделали спектрограм, которые почанкали. Насколько я понимаю, там весь смысл в том что мамба должна из коробки с последовательностями дружить.

Короче, все что нужно знать (не обязательно только про аудио), пожалуйста делитесь в комменты

❤9👍3🤩3

4.51K viewsArtemii, edited 05:06

AI для Всех

Исследовательское партнерство OpenAI и Los Alamos National Laboratory

OpenAI и Национальная Лаборатория Лос-Аламос (LANL) объединились для оценки возможностей ИИ в бионауках. Это партнерство изучает, как мульти-модальные модели ИИ могут поддерживать научные эксперименты, объединяя зрительные и голосовые возможности для улучшения лабораторных работ. Исследования включают безопасность использования моделей GPT-4о в лабораторных условиях. Уже было исследование про GPT4, и теперь надо понять, насколько безопасны аудио-визуальные способности модели.

Проект оценивает, как ИИ может помочь выполнять стандартные лабораторные задачи, такие как культивирование клеток и подготовки образцов для масс-спектрометрии, напр. Цель - повысить эффективность работы ученых, как опытных исследователей, так и PhD студентов. Модели ИИ будут анализировать визуальные и голосовые данные, помогая ученым в реальном времени. Например, ИИ ассистент может распознавать визуальные аномалии в процессе культивирования клеток и предупреждать исследователей о необходимости вмешательства, обеспечивая более точный и воспроизводимый процесс.

Дело полезное, т.к. ИИ для биологических исследований должен быть безопасным и продуктивным, а результаты этих оценок помогут установить новые стандарты безопасности и эффективности ИИ в науке.

Анонс

❤12👍6🔥2😱2

4.82K viewsGinger Spacetail, 10:06

AI для Всех

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

ИИ выходит из под контроля

😁55😱7❤6🤯5👍3

7.51K viewsArtemii, 15:37

AI для Всех

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

Уже представляете себе тик токи с путешествиями Барсика?

😁51🤩13😱2😐1

6.17K viewsArtemii, 23:37

AI для Всех

Сегодня хочу обратить ваше внимание на пост из канала Машин Лернинг. Автор(ка) делится инсайтами из лекции Яна ЛеКуна, одного из пионеров глубокого обучения и лауреата премии Тьюринга.

В посте затрагиваются действительно важные темы:
- Почему нам необходимы мультимодальные нейросети
- Ограничения современных языковых моделей
- Будущее AGI
- А также немного философии о том, что действительно важно в научной карьере

Особенно интересны расчёты, показывающие, насколько человеческий опыт богаче, чем данные, на которых обучаются современные ИИ-модели.

Рекомендую прочитать этот пост всем, кто интересуется будущим ИИ и хочет понять, какие вызовы стоят перед исследователями в этой области.

А если интересно почитать что думают другие авторы каналов - то вот вам

ИИ папка 📂

🔥10😁6👍5❤3😢3🤯1😱1

5.67K viewsArtemii, 09:03

AI для Всех

MathΣtral - калькулятор на стероидах

В честь 2311-летия Архимеда Mistral выпустили модель MathΣtral, и она уже доступна для использования под лицензией Apache 2.0

MathΣtral основана на модели Mistral 7B и специализируется на предметах STEM (наука, технологии, инженерия, математика).
Она имеет контекстное окно в 32k и демонстрирует выдающиеся способности в логическом мышлении, особенно в решении сложных математических задач.
Модель достигает 56,6% на MATH и 63,47% на MMLU. Особенно впечатляют результаты с majority voting — 68,37% (ответ выбирается на основе большинства предложенных решений) и 74,59% если ответ выбирает strong reward model из 64 предложений, сгенерированных Mathstral 7B.

MathΣtral была создана в рамках сотрудничества с тем самым проектом Numina, и её выпуск - часть усилий Mistral AI по поддержке академических инициатив.
По идее создателей MathΣtral должна стать помощником для студентов и исследователей в решении задач, требующих высокого уровня математических рассуждений.

Забавно, что в бухгалтерии модель не сильна.

🤗 Веса на HF

🖤

Потрогать
⭐️ Файнтьюнить (LoRa-based, рекомендуют A100 or H100 GPU)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16😁8👍4❤2

5.92K viewsGinger Spacetail, 17:59

AI для Всех

📢 OpenAI представляет GPT-4o mini! 🚀

Друзья, мы стоим на пороге новой эры в развитии искусственного интеллекта! OpenAI только что анонсировала GPT-4o mini – свою самую экономичную маленькую модель, которая обещает перевернуть наше представление о доступности передовых ИИ-технологий.

До сих пор высокая стоимость использования мощных языковых моделей была серьезным барьером для их широкого применения. Но GPT-4o mini меняет правила игры. Представьте себе: всего 15 центов за миллион входных токенов – это на 60% дешевле, чем GPT-3.5 Turbo!

Может ли "малая" модель конкурировать с более крупными собратьями? Результаты тестирования и отзывы первых пользователей говорят, что очень даже может! GPT-4o mini не просто конкурирует – она превосходит GPT-3.5 Turbo по многим параметрам!

Разработчики уже начинают интегрировать GPT-4o mini в свои приложения, и вот что их ждет:

* Поддержка мультимодального ввода (текст + изображения)
* Впечатляющее контекстное окно в 128K токенов
* 82% точности на MMLU (тест на рассуждение и интеллект)

Главный вопрос теперь: сможет ли GPT-4o mini действительно демократизировать ИИ? Я думаю, что да. Эта модель открывает двери для нового поколения ИИ-приложений, делая передовые технологии доступными как для разработчиков, так и для конечных пользователей.

По ценам: разработчики платят 15 центов за 1 млн входных токенов и 60 центов за 1 млн выходных токенов (примерно эквивалент 2500 страниц в стандартной книге).

GPT-4o mini – это не просто новая модель. Это шаг к будущему, где мощный ИИ доступен каждому. Это баланс между доступностью и производительностью, о котором мы так долго мечтали.

Новость

🔥31❤8😁3😢2😐2🤯1

6.57K viewsArtemii, edited 18:07

AI для Всех

TorchServe vs BentoML

Друзья, выбираю на чем сделать latency-critical сервис по сервированию модельки. Пока схожусь к torchServe vs BentoML.

Расскажите какие подводные камни? Какими фреймворками пользуетесь? Может быть мне вообще что-то другое надо, а я и не знаю?

❤6

5.01K viewsArtemii, 16:32

AI для Всех

Слили бенчмарки для Llama 3.1 405B

Похоже, что это новая партия моделей Llama 3.

Llama 3.1 8B выглядит очень достойно, а 70B даже достигает уровня производительности GPT-4o.

Модель 405B обеспечивает немного лучшую производительность, но не выглядит новаторской.

Ждём скорого подтверждения или облома

👨‍💻

Рэддит

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21👍3❤2

5.36K viewsKirill, edited 21:59

AI для Всех

Слили бенчмарки для Llama 3.1 405B Похоже, что это новая партия моделей Llama 3. Llama 3.1 8B выглядит очень достойно, а 70B даже достигает уровня производительности GPT-4o. Модель 405B обеспечивает немного лучшую производительность, но не выглядит новаторской.…

А вот и официальный релиз Llama 3.1: https://llama.meta.com/

В том числе, стала доступна 405B 🤯

Industry Leading, Open-Source AI | Llama

Discover Llama 4's class-leading AI models, Scout and Maverick. Experience top performance, multimodality, low costs, and unparalleled efficiency.

🔥15👍4😱3😢3🤩2

5.46K viewsArtemii, edited 15:01

AI для Всех

Китайский генератор нейро видео теперь доступен для всех

Клинг, с помощью которого уже сгенерировали столько восхитительного нейротреша, теперь доступен для всех. Можно даже ожидать что с российскими номерами заведется.

Творить тут

🔥10❤2🎉1

5.93K viewsArtemii, edited 13:26

AI для Всех

ИИ почти победил на Международной математической олимпиаде

Системы искусственного интеллекта AlphaProof и AlphaGeometry 2, разработанные компанией DeepMind, справились с четырьмя из шести задач Международной математической олимпиады (IMO) этого года. Это уже уровень серебряной медали! 🥈

Что такое IMO? 🏆
Для тех, кто не знает, IMO — это старейшее и наиболее престижное математическое соревнование для студентов старших классов. Здесь представлены чрезвычайно сложные задачи, которые ставят в тупик даже профессиональных математиков!

Как ИИ справился с этой задачей? 🧠💻

DeepMind разработали несколько систем. Часть задач решил AlphaProof, а часть AlphaGeometry2

* AlphaProof:
От неформального к формальному: AlphaProof начинает с преобразования около 1 миллиона неформальных математических задач в формальный математический язык.

Генерация задач: В процессе формализации 1 миллион задач превращается примерно в 100 миллионов формальных задач (что возможно благодаря созданию бесконечного количества вариаций).

Сеть решателей: Здесь происходит магия. Сеть решателей, работающая на основе алгоритма AlphaZero (да-да, того самого, который завоевал шахматный мир!), решает формальные задачи, ищет доказательства или опровержения.

Цикл обучения: Когда решатель находит доказательство, он обучается на этом опыте, а новые знания помогают ему справляться с еще более сложными задачами.

* AlphaGeometry 2: Использует аналогичный подход, но специализируется на геометрических задачах. Эта система может визуализировать и манипулировать геометрическими концепциями, что делает её исключительно эффективной в решении сложных геометрических задач.

Что дальше? 🚀
DeepMind не собирается останавливаться на достигнутом. Теперь они работают над созданием ИИ, который сможет понимать и решать математические задачи на обычном, человеческом языке.

Блог-пост

🔥23👍5❤1

5.73K viewsArtemii, edited 18:34

AI для Всех

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

📢 Тихая ИИ революция в прогнозировании погоды: NeuralGCM

Прогнозирование погоды всегда представляло собой непростую задачу. Последние годы, для решения этой задачи все чаще предлагаются нейронные сети. Исследователи из Гугла, делают следующий шаг в моделировании климата и представляют NeuralGCM — инновационную систему на основе искусственного интеллекта и физического моделирования.

Вот как она устроена:

🌐 Гибридный подход:
NeuralGCM состоит из двух ключевых компонентов:
1. "Динамическое ядро", основанное на физических законах, моделирующее крупномасштабные атмосферные движения.
2. Нейронные сети, моделирующие мелкомасштабные процессы, такие как образование облаков.

🧠 Принцип работы:
1. Модель делит атмосферу Земли на трёхмерную сетку.
2. Для каждой ячейки этой сетки нейронные сети анализируют:
- Температуру,
- Давление,
- Влажность,
- Данные о ветре.
3. Эти сети предсказывают изменения условий в краткосрочной перспективе.
4. Физическая модель использует эти предсказания для обновления глобального состояния погоды.
5. Этот процесс повторяется, создавая прогнозы на дни вперед.

🔬 Секрет успеха: дифференцируемый дизайн
- Вся система разработана так, чтобы быть дифференцируемой.
- Это позволяет оптимизировать её с помощью методов машинного обучения.
- В результате ИИ учится взаимодействовать с предсказаниями физической модели.

🏋️ Процесс обучения:
- Использованы 40 лет исторических данных о погоде.
- Начинали с предсказаний на 6 часов, постепенно увеличивая период до 5 дней.
- Такой подход помогает модели понимать долгосрочные эффекты своих предсказаний.

🏆 Впечатляющие результаты:
- Соответствует точности традиционных методов.
- Работает значительно быстрее (до 1000 раз в некоторых сравнениях).
- Способна моделировать климатические паттерны на десятилетия вперёд (ну это еще надо валидировать).

💡 Почему это важно:
1. Возможность более точного и эффективного прогнозирования погоды.
2. Помощь в лучшем понимании изменения климата.
3. Демонстрация того, как ИИ может не только заменить, но и улучшить традиционные научные методы.

Этот гибридный подход к моделированию погоды показывает, как глубокие научные знания могут сочетаться с передовыми технологиями ИИ. Это важный шаг вперёд, который может изменить не только метеорологию, но и многие другие области, зависящие от сложных симуляций.

⛈️ Статья

❤36🔥15👍6

5.42K viewsArtemii, edited 16:08

Meta представляет SAM 2: Новый уровень в сегментации объектов на изображениях и видео

Компания Meta анонсировала запуск SAM 2, обновлённой версии своей модели Segment Anything (SAM). Эта новинка теперь поддерживает сегментацию объектов как на статичных изображениях, так и в видео.

Специально для вас, сделал нейродубляж их анонса, так что смотрите со звуком 🔊

SAM-2 обуспечивает высокое качество сегментации в режиме реального времени.

Ключевые особенности и инновации

1. Универсальная сегментация:
SAM 2 способен сегментировать объекты как в изображениях, так и в видео, включая те, которые не были заранее известны модели. Это позволяет работать с ранее невиданными визуальными данными без дополнительного обучения.

2. Производительность в реальном времени:
Модель обрабатывает видео со скоростью около 44 кадров в секунду и выполняет аннотацию в 8,4 раза быстрее по сравнению с предыдущей версией SAM.

3. Новые механизмы памяти:
SAM 2 включает продвинутую систему памяти для управления информацией о кадрах видео. Система состоит из кодировщика памяти, банка памяти и модуля внимания, что обеспечивает точность сегментации объектов на протяжении всего видео.

4. Сегментация по промпту:
Модель расширяет задачи сегментации изображений на формат видео. Пользователи могут задавать точки, боксы или маски в любом кадре видео для определения целевого объекта. SAM 2 создаёт пространственно-временную маску, или "маскет", для отслеживания объекта на протяжении всего видео.

5. Обработка окклюзий:
В SAM 2 добавлена специальная "голова окклюзии", которая помогает модели определять, когда объект скрыт из-за окклюзии или других факторов, улучшая сегментацию даже в случае временного исчезновения объекта.

Методология

Архитектура SAM 2 построена на базе SAM, но с добавлением функций для работы с видео данными. Модель рассматривает изображения как одноименные видео и обрабатывает кадры последовательно. Такой подход позволяет SAM 2 достигать точной сегментации, используя память о предыдущих кадрах и взаимодействиях.

📚 Статья
🙈 Демо
👌 Блог-пост

🔥39❤7👍6🤩1

5.53K viewsArtemii, edited 00:12

Синтетическая реальность. Громкое обновление в проекте GR00T: метод аугментации данных для обучения роботов

Огромные корпусы данных позволили создать очень смышлёные LLM. Время сделать то же в робототехнике. Инженеры NVIDIA разработали решение, позволяющую в тысячу раз умножать собранные человеком-специалистом тренировочные данные для обучения роботов.
Речь идет о многообещающем проекте GR00T (да, как Грут из вселенной Марвел) и методике масштабирования обучающих данных, применяемых в робототехнике.

Как это работает:
1. Сбор реальных данных в Apple Vision Pro
NVIDIA применяет виар очки, чтобы предоставить оператору возможность полного погружения в тело робота. Vision Pro анализирует позы рук человека и перенаправляет эти движения на робота в реальном времени. С точки зрения оператора, он буквально становится роботом-аватаром, реально как в фильме "Аватар". Хотя сбор данных таким образом медленный и трудоемкий, этого вполне достаточно для создания начальной базы.
2. Генеративная симуляция в RoboCasa
Фреймворк, созданный Yuke Zhu берет небольшое количество собранных данных и умножает их, изменяя визуальный облик и планировку окружающей среды. На видео показано, как робот ставит чашку в сотнях различных кухонь с разнообразными текстурами, мебелью и расположением предметов. У компании есть только одна физическая кухня в лаборатории GEAR в NVIDIA HQ, но в симуляциях их может быть бесконечное количество.
3. Вариативность движений с помощью MimicGen
MimicGen позволяет ещё больше увеличить количество данных, варьируя движения робота. Этот метод генерирует множество новых траекторий действий на основе оригинальных данных человека и отбраковывает неудачные попытки, например, те, где чашка падает.

Take-away формула: человеческий сэмпл с использованием Vision Pro -> RoboCasa создает N визуальных вариаций -> MimicGen умножает это количество до NxM.

NVIDIA придумала способ конвертировать вычислительные ресурсы в дорогостоящие данные, собранные человеком, благодаря качественной симуляции. Данные от первого лица больше не являются ограничением из-за 24 часов/день/робот в физическом мире. Теперь ограничения только цифровые, и это очень sci-fi футуристично.

Набор для создания своей синтетической реальности (понадобится робот и много GPU):
• RoboCasa: открытый код RoboCasa
• MimicGen: открытый код для роботизированных рук, и скоро обещают версию для гуманоидов и пяти-палых рук MimicGen
• Apple Vision Pro -> гуманоидный робот "Аватар": в открытом доступе Xiaolong Wang libraries
• вдохновляющая презентация: Jensen's keynote

И бонус: лаборатория GEAR набирает лучших робототехников мира для сопоставимого по масштабам с "лунным" проекта по достижению физического AGI. Как апликнуться к ним - в посте Jim Fan (LinkedIn): GEAR lab hiring

🔥21❤6👍3

5.51K viewsGinger Spacetail, edited 04:06

AI для Всех

Замечена реклама Claude в аэропорту Сан-Франциско

❤28👍5

5.57K viewsArtemii, 17:41

AI для Всех

Apple идёт в Open-Source!

Apple выпустила и полностью открыла DCLM, 7B LLM, включая веса, код обучения и датасет.

DCLM превосходит Mistral/Qwen2/Gemma по разным бенчмаркам. Основные данные на английском языке, окно контекста 2048, лицензия Apple Sample Code License.

Модель обучена на 2.5 трлн токенов с использованием DataComp-LM (DCLM) и данных из Common Crawl. DCLM - тестовая платформа для контролируемых экспериментов с данными

AI Стратегия Apple кардинально изменилась в сторону Open-Source, что может означать большие планы для AI на их устройствах.

🤗

HuggingFace

Please open Telegram to view this post

VIEW IN TELEGRAM

❤40👍7😢2😁1

6.62K viewsKirill, 06:33

AI для Всех

RLHF: не совсем то, чем кажется

Привет, друзья! Сегодня поговорим о RLHF (обучение с подкреплением на основе обратной связи от людей). Это важный этап в создании языковых моделей, но давайте разберемся, почему он не так крут, как кажется на первый взгляд.

🎮 Представьте, что мы учим ИИ играть в шахматы или Go. Настоящее обучение с подкреплением (RL) - это когда ИИ играет тысячи партий сам с собой и учится выигрывать. А RLHF? Это как если бы мы показывали 2 доски с ходами ИИ и спрашивали людей: "Какая из этих позиций вам нравится больше?".

📊 В RLHF мы создаем "модель наград" на основе человеческих оценок. ИИ потом пытается "понравиться" этой модели. Но это не то же самое, что научиться реально побеждать!

🤔 Почему же RLHF все-таки работает для языковых моделей?
1. Людям проще выбрать лучший ответ из нескольких, чем самим написать идеальный.
2. RLHf помогает уменьшить "галлюцинации" ИИ.

🚀 Но представьте, если бы мы могли применить настоящее RL к языковым моделям! Это был бы огромный прорыв. Пока что это сложно, потому что трудно определить четкие "правила игры" и "победу" для разговора или написания текста.

💡 Итог: RLHF - полезный инструмент, но это не то волшебное RL, которое привело к победе AlphaGo над чемпионами мира. Будущее за тем, кто сможет применить настоящее RL к языковым моделям!

Пост Андрея

🔥25❤7👍4😐3

5.03K viewsArtemii, 20:21

AI для Всех

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

Визуальные Эмбеддинги от Nomic: SOTA в мультимодальном поиске

Команда Nomic дерзнула и поместила публичную коллекцию Метрополитен-музея искусства в латентное пространство, внедрив 250 000 произведений в свою новейшую модель эмбеддингов. Это впечатлило MET, и они зарегистрировались на Hugging Face. Трогательно, когда самый популярный музей США таким твистом вкатывается в ИТ.

А нам теперь можно искать произведения искусства, вводя запросы типа "картина маслом с цветами и собаками" — это первый в своем роде семантический поиск предметов искусства 🖼️

🔎

Что под капотом:
Vision Encoder: 92M параметров.
Text Encoder: 137M параметров.
Натренированы на 1.5 млрд пар "изображение-текст" (DFN-2B).
Vision Encoder инициализирован с Eva02 MIM ViT B/16, Text Encoder — с Nomic Embed Text.

Обучали 3 полных эпохи на 16 H100 GPUs, размер батча — 65,536.
Contrastive Learning: обучение с использованием image-text pairs.
Locked Text Image Tuning (LiT): замороженный текстовый энкодер.

В результате получили SOTA модель, обошедшую OpenAI CLIP
Imagenet 0-shot: 71.0 (v1.5)
Datacomp Avg.: 56.8 (v1.5)
MTEB Avg.: 62.28 (v1.5)

Если хотите свое унифицированное латентное пространство для мультимодальных задач и семантический поиск по изображениям и текстам одновременно, модель доступна под лицензией CC-BY-NC-4.0

✨MET map

📃

Пост

🌐

Repo
🤗v1.5

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥35❤13👍1

9.79K viewsGinger Spacetail, 04:21

AI для Всех

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

AGI для настольного тенниса

Google DeepMind разработали робота, который может играть в настольный теннис на высоком уровне, бросая вызов опытным игрокам.

Эти роботы используют:

- Компьютерное зрение для отслеживания мяча и движений противника

- Роботизированные руки/суставы для быстрых и точных ударов

- ИИ для предугадывания движений противника и разработки стратегии

Хотя это в первую очередь исследовательский проект, возможно в недалеком будущем матчи человек-робот могут стать реальностью.

Сыграли бы вы в настольный теннис с роботом? 🏓🤖

💻 Блог

👍37🤯8🔥6🤩2😐2

29.2K viewsKirill, 17:47

AI для Всех

YouTube

Transformers Explained Visually: Learn How LLM Transformer Models Work

Transformer Explainer is an interactive visualization tool designed to help anyone learn how Transformer-based deep learning AI models like GPT work. It runs a live GPT-2 model right in your browser, allowing you to experiment with your own text and observe…

🚀 Друзья, мы нашли крутую визуализацию для понимания архитектуры Transformer!

🧠 Transformer - это основа современных языковых моделей, таких как GPT и BERT.

🔍 "Transformer Explainer" позволяет заглянуть внутрь этой технологии:

- Embedding: преобразование текста в числа
- Self-Attention: внимание на важные части данных
- Feed-Forward Networks: обработка информации

🎮 Интерактивные возможности:
- Ввод собственного текста
- Наблюдение за работой внимания
- Эксперименты с температурой генерации

🔗 Потрогать трансформер
📽️ Посмотреть видео

Отличный инструмент для всех, кто интересуется ИИ!

🔥31👍4❤3

8.99K viewsArtemii, edited 14:57

About

Blog

Apps

Platform