Форум: расскажите мне пожалуйста все что нужно знать про State Space Models?
Особенно интересует применение к аудио. Например, видел AudioMamba, но они зачем то из аудио наделали спектрограм, которые почанкали. Насколько я понимаю, там весь смысл в том что мамба должна из коробки с последовательностями дружить.
Короче, все что нужно знать (не обязательно только про аудио), пожалуйста делитесь в комменты
Особенно интересует применение к аудио. Например, видел AudioMamba, но они зачем то из аудио наделали спектрограм, которые почанкали. Насколько я понимаю, там весь смысл в том что мамба должна из коробки с последовательностями дружить.
Короче, все что нужно знать (не обязательно только про аудио), пожалуйста делитесь в комменты
❤9👍3🤩3
Исследовательское партнерство OpenAI и Los Alamos National Laboratory
OpenAI и Национальная Лаборатория Лос-Аламос (LANL) объединились для оценки возможностей ИИ в бионауках. Это партнерство изучает, как мульти-модальные модели ИИ могут поддерживать научные эксперименты, объединяя зрительные и голосовые возможности для улучшения лабораторных работ. Исследования включают безопасность использования моделей GPT-4о в лабораторных условиях. Уже было исследование про GPT4, и теперь надо понять, насколько безопасны аудио-визуальные способности модели.
Проект оценивает, как ИИ может помочь выполнять стандартные лабораторные задачи, такие как культивирование клеток и подготовки образцов для масс-спектрометрии, напр. Цель - повысить эффективность работы ученых, как опытных исследователей, так и PhD студентов. Модели ИИ будут анализировать визуальные и голосовые данные, помогая ученым в реальном времени. Например, ИИ ассистент может распознавать визуальные аномалии в процессе культивирования клеток и предупреждать исследователей о необходимости вмешательства, обеспечивая более точный и воспроизводимый процесс.
Дело полезное, т.к. ИИ для биологических исследований должен быть безопасным и продуктивным, а результаты этих оценок помогут установить новые стандарты безопасности и эффективности ИИ в науке.
Анонс
OpenAI и Национальная Лаборатория Лос-Аламос (LANL) объединились для оценки возможностей ИИ в бионауках. Это партнерство изучает, как мульти-модальные модели ИИ могут поддерживать научные эксперименты, объединяя зрительные и голосовые возможности для улучшения лабораторных работ. Исследования включают безопасность использования моделей GPT-4о в лабораторных условиях. Уже было исследование про GPT4, и теперь надо понять, насколько безопасны аудио-визуальные способности модели.
Проект оценивает, как ИИ может помочь выполнять стандартные лабораторные задачи, такие как культивирование клеток и подготовки образцов для масс-спектрометрии, напр. Цель - повысить эффективность работы ученых, как опытных исследователей, так и PhD студентов. Модели ИИ будут анализировать визуальные и голосовые данные, помогая ученым в реальном времени. Например, ИИ ассистент может распознавать визуальные аномалии в процессе культивирования клеток и предупреждать исследователей о необходимости вмешательства, обеспечивая более точный и воспроизводимый процесс.
Дело полезное, т.к. ИИ для биологических исследований должен быть безопасным и продуктивным, а результаты этих оценок помогут установить новые стандарты безопасности и эффективности ИИ в науке.
Анонс
❤12👍6🔥2😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Уже представляете себе тик токи с путешествиями Барсика?
😁51🤩13😱2😐1
Сегодня хочу обратить ваше внимание на пост из канала Машин Лернинг. Автор(ка) делится инсайтами из лекции Яна ЛеКуна, одного из пионеров глубокого обучения и лауреата премии Тьюринга.
В посте затрагиваются действительно важные темы:
- Почему нам необходимы мультимодальные нейросети
- Ограничения современных языковых моделей
- Будущее AGI
- А также немного философии о том, что действительно важно в научной карьере
Особенно интересны расчёты, показывающие, насколько человеческий опыт богаче, чем данные, на которых обучаются современные ИИ-модели.
Рекомендую прочитать этот пост всем, кто интересуется будущим ИИ и хочет понять, какие вызовы стоят перед исследователями в этой области.
А если интересно почитать что думают другие авторы каналов - то вот вам
ИИ папка 📂
В посте затрагиваются действительно важные темы:
- Почему нам необходимы мультимодальные нейросети
- Ограничения современных языковых моделей
- Будущее AGI
- А также немного философии о том, что действительно важно в научной карьере
Особенно интересны расчёты, показывающие, насколько человеческий опыт богаче, чем данные, на которых обучаются современные ИИ-модели.
Рекомендую прочитать этот пост всем, кто интересуется будущим ИИ и хочет понять, какие вызовы стоят перед исследователями в этой области.
А если интересно почитать что думают другие авторы каналов - то вот вам
ИИ папка 📂
🔥10😁6👍5❤3😢3🤯1😱1
MathΣtral - калькулятор на стероидах
В честь 2311-летия Архимеда Mistral выпустили модель MathΣtral, и она уже доступна для использования под лицензией Apache 2.0
MathΣtral основана на модели Mistral 7B и специализируется на предметах STEM (наука, технологии, инженерия, математика).
Она имеет контекстное окно в 32k и демонстрирует выдающиеся способности в логическом мышлении, особенно в решении сложных математических задач.
Модель достигает 56,6% на MATH и 63,47% на MMLU. Особенно впечатляют результаты с majority voting — 68,37% (ответ выбирается на основе большинства предложенных решений) и 74,59% если ответ выбирает strong reward model из 64 предложений, сгенерированных Mathstral 7B.
MathΣtral была создана в рамках сотрудничества с тем самым проектом Numina, и её выпуск - часть усилий Mistral AI по поддержке академических инициатив.
По идее создателей MathΣtral должна стать помощником для студентов и исследователей в решении задач, требующих высокого уровня математических рассуждений.
Забавно, что в бухгалтерии модель не сильна.
🤗 Веса на HF
🖤 Потрогать
⭐️ Файнтьюнить (LoRa-based, рекомендуют A100 or H100 GPU)
В честь 2311-летия Архимеда Mistral выпустили модель MathΣtral, и она уже доступна для использования под лицензией Apache 2.0
MathΣtral основана на модели Mistral 7B и специализируется на предметах STEM (наука, технологии, инженерия, математика).
Она имеет контекстное окно в 32k и демонстрирует выдающиеся способности в логическом мышлении, особенно в решении сложных математических задач.
Модель достигает 56,6% на MATH и 63,47% на MMLU. Особенно впечатляют результаты с majority voting — 68,37% (ответ выбирается на основе большинства предложенных решений) и 74,59% если ответ выбирает strong reward model из 64 предложений, сгенерированных Mathstral 7B.
MathΣtral была создана в рамках сотрудничества с тем самым проектом Numina, и её выпуск - часть усилий Mistral AI по поддержке академических инициатив.
По идее создателей MathΣtral должна стать помощником для студентов и исследователей в решении задач, требующих высокого уровня математических рассуждений.
Забавно, что в бухгалтерии модель не сильна.
🤗 Веса на HF
⭐️ Файнтьюнить (LoRa-based, рекомендуют A100 or H100 GPU)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16😁8👍4❤2
📢 OpenAI представляет GPT-4o mini! 🚀
Друзья, мы стоим на пороге новой эры в развитии искусственного интеллекта! OpenAI только что анонсировала GPT-4o mini – свою самую экономичную маленькую модель, которая обещает перевернуть наше представление о доступности передовых ИИ-технологий.
До сих пор высокая стоимость использования мощных языковых моделей была серьезным барьером для их широкого применения. Но GPT-4o mini меняет правила игры. Представьте себе: всего 15 центов за миллион входных токенов – это на 60% дешевле, чем GPT-3.5 Turbo!
Может ли "малая" модель конкурировать с более крупными собратьями? Результаты тестирования и отзывы первых пользователей говорят, что очень даже может! GPT-4o mini не просто конкурирует – она превосходит GPT-3.5 Turbo по многим параметрам!
Разработчики уже начинают интегрировать GPT-4o mini в свои приложения, и вот что их ждет:
* Поддержка мультимодального ввода (текст + изображения)
* Впечатляющее контекстное окно в 128K токенов
* 82% точности на MMLU (тест на рассуждение и интеллект)
Главный вопрос теперь: сможет ли GPT-4o mini действительно демократизировать ИИ? Я думаю, что да. Эта модель открывает двери для нового поколения ИИ-приложений, делая передовые технологии доступными как для разработчиков, так и для конечных пользователей.
По ценам: разработчики платят 15 центов за 1 млн входных токенов и 60 центов за 1 млн выходных токенов (примерно эквивалент 2500 страниц в стандартной книге).
GPT-4o mini – это не просто новая модель. Это шаг к будущему, где мощный ИИ доступен каждому. Это баланс между доступностью и производительностью, о котором мы так долго мечтали.
Новость
Друзья, мы стоим на пороге новой эры в развитии искусственного интеллекта! OpenAI только что анонсировала GPT-4o mini – свою самую экономичную маленькую модель, которая обещает перевернуть наше представление о доступности передовых ИИ-технологий.
До сих пор высокая стоимость использования мощных языковых моделей была серьезным барьером для их широкого применения. Но GPT-4o mini меняет правила игры. Представьте себе: всего 15 центов за миллион входных токенов – это на 60% дешевле, чем GPT-3.5 Turbo!
Может ли "малая" модель конкурировать с более крупными собратьями? Результаты тестирования и отзывы первых пользователей говорят, что очень даже может! GPT-4o mini не просто конкурирует – она превосходит GPT-3.5 Turbo по многим параметрам!
Разработчики уже начинают интегрировать GPT-4o mini в свои приложения, и вот что их ждет:
* Поддержка мультимодального ввода (текст + изображения)
* Впечатляющее контекстное окно в 128K токенов
* 82% точности на MMLU (тест на рассуждение и интеллект)
Главный вопрос теперь: сможет ли GPT-4o mini действительно демократизировать ИИ? Я думаю, что да. Эта модель открывает двери для нового поколения ИИ-приложений, делая передовые технологии доступными как для разработчиков, так и для конечных пользователей.
По ценам: разработчики платят 15 центов за 1 млн входных токенов и 60 центов за 1 млн выходных токенов (примерно эквивалент 2500 страниц в стандартной книге).
GPT-4o mini – это не просто новая модель. Это шаг к будущему, где мощный ИИ доступен каждому. Это баланс между доступностью и производительностью, о котором мы так долго мечтали.
Новость
🔥31❤8😁3😢2😐2🤯1
Слили бенчмарки для Llama 3.1 405B
Похоже, что это новая партия моделей Llama 3.
Llama 3.1 8B выглядит очень достойно, а 70B даже достигает уровня производительности GPT-4o.
Модель 405B обеспечивает немного лучшую производительность, но не выглядит новаторской.
Ждём скорого подтверждения или облома
👨💻 Рэддит
Похоже, что это новая партия моделей Llama 3.
Llama 3.1 8B выглядит очень достойно, а 70B даже достигает уровня производительности GPT-4o.
Модель 405B обеспечивает немного лучшую производительность, но не выглядит новаторской.
Ждём скорого подтверждения или облома
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍3❤2
AI для Всех
Слили бенчмарки для Llama 3.1 405B Похоже, что это новая партия моделей Llama 3. Llama 3.1 8B выглядит очень достойно, а 70B даже достигает уровня производительности GPT-4o. Модель 405B обеспечивает немного лучшую производительность, но не выглядит новаторской.…
Industry Leading, Open-Source AI | Llama by Meta
Discover Llama 4's class-leading AI models, Scout and Maverick. Experience top performance, multimodality, low costs, and unparalleled efficiency.
🔥15👍4😱3😢3🤩2
Китайский генератор нейро видео теперь доступен для всех
Клинг, с помощью которого уже сгенерировали столько восхитительного нейротреша, теперь доступен для всех. Можно даже ожидать что с российскими номерами заведется.
Творить тут
Клинг, с помощью которого уже сгенерировали столько восхитительного нейротреша, теперь доступен для всех. Можно даже ожидать что с российскими номерами заведется.
Творить тут
🔥10❤2🎉1
ИИ почти победил на Международной математической олимпиаде
Системы искусственного интеллекта AlphaProof и AlphaGeometry 2, разработанные компанией DeepMind, справились с четырьмя из шести задач Международной математической олимпиады (IMO) этого года. Это уже уровень серебряной медали! 🥈
Что такое IMO? 🏆
Для тех, кто не знает, IMO — это старейшее и наиболее престижное математическое соревнование для студентов старших классов. Здесь представлены чрезвычайно сложные задачи, которые ставят в тупик даже профессиональных математиков!
Как ИИ справился с этой задачей? 🧠💻
DeepMind разработали несколько систем. Часть задач решил AlphaProof, а часть AlphaGeometry2
* AlphaProof:
От неформального к формальному: AlphaProof начинает с преобразования около 1 миллиона неформальных математических задач в формальный математический язык.
Генерация задач: В процессе формализации 1 миллион задач превращается примерно в 100 миллионов формальных задач (что возможно благодаря созданию бесконечного количества вариаций).
Сеть решателей: Здесь происходит магия. Сеть решателей, работающая на основе алгоритма AlphaZero (да-да, того самого, который завоевал шахматный мир!), решает формальные задачи, ищет доказательства или опровержения.
Цикл обучения: Когда решатель находит доказательство, он обучается на этом опыте, а новые знания помогают ему справляться с еще более сложными задачами.
* AlphaGeometry 2: Использует аналогичный подход, но специализируется на геометрических задачах. Эта система может визуализировать и манипулировать геометрическими концепциями, что делает её исключительно эффективной в решении сложных геометрических задач.
Что дальше? 🚀
DeepMind не собирается останавливаться на достигнутом. Теперь они работают над созданием ИИ, который сможет понимать и решать математические задачи на обычном, человеческом языке.
Блог-пост
Системы искусственного интеллекта AlphaProof и AlphaGeometry 2, разработанные компанией DeepMind, справились с четырьмя из шести задач Международной математической олимпиады (IMO) этого года. Это уже уровень серебряной медали! 🥈
Что такое IMO? 🏆
Для тех, кто не знает, IMO — это старейшее и наиболее престижное математическое соревнование для студентов старших классов. Здесь представлены чрезвычайно сложные задачи, которые ставят в тупик даже профессиональных математиков!
Как ИИ справился с этой задачей? 🧠💻
DeepMind разработали несколько систем. Часть задач решил AlphaProof, а часть AlphaGeometry2
* AlphaProof:
От неформального к формальному: AlphaProof начинает с преобразования около 1 миллиона неформальных математических задач в формальный математический язык.
Генерация задач: В процессе формализации 1 миллион задач превращается примерно в 100 миллионов формальных задач (что возможно благодаря созданию бесконечного количества вариаций).
Сеть решателей: Здесь происходит магия. Сеть решателей, работающая на основе алгоритма AlphaZero (да-да, того самого, который завоевал шахматный мир!), решает формальные задачи, ищет доказательства или опровержения.
Цикл обучения: Когда решатель находит доказательство, он обучается на этом опыте, а новые знания помогают ему справляться с еще более сложными задачами.
* AlphaGeometry 2: Использует аналогичный подход, но специализируется на геометрических задачах. Эта система может визуализировать и манипулировать геометрическими концепциями, что делает её исключительно эффективной в решении сложных геометрических задач.
Что дальше? 🚀
DeepMind не собирается останавливаться на достигнутом. Теперь они работают над созданием ИИ, который сможет понимать и решать математические задачи на обычном, человеческом языке.
Блог-пост
🔥23👍5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
📢 Тихая ИИ революция в прогнозировании погоды: NeuralGCM
Прогнозирование погоды всегда представляло собой непростую задачу. Последние годы, для решения этой задачи все чаще предлагаются нейронные сети. Исследователи из Гугла, делают следующий шаг в моделировании климата и представляют NeuralGCM — инновационную систему на основе искусственного интеллекта и физического моделирования.
Вот как она устроена:
🌐 Гибридный подход:
NeuralGCM состоит из двух ключевых компонентов:
1. "Динамическое ядро", основанное на физических законах, моделирующее крупномасштабные атмосферные движения.
2. Нейронные сети, моделирующие мелкомасштабные процессы, такие как образование облаков.
🧠 Принцип работы:
1. Модель делит атмосферу Земли на трёхмерную сетку.
2. Для каждой ячейки этой сетки нейронные сети анализируют:
- Температуру,
- Давление,
- Влажность,
- Данные о ветре.
3. Эти сети предсказывают изменения условий в краткосрочной перспективе.
4. Физическая модель использует эти предсказания для обновления глобального состояния погоды.
5. Этот процесс повторяется, создавая прогнозы на дни вперед.
🔬 Секрет успеха: дифференцируемый дизайн
- Вся система разработана так, чтобы быть дифференцируемой.
- Это позволяет оптимизировать её с помощью методов машинного обучения.
- В результате ИИ учится взаимодействовать с предсказаниями физической модели.
🏋️ Процесс обучения:
- Использованы 40 лет исторических данных о погоде.
- Начинали с предсказаний на 6 часов, постепенно увеличивая период до 5 дней.
- Такой подход помогает модели понимать долгосрочные эффекты своих предсказаний.
🏆 Впечатляющие результаты:
- Соответствует точности традиционных методов.
- Работает значительно быстрее (до 1000 раз в некоторых сравнениях).
- Способна моделировать климатические паттерны на десятилетия вперёд (ну это еще надо валидировать).
💡 Почему это важно:
1. Возможность более точного и эффективного прогнозирования погоды.
2. Помощь в лучшем понимании изменения климата.
3. Демонстрация того, как ИИ может не только заменить, но и улучшить традиционные научные методы.
Этот гибридный подход к моделированию погоды показывает, как глубокие научные знания могут сочетаться с передовыми технологиями ИИ. Это важный шаг вперёд, который может изменить не только метеорологию, но и многие другие области, зависящие от сложных симуляций.
⛈️ Статья
Прогнозирование погоды всегда представляло собой непростую задачу. Последние годы, для решения этой задачи все чаще предлагаются нейронные сети. Исследователи из Гугла, делают следующий шаг в моделировании климата и представляют NeuralGCM — инновационную систему на основе искусственного интеллекта и физического моделирования.
Вот как она устроена:
🌐 Гибридный подход:
NeuralGCM состоит из двух ключевых компонентов:
1. "Динамическое ядро", основанное на физических законах, моделирующее крупномасштабные атмосферные движения.
2. Нейронные сети, моделирующие мелкомасштабные процессы, такие как образование облаков.
🧠 Принцип работы:
1. Модель делит атмосферу Земли на трёхмерную сетку.
2. Для каждой ячейки этой сетки нейронные сети анализируют:
- Температуру,
- Давление,
- Влажность,
- Данные о ветре.
3. Эти сети предсказывают изменения условий в краткосрочной перспективе.
4. Физическая модель использует эти предсказания для обновления глобального состояния погоды.
5. Этот процесс повторяется, создавая прогнозы на дни вперед.
🔬 Секрет успеха: дифференцируемый дизайн
- Вся система разработана так, чтобы быть дифференцируемой.
- Это позволяет оптимизировать её с помощью методов машинного обучения.
- В результате ИИ учится взаимодействовать с предсказаниями физической модели.
🏋️ Процесс обучения:
- Использованы 40 лет исторических данных о погоде.
- Начинали с предсказаний на 6 часов, постепенно увеличивая период до 5 дней.
- Такой подход помогает модели понимать долгосрочные эффекты своих предсказаний.
🏆 Впечатляющие результаты:
- Соответствует точности традиционных методов.
- Работает значительно быстрее (до 1000 раз в некоторых сравнениях).
- Способна моделировать климатические паттерны на десятилетия вперёд (ну это еще надо валидировать).
💡 Почему это важно:
1. Возможность более точного и эффективного прогнозирования погоды.
2. Помощь в лучшем понимании изменения климата.
3. Демонстрация того, как ИИ может не только заменить, но и улучшить традиционные научные методы.
Этот гибридный подход к моделированию погоды показывает, как глубокие научные знания могут сочетаться с передовыми технологиями ИИ. Это важный шаг вперёд, который может изменить не только метеорологию, но и многие другие области, зависящие от сложных симуляций.
⛈️ Статья
❤36🔥15👍6
Media is too big
VIEW IN TELEGRAM
Meta представляет SAM 2: Новый уровень в сегментации объектов на изображениях и видео
Компания Meta анонсировала запуск SAM 2, обновлённой версии своей модели Segment Anything (SAM). Эта новинка теперь поддерживает сегментацию объектов как на статичных изображениях, так и в видео.
Специально для вас, сделал нейродубляж их анонса, так что смотрите со звуком 🔊
SAM-2 обуспечивает высокое качество сегментации в режиме реального времени.
Ключевые особенности и инновации
1. Универсальная сегментация:
SAM 2 способен сегментировать объекты как в изображениях, так и в видео, включая те, которые не были заранее известны модели. Это позволяет работать с ранее невиданными визуальными данными без дополнительного обучения.
2. Производительность в реальном времени:
Модель обрабатывает видео со скоростью около 44 кадров в секунду и выполняет аннотацию в 8,4 раза быстрее по сравнению с предыдущей версией SAM.
3. Новые механизмы памяти:
SAM 2 включает продвинутую систему памяти для управления информацией о кадрах видео. Система состоит из кодировщика памяти, банка памяти и модуля внимания, что обеспечивает точность сегментации объектов на протяжении всего видео.
4. Сегментация по промпту:
Модель расширяет задачи сегментации изображений на формат видео. Пользователи могут задавать точки, боксы или маски в любом кадре видео для определения целевого объекта. SAM 2 создаёт пространственно-временную маску, или "маскет", для отслеживания объекта на протяжении всего видео.
5. Обработка окклюзий:
В SAM 2 добавлена специальная "голова окклюзии", которая помогает модели определять, когда объект скрыт из-за окклюзии или других факторов, улучшая сегментацию даже в случае временного исчезновения объекта.
Методология
Архитектура SAM 2 построена на базе SAM, но с добавлением функций для работы с видео данными. Модель рассматривает изображения как одноименные видео и обрабатывает кадры последовательно. Такой подход позволяет SAM 2 достигать точной сегментации, используя память о предыдущих кадрах и взаимодействиях.
📚 Статья
🙈 Демо
👌 Блог-пост
Компания Meta анонсировала запуск SAM 2, обновлённой версии своей модели Segment Anything (SAM). Эта новинка теперь поддерживает сегментацию объектов как на статичных изображениях, так и в видео.
Специально для вас, сделал нейродубляж их анонса, так что смотрите со звуком 🔊
SAM-2 обуспечивает высокое качество сегментации в режиме реального времени.
Ключевые особенности и инновации
1. Универсальная сегментация:
SAM 2 способен сегментировать объекты как в изображениях, так и в видео, включая те, которые не были заранее известны модели. Это позволяет работать с ранее невиданными визуальными данными без дополнительного обучения.
2. Производительность в реальном времени:
Модель обрабатывает видео со скоростью около 44 кадров в секунду и выполняет аннотацию в 8,4 раза быстрее по сравнению с предыдущей версией SAM.
3. Новые механизмы памяти:
SAM 2 включает продвинутую систему памяти для управления информацией о кадрах видео. Система состоит из кодировщика памяти, банка памяти и модуля внимания, что обеспечивает точность сегментации объектов на протяжении всего видео.
4. Сегментация по промпту:
Модель расширяет задачи сегментации изображений на формат видео. Пользователи могут задавать точки, боксы или маски в любом кадре видео для определения целевого объекта. SAM 2 создаёт пространственно-временную маску, или "маскет", для отслеживания объекта на протяжении всего видео.
5. Обработка окклюзий:
В SAM 2 добавлена специальная "голова окклюзии", которая помогает модели определять, когда объект скрыт из-за окклюзии или других факторов, улучшая сегментацию даже в случае временного исчезновения объекта.
Методология
Архитектура SAM 2 построена на базе SAM, но с добавлением функций для работы с видео данными. Модель рассматривает изображения как одноименные видео и обрабатывает кадры последовательно. Такой подход позволяет SAM 2 достигать точной сегментации, используя память о предыдущих кадрах и взаимодействиях.
📚 Статья
🙈 Демо
👌 Блог-пост
🔥39❤7👍6🤩1
Media is too big
VIEW IN TELEGRAM
Синтетическая реальность. Громкое обновление в проекте GR00T: метод аугментации данных для обучения роботов
Огромные корпусы данных позволили создать очень смышлёные LLM. Время сделать то же в робототехнике. Инженеры NVIDIA разработали решение, позволяющую в тысячу раз умножать собранные человеком-специалистом тренировочные данные для обучения роботов.
Речь идет о многообещающем проекте GR00T (да, как Грут из вселенной Марвел) и методике масштабирования обучающих данных, применяемых в робототехнике.
Как это работает:
1. Сбор реальных данных в Apple Vision Pro
NVIDIA применяет виар очки, чтобы предоставить оператору возможность полного погружения в тело робота. Vision Pro анализирует позы рук человека и перенаправляет эти движения на робота в реальном времени. С точки зрения оператора, он буквально становится роботом-аватаром, реально как в фильме "Аватар". Хотя сбор данных таким образом медленный и трудоемкий, этого вполне достаточно для создания начальной базы.
2. Генеративная симуляция в RoboCasa
Фреймворк, созданный Yuke Zhu берет небольшое количество собранных данных и умножает их, изменяя визуальный облик и планировку окружающей среды. На видео показано, как робот ставит чашку в сотнях различных кухонь с разнообразными текстурами, мебелью и расположением предметов. У компании есть только одна физическая кухня в лаборатории GEAR в NVIDIA HQ, но в симуляциях их может быть бесконечное количество.
3. Вариативность движений с помощью MimicGen
MimicGen позволяет ещё больше увеличить количество данных, варьируя движения робота. Этот метод генерирует множество новых траекторий действий на основе оригинальных данных человека и отбраковывает неудачные попытки, например, те, где чашка падает.
Take-away формула: человеческий сэмпл с использованием Vision Pro -> RoboCasa создает N визуальных вариаций -> MimicGen умножает это количество до NxM.
NVIDIA придумала способ конвертировать вычислительные ресурсы в дорогостоящие данные, собранные человеком, благодаря качественной симуляции. Данные от первого лица больше не являются ограничением из-за 24 часов/день/робот в физическом мире. Теперь ограничения только цифровые, и это очень sci-fi футуристично.
Набор для создания своей синтетической реальности (понадобится робот и много GPU ):
• RoboCasa: открытый код RoboCasa
• MimicGen: открытый код для роботизированных рук, и скоро обещают версию для гуманоидов и пяти-палых рук MimicGen
• Apple Vision Pro -> гуманоидный робот "Аватар": в открытом доступе Xiaolong Wang libraries
• вдохновляющая презентация: Jensen's keynote
И бонус: лаборатория GEAR набирает лучших робототехников мира для сопоставимого по масштабам с "лунным" проекта по достижению физического AGI. Как апликнуться к ним - в посте Jim Fan (LinkedIn): GEAR lab hiring
Огромные корпусы данных позволили создать очень смышлёные LLM. Время сделать то же в робототехнике. Инженеры NVIDIA разработали решение, позволяющую в тысячу раз умножать собранные человеком-специалистом тренировочные данные для обучения роботов.
Речь идет о многообещающем проекте GR00T (да, как Грут из вселенной Марвел) и методике масштабирования обучающих данных, применяемых в робототехнике.
Как это работает:
1. Сбор реальных данных в Apple Vision Pro
NVIDIA применяет виар очки, чтобы предоставить оператору возможность полного погружения в тело робота. Vision Pro анализирует позы рук человека и перенаправляет эти движения на робота в реальном времени. С точки зрения оператора, он буквально становится роботом-аватаром, реально как в фильме "Аватар". Хотя сбор данных таким образом медленный и трудоемкий, этого вполне достаточно для создания начальной базы.
2. Генеративная симуляция в RoboCasa
Фреймворк, созданный Yuke Zhu берет небольшое количество собранных данных и умножает их, изменяя визуальный облик и планировку окружающей среды. На видео показано, как робот ставит чашку в сотнях различных кухонь с разнообразными текстурами, мебелью и расположением предметов. У компании есть только одна физическая кухня в лаборатории GEAR в NVIDIA HQ, но в симуляциях их может быть бесконечное количество.
3. Вариативность движений с помощью MimicGen
MimicGen позволяет ещё больше увеличить количество данных, варьируя движения робота. Этот метод генерирует множество новых траекторий действий на основе оригинальных данных человека и отбраковывает неудачные попытки, например, те, где чашка падает.
Take-away формула: человеческий сэмпл с использованием Vision Pro -> RoboCasa создает N визуальных вариаций -> MimicGen умножает это количество до NxM.
NVIDIA придумала способ конвертировать вычислительные ресурсы в дорогостоящие данные, собранные человеком, благодаря качественной симуляции. Данные от первого лица больше не являются ограничением из-за 24 часов/день/робот в физическом мире. Теперь ограничения только цифровые, и это очень sci-fi футуристично.
Набор для создания своей синтетической реальности (
• RoboCasa: открытый код RoboCasa
• MimicGen: открытый код для роботизированных рук, и скоро обещают версию для гуманоидов и пяти-палых рук MimicGen
• Apple Vision Pro -> гуманоидный робот "Аватар": в открытом доступе Xiaolong Wang libraries
• вдохновляющая презентация: Jensen's keynote
И бонус: лаборатория GEAR набирает лучших робототехников мира для сопоставимого по масштабам с "лунным" проекта по достижению физического AGI. Как апликнуться к ним - в посте Jim Fan (LinkedIn): GEAR lab hiring
🔥21❤6👍3
Apple идёт в Open-Source!
Apple выпустила и полностью открыла DCLM, 7B LLM, включая веса, код обучения и датасет.
DCLM превосходит Mistral/Qwen2/Gemma по разным бенчмаркам. Основные данные на английском языке, окно контекста 2048, лицензия Apple Sample Code License.
Модель обучена на 2.5 трлн токенов с использованием DataComp-LM (DCLM) и данных из Common Crawl. DCLM - тестовая платформа для контролируемых экспериментов с данными
AI Стратегия Apple кардинально изменилась в сторону Open-Source, что может означать большие планы для AI на их устройствах.
🤗 HuggingFace
Apple выпустила и полностью открыла DCLM, 7B LLM, включая веса, код обучения и датасет.
DCLM превосходит Mistral/Qwen2/Gemma по разным бенчмаркам. Основные данные на английском языке, окно контекста 2048, лицензия Apple Sample Code License.
Модель обучена на 2.5 трлн токенов с использованием DataComp-LM (DCLM) и данных из Common Crawl. DCLM - тестовая платформа для контролируемых экспериментов с данными
AI Стратегия Apple кардинально изменилась в сторону Open-Source, что может означать большие планы для AI на их устройствах.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤40👍7😢2😁1
Новый трек Sber500 и GigaChat: открыт прием заявок для AI-стартапов 🔥
Акселератор Sber500 вместе с GigaChat запустили отдельный трек для стартаперов, готовых интегрировать AI-сервис GigaChat в свои решения — уже готовые или новые.
Подавай заявку до 10 августа по ссылке. Лучшие кейсы представим на международной конференции AI Journey 2024.
✔️ Кого ждем среди участников:
- команды действующих стартапов стадии MVP и выше,
- впервые для Sber500 — индивидуальных участников с идеей.
✔️ Что ты получишь за 10 недель программы:
- возможность работы с международными менторами и трекерами акселератора Sber500,
- помощь от партнера трека Школы 21 с поиском IT-специалистов для реализации идеи.
Участвуйте в акселераторе, чтобы стать частью классного комьюнити российских фаундеров и создать яркое AI-решение для рынка вместе с GigaChat.
Регистрация по ссылке.
#Реклама ООО "СТАРТЕХ БАЗА" ИНН 5047276050 Erid: 2VtzqvY69to
Акселератор Sber500 вместе с GigaChat запустили отдельный трек для стартаперов, готовых интегрировать AI-сервис GigaChat в свои решения — уже готовые или новые.
Подавай заявку до 10 августа по ссылке. Лучшие кейсы представим на международной конференции AI Journey 2024.
- команды действующих стартапов стадии MVP и выше,
- впервые для Sber500 — индивидуальных участников с идеей.
- возможность работы с международными менторами и трекерами акселератора Sber500,
- помощь от партнера трека Школы 21 с поиском IT-специалистов для реализации идеи.
Участвуйте в акселераторе, чтобы стать частью классного комьюнити российских фаундеров и создать яркое AI-решение для рынка вместе с GigaChat.
Регистрация по ссылке.
#Реклама ООО "СТАРТЕХ БАЗА" ИНН 5047276050 Erid: 2VtzqvY69to
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8👍3🔥2😐2
RLHF: не совсем то, чем кажется
Привет, друзья! Сегодня поговорим о RLHF (обучение с подкреплением на основе обратной связи от людей). Это важный этап в создании языковых моделей, но давайте разберемся, почему он не так крут, как кажется на первый взгляд.
🎮 Представьте, что мы учим ИИ играть в шахматы или Go. Настоящее обучение с подкреплением (RL) - это когда ИИ играет тысячи партий сам с собой и учится выигрывать. А RLHF? Это как если бы мы показывали 2 доски с ходами ИИ и спрашивали людей: "Какая из этих позиций вам нравится больше?".
📊 В RLHF мы создаем "модель наград" на основе человеческих оценок. ИИ потом пытается "понравиться" этой модели. Но это не то же самое, что научиться реально побеждать!
🤔 Почему же RLHF все-таки работает для языковых моделей?
1. Людям проще выбрать лучший ответ из нескольких, чем самим написать идеальный.
2. RLHf помогает уменьшить "галлюцинации" ИИ.
🚀 Но представьте, если бы мы могли применить настоящее RL к языковым моделям! Это был бы огромный прорыв. Пока что это сложно, потому что трудно определить четкие "правила игры" и "победу" для разговора или написания текста.
💡 Итог: RLHF - полезный инструмент, но это не то волшебное RL, которое привело к победе AlphaGo над чемпионами мира. Будущее за тем, кто сможет применить настоящее RL к языковым моделям!
Пост Андрея
Привет, друзья! Сегодня поговорим о RLHF (обучение с подкреплением на основе обратной связи от людей). Это важный этап в создании языковых моделей, но давайте разберемся, почему он не так крут, как кажется на первый взгляд.
🎮 Представьте, что мы учим ИИ играть в шахматы или Go. Настоящее обучение с подкреплением (RL) - это когда ИИ играет тысячи партий сам с собой и учится выигрывать. А RLHF? Это как если бы мы показывали 2 доски с ходами ИИ и спрашивали людей: "Какая из этих позиций вам нравится больше?".
📊 В RLHF мы создаем "модель наград" на основе человеческих оценок. ИИ потом пытается "понравиться" этой модели. Но это не то же самое, что научиться реально побеждать!
🤔 Почему же RLHF все-таки работает для языковых моделей?
1. Людям проще выбрать лучший ответ из нескольких, чем самим написать идеальный.
2. RLHf помогает уменьшить "галлюцинации" ИИ.
🚀 Но представьте, если бы мы могли применить настоящее RL к языковым моделям! Это был бы огромный прорыв. Пока что это сложно, потому что трудно определить четкие "правила игры" и "победу" для разговора или написания текста.
💡 Итог: RLHF - полезный инструмент, но это не то волшебное RL, которое привело к победе AlphaGo над чемпионами мира. Будущее за тем, кто сможет применить настоящее RL к языковым моделям!
Пост Андрея
🔥25❤7👍4😐3
This media is not supported in your browser
VIEW IN TELEGRAM
Визуальные Эмбеддинги от Nomic: SOTA в мультимодальном поиске
Команда Nomic дерзнула и поместила публичную коллекцию Метрополитен-музея искусства в латентное пространство, внедрив 250 000 произведений в свою новейшую модель эмбеддингов. Это впечатлило MET, и они зарегистрировались на Hugging Face. Трогательно, когда самый популярный музей США таким твистом вкатывается в ИТ.
А нам теперь можно искать произведения искусства, вводя запросы типа "картина маслом с цветами и собаками" — это первый в своем роде семантический поиск предметов искусства🖼️ 🔎
Что под капотом:
Vision Encoder: 92M параметров.
Text Encoder: 137M параметров.
Натренированы на 1.5 млрд пар "изображение-текст" (DFN-2B).
Vision Encoder инициализирован с Eva02 MIM ViT B/16, Text Encoder — с Nomic Embed Text.
Обучали 3 полных эпохи на 16 H100 GPUs, размер батча — 65,536.
Contrastive Learning: обучение с использованием image-text pairs.
Locked Text Image Tuning (LiT): замороженный текстовый энкодер.
В результате получили SOTA модель, обошедшую OpenAI CLIP
Imagenet 0-shot: 71.0 (v1.5)
Datacomp Avg.: 56.8 (v1.5)
MTEB Avg.: 62.28 (v1.5)
Если хотите свое унифицированное латентное пространство для мультимодальных задач и семантический поиск по изображениям и текстам одновременно, модель доступна под лицензией CC-BY-NC-4.0
✨MET map
📃 Пост
🌐 Repo
🤗v1.5
Команда Nomic дерзнула и поместила публичную коллекцию Метрополитен-музея искусства в латентное пространство, внедрив 250 000 произведений в свою новейшую модель эмбеддингов. Это впечатлило MET, и они зарегистрировались на Hugging Face. Трогательно, когда самый популярный музей США таким твистом вкатывается в ИТ.
А нам теперь можно искать произведения искусства, вводя запросы типа "картина маслом с цветами и собаками" — это первый в своем роде семантический поиск предметов искусства
Что под капотом:
Vision Encoder: 92M параметров.
Text Encoder: 137M параметров.
Натренированы на 1.5 млрд пар "изображение-текст" (DFN-2B).
Vision Encoder инициализирован с Eva02 MIM ViT B/16, Text Encoder — с Nomic Embed Text.
Обучали 3 полных эпохи на 16 H100 GPUs, размер батча — 65,536.
Contrastive Learning: обучение с использованием image-text pairs.
Locked Text Image Tuning (LiT): замороженный текстовый энкодер.
В результате получили SOTA модель, обошедшую OpenAI CLIP
Imagenet 0-shot: 71.0 (v1.5)
Datacomp Avg.: 56.8 (v1.5)
MTEB Avg.: 62.28 (v1.5)
Если хотите свое унифицированное латентное пространство для мультимодальных задач и семантический поиск по изображениям и текстам одновременно, модель доступна под лицензией CC-BY-NC-4.0
✨MET map
🤗v1.5
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥35❤13👍1
This media is not supported in your browser
VIEW IN TELEGRAM
AGI для настольного тенниса
Google DeepMind разработали робота, который может играть в настольный теннис на высоком уровне, бросая вызов опытным игрокам.
Эти роботы используют:
- Компьютерное зрение для отслеживания мяча и движений противника
- Роботизированные руки/суставы для быстрых и точных ударов
- ИИ для предугадывания движений противника и разработки стратегии
Хотя это в первую очередь исследовательский проект, возможно в недалеком будущем матчи человек-робот могут стать реальностью.
Сыграли бы вы в настольный теннис с роботом? 🏓🤖
💻 Блог
Google DeepMind разработали робота, который может играть в настольный теннис на высоком уровне, бросая вызов опытным игрокам.
Эти роботы используют:
- Компьютерное зрение для отслеживания мяча и движений противника
- Роботизированные руки/суставы для быстрых и точных ударов
- ИИ для предугадывания движений противника и разработки стратегии
Хотя это в первую очередь исследовательский проект, возможно в недалеком будущем матчи человек-робот могут стать реальностью.
Сыграли бы вы в настольный теннис с роботом? 🏓🤖
💻 Блог
👍37🤯8🔥6🤩2😐2