POET: Endlessly Generating Increasingly Complex and Diverse Learning Environments and their Solutions through the Paired Open-Ended Trailblazer
POET: it generates its own increasingly complex, diverse training environments & solves them. It automatically creates a learning curricula & training data, & potentially innovates endlessly.
Link: https://eng.uber.com/poet-open-ended-deep-learning/
#RL #Uber
🔗 POET: Endlessly Generating Increasingly Complex and Diverse Learning Environments and their Solutions through the Paired Open-Ended Trailblazer
Uber AI Labs introduces the Paired Open-Ended Trailblazer (POET), an algorithm that leverages open-endedness to push the bounds of ML.
POET: it generates its own increasingly complex, diverse training environments & solves them. It automatically creates a learning curricula & training data, & potentially innovates endlessly.
Link: https://eng.uber.com/poet-open-ended-deep-learning/
#RL #Uber
🔗 POET: Endlessly Generating Increasingly Complex and Diverse Learning Environments and their Solutions through the Paired Open-Ended Trailblazer
Uber AI Labs introduces the Paired Open-Ended Trailblazer (POET), an algorithm that leverages open-endedness to push the bounds of ML.
DeepTraffic — new RL competition hosted by #MIT
Link: https://selfdrivingcars.mit.edu/deeptraffic/
Github: https://github.com/lexfridman/deeptraffic
#RL #selfdrivingcar
🔗
Link: https://selfdrivingcars.mit.edu/deeptraffic/
Github: https://github.com/lexfridman/deeptraffic
#RL #selfdrivingcar
🔗
Reinforcement Learning Course from OpenAI
Reinforcement Learning becoming significant part of the data scientist toolbox.
OpenAI created and published one of the best courses in #RL. Algorithms implementation written in #Tensorflow.
But if you are more comfortable with #PyTorch, we have found #PyTorch implementation of this algs
OpenAI Course: https://spinningup.openai.com/en/latest/
Tensorflow Code: https://github.com/openai/spinningup
PyTorch Code: https://github.com/kashif/firedup
🔗 Welcome to Spinning Up in Deep RL! — Spinning Up documentation
Reinforcement Learning becoming significant part of the data scientist toolbox.
OpenAI created and published one of the best courses in #RL. Algorithms implementation written in #Tensorflow.
But if you are more comfortable with #PyTorch, we have found #PyTorch implementation of this algs
OpenAI Course: https://spinningup.openai.com/en/latest/
Tensorflow Code: https://github.com/openai/spinningup
PyTorch Code: https://github.com/kashif/firedup
🔗 Welcome to Spinning Up in Deep RL! — Spinning Up documentation
GitHub
GitHub - openai/spinningup: An educational resource to help anyone learn deep reinforcement learning.
An educational resource to help anyone learn deep reinforcement learning. - openai/spinningup
This media is not supported in your browser
VIEW IN TELEGRAM
Neurohive (VK)
Без названия
Исследователи из University of California и Honda Research Institute обучили робота складывать ткань. Алгоритм основывается на фреймворке для обучения визуальной динамики объектов на основе RGB изображений, — Visual Foresight. Такие роботы могут быть полезны в текстильной промышленности и хирургии.
Подробнее: https://neurohive.io/ru/gotovye-prilozhenija/v-univer..
#CV #RL #AppliedDS
Без названия
Исследователи из University of California и Honda Research Institute обучили робота складывать ткань. Алгоритм основывается на фреймворке для обучения визуальной динамики объектов на основе RGB изображений, — Visual Foresight. Такие роботы могут быть полезны в текстильной промышленности и хирургии.
Подробнее: https://neurohive.io/ru/gotovye-prilozhenija/v-univer..
#CV #RL #AppliedDS
Forwarded from Machinelearning
Tufa Labs опубликовала пейпер фреймворка LADDER, который дает возможность языковым моделям самостоятельно улучшать навыки решения сложных задач.
Технология имитирует человеческое обучение: ИИ разбивает проблемы на простые шаги, создаёт «учебный план» из упрощённых вариантов и постепенно наращивает мастерство решения. Например, модель Llama 3.2 с 3 млрд. параметров, изначально решавшая лишь 1% интегралов студенческого уровня, после обучения по методу LADDER достигла 82% точности.
Самые интересные результаты LADDER показал на тесте MIT Integration Bee — ежегодном соревновании по интегральному исчислению. На нем модель Qwen2.5 (7B), доработанная с помощью LADDER, набрала 73%, обойдя GPT-4o (42%) и большинство студентов, а с применением TTRL — результат вырос до 90%. Это превзошло даже показатели OpenAI o1, хотя последний не использовал числовую проверку решений.
TTRL (Test-Time Reinforcement Learning) — это метод «микрообучения», который позволяет языковым моделям адаптироваться к сложным задачам прямо во время их решения.
В основе LADDER - принцип рекурсивной декомпозиции: модель разбивает непосильную задачу на цепочку постепенно усложняющихся шагов, создавая собственную «учебную программу». Столкнувшись со сложным интегралом, ИИ генерирует его упрощённые версии — снижает степень полинома, убирает дробные коэффициенты или заменяет составные функции базовыми. Каждый такой вариант становится ступенью, ведущей к решению целевой задачи.
Работа фреймворка делится на три этапа:
Первый — генерация «дерева вариантов»: модель создаёт десятки модификаций задачи, ранжируя их по сложности.
Второй — верификация: каждое решение проверяется численными методами (например, сравнение значений интеграла в ключевых точках).
Третий — обучение с подкреплением: система поощряет успешные стратегии, используя баллы за правильные ответы и штрафуя за ошибки.
Дополняющее применение TTRL позволяет проводить «экспресс-тренировки» прямо во время теста: ИИ генерирует варианты конкретной задачи и адаптируется к ней за секунды, не требуя вмешательства человека.
@ai_machinelearning_big_data
#AI #ML #RL #LADDER #Paper
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM