Neural Networks | Нейронные сети

POET: Endlessly Generating Increasingly Complex and Diverse Learning Environments and their Solutions through the Paired Open-Ended Trailblazer

POET: it generates its own increasingly complex, diverse training environments & solves them. It automatically creates a learning curricula & training data, & potentially innovates endlessly.

Link: https://eng.uber.com/poet-open-ended-deep-learning/

#RL #Uber

🔗 POET: Endlessly Generating Increasingly Complex and Diverse Learning Environments and their Solutions through the Paired Open-Ended Trailblazer
Uber AI Labs introduces the Paired Open-Ended Trailblazer (POET), an algorithm that leverages open-endedness to push the bounds of ML.

21 views10:06

👍👎

Neural Networks | Нейронные сети

DeepTraffic — new RL competition hosted by #MIT

Link: https://selfdrivingcars.mit.edu/deeptraffic/
Github: https://github.com/lexfridman/deeptraffic

#RL #selfdrivingcar

🔗

22 viewsedited 00:41

👍 1 👎

Neural Networks | Нейронные сети

Reinforcement Learning Course from OpenAI

Reinforcement Learning becoming significant part of the data scientist toolbox.
OpenAI created and published one of the best courses in #RL. Algorithms implementation written in #Tensorflow.
But if you are more comfortable with #PyTorch, we have found #PyTorch implementation of this algs

OpenAI Course: https://spinningup.openai.com/en/latest/
Tensorflow Code: https://github.com/openai/spinningup
PyTorch Code: https://github.com/kashif/firedup

🔗 Welcome to Spinning Up in Deep RL! — Spinning Up documentation

GitHub

GitHub - openai/spinningup: An educational resource to help anyone learn deep reinforcement learning.

An educational resource to help anyone learn deep reinforcement learning. - openai/spinningup

27 views10:31

👍👎

Neural Networks | Нейронные сети

0:46

This media is not supported in your browser

VIEW IN TELEGRAM

Neurohive (VK)
Без названия

Исследователи из University of California и Honda Research Institute обучили робота складывать ткань. Алгоритм основывается на фреймворке для обучения визуальной динамики объектов на основе RGB изображений, — Visual Foresight. Такие роботы могут быть полезны в текстильной промышленности и хирургии.

Подробнее: https://neurohive.io/ru/gotovye-prilozhenija/v-univer..

#CV #RL #AppliedDS

37 views09:48

Neural Networks | Нейронные сети

Forwarded from Machinelearning

📌LADDER: как научить LLM решать сложные задачи без учителя.

Tufa Labs опубликовала пейпер фреймворка LADDER, который дает возможность языковым моделям самостоятельно улучшать навыки решения сложных задач.

Технология имитирует человеческое обучение: ИИ разбивает проблемы на простые шаги, создаёт «учебный план» из упрощённых вариантов и постепенно наращивает мастерство решения. Например, модель Llama 3.2 с 3 млрд. параметров, изначально решавшая лишь 1% интегралов студенческого уровня, после обучения по методу LADDER достигла 82% точности.

Самые интересные результаты LADDER показал на тесте MIT Integration Bee — ежегодном соревновании по интегральному исчислению. На нем модель Qwen2.5 (7B), доработанная с помощью LADDER, набрала 73%, обойдя GPT-4o (42%) и большинство студентов, а с применением TTRL — результат вырос до 90%. Это превзошло даже показатели OpenAI o1, хотя последний не использовал числовую проверку решений.

TTRL (Test-Time Reinforcement Learning) — это метод «микрообучения», который позволяет языковым моделям адаптироваться к сложным задачам прямо во время их решения.

В основе LADDER - принцип рекурсивной декомпозиции: модель разбивает непосильную задачу на цепочку постепенно усложняющихся шагов, создавая собственную «учебную программу». Столкнувшись со сложным интегралом, ИИ генерирует его упрощённые версии — снижает степень полинома, убирает дробные коэффициенты или заменяет составные функции базовыми. Каждый такой вариант становится ступенью, ведущей к решению целевой задачи.

Работа фреймворка делится на три этапа:

Первый — генерация «дерева вариантов»: модель создаёт десятки модификаций задачи, ранжируя их по сложности.

Второй — верификация: каждое решение проверяется численными методами (например, сравнение значений интеграла в ключевых точках).

Третий — обучение с подкреплением: система поощряет успешные стратегии, используя баллы за правильные ответы и штрафуя за ошибки.

Дополняющее применение TTRL позволяет проводить «экспресс-тренировки» прямо во время теста: ИИ генерирует варианты конкретной задачи и адаптируется к ней за секунды, не требуя вмешательства человека.

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #RL #LADDER #Paper

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.57K views07:25

About

Blog

Apps

Platform