Glob (science news, новости науки)
1.43K subscribers
461 photos
11 videos
40 files
906 links
Избранные статьи, видео и подкасты о физике, биологии, космосе
@globchan

По всем вопросам писать @twentydraft

P.S.
Часть тегов честно сжижена отсюда vk.com/advanced_biologist
Download Telegram
Что такое информация и как измерить её количество
Даниил Владимирович Мусатов
"Что такое информация и как измерять её количество". Выпуск интересный, но ведущие немного раздражают, а вот Мусатов выше всяких похвал конечно #подкаст #информатика #информатика https://goo.gl/sGx3w
Любопытные нейронные сетки и сумасшедшие оракулы

Идея обучения с подкреплением состоит в том, что интеллектуальный агент не обучается на готовых примерах правильных ответов, а получает вознаграждение за правильное поведение, когда даёт правильный ответ. Одной из проблем этого метода является создание системы наказаний и вознаграждений — нередко ИИ взламывает её, выдавая формально правильные, но абсурдные по сути решения. Например, в задаче типа "помести красный кубик над синим" трясёт стол пока синий кубик не упадёт на пол.

Следующим шагом в развитии обучения с подкреплением стала выработка любопытства у ИИ: агенту дают вознаграждение в случае, если он находит новую, не существующую ранее ситуацию. Однако у этого подхода обнаружился интересный недостаток: стоит ИИ найти источник случайного шума, как он мгновенно зависает на нём (совершенно не напоминает меня и Twitter, да): предсказать рандомный мусор невозможно, поэтому такое поведение поощряется любопытством агента. Учёные остроумно продемонстрировали это, поместив в виртуальный лабиринт с агентом экран со случайными видео с YouTube. Агент мгновенно залип на котиков и отказался от исследования окружающего мира.

Разработчики из OpenAI создали улучшенную методику обучения нейронных сетей с вознаграждением за «любопытство»: они включили в состав ИИ случайно сгенерированную нейросеть (этакого чокнутого оракула), и стали подавать на её вход данные с окружения. Агент же получал награды как за открытия в окружающем его мире, так и за обнаружение экзотических ответов от внутренней сетки-оракула. Таким в случае зависания на телевизоре награда от внутренней сети снижалась, и агенту приходилось срываться с места и искать новые интересности.

Используя этот подход, который получил название Random Network Distillation, учёные смогли обучить ИИ стабильно проходить 20-22 комнаты из 22 в игре Montezuma’s Revenge, которая считается одной из самых сложных игр для ИИ (как указывают авторы, более ранние попытки обрывались на 1-3 комнатах).

Хотите знать больше? Прочтите статью в блоге OpenAI )

#ML #информатика #обучение

https://blog.openai.com/reinforcement-learning-with-prediction-based-rewards/