Конференция AI Safety Fundamentals
Участники reading группы Agent Foundations и upskilling группы Runway расскажут о своих первых проектах в сейфти. Эксперты расскажут про текущий ландшафт исследований и как начать свой путь в сейфти.
📅 Когда: 10 января 18:50, 11 января 16:50 МСК
🌐 Где: онлайн, ссылка появится в чате "Минимизаторы скрепок"
Подробности
Участники reading группы Agent Foundations и upskilling группы Runway расскажут о своих первых проектах в сейфти. Эксперты расскажут про текущий ландшафт исследований и как начать свой путь в сейфти.
📅 Когда: 10 января 18:50, 11 января 16:50 МСК
🌐 Где: онлайн, ссылка появится в чате "Минимизаторы скрепок"
Подробности
🔥4
AI Alignment Evals Hackathon
25 января – 2 февраля
Оценка возможностей моделей сейчас в топе приоритетов сейфти и туда вливается много улисий:
– Недавно прошла evals bounty программа от AISI с очень сочными призами для _всех_ чьи работы прошли отбор
– Институт MIRI переключился на оценку evals'ов, чтобы помогать направлять усилия на самое важное
– Большая часть фандинга идет на evals'ы
– Было много другого. Это что вспомнилось сразу
И, вот, скоро пройдет хакатон от Кабира Кумара в коллаборации с Apart Research на тему evals'ов. Выдержки из анонса:
и
Мы с командой участвуем и вас приглашаем. Сейчас зарегистрировалось 117 человек
Детали и регистрация
25 января – 2 февраля
Оценка возможностей моделей сейчас в топе приоритетов сейфти и туда вливается много улисий:
– Недавно прошла evals bounty программа от AISI с очень сочными призами для _всех_ чьи работы прошли отбор
– Институт MIRI переключился на оценку evals'ов, чтобы помогать направлять усилия на самое важное
– Большая часть фандинга идет на evals'ы
– Было много другого. Это что вспомнилось сразу
И, вот, скоро пройдет хакатон от Кабира Кумара в коллаборации с Apart Research на тему evals'ов. Выдержки из анонса:
What you’ll learn
– How to design a benchmark, from defining success metrics to setting up test cases and interpreting results.
– How to use existing benchmarks and apply them to real-world use cases.
– How to fine-tune models and evaluate their impact on alignment outcomes.
– How to develop adversarial test cases to identify weaknesses in current benchmarks.
– How to train a cross-coder to compare fine-tined models against their base counterparts.
и
What we can provide
– 10 versions of a model, all sharing the same base but trained with PPO, DPO, IPO, KPO, etc.
– Step-by-step guides for creating evals (i.e., what is it, how to run an eval, things to consider when making one, how to make one, etc.).
– Tutorials on using HHH, SALAD-Bench, MACHIAVELLI, and more.
– An introduction to Inspect, an evaluation framework by the UK AISI.
Мы с командой участвуем и вас приглашаем. Сейчас зарегистрировалось 117 человек
Детали и регистрация
🔥5🤔1
Evals at METR. Философия и практика. Елена Еричева
Запись доклада
Лена – опытный исследователь машинного обучения с более чем 10-летним опытом в биотехнологиях и медтехе. В METR занимается AI Alignment и AI Safety: исследует возможности ИИ-моделей, разрабатывает бенчмарки и проводит Blue Teaming с фокусом на безопасности. Специализируется на компьютерном зрении, NLP и эффективном применении современных LLM и VLLM. А еще ведет канал Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI
В докладе она рассказала:
– С чего начинается практическое исследование в AI Safety
– Почему METR концентрируется на AI capabilities и Responsible Research
– Как METR реализует свое исследование
Запись доклада
Запись доклада
Лена – опытный исследователь машинного обучения с более чем 10-летним опытом в биотехнологиях и медтехе. В METR занимается AI Alignment и AI Safety: исследует возможности ИИ-моделей, разрабатывает бенчмарки и проводит Blue Teaming с фокусом на безопасности. Специализируется на компьютерном зрении, NLP и эффективном применении современных LLM и VLLM. А еще ведет канал Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI
В докладе она рассказала:
– С чего начинается практическое исследование в AI Safety
– Почему METR концентрируется на AI capabilities и Responsible Research
– Как METR реализует свое исследование
Запись доклада
🔥8👍2
Курс по теории обучения
Gergely (ALTER) и Kōshin (Monastic Academy)
Cartesian framework for learning theory, MDPs/POMDPs, Learnability, Sample complexity, Bandits, VC dimension, PAC learning
Инфрабайесианство – надстройка над теорией вероятности, которая позволяет приблизить ее свойства к реальности, не теряя математического формализма. Основная цель – решить задачу agent foundations (на сегодня считается лучшей теоретической alignment аджендой).
Дедлайн заявки 1 марта, курс начинается 17 марта
Gergely (ALTER) и Kōshin (Monastic Academy)
Cartesian framework for learning theory, MDPs/POMDPs, Learnability, Sample complexity, Bandits, VC dimension, PAC learning
Инфрабайесианство – надстройка над теорией вероятности, которая позволяет приблизить ее свойства к реальности, не теряя математического формализма. Основная цель – решить задачу agent foundations (на сегодня считается лучшей теоретической alignment аджендой).
Дедлайн заявки 1 марта, курс начинается 17 марта
Lesswrong
Announcement: Learning Theory Online Course — LessWrong
The application deadline for the course has now passed. We received a very promising number of submissions! Feel free to continue discussion in the c…
🔥2🤔2
Forwarded from AI Safety. Основы
ИИ меняет мир с безумной скоростью, но вместе с этим несет в себе серьезные риски. Задача AI Safety – позаботиться, чтобы эти изменения были положительными
Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤1🤮1