#1. У Паши Комаровского, автора канала RationalAnswer, есть подборка вводных материалов по теме безопасности ии. Если начинать разбираться в теме, то с его подборки.
#2 Почему the hard bits?
Термин the hard bits был введен Нэйтом Соаресом, президентом Machine Intelligence Research Institute. Им он пытался подсветить проблему существующую в safety сообществе - а именно, что большая часть исследователей направляют свои усилия на решение прозаичных решаемых проблем, вместо сложных но критически важных фундаментальных вопросов.
Изначально был только один ‘the hard bit’, им считалось решение проблемы sharp left turn (разработка safety механизмов способных успешно пережить радикальное увеличение обобщающей способности агентов), но со временем термин стали использовать просто как “более фундаментальные проблемы”.
А почему фокус на понятных, решаемых задачах это проблема? Потому что мы очень быстро приближаемся к ситуации, когда “фантастические” сценарии из того же sharp left turn’а станут абсолютно реальными, а у нас все еще нет для них решений, и как показывает прогресс в прозаичных исследованиях, они не особо переносимы на фундаментальные вопросы.
Отсюда название “the hard bits”. Чтобы напоминать себе о задачах, которые действительно нужно решать.
p.s.: статья Нэйта с разбором направлений - On how various plans miss the hard bits of the alignment challenge
Термин the hard bits был введен Нэйтом Соаресом, президентом Machine Intelligence Research Institute. Им он пытался подсветить проблему существующую в safety сообществе - а именно, что большая часть исследователей направляют свои усилия на решение прозаичных решаемых проблем, вместо сложных но критически важных фундаментальных вопросов.
Изначально был только один ‘the hard bit’, им считалось решение проблемы sharp left turn (разработка safety механизмов способных успешно пережить радикальное увеличение обобщающей способности агентов), но со временем термин стали использовать просто как “более фундаментальные проблемы”.
А почему фокус на понятных, решаемых задачах это проблема? Потому что мы очень быстро приближаемся к ситуации, когда “фантастические” сценарии из того же sharp left turn’а станут абсолютно реальными, а у нас все еще нет для них решений, и как показывает прогресс в прозаичных исследованиях, они не особо переносимы на фундаментальные вопросы.
Отсюда название “the hard bits”. Чтобы напоминать себе о задачах, которые действительно нужно решать.
p.s.: статья Нэйта с разбором направлений - On how various plans miss the hard bits of the alignment challenge
👍5💩1
#3 В дополнение к карте AI Safety вышла карта ландшафта AI Governance
upd: +doc "AI Governance Ecosystem"
upd: +doc "AI Governance Ecosystem"
❤5
How to Solve It suggests the following steps when solving a mathematical problem:
1 First, you have to understand the problem.[2]
2 After understanding, make a plan.[3] - Devise a plan
3 Carry out the plan.[4]
4 Look back on your work.[5]-Review/extend How could it be better?
If this technique fails, Pólya advises:
https://math.hawaii.edu/home/pdf/putnam/PolyaHowToSolveIt.pdf
1 First, you have to understand the problem.[2]
2 After understanding, make a plan.[3] - Devise a plan
3 Carry out the plan.[4]
4 Look back on your work.[5]-Review/extend How could it be better?
If this technique fails, Pólya advises:
"If you cannot solve the proposed problem, try to solve first some related problem. Could you imagine a more accessible related problem?"
https://math.hawaii.edu/home/pdf/putnam/PolyaHowToSolveIt.pdf
🤓1👀1
про фразочку Юдковского "бомбить дата центры" многие знают, но немногие знают, что есть бот Юдковский, чья единственная задача не продать вам compute 🙃. убедить его реально. удачи
p.s.: если Ю уломать не получится, можно потренироваться на Гендальфе от Lakera AI
p.s.: если Ю уломать не получится, можно потренироваться на Гендальфе от Lakera AI
🥰5🔥3❤1👍1
We are pleased to announce that the 10th version of the AI Safety Camp is now entering the team member application phase!
AI Safety Camp is a 3-month long online research program from January to April 2025, where participants form teams to work on pre-selected projects.
We have a wide range of projects this year again, so check them out to see if you or someone you know might be interested in applying to join one of them.
You can find all of the projects and the application form on our website, or directly apply here. The deadline for team member applications is November 17th (Sunday).
Below, we are including the categories and summaries of all the projects that will run in AISC 10.
рекордные для кэмпа 32 проекта
и кто это там на 11 строчке? мыы)
AI Safety Camp 10
www.alignmentforum.org
AI Safety Camp 10 — AI Alignment Forum
We are pleased to announce that the 10th version of the AI Safety Camp is now entering the team member application phase! …
🔥10❤🔥3
Brief analysis of OP Technical AI Safety Funding
Full data available here
TL;DR
I spent a few hours going through Open Philanthropy (OP)'s grant database. The main findings were:
Open Philanthropy has made $28 million grants for Technical AI Safety (TAIS) in 2024
68% of these are focused on evaluations / benchmarking. The rest is split between interpretability, robustness, value alignment, forecasting, field building and other approaches.
OP funding for TAIS has fallen from a peak in 2022
Excluding funding for evaluations, TAIS funding has fallen by ~80% since 2022.
A majority of TAIS funding is focused on "meta" rather than "direct" safety approaches
My overall takeaway was that very few TAIS grants are directly focused on making sure systems are aligned / controllable / built safely.
Full data available here
TL;DR
I spent a few hours going through Open Philanthropy (OP)'s grant database. The main findings were:
Open Philanthropy has made $28 million grants for Technical AI Safety (TAIS) in 2024
68% of these are focused on evaluations / benchmarking. The rest is split between interpretability, robustness, value alignment, forecasting, field building and other approaches.
OP funding for TAIS has fallen from a peak in 2022
Excluding funding for evaluations, TAIS funding has fallen by ~80% since 2022.
A majority of TAIS funding is focused on "meta" rather than "direct" safety approaches
My overall takeaway was that very few TAIS grants are directly focused on making sure systems are aligned / controllable / built safely.
🤔2👍1🔥1
Конференция AI Safety Fundamentals
Участники reading группы Agent Foundations и upskilling группы Runway расскажут о своих первых проектах в сейфти. Эксперты расскажут про текущий ландшафт исследований и как начать свой путь в сейфти.
📅 Когда: 10 января 18:50, 11 января 16:50 МСК
🌐 Где: онлайн, ссылка появится в чате "Минимизаторы скрепок"
Подробности
Участники reading группы Agent Foundations и upskilling группы Runway расскажут о своих первых проектах в сейфти. Эксперты расскажут про текущий ландшафт исследований и как начать свой путь в сейфти.
📅 Когда: 10 января 18:50, 11 января 16:50 МСК
🌐 Где: онлайн, ссылка появится в чате "Минимизаторы скрепок"
Подробности
🔥4
AI Alignment Evals Hackathon
25 января – 2 февраля
Оценка возможностей моделей сейчас в топе приоритетов сейфти и туда вливается много улисий:
– Недавно прошла evals bounty программа от AISI с очень сочными призами для _всех_ чьи работы прошли отбор
– Институт MIRI переключился на оценку evals'ов, чтобы помогать направлять усилия на самое важное
– Большая часть фандинга идет на evals'ы
– Было много другого. Это что вспомнилось сразу
И, вот, скоро пройдет хакатон от Кабира Кумара в коллаборации с Apart Research на тему evals'ов. Выдержки из анонса:
и
Мы с командой участвуем и вас приглашаем. Сейчас зарегистрировалось 117 человек
Детали и регистрация
25 января – 2 февраля
Оценка возможностей моделей сейчас в топе приоритетов сейфти и туда вливается много улисий:
– Недавно прошла evals bounty программа от AISI с очень сочными призами для _всех_ чьи работы прошли отбор
– Институт MIRI переключился на оценку evals'ов, чтобы помогать направлять усилия на самое важное
– Большая часть фандинга идет на evals'ы
– Было много другого. Это что вспомнилось сразу
И, вот, скоро пройдет хакатон от Кабира Кумара в коллаборации с Apart Research на тему evals'ов. Выдержки из анонса:
What you’ll learn
– How to design a benchmark, from defining success metrics to setting up test cases and interpreting results.
– How to use existing benchmarks and apply them to real-world use cases.
– How to fine-tune models and evaluate their impact on alignment outcomes.
– How to develop adversarial test cases to identify weaknesses in current benchmarks.
– How to train a cross-coder to compare fine-tined models against their base counterparts.
и
What we can provide
– 10 versions of a model, all sharing the same base but trained with PPO, DPO, IPO, KPO, etc.
– Step-by-step guides for creating evals (i.e., what is it, how to run an eval, things to consider when making one, how to make one, etc.).
– Tutorials on using HHH, SALAD-Bench, MACHIAVELLI, and more.
– An introduction to Inspect, an evaluation framework by the UK AISI.
Мы с командой участвуем и вас приглашаем. Сейчас зарегистрировалось 117 человек
Детали и регистрация
🔥5🤔1
Evals at METR. Философия и практика. Елена Еричева
Запись доклада
Лена – опытный исследователь машинного обучения с более чем 10-летним опытом в биотехнологиях и медтехе. В METR занимается AI Alignment и AI Safety: исследует возможности ИИ-моделей, разрабатывает бенчмарки и проводит Blue Teaming с фокусом на безопасности. Специализируется на компьютерном зрении, NLP и эффективном применении современных LLM и VLLM. А еще ведет канал Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI
В докладе она рассказала:
– С чего начинается практическое исследование в AI Safety
– Почему METR концентрируется на AI capabilities и Responsible Research
– Как METR реализует свое исследование
Запись доклада
Запись доклада
Лена – опытный исследователь машинного обучения с более чем 10-летним опытом в биотехнологиях и медтехе. В METR занимается AI Alignment и AI Safety: исследует возможности ИИ-моделей, разрабатывает бенчмарки и проводит Blue Teaming с фокусом на безопасности. Специализируется на компьютерном зрении, NLP и эффективном применении современных LLM и VLLM. А еще ведет канал Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI
В докладе она рассказала:
– С чего начинается практическое исследование в AI Safety
– Почему METR концентрируется на AI capabilities и Responsible Research
– Как METR реализует свое исследование
Запись доклада
🔥8👍2
Курс по теории обучения
Gergely (ALTER) и Kōshin (Monastic Academy)
Cartesian framework for learning theory, MDPs/POMDPs, Learnability, Sample complexity, Bandits, VC dimension, PAC learning
Инфрабайесианство – надстройка над теорией вероятности, которая позволяет приблизить ее свойства к реальности, не теряя математического формализма. Основная цель – решить задачу agent foundations (на сегодня считается лучшей теоретической alignment аджендой).
Дедлайн заявки 1 марта, курс начинается 17 марта
Gergely (ALTER) и Kōshin (Monastic Academy)
Cartesian framework for learning theory, MDPs/POMDPs, Learnability, Sample complexity, Bandits, VC dimension, PAC learning
Инфрабайесианство – надстройка над теорией вероятности, которая позволяет приблизить ее свойства к реальности, не теряя математического формализма. Основная цель – решить задачу agent foundations (на сегодня считается лучшей теоретической alignment аджендой).
Дедлайн заявки 1 марта, курс начинается 17 марта
Lesswrong
Announcement: Learning Theory Online Course — LessWrong
The application deadline for the course has now passed. We received a very promising number of submissions! Feel free to continue discussion in the c…
🔥2🤔2
Forwarded from AI Safety. Основы
ИИ меняет мир с безумной скоростью, но вместе с этим несет в себе серьезные риски. Задача AI Safety – позаботиться, чтобы эти изменения были положительными
Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤1🤮1