the hard bits

Channel created

10:12

Hello, World! The hard bits - место где Юля и Я делимся своими мыслями о безопасности искусственного интеллекта: будь то разборы технических статей, анализы новостей из мира ии, анонсы событий - в общем все, что относится к теме

🔥1💩1

2.06K viewsAnton Zheltoukhov, edited 11:06

the hard bits

#1. У Паши Комаровского, автора канала RationalAnswer, есть подборка вводных материалов по теме безопасности ии. Если начинать разбираться в теме, то с его подборки.

875 viewsAnton Zheltoukhov, edited 11:06

the hard bits

#2 Почему the hard bits?

Термин the hard bits был введен Нэйтом Соаресом, президентом Machine Intelligence Research Institute. Им он пытался подсветить проблему существующую в safety сообществе - а именно, что большая часть исследователей направляют свои усилия на решение прозаичных решаемых проблем, вместо сложных но критически важных фундаментальных вопросов.

Изначально был только один ‘the hard bit’, им считалось решение проблемы sharp left turn (разработка safety механизмов способных успешно пережить радикальное увеличение обобщающей способности агентов), но со временем термин стали использовать просто как “более фундаментальные проблемы”.

А почему фокус на понятных, решаемых задачах это проблема? Потому что мы очень быстро приближаемся к ситуации, когда “фантастические” сценарии из того же sharp left turn’а станут абсолютно реальными, а у нас все еще нет для них решений, и как показывает прогресс в прозаичных исследованиях, они не особо переносимы на фундаментальные вопросы.

Отсюда название “the hard bits”. Чтобы напоминать себе о задачах, которые действительно нужно решать.

p.s.: статья Нэйта с разбором направлений - On how various plans miss the hard bits of the alignment challenge

👍5💩1

2.19K viewsAnton Zheltoukhov, edited 11:08

the hard bits

#3 В дополнение к карте AI Safety вышла карта ландшафта AI Governance
upd: +doc "AI Governance Ecosystem"

❤5

970 viewsAnton Zheltoukhov, edited 17:25

the hard bits

How to Solve It suggests the following steps when solving a mathematical problem:
1 First, you have to understand the problem.[2]
2 After understanding, make a plan.[3] - Devise a plan
3 Carry out the plan.[4]
4 Look back on your work.[5]-Review/extend How could it be better?
If this technique fails, Pólya advises:

"If you cannot solve the proposed problem, try to solve first some related problem. Could you imagine a more accessible related problem?"

https://math.hawaii.edu/home/pdf/putnam/PolyaHowToSolveIt.pdf

🤓1👀1

671 viewsIuliia Levin, 21:42

the hard bits

How_to_solve_it_a_new_aspect_of_mathematical_method_Pólya,_George.pdf

37.3 MB

654 viewsIuliia Levin, 21:43

the hard bits

https://www.apolloresearch.ai/blog/an-opinionated-evals-reading-list

Apollo Research

An Opinionated Evals Reading List – Apollo Research

A long reading list of evals papers with recommendations and comments by the evals team.

👍1👀1

657 viewsIuliia Levin, 21:48

the hard bits

про фразочку Юдковского "бомбить дата центры" многие знают, но немногие знают, что есть бот Юдковский, чья единственная задача не продать вам compute 🙃. убедить его реально. удачи

p.s.: если Ю уломать не получится, можно потренироваться на Гендальфе от Lakera AI

🥰5🔥3❤1👍1

671 viewsAnton Zheltoukhov, 16:40

the hard bits

We are pleased to announce that the 10th version of the AI Safety Camp is now entering the team member application phase!

AI Safety Camp is a 3-month long online research program from January to April 2025, where participants form teams to work on pre-selected projects.

We have a wide range of projects this year again, so check them out to see if you or someone you know might be interested in applying to join one of them.

You can find all of the projects and the application form on our website, or directly apply here. The deadline for team member applications is November 17th (Sunday).

Below, we are including the categories and summaries of all the projects that will run in AISC 10.

рекордные для кэмпа 32 проекта
и кто это там на 11 строчке? мыы)

AI Safety Camp 10

🔥10❤‍🔥3

1.95K viewsAnton Zheltoukhov, 17:25

the hard bits

Brief analysis of OP Technical AI Safety Funding
Full data available here

TL;DR
I spent a few hours going through Open Philanthropy (OP)'s grant database. The main findings were:

Open Philanthropy has made $28 million grants for Technical AI Safety (TAIS) in 2024

68% of these are focused on evaluations / benchmarking. The rest is split between interpretability, robustness, value alignment, forecasting, field building and other approaches.

OP funding for TAIS has fallen from a peak in 2022
Excluding funding for evaluations, TAIS funding has fallen by ~80% since 2022.

A majority of TAIS funding is focused on "meta" rather than "direct" safety approaches
My overall takeaway was that very few TAIS grants are directly focused on making sure systems are aligned / controllable / built safely.

🤔2👍1🔥1

892 viewsAnton Zheltoukhov, edited 10:50

the hard bits

🔥4🤡1

6.45K viewsAnton Zheltoukhov, 08:25

the hard bits

Конференция AI Safety Fundamentals

Участники reading группы Agent Foundations и upskilling группы Runway расскажут о своих первых проектах в сейфти. Эксперты расскажут про текущий ландшафт исследований и как начать свой путь в сейфти.

📅 Когда: 10 января 18:50, 11 января 16:50 МСК

🌐 Где: онлайн, ссылка появится в чате "Минимизаторы скрепок"

Подробности

🔥4

6.74K viewsAnton Zheltoukhov, edited 08:25

the hard bits

AI Alignment Evals Hackathon
25 января – 2 февраля

Оценка возможностей моделей сейчас в топе приоритетов сейфти и туда вливается много улисий:

– Недавно прошла evals bounty программа от AISI с очень сочными призами для _всех_ чьи работы прошли отбор
– Институт MIRI переключился на оценку evals'ов, чтобы помогать направлять усилия на самое важное
– Большая часть фандинга идет на evals'ы
– Было много другого. Это что вспомнилось сразу

И, вот, скоро пройдет хакатон от Кабира Кумара в коллаборации с Apart Research на тему evals'ов. Выдержки из анонса:

What you’ll learn

– How to design a benchmark, from defining success metrics to setting up test cases and interpreting results.
– How to use existing benchmarks and apply them to real-world use cases.
– How to fine-tune models and evaluate their impact on alignment outcomes.
– How to develop adversarial test cases to identify weaknesses in current benchmarks.
– How to train a cross-coder to compare fine-tined models against their base counterparts.

What we can provide

– 10 versions of a model, all sharing the same base but trained with PPO, DPO, IPO, KPO, etc.
– Step-by-step guides for creating evals (i.e., what is it, how to run an eval, things to consider when making one, how to make one, etc.).
– Tutorials on using HHH, SALAD-Bench, MACHIAVELLI, and more.
– An introduction to Inspect, an evaluation framework by the UK AISI.

Мы с командой участвуем и вас приглашаем. Сейчас зарегистрировалось 117 человек

Детали и регистрация

🔥5🤔1

1.85K viewsAnton Zheltoukhov, edited 11:30

the hard bits

Evals at METR. Философия и практика. Елена Еричева
Запись доклада

Лена – опытный исследователь машинного обучения с более чем 10-летним опытом в биотехнологиях и медтехе. В METR занимается AI Alignment и AI Safety: исследует возможности ИИ-моделей, разрабатывает бенчмарки и проводит Blue Teaming с фокусом на безопасности. Специализируется на компьютерном зрении, NLP и эффективном применении современных LLM и VLLM. А еще ведет канал Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

В докладе она рассказала:
– С чего начинается практическое исследование в AI Safety
– Почему METR концентрируется на AI capabilities и Responsible Research
– Как METR реализует свое исследование

Запись доклада

🔥8👍2

859 viewsAnton Zheltoukhov, edited 13:19

the hard bits

Курс по теории обучения
Gergely (ALTER) и Kōshin (Monastic Academy)

Cartesian framework for learning theory, MDPs/POMDPs, Learnability, Sample complexity, Bandits, VC dimension, PAC learning

Инфрабайесианство – надстройка над теорией вероятности, которая позволяет приблизить ее свойства к реальности, не теряя математического формализма. Основная цель – решить задачу agent foundations (на сегодня считается лучшей теоретической alignment аджендой).

Дедлайн заявки 1 марта, курс начинается 17 марта

🔥2🤔2

894 viewsIuliia Levin, 21:31

the hard bits

Forwarded from AI Safety. Основы

📣 Open-call: Курс по основам AI Safety

ИИ меняет мир с безумной скоростью, но вместе с этим несет в себе серьезные риски. Задача AI Safety – позаботиться, чтобы эти изменения были положительными

Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI

📖

Программа из двух треков:
➕Учебный (4 недели): Знакомство с материалами в фасилитируемых группах
➕Проектный (7 недель): Работа с ментором нацеленная на публикацию

👥

Для кого?
➕Будущие рисечеры: ml'щики, физики, математики, программисты
➕Будущие фаундреры: предприниматели интересующиеся AI Safety

🎓

Сертификат по окончанию курса
👏 Карьерная консультация и менторское сопровождение для лучших студентов

🔫

Экспертиза менторов включает: evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability

💼 Этим курсом мы готовим людей себе в команды и в команды наших друзей по сейфти. Поэтому курс бесплатный. По этой же причине будет отбор кандидатов

🔢 Детали:
➕Очно в Москве или онлайн
➕Регистрация открыта до 21 февраля
➕Даты: 2 марта – 20 апреля
➕Нагрузка: 10-15 часов в неделю

💬 По вопросам пишите @anton_zheltoukhov

➡️

Зарегистрироваться

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤1🤮1

720 viewsAnton Zheltoukhov, 07:48

About

Blog

Apps

Platform