Kali Novskaya

🌸SOTA на MLE-bench и новый скаффолд для ML агентов🌸
#nlp #про_nlp #nlp_papers

Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).

🌸Эксперименты

Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.

Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.

Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.

Протестировали
🟣DeepSeek R1, O1, O3
🟣AIDE, несколько типов поиска по дереву — Greedy, MCTS, Evolutionary

🌸Краткие выводы

— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.

🟣

Arxiv статья

🟣

GitHub скаффолд для ML агентов

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥34👍14❤83⚡2🫡22

8.5K views10:01

Kali Novskaya

🌸Стрим на Рабкоре: 20:00 мск🌸

Давно не выходила в эфир -- сегодня небольшой стрим про данные и что с ними происходит.

— ИИ-компании выиграли два очень крупных суда и по текущему решению использование данных из интернета это вполне себе fair use, разбираемся, почему
— Но есть нюанс: как это применять дальше? Разбираем DMCA, правильно первой покупки и добросовестное использование
— Антропик и Александрийская библиотека: в ходе суда над Антропиком выяснилось, что чтобы обойти копирайт, дешевле уничтожать печатные книги
— Вспоминаем Google books: новая роль архивов, библиотек и баз данных книг для открытых технологий
— заморозка регулирования ИИ на десять лет — происходит в США?
— что с делом Internet Archive?

Подключайтесь, как обычно, вопросы можно будет задавать на стриме или в комментариях под этим постом

🟣Youtube: https://youtube.com/live/N-NOJ8NjDBs?feature=share

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Последние события в мире открытых данных и копирайта / Кали Новская

На сегодняшнем стриме с ведущей Кали Новской обсудим следующие темы:

— Meta** и Anthropic выиграли два суда и по текущему решению теперь использование пиратских данных это вполне себе fair use. Разбираемся - почему?
— Заморозка регулирования ИИ на десять…

7🔥44❤17👍1043🥰2👏1

11.7K views10:11

Kali Novskaya

🟣Через час начинаем! Приходите
https://t.iss.one/rabkor/18594

Please open Telegram to view this post

VIEW IN TELEGRAM

Рабкор

🚩СТРИМ НА РАБКОРЕ

Сегодня в новом выпуске "КопиЛефт" вместе с Кали Новской будем говорить о таких темах как:

🔴Meta** и Anthropic выиграли два суда и по текущему решению теперь использование пиратских данных это вполне себе fair use. Разбираемся - почему?…

👍16🔥55

6.94K views16:07

Kali Novskaya

🌸Andrej Karpathy репостнул нашу статью про Nanogpt speedrun!

Обожаю этот проект: nanoGPT -> рекурсивный бенчмарк для самосовершенствования. Старый добрый nanoGPT продолжает радовать и удивлять :)

- Сначала я написал его как небольшой репозиторий, чтобы научить людей основам обучения GPT-шек.
- Затем он стал целью и базой для реимплементации C/CUDA в llm.c.
- Затем он был модифицирован (@kellerjordan0 и др.) в (небольшую) исследовательскую систему для LLM. Люди итеративно оптимизировали обучение, так что, например, воспроизведение производительности GPT-2 (124 МБ) занимает не 45 минут (как было изначально), а всего 3 минуты!
- Теперь идея заключается в том, чтобы использовать этот процесс оптимизации кода в качестве бенчмарка для агентов кодирования LLM. Если люди могут ускорить обучение LLM с 45 до 3 минут, насколько хорошо справятся с этим агенты LLM в различных условиях (например, с подсказками или без них и т. д.)?

И вам отличной пятницы!🥹

🟣

https://x.com/karpathy/status/1939709449956126910

Please open Telegram to view this post

VIEW IN TELEGRAM

3❤137👍33🔥2222🥰2

7.45K views10:36

Kali Novskaya

Все в комментариях хотят мемотред, но что-то мало мемов накопилось, помогайте! #шитпост

🔥65😁2923❤7👍1🍓1

7.28K views09:53

Kali Novskaya

🌸Вкатываемся в FAANG: реальные советы🌸

На прошлой неделе исполнился год, как я менеджер команды в Llama. За этот год мне удалось поработать с удивительно талантливыми людьми, и меня не сократили и не уволили, так что будем считать это успехом. Можете считать меня авторитетом в карьерном вопросе (или нет).

Я уже писала несколько постов про собеседования в FAANG (вот и вот), и хочется продолжить серию постами, а что собственно делать потом.

Сейчас будут софт-скилл советы о том, как вам быстро въехать на коне в новую роль — особенно если вы мидл+.

🌸1:1 и новый нетворк

Постарайтесь вытянуть на кофе и занетворкать с максимальным количеством человек. Сюда входят люди внутри вашей организации на такой же позиции, как у вас, а также техлиды, ключевые люди в принятии решений, которым в организации доверяют, и просто некоторый процент случайной выборки, чтобы лучше познакомиться. С некоторыми из них сделайте встречи регулярными (раз в месяц, раз в 2 недели), чтобы абсорбировать побольше релевантной информации о проектах. Нужно также знать меру в "деловом общении", лучше подходить к 1:1 с некоторым списком подготовленных к обсуждению вопросов, но при этом быть собой, подружиться с теми, с кем получится. Не надо сплетничать или обсуждать других людей на таких встречах.

🌸Побольше старайтесь

Очевидный совет? Напротив, вижу очень много вредных советов по типу "не старайтесь много сразу, а то начальство привыкнет и будет ожидать такого все время". Вы вполне реально соревнуетесь с коллегами в такой же роли как у вас. В компании, где есть калибровки/ stack ranking, всегда лучше, чтобы люди видели, что вы на шаг впереди. Что вам можно поручить что-то ответственное — и вы не проебете, что вы приходите, когда вас приглашают. Что вы подготовились к встрече и пришли с повесткой. Что вы заранее обсудили ключевые вопросы с участниками перед встречей и способны "договорить" между собой команды, техлидов. Все эти вещи не требуют онбординга, вы и так должны их уметь, когда приходите в новую компанию, поэтому их сразу можно начать делать хорошо.

🌸Первые победы

Попробуйте придумать небольшую победу, которую вы одержите на новом месте быстро. В течение первых недель. Победа может быть пофикшенным багом, оптимизацией, удачным экспериментом по наболевшей теме — и в идеале должна соответствовать вашему левелу, дать позитивный сигнал о вашем найме. (Описания левелов/грейдов можно найти в этом блоге).
Если ничего сразу не придумывается, то хотя бы просто проявите инициативу и возьмите на себя таску, проект, который остальные не хотят брать. И обязательно сделайте ее канонично хорошо!

🌸План на 6 месяцев

Желательно вести и заверить с руководством письменный план ожидаемых от вас результатов и как они будут измеряться, а также примерный бейзлайн. Ваша работа, как напрямую, так и косвенно, должна делать работу вашего руководителя проще. Обязательно через первые 3 месяца устройте сессию с разбором предварительных результатов и запросите обратную связь. Вы удивитесь, как много вам расскажут!

🌸Радость быть замеченным

Вы несёте ответственность за вашу visibility, проще говоря, что ваш проект получает достаточно регулярного внимания руководства и смежных команд — имейлами, постами, документами, встречами. Если вы сеньор, то раз полгода у вас может быть 1-1 с руководителем вашего руководителя. Приносите с собой хорошие новости и предложения (согласованные с вашим менеджером).

🌸Уменьшение энтропии

Чем вы сеньорнее, тем больше явных ожиданий, что вы будете уменьшать энтропию на проектах. Это может быть
— инженерная энтропия (как делать), когда вам нужно будет привести к согласию представителей разных команд (команды платформ, инфры, инфосек, тестировщики, продуктовый комитет и тд) — и обеспечивать прозрачность технических решений
— проектная энтропия (что делать), при которой вам нужно будет непосредственно сделать ставку и предложить направление работы, с которым согласятся и дадут ресурсы.
Сделать это сразу сложно, тут лучше первое время в компании наблюдать, как это делают другие.

🟣Все! Остальное — дело техники
Теперь вы сеньор на 100 млн/год

Please open Telegram to view this post

VIEW IN TELEGRAM

Kali Novskaya

🌸FAANG собеседования. Behavioral 🌸
#собеседования

За последние года два я пособесилась в десяток компаний с сильным ML, и где-то ещё десяток не очень AI-native.

🌸Мой опыт
Прошла до конца в Meta, Snapchat, Spotify, HuggingFace, несколько стартапов.…

👍101🔥6236❤23💯43👎2😈1

7.82K viewsedited 11:11

Kali Novskaya

OpenAI наконец-то выпускают ChatGPT-агента, совмещающего функционал Deep Research и Operator.
Есть терминал и коннекторы к различным источникам данных, как в Llama Index сто лет назад.

🟣Анонс https://openai.com/index/introducing-chatgpt-agent/
🟣System card с бенчмарками https://openai.com/index/chatgpt-agent-system-card/

Please open Telegram to view this post

VIEW IN TELEGRAM

Openai

Introducing ChatGPT agent: bridging research and action

ChatGPT now thinks and acts, proactively choosing from a toolbox of agentic skills to complete tasks for you using its own computer.

❤13🤡97🔥6👍5

3.86K viewsedited 20:36

Kali Novskaya

OpenAI наконец-то выпускают ChatGPT-агента, совмещающего функционал Deep Research и Operator. Есть терминал и коннекторы к различным источникам данных, как в Llama Index сто лет назад. 🟣Анонс https://openai.com/index/introducing-chatgpt-agent/ 🟣System card…

В системной карточке на этот раз только метрики safety, даже ничего нет про capabilities более детально.
Новая ~~экспоненциальная~~ высота взята😉

Please open Telegram to view this post

VIEW IN TELEGRAM