🌸SOTA на MLE-bench и новый скаффолд для ML агентов🌸
#nlp #про_nlp #nlp_papers
Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).
🌸Эксперименты
Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.
Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.
Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.
Протестировали
🟣 DeepSeek R1, O1, O3
🟣 AIDE, несколько типов поиска по дереву — Greedy, MCTS, Evolutionary
🌸Краткие выводы
— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.
🟣 Arxiv статья
🟣 GitHub скаффолд для ML агентов
#nlp #про_nlp #nlp_papers
Выпустили статью, как мы с коллегами исследуем различные факторы у агентов в решении ML-задач: AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
🌸TL;DR
У агентов столько вариаций, доступных тулзов, даже базовых LLM — как выбрать?
Выбирать комбинацию под задачу, в данном случае — решение ML соревнований.
Рецепт: DeepSeek, улучшенный нами AIDE с различными стратегиями поиска, оптимизированным набором операторов и тулзов — AIRA dojo (код в опенсорсе).
🌸Эксперименты
Базовая модель, скаффолд агента, набор доступных действий и тулзов и методы оценки — влияют на результат в разных комбинациях.
Оптимизировать метод поиска решения и набор действий агента под задачу — выигрышнее, чем просто тратить больше времени на поиск или тратить больше вычислительных мощностей.
Попутно сделали SOTA на MLE bench — бенчмарке OpenAI для агентов на основе Kaggle-задач. MLE bench состоит из 75 задач различной сложности, каждая в контейнере и с бейзлайном, и агентам необходимо, итерируя эксперименты, получить золото Kaggle.
Наше лучшее сочетание базовой модели, стратегии поиска и набора операторов достигает передового результата на MLE-bench lite, увеличивая вероятность получения медали на Kaggle с 39,6% до 47,7%.
Протестировали
🌸Краткие выводы
— мы сделали SOTA на ML-задачах без какого-либо изменения моделей, просто аккуратно написав фреймворк, который позволил проанализировать вклад в итоговое качество разных частей пайплайна, и тем самым вылечить некоторые явные боттлнеки в действиях агента и в поиске решений.
— у всех агентов все ещё наблюдается систематический оверфит: во время поиска решения агентами используется результат на валидации, а тестсет не доступен. При проверке оказывается, что лучшие, более общие решения в графе решений были, но на валидации показали себя хуже и выбраны не были.
— оптимизация операторов и поиска под задачу помогает гораздо сильнее, чем просто давать агенту бесконечное количество попыток / компьюта — качество базовых моделей все ещё неидеальное, поэтому в случае неограниченного количества попыток ваш субоптимальный агент все равно выйдет на плато.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34👍14❤8 3⚡2🫡2 2
🌸Стрим на Рабкоре: 20:00 мск🌸
Давно не выходила в эфир -- сегодня небольшой стрим про данные и что с ними происходит.
— ИИ-компании выиграли два очень крупных суда и по текущему решению использование данных из интернета это вполне себе fair use, разбираемся, почему
— Но есть нюанс: как это применять дальше? Разбираем DMCA, правильно первой покупки и добросовестное использование
— Антропик и Александрийская библиотека: в ходе суда над Антропиком выяснилось, что чтобы обойти копирайт, дешевле уничтожать печатные книги
— Вспоминаем Google books: новая роль архивов, библиотек и баз данных книг для открытых технологий
— заморозка регулирования ИИ на десять лет — происходит в США?
— что с делом Internet Archive?
Подключайтесь, как обычно, вопросы можно будет задавать на стриме или в комментариях под этим постом
🟣 Youtube: https://youtube.com/live/N-NOJ8NjDBs?feature=share
Давно не выходила в эфир -- сегодня небольшой стрим про данные и что с ними происходит.
— ИИ-компании выиграли два очень крупных суда и по текущему решению использование данных из интернета это вполне себе fair use, разбираемся, почему
— Но есть нюанс: как это применять дальше? Разбираем DMCA, правильно первой покупки и добросовестное использование
— Антропик и Александрийская библиотека: в ходе суда над Антропиком выяснилось, что чтобы обойти копирайт, дешевле уничтожать печатные книги
— Вспоминаем Google books: новая роль архивов, библиотек и баз данных книг для открытых технологий
— заморозка регулирования ИИ на десять лет — происходит в США?
— что с делом Internet Archive?
Подключайтесь, как обычно, вопросы можно будет задавать на стриме или в комментариях под этим постом
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Последние события в мире открытых данных и копирайта / Кали Новская
На сегодняшнем стриме с ведущей Кали Новской обсудим следующие темы:
— Meta** и Anthropic выиграли два суда и по текущему решению теперь использование пиратских данных это вполне себе fair use. Разбираемся - почему?
— Заморозка регулирования ИИ на десять…
— Meta** и Anthropic выиграли два суда и по текущему решению теперь использование пиратских данных это вполне себе fair use. Разбираемся - почему?
— Заморозка регулирования ИИ на десять…
7🔥44❤17👍10 4 3🥰2👏1
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Рабкор
🚩СТРИМ НА РАБКОРЕ
Сегодня в новом выпуске "КопиЛефт" вместе с Кали Новской будем говорить о таких темах как:
🔴Meta** и Anthropic выиграли два суда и по текущему решению теперь использование пиратских данных это вполне себе fair use. Разбираемся - почему?…
Сегодня в новом выпуске "КопиЛефт" вместе с Кали Новской будем говорить о таких темах как:
🔴Meta** и Anthropic выиграли два суда и по текущему решению теперь использование пиратских данных это вполне себе fair use. Разбираемся - почему?…
👍16🔥5 5
🌸Andrej Karpathy репостнул нашу статью про Nanogpt speedrun!
Обожаю этот проект: nanoGPT -> рекурсивный бенчмарк для самосовершенствования. Старый добрый nanoGPT продолжает радовать и удивлять :)
- Сначала я написал его как небольшой репозиторий, чтобы научить людей основам обучения GPT-шек.
- Затем он стал целью и базой для реимплементации C/CUDA в llm.c.
- Затем он был модифицирован (@kellerjordan0 и др.) в (небольшую) исследовательскую систему для LLM. Люди итеративно оптимизировали обучение, так что, например, воспроизведение производительности GPT-2 (124 МБ) занимает не 45 минут (как было изначально), а всего 3 минуты!
- Теперь идея заключается в том, чтобы использовать этот процесс оптимизации кода в качестве бенчмарка для агентов кодирования LLM. Если люди могут ускорить обучение LLM с 45 до 3 минут, насколько хорошо справятся с этим агенты LLM в различных условиях (например, с подсказками или без них и т. д.)?
И вам отличной пятницы!🥹
🟣 https://x.com/karpathy/status/1939709449956126910
Обожаю этот проект: nanoGPT -> рекурсивный бенчмарк для самосовершенствования. Старый добрый nanoGPT продолжает радовать и удивлять :)
- Сначала я написал его как небольшой репозиторий, чтобы научить людей основам обучения GPT-шек.
- Затем он стал целью и базой для реимплементации C/CUDA в llm.c.
- Затем он был модифицирован (@kellerjordan0 и др.) в (небольшую) исследовательскую систему для LLM. Люди итеративно оптимизировали обучение, так что, например, воспроизведение производительности GPT-2 (124 МБ) занимает не 45 минут (как было изначально), а всего 3 минуты!
- Теперь идея заключается в том, чтобы использовать этот процесс оптимизации кода в качестве бенчмарка для агентов кодирования LLM. Если люди могут ускорить обучение LLM с 45 до 3 минут, насколько хорошо справятся с этим агенты LLM в различных условиях (например, с подсказками или без них и т. д.)?
И вам отличной пятницы!
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤137👍33🔥22 22🥰2
Все в комментариях хотят мемотред, но что-то мало мемов накопилось, помогайте! #шитпост
🔥65😁29 23❤7👍1🍓1
🌸Вкатываемся в FAANG: реальные советы🌸
На прошлой неделе исполнился год, как я менеджер команды в Llama. За этот год мне удалось поработать с удивительно талантливыми людьми, и меня не сократили и не уволили, так что будем считать это успехом. Можете считать меня авторитетом в карьерном вопросе (или нет).
Я уже писала несколько постов про собеседования в FAANG (вот и вот), и хочется продолжить серию постами, а что собственно делать потом.
Сейчас будут софт-скилл советы о том, как вам быстро въехать на коне в новую роль — особенно если вы мидл+.
🌸1:1 и новый нетворк
Постарайтесь вытянуть на кофе и занетворкать с максимальным количеством человек. Сюда входят люди внутри вашей организации на такой же позиции, как у вас, а также техлиды, ключевые люди в принятии решений, которым в организации доверяют, и просто некоторый процент случайной выборки, чтобы лучше познакомиться. С некоторыми из них сделайте встречи регулярными (раз в месяц, раз в 2 недели), чтобы абсорбировать побольше релевантной информации о проектах. Нужно также знать меру в "деловом общении", лучше подходить к 1:1 с некоторым списком подготовленных к обсуждению вопросов, но при этом быть собой, подружиться с теми, с кем получится. Не надо сплетничать или обсуждать других людей на таких встречах.
🌸Побольше старайтесь
Очевидный совет? Напротив, вижу очень много вредных советов по типу "не старайтесь много сразу, а то начальство привыкнет и будет ожидать такого все время". Вы вполне реально соревнуетесь с коллегами в такой же роли как у вас. В компании, где есть калибровки/ stack ranking, всегда лучше, чтобы люди видели, что вы на шаг впереди. Что вам можно поручить что-то ответственное — и вы не проебете, что вы приходите, когда вас приглашают. Что вы подготовились к встрече и пришли с повесткой. Что вы заранее обсудили ключевые вопросы с участниками перед встречей и способны "договорить" между собой команды, техлидов. Все эти вещи не требуют онбординга, вы и так должны их уметь, когда приходите в новую компанию, поэтому их сразу можно начать делать хорошо.
🌸Первые победы
Попробуйте придумать небольшую победу, которую вы одержите на новом месте быстро. В течение первых недель. Победа может быть пофикшенным багом, оптимизацией, удачным экспериментом по наболевшей теме — и в идеале должна соответствовать вашему левелу, дать позитивный сигнал о вашем найме. (Описания левелов/грейдов можно найти в этом блоге).
Если ничего сразу не придумывается, то хотя бы просто проявите инициативу и возьмите на себя таску, проект, который остальные не хотят брать. И обязательно сделайте ее канонично хорошо!
🌸План на 6 месяцев
Желательно вести и заверить с руководством письменный план ожидаемых от вас результатов и как они будут измеряться, а также примерный бейзлайн. Ваша работа, как напрямую, так и косвенно, должна делать работу вашего руководителя проще. Обязательно через первые 3 месяца устройте сессию с разбором предварительных результатов и запросите обратную связь. Вы удивитесь, как много вам расскажут!
🌸Радость быть замеченным
Вы несёте ответственность за вашу visibility, проще говоря, что ваш проект получает достаточно регулярного внимания руководства и смежных команд — имейлами, постами, документами, встречами. Если вы сеньор, то раз полгода у вас может быть 1-1 с руководителем вашего руководителя. Приносите с собой хорошие новости и предложения (согласованные с вашим менеджером).
🌸Уменьшение энтропии
Чем вы сеньорнее, тем больше явных ожиданий, что вы будете уменьшать энтропию на проектах. Это может быть
— инженерная энтропия (как делать), когда вам нужно будет привести к согласию представителей разных команд (команды платформ, инфры, инфосек, тестировщики, продуктовый комитет и тд) — и обеспечивать прозрачность технических решений
— проектная энтропия (что делать), при которой вам нужно будет непосредственно сделать ставку и предложить направление работы, с которым согласятся и дадут ресурсы.
Сделать это сразу сложно, тут лучше первое время в компании наблюдать, как это делают другие.
🟣 Все! Остальное — дело техники
Теперь вы сеньор на 100 млн/год
На прошлой неделе исполнился год, как я менеджер команды в Llama. За этот год мне удалось поработать с удивительно талантливыми людьми, и меня не сократили и не уволили, так что будем считать это успехом. Можете считать меня авторитетом в карьерном вопросе (или нет).
Я уже писала несколько постов про собеседования в FAANG (вот и вот), и хочется продолжить серию постами, а что собственно делать потом.
Сейчас будут софт-скилл советы о том, как вам быстро въехать на коне в новую роль — особенно если вы мидл+.
🌸1:1 и новый нетворк
Постарайтесь вытянуть на кофе и занетворкать с максимальным количеством человек. Сюда входят люди внутри вашей организации на такой же позиции, как у вас, а также техлиды, ключевые люди в принятии решений, которым в организации доверяют, и просто некоторый процент случайной выборки, чтобы лучше познакомиться. С некоторыми из них сделайте встречи регулярными (раз в месяц, раз в 2 недели), чтобы абсорбировать побольше релевантной информации о проектах. Нужно также знать меру в "деловом общении", лучше подходить к 1:1 с некоторым списком подготовленных к обсуждению вопросов, но при этом быть собой, подружиться с теми, с кем получится. Не надо сплетничать или обсуждать других людей на таких встречах.
🌸Побольше старайтесь
Очевидный совет? Напротив, вижу очень много вредных советов по типу "не старайтесь много сразу, а то начальство привыкнет и будет ожидать такого все время". Вы вполне реально соревнуетесь с коллегами в такой же роли как у вас. В компании, где есть калибровки/ stack ranking, всегда лучше, чтобы люди видели, что вы на шаг впереди. Что вам можно поручить что-то ответственное — и вы не проебете, что вы приходите, когда вас приглашают. Что вы подготовились к встрече и пришли с повесткой. Что вы заранее обсудили ключевые вопросы с участниками перед встречей и способны "договорить" между собой команды, техлидов. Все эти вещи не требуют онбординга, вы и так должны их уметь, когда приходите в новую компанию, поэтому их сразу можно начать делать хорошо.
🌸Первые победы
Попробуйте придумать небольшую победу, которую вы одержите на новом месте быстро. В течение первых недель. Победа может быть пофикшенным багом, оптимизацией, удачным экспериментом по наболевшей теме — и в идеале должна соответствовать вашему левелу, дать позитивный сигнал о вашем найме. (Описания левелов/грейдов можно найти в этом блоге).
Если ничего сразу не придумывается, то хотя бы просто проявите инициативу и возьмите на себя таску, проект, который остальные не хотят брать. И обязательно сделайте ее канонично хорошо!
🌸План на 6 месяцев
Желательно вести и заверить с руководством письменный план ожидаемых от вас результатов и как они будут измеряться, а также примерный бейзлайн. Ваша работа, как напрямую, так и косвенно, должна делать работу вашего руководителя проще. Обязательно через первые 3 месяца устройте сессию с разбором предварительных результатов и запросите обратную связь. Вы удивитесь, как много вам расскажут!
🌸Радость быть замеченным
Вы несёте ответственность за вашу visibility, проще говоря, что ваш проект получает достаточно регулярного внимания руководства и смежных команд — имейлами, постами, документами, встречами. Если вы сеньор, то раз полгода у вас может быть 1-1 с руководителем вашего руководителя. Приносите с собой хорошие новости и предложения (согласованные с вашим менеджером).
🌸Уменьшение энтропии
Чем вы сеньорнее, тем больше явных ожиданий, что вы будете уменьшать энтропию на проектах. Это может быть
— инженерная энтропия (как делать), когда вам нужно будет привести к согласию представителей разных команд (команды платформ, инфры, инфосек, тестировщики, продуктовый комитет и тд) — и обеспечивать прозрачность технических решений
— проектная энтропия (что делать), при которой вам нужно будет непосредственно сделать ставку и предложить направление работы, с которым согласятся и дадут ресурсы.
Сделать это сразу сложно, тут лучше первое время в компании наблюдать, как это делают другие.
Теперь вы сеньор на 100 млн/год
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
🌸FAANG собеседования. Behavioral 🌸
#собеседования
За последние года два я пособесилась в десяток компаний с сильным ML, и где-то ещё десяток не очень AI-native.
🌸Мой опыт
Прошла до конца в Meta, Snapchat, Spotify, HuggingFace, несколько стартапов.…
#собеседования
За последние года два я пособесилась в десяток компаний с сильным ML, и где-то ещё десяток не очень AI-native.
🌸Мой опыт
Прошла до конца в Meta, Snapchat, Spotify, HuggingFace, несколько стартапов.…
👍101🔥62 36❤23💯4 3👎2😈1
OpenAI наконец-то выпускают ChatGPT-агента, совмещающего функционал Deep Research и Operator.
Есть терминал и коннекторы к различным источникам данных, как в Llama Index сто лет назад.
🟣 Анонс https://openai.com/index/introducing-chatgpt-agent/
🟣 System card с бенчмарками https://openai.com/index/chatgpt-agent-system-card/
Есть терминал и коннекторы к различным источникам данных, как в Llama Index сто лет назад.
Please open Telegram to view this post
VIEW IN TELEGRAM
Openai
Introducing ChatGPT agent: bridging research and action
ChatGPT now thinks and acts, proactively choosing from a toolbox of agentic skills to complete tasks for you using its own computer.
❤13🤡9 7🔥6👍5
Kali Novskaya
OpenAI наконец-то выпускают ChatGPT-агента, совмещающего функционал Deep Research и Operator. Есть терминал и коннекторы к различным источникам данных, как в Llama Index сто лет назад. 🟣 Анонс https://openai.com/index/introducing-chatgpt-agent/ 🟣 System card…
В системной карточке на этот раз только метрики safety, даже ничего нет про capabilities более детально.
Новаяэкспоненциальная высота взята😉
Новая
Please open Telegram to view this post
VIEW IN TELEGRAM
😁35 12 2