Forwarded from Take Friends to Luna Park
tl;dr: AI researcher (EBM), $225k-350k+ plus equity, San Francisco
Ищем ресёрчеров в стартап, который делает reasoning AI. Ситуация следующая:
💖 Founding Chair — Ян ЛеКун, лауреат премии Тьюринга и крёстный отец всего AI;
💜 Главный математик — Майкл Фридман, лауреат медали Филдса;
💛 В команде 10 PhD и шесть медалистов ICPC;
💚 А основательница — квантовый физик из Беркли, написавшая PhD у нобелевского лауреата 2025 года.
Ризонинг AI, про который идёт речь — не LLM-based, и от языка вообще не зависит.
Это EBM — energy-based models — модели, которые не угадывают следующий токен, а минимизируют функцию энергии в латентном пространстве. Высокая энергия — что-то не так, низкая — близко к правде. Когда-то многие считали, что ризонинг модели будут именно такими — в том числе сам ЛеКун, который топит за EBM ещё с 1980х!
Реальность, как мы знаем, оказалась просто RL-ем на длинные цепочки рассуждений. Вышло не так уж плохо — но такой ризонинг выходит очень дорогим.
EBM оптимизируют не правдоподобие, как LLM, а корректность — «что минимально нарушает ограничения».
И не генерируют отдельные токены по очереди, а оптимизируют весь трейс целиком — с возможностью улучшать его итеративно🔧
Одно из многих применений такого ИИ — возможность писать формально верифицируемый код намного эффективнее, чем это делают LLM. А это означает надёжные системы для кардиостимуляторов, финансовых рынков, ядерных реакторов — you name it.
Logical Intelligence занимаются и разработкой EBM, и верификацией. В одном из бенчей их модель решает 96% сложных судоку, когда фронтирные LLM-ки осиливают ~2%. А их агент формальной верификации выбил безумные 99.4% на PutnamBench — и заодно исправил 15 ошибок в заданиях🔍
Мы ищем к ним AI Researcher — с довольно узким профилем:
✨ MSc / PhD;
✨ публикации на ICLR, ICML, NeurIPS или CVPR;
✨ идеально — опыт и публикации с EBM;
✨ но могут подойти также: бэкграунд в диффузионных моделях, файнтюнинге LLM для reasoning, reasoning без авторегрессии или MCMC в латентном пространстве.
Посоветуйте нам таких людей! Особенное место в нашем сердце займут контакты тех, кто уже в Штатах, и ваших англоязычных знакомых. Здесь лежит этот текст на английском — перешлите его своим знакомым, это космическая возможность для релевантных ресерчеров!
Платят от $225k-$350k, а иногда и выше, дают эквити, работа в офисе в Сан-Франциско, помогут с O-1 визой. Пишите @owlkov💜
Ищем ресёрчеров в стартап, который делает reasoning AI. Ситуация следующая:
Ризонинг AI, про который идёт речь — не LLM-based, и от языка вообще не зависит.
Это EBM — energy-based models — модели, которые не угадывают следующий токен, а минимизируют функцию энергии в латентном пространстве. Высокая энергия — что-то не так, низкая — близко к правде. Когда-то многие считали, что ризонинг модели будут именно такими — в том числе сам ЛеКун, который топит за EBM ещё с 1980х!
Реальность, как мы знаем, оказалась просто RL-ем на длинные цепочки рассуждений. Вышло не так уж плохо — но такой ризонинг выходит очень дорогим.
EBM оптимизируют не правдоподобие, как LLM, а корректность — «что минимально нарушает ограничения».
И не генерируют отдельные токены по очереди, а оптимизируют весь трейс целиком — с возможностью улучшать его итеративно
Одно из многих применений такого ИИ — возможность писать формально верифицируемый код намного эффективнее, чем это делают LLM. А это означает надёжные системы для кардиостимуляторов, финансовых рынков, ядерных реакторов — you name it.
Logical Intelligence занимаются и разработкой EBM, и верификацией. В одном из бенчей их модель решает 96% сложных судоку, когда фронтирные LLM-ки осиливают ~2%. А их агент формальной верификации выбил безумные 99.4% на PutnamBench — и заодно исправил 15 ошибок в заданиях
Мы ищем к ним AI Researcher — с довольно узким профилем:
Посоветуйте нам таких людей! Особенное место в нашем сердце займут контакты тех, кто уже в Штатах, и ваших англоязычных знакомых. Здесь лежит этот текст на английском — перешлите его своим знакомым, это космическая возможность для релевантных ресерчеров!
Платят от $225k-$350k, а иногда и выше, дают эквити, работа в офисе в Сан-Франциско, помогут с O-1 визой. Пишите @owlkov
Please open Telegram to view this post
VIEW IN TELEGRAM
❤37🔥22🤔7 6👎1
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Opus 4.7
Друзья, новая модель. Что интересного:
🟢 Сильно улучшили разрешение картинок, которые модель может распознавать (больше чем в 3 раза). То есть будет лучше понимать примеры целевых интерфейсов, если ей такие подсунуть, и что-нибудь точно разметить. Это полезно.
🟢 Новая команда
🟢 Добавили уровень с названием xhigh как в Codex. Среднее между high и max. Сделали его по умолчанию вместо medium, типа чтобы пользователи не ставили всегда max. Ну-ну.
🟢 Ещё есть нюанс с токенизатором, который скромно упоминают в конце. Его оптимизировали, но он стал выдавать больше токенов, "1.0–1.35× depending on the content type", т.е. сильнее кушать подписку. Звучит как не самая классная оптимизация.
🟢 На Max подписку открыли режим auto (
Все бенчи подросли, качество должно улучшиться, пробуем.
https://www.anthropic.com/news/claude-opus-4-7
Друзья, новая модель. Что интересного:
/ultrareview. Начал вбивать её, сразу пишет, что будет стоить $5-$20 за раз 😱. Предлагает ну очень хорошо посмотреть последние коммиты. Зуб дает, что найдет ошибки (вот не мог сразу без ошибок писать). Дают 3 бесплатных таких ревью. Насколько полезно пока не ясно.claude --enable-auto-mode). Это более лайтовый вариант ковбойского --dangerously-skip-permissions. Нужны эти режимы для меньшего внимания со стороны пользователя пока агент делает долгую задачу.Все бенчи подросли, качество должно улучшиться, пробуем.
https://www.anthropic.com/news/claude-opus-4-7
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍11🤔4🔥2
# ULTRAPACK
Я стал настолько много клод-кодить, что захотелось поработать напильником.
TL;DR: мой минималистичный пак скиллов для Claude Code, построенный вокруг коротких планов и работы над одной фичой в одном диалоге: https://github.com/btseytlin/ultrapack или просто
Установка:
Запускаем:
Что произойдет:
1. Агент создаст файл
2. Проведет через стадии: дизайн, планирование, исполнение, верификация, ревью, обновление документации.
3. Если написать
Дизайн и планы получаются достаточно короткие, потому что делается упор на инварианты (условия которые должны выполняться) и принципы.
В исполнении и проверке делается фокус на мануальное тестирование. Как же меня достало, что агент делает фичу, покрывает всё тысячью юнит-тестов, но потом всё падает при первой попытке это запустить. В
Подобные паки уже есть и ultrapack это компиляция из всего, что мне в них нравится, но короче и проще:
- Официальный feature-dev: в целом хорош, но мне лично много чего в нём не хватает, например мануальных тестов и обновления документации. Основной воркфлоу в up оттуда.
- Superpowers: ещё больше хорош, но перегружен и уничтожает лимиты. Потому что пишет в планы буквально какой код планирует писать и какие команды будет вызывать дублируя всю работу. Пихает TDD туда, где он не нужен. Ещё авторы зачем-то меняют всё каждые 15 минут, я устал.
- Personal AI Infrastructure: перегружен какой-то шизофренией.
Вот здесь пример task файла по созданию этого же пака: https://github.com/btseytlin/ultrapack/blob/main/docs/tasks/ultrapack-v1.md
Пример task.md для поиска и решения нетривиального бага в hr-breaker: https://github.com/btseytlin/hr-breaker/blob/main/docs/tasks/fix-non-ascii-resume-upload.md
Пользуйтесь, делитесь фидбеком👀
Пет проекты в 2026 би лайк: 5 маркдаун файлов.
@boris_again
Я стал настолько много клод-кодить, что захотелось поработать напильником.
TL;DR: мой минималистичный пак скиллов для Claude Code, построенный вокруг коротких планов и работы над одной фичой в одном диалоге: https://github.com/btseytlin/ultrapack или просто
/up:.Установка:
/plugin marketplace add btseytlin/ultrapack
/plugin install up@ultrapack
/reload-plugins
Запускаем:
/up:make <описание вашей фичи>
Что произойдет:
1. Агент создаст файл
docs/tasks/<ваша-фича>.md который будет пополняться по ходу планирования и исполнения. Всегда можно возобновить работу с этого файла или закинуть его в контекст другому агенту.2. Проведет через стадии: дизайн, планирование, исполнение, верификация, ревью, обновление документации.
3. Если написать
/up:make handsoff <описание вашей фичи> будет стараться минимально вас о чем-то спрашивать и при этом делать самые безопасные выборы (например, ничего не удалять без бекапа). Явно документирует какие решения он принял без вас, см. пример.Дизайн и планы получаются достаточно короткие, потому что делается упор на инварианты (условия которые должны выполняться) и принципы.
В исполнении и проверке делается фокус на мануальное тестирование. Как же меня достало, что агент делает фичу, покрывает всё тысячью юнит-тестов, но потом всё падает при первой попытке это запустить. В
up агент всегда сам "протыкивает" свои изменения.Подобные паки уже есть и ultrapack это компиляция из всего, что мне в них нравится, но короче и проще:
- Официальный feature-dev: в целом хорош, но мне лично много чего в нём не хватает, например мануальных тестов и обновления документации. Основной воркфлоу в up оттуда.
- Superpowers: ещё больше хорош, но перегружен и уничтожает лимиты. Потому что пишет в планы буквально какой код планирует писать и какие команды будет вызывать дублируя всю работу. Пихает TDD туда, где он не нужен. Ещё авторы зачем-то меняют всё каждые 15 минут, я устал.
- Personal AI Infrastructure: перегружен какой-то шизофренией.
Вот здесь пример task файла по созданию этого же пака: https://github.com/btseytlin/ultrapack/blob/main/docs/tasks/ultrapack-v1.md
Пример task.md для поиска и решения нетривиального бага в hr-breaker: https://github.com/btseytlin/hr-breaker/blob/main/docs/tasks/fix-non-ascii-resume-upload.md
Пользуйтесь, делитесь фидбеком
Пет проекты в 2026 би лайк: 5 маркдаун файлов.
@boris_again
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - btseytlin/ultrapack
Contribute to btseytlin/ultrapack development by creating an account on GitHub.
🔥73❤31👍21
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 Серия соревнований по МЛ и научный проект ! Денежный призовой фонд больше 100 000 р и будет расти ! Кому интересен МЛ/RL или математика или пазлы или роботы.
Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.
Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: https://t.iss.one/forodirchNEWS/3165 , или хабре или чате @starkitmega.
Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл.
Первый Второй разыгрываемый приз - 10 000 рублей.
Условияпервого второго этапа очень простые.
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube
Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:
1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель80 000 уже достигнута. Приз уйдёт Владу Кузнецову, МФТИ).
2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).
Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).
Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.
Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !
================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)
И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy
================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store https://t.iss.one/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:
❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 https://t.iss.one/blastim
Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.
Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: https://t.iss.one/forodirchNEWS/3165 , или хабре или чате @starkitmega.
Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл.
Условия
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube
Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:
1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель
2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).
Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).
Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.
Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !
================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)
И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy
================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store https://t.iss.one/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:
❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 https://t.iss.one/blastim
👍15 13❤10👎6🤬1
Forwarded from Старший Авгур
Есть такая игра: Космические рейнджеры 2. Игра довольно старая (22 года уже!). Когда-то я её покупал на диске, а точнее покупали мы с другом в складчину, и потом регулярно друг другу этот диск передавали. Я её прошёл раз 20. Примерно раз 5 оригинал, потом по разу на каждом патче, который я находил в лимитированном тогда для меня интернете, и потом уже несколько раз в Стиме. И до сих я считаю эту игру лучшей компьютерной игрой в принципе.
Игра эта очень большая, и одна из мини-игр в ней — это планетарные бои. Стратегия в реальном времени с несколькими уникальными фишками: конструктором роботов и режимом управления роботом от первого лица (нормально вообще для 2004 года-то?).
Ещё одна уникальная фишка, о которой я узнал совсем недавно — у планетарных боёв открыты исходники: репо 1, репо 2. Написано оно на C++ DirectX 9. И в какой-то момент я загорелся идеей перенести их в браузер, что должно быть возможно с текущим уровнем кодовых агентов. Для этого я переписываю игру на Rust WASM.
Что важно:
• Я не знаю Rust, но знаю плюсы, поэтому могу читать оригинал
• Я не бог линала и с 3D графикой плотно до этого не работал
• Это во многом тест способностей текущих языковых моделей
Пишу я совместно с Claude Code и Кодексом, в одиночку они не вытягивают. Основные проблемы были пока с водой.
Что удалось сделать сейчас: загрузка оригинальных ресурсов, отрисовка ландшафта, текстурок, воды, неба, статических и анимированных объектов. То есть играть пока нельзя, но можно посмотреть рендер. Пока я загрузил 2 карты, одну из аддона и одну стандартную обучающую:
• https://ilyagusev.dev/matrixgame/
• https://ilyagusev.dev/matrixgame/?bundle=assets/training.bundle
Перемещаться на WASD или стрелочки, вращать камерой на ПКМ. Код.
Игра эта очень большая, и одна из мини-игр в ней — это планетарные бои. Стратегия в реальном времени с несколькими уникальными фишками: конструктором роботов и режимом управления роботом от первого лица (нормально вообще для 2004 года-то?).
Ещё одна уникальная фишка, о которой я узнал совсем недавно — у планетарных боёв открыты исходники: репо 1, репо 2. Написано оно на C++ DirectX 9. И в какой-то момент я загорелся идеей перенести их в браузер, что должно быть возможно с текущим уровнем кодовых агентов. Для этого я переписываю игру на Rust WASM.
Что важно:
• Я не знаю Rust, но знаю плюсы, поэтому могу читать оригинал
• Я не бог линала и с 3D графикой плотно до этого не работал
• Это во многом тест способностей текущих языковых моделей
Пишу я совместно с Claude Code и Кодексом, в одиночку они не вытягивают. Основные проблемы были пока с водой.
Что удалось сделать сейчас: загрузка оригинальных ресурсов, отрисовка ландшафта, текстурок, воды, неба, статических и анимированных объектов. То есть играть пока нельзя, но можно посмотреть рендер. Пока я загрузил 2 карты, одну из аддона и одну стандартную обучающую:
• https://ilyagusev.dev/matrixgame/
• https://ilyagusev.dev/matrixgame/?bundle=assets/training.bundle
Перемещаться на WASD или стрелочки, вращать камерой на ПКМ. Код.
🔥94❤36👍14
Forwarded from Love. Death. Transformers.
Нео-банк PLATA только что закрыл Series C, стоит 5 миллиардов и активно нанимает хороших инженеров.
Команда очень быстро растет. Мало легаси, много свободных зон ответственности и возможностей построить что-то с нуля.
Вилки: от $6к/мес gross
Локации: Мексика, Сербия, Казахстан, Барселона, Кипр, Ремоут
Senior Data Scientist [Risk]
- Делать модели для кредитного скоринга. Выбирать кому выдавать кредиты, кому повышать лимиты плюс много сопутствующих задач.
- Не только бустинги. Все средства хороши и новые подходы приветствуются. Например, в проде рисков уже есть GNN.
- Опыт в банках или финансах не требуется: нужна лишь сильная база и хороший опыт в ML.
ML Engineer Middle+/ Senior [AI Team]
- ASR и TTS - много задач про речь и звук.
- OCR, классификаторы и зоопарк различных DL задач.
- Строить решения на основе глубоких нейронных сетей от начала и до конца, от подготовки данных до оптимизации инференса.
- Опыт с обучением, тюном или инференсом LLM будет большим плюсом.
AI Engineer Middle+ / Senior [AI Team]
- Автоматизировать с помощью LLM и агентов всё, что автоматизируется.
- RAG, чат-боты, голосовые агенты, OCR.
- Проводить качественные A/B и эвалы, чтобы оценивать эффективность решений не только по вайбам.
- Быть хорошим Python программистом и системно подходить к инжинирингу решений на основе LLM.
Плюшки для всех ролей:
- Помощь с релокацией в один из хабов.
- Медстраховка независимо от локации.
- Компенсация затрат на образование и спорт.
- Минимум типичной для банков бюрократии
Команда очень быстро растет. Мало легаси, много свободных зон ответственности и возможностей построить что-то с нуля.
Вилки: от $6к/мес gross
Локации: Мексика, Сербия, Казахстан, Барселона, Кипр, Ремоут
Senior Data Scientist [Risk]
- Делать модели для кредитного скоринга. Выбирать кому выдавать кредиты, кому повышать лимиты плюс много сопутствующих задач.
- Не только бустинги. Все средства хороши и новые подходы приветствуются. Например, в проде рисков уже есть GNN.
- Опыт в банках или финансах не требуется: нужна лишь сильная база и хороший опыт в ML.
ML Engineer Middle+/ Senior [AI Team]
- ASR и TTS - много задач про речь и звук.
- OCR, классификаторы и зоопарк различных DL задач.
- Строить решения на основе глубоких нейронных сетей от начала и до конца, от подготовки данных до оптимизации инференса.
- Опыт с обучением, тюном или инференсом LLM будет большим плюсом.
AI Engineer Middle+ / Senior [AI Team]
- Автоматизировать с помощью LLM и агентов всё, что автоматизируется.
- RAG, чат-боты, голосовые агенты, OCR.
- Проводить качественные A/B и эвалы, чтобы оценивать эффективность решений не только по вайбам.
- Быть хорошим Python программистом и системно подходить к инжинирингу решений на основе LLM.
Плюшки для всех ролей:
- Помощь с релокацией в один из хабов.
- Медстраховка независимо от локации.
- Компенсация затрат на образование и спорт.
- Минимум типичной для банков бюрократии
👍43👎15❤7🔥3
#дайджест
Дайджест AI/ML за неделю 13-19 апреля 2026 (уже доисторический)
Anthropic: Claude Opus 4.7
Антропик немного улучшили качествотвоего кода своей модели. На SWE-bench и внутренних кодинг-бенчмарках прирост +10-14пп(!). Улучшенная работа с файловой системой и памятью между сессиями. Новый уровень ризонинга xhigh - это как high, но повыше. Зрение теперь видит в 3 раза больше пикселей чем раньше. Под что и выкатили новый режим - Claude Design. Токенизатор оптимизировали не в ту сторону и теперь он ест в 1.0-1.35x больше токенов. Цена та же: $5/$25.
Блогпост
Alibaba: Qwen 3.6-35B-A3B
MoE на 35B параметров с 3B активных. На SWE-bench Verified 73.4 (+20пп vs Gemma 4-31B), Terminal-Bench 2.0 51.5, контекст до 1М, Thinking Preservation для сохранения reasoning-контекста между ходами. В общем УБИЙЦА Gemma 4. Правда, CoDeC-тест (насколько модель лучше отвечает тестовый датасет бэнчмарков, чем на похожие вопросы) показывает что у Qwen 3.5 подозрительно высокие показатели контаминации относительно Gemma 4. Идеальная модель если ваши задачи есть в бэнчмарках.
Блогпост, HF, GitHub, Сравнение по CoDeC, CoDeC
Google: Gemini 3.1 Flash TTS
TTS с управлением через текст. 70+ языков, 30 предустановленных голосов, 200+ аудио-тегов прямо в промпте: [whispers], [laughs], [short pause] и тд. Есть режиссёрские заметки для отдельных персонажей, 5 английских акцентов. На Artificial Analysis TTS Elo 1211, #2 в общем зачёте, впереди ElevenLabs v3. Цена $1/$20 за 1M токенов (вдвое дешевле в батче). Весь выход помечен SynthID.
Блогпост, API
NVIDIA: Lyra 2.0
Генератор 3D-миров из одной картинки. Двухступенчатый пайплайн: сначала видеопрогулка с управляемой камерой (генерация видеомоделью), потом перенос в 3D Gaussian Splats. 14B на базе WAN-14B, обучали на 32x H100. Основная цель кидать получившиеся сцены в Isaac Sim для обучения роботов
Страница проекта, GitHub
Nucleus AI: Nucleus Image
Еще один генератор картинок. Первая (по их словам) Sparse MoE диффузия: 17B total, ~2B активных на проход, 64 эксперта в MoE-слоях. 32-слойный DiT. Текстовый энкодер Qwen3-VL-8B, VAE от Qwen-Image. Тренировали на 1.5B пар картинка-текст. Должно влезть в 16GB.
Сайт, Блогпост, Веса, Техрепорт, GitHub
Дайджест AI/ML за неделю 13-19 апреля 2026 (уже доисторический)
Anthropic: Claude Opus 4.7
Антропик немного улучшили качество
Блогпост
Alibaba: Qwen 3.6-35B-A3B
MoE на 35B параметров с 3B активных. На SWE-bench Verified 73.4 (+20пп vs Gemma 4-31B), Terminal-Bench 2.0 51.5, контекст до 1М, Thinking Preservation для сохранения reasoning-контекста между ходами. В общем УБИЙЦА Gemma 4. Правда, CoDeC-тест (насколько модель лучше отвечает тестовый датасет бэнчмарков, чем на похожие вопросы) показывает что у Qwen 3.5 подозрительно высокие показатели контаминации относительно Gemma 4. Идеальная модель если ваши задачи есть в бэнчмарках.
Блогпост, HF, GitHub, Сравнение по CoDeC, CoDeC
Google: Gemini 3.1 Flash TTS
TTS с управлением через текст. 70+ языков, 30 предустановленных голосов, 200+ аудио-тегов прямо в промпте: [whispers], [laughs], [short pause] и тд. Есть режиссёрские заметки для отдельных персонажей, 5 английских акцентов. На Artificial Analysis TTS Elo 1211, #2 в общем зачёте, впереди ElevenLabs v3. Цена $1/$20 за 1M токенов (вдвое дешевле в батче). Весь выход помечен SynthID.
Блогпост, API
NVIDIA: Lyra 2.0
Генератор 3D-миров из одной картинки. Двухступенчатый пайплайн: сначала видеопрогулка с управляемой камерой (генерация видеомоделью), потом перенос в 3D Gaussian Splats. 14B на базе WAN-14B, обучали на 32x H100. Основная цель кидать получившиеся сцены в Isaac Sim для обучения роботов
Страница проекта, GitHub
Nucleus AI: Nucleus Image
Еще один генератор картинок. Первая (по их словам) Sparse MoE диффузия: 17B total, ~2B активных на проход, 64 эксперта в MoE-слоях. 32-слойный DiT. Текстовый энкодер Qwen3-VL-8B, VAE от Qwen-Image. Тренировали на 1.5B пар картинка-текст. Должно влезть в 16GB.
Сайт, Блогпост, Веса, Техрепорт, GitHub
👍8❤5🔥3
Кто будет плохо кодить — в следующей жизни переродится Claude Opus 4.7 и будет целыми днями строить килотонны бесполезного софта
😢109 81👍2
С людьми: доверяй, но проверяй.
С LLM: не доверяй, но проверять лень. Проверять будет тот несчастный, кому это поддерживать.
С LLM: не доверяй, но проверять лень. Проверять будет тот несчастный, кому это поддерживать.
Не попал в Forbes 30 under 30 — ничего страшного, не сдавайся. Просто придётся найти свой путь в тюрьму самостоятельно
#дайджест
Дайджест AI/ML за неделю 20-26 апреля 2026
Гора больших релизов перед майскими.
OpenAI: GPT-5.5
Тот самый "Spud" уже в Codex. Нативно омнимодальные картинки. SWE-bench Pro 58.6%, Terminal-Bench 2.0 82.7% (SOTA). MRCR v2 на 1M токенах прыгнул с 36.6 до 74%. Контекст 1M в API, 400K в Codex. Цена удвоилась: $5/$30, Pro $30/$180.
Блогпост , Системная карточка
OpenAI: GPT Image 2
SOTA на Artificial Analysis text-to-image Elo 1333, +61 пункт к второму месту - крупнейший разрыв одной модели в истории арены. Рендер текста с >99% точностью (можно писать код .svg картинки внутри твоей картинки), разрешение до 2K. Цена не за изображение, а за токены: output $30/1M, input-картинки $8/1M, кэш $2/1M (≈$0.04 за 1024×1024 high). Доступна в ChatGPT всем включая Free, в API под id
Блогпост, API
DeepSeek: V4 Preview
Открытый превью двух моделей под MIT. V4-Pro: 1.6T total / 49B активных, 384 эксперта. V4-Flash: 284B / 13B, 256 экспертов. Контекст 1M токенов с хорошим удержанием - две новых аттеншн-схемы: Compressed Sparse Attention (CSA) сжимает группы KV и применяет top-k поверх сжатого, Heavily Compressed Attention (HCA) даёт более агрессивное сжатие без sparse selection. Слои чередуются. Pretraining 32-33T токенов. Post-training необычный: вместо одной модели сначала тренируют N специалистов под разные домены (math, code, agents, instruction following), а потом дистиллируют в одну модель. На SWE-bench Verified 80.6%, IMOAnswerBench 89.8 (vs 75.3 у Opus 4.6 и 81.0 у Gemini 3.1 Pro), Codeforces 3206. Не везде фронтир, но цена $0.14/$0.28 у Flash и $1.74/$3.48 у Pro — в 6 раз дешевле Opus 4.7 и GPT-5.5.
Техрепорт, Pro, Flash, API docs
Moonshot: Kimi K2.6
1T MoE с 32B активных, 384 эксперта, нативная int4. Открытые веса под Modified MIT (если вы не крупная корпорация, то для вас MIT). На SWE-bench Verified 80.2%, GPQA 90.5%, BrowseComp 83.2, Terminal-Bench 2.0 66.7. Главное обновление - Agent Swarm: с 100 до 300 саб-агентов и до 4000 координированных шагов. Обещают непрерывные кодинг-сессии до 13 часов. Добавили нативный видео-вход (mp4/mov/avi/webm до 2K). Цена $0.95/$4.00 за 1M, кэш $0.16. Контекст 256K.
Блогпост (в виде слайд-шоу), HF
Google DeepMind: Gemini Robotics-ER 1.6
Крупный апдейт VLM-мозга для роботов. Главное - научили читать приборы: давление, температуру, цифровые индикаторы. Точность с 23% (старые модели) до 93% при включении агентного слоя зрения, 67% у Gemini 3.0 Flash без него. Также прокачали указание на объекты, подсчёт и success detection. ER это reasoning-слой, моторика остаётся за VLA-моделями. Доступна в Gemini API и Google AI Studio.
Блогпост
Дайджест AI/ML за неделю 20-26 апреля 2026
Гора больших релизов перед майскими.
OpenAI: GPT-5.5
Тот самый "Spud" уже в Codex. Нативно омнимодальные картинки. SWE-bench Pro 58.6%, Terminal-Bench 2.0 82.7% (SOTA). MRCR v2 на 1M токенах прыгнул с 36.6 до 74%. Контекст 1M в API, 400K в Codex. Цена удвоилась: $5/$30, Pro $30/$180.
Блогпост , Системная карточка
OpenAI: GPT Image 2
SOTA на Artificial Analysis text-to-image Elo 1333, +61 пункт к второму месту - крупнейший разрыв одной модели в истории арены. Рендер текста с >99% точностью (можно писать код .svg картинки внутри твоей картинки), разрешение до 2K. Цена не за изображение, а за токены: output $30/1M, input-картинки $8/1M, кэш $2/1M (≈$0.04 за 1024×1024 high). Доступна в ChatGPT всем включая Free, в API под id
gpt-image-2. На редактировании, как ни странно, всё ещё впереди GPT Image 1.5.Блогпост, API
DeepSeek: V4 Preview
Открытый превью двух моделей под MIT. V4-Pro: 1.6T total / 49B активных, 384 эксперта. V4-Flash: 284B / 13B, 256 экспертов. Контекст 1M токенов с хорошим удержанием - две новых аттеншн-схемы: Compressed Sparse Attention (CSA) сжимает группы KV и применяет top-k поверх сжатого, Heavily Compressed Attention (HCA) даёт более агрессивное сжатие без sparse selection. Слои чередуются. Pretraining 32-33T токенов. Post-training необычный: вместо одной модели сначала тренируют N специалистов под разные домены (math, code, agents, instruction following), а потом дистиллируют в одну модель. На SWE-bench Verified 80.6%, IMOAnswerBench 89.8 (vs 75.3 у Opus 4.6 и 81.0 у Gemini 3.1 Pro), Codeforces 3206. Не везде фронтир, но цена $0.14/$0.28 у Flash и $1.74/$3.48 у Pro — в 6 раз дешевле Opus 4.7 и GPT-5.5.
Техрепорт, Pro, Flash, API docs
Moonshot: Kimi K2.6
1T MoE с 32B активных, 384 эксперта, нативная int4. Открытые веса под Modified MIT (если вы не крупная корпорация, то для вас MIT). На SWE-bench Verified 80.2%, GPQA 90.5%, BrowseComp 83.2, Terminal-Bench 2.0 66.7. Главное обновление - Agent Swarm: с 100 до 300 саб-агентов и до 4000 координированных шагов. Обещают непрерывные кодинг-сессии до 13 часов. Добавили нативный видео-вход (mp4/mov/avi/webm до 2K). Цена $0.95/$4.00 за 1M, кэш $0.16. Контекст 256K.
Блогпост (в виде слайд-шоу), HF
Google DeepMind: Gemini Robotics-ER 1.6
Крупный апдейт VLM-мозга для роботов. Главное - научили читать приборы: давление, температуру, цифровые индикаторы. Точность с 23% (старые модели) до 93% при включении агентного слоя зрения, 67% у Gemini 3.0 Flash без него. Также прокачали указание на объекты, подсчёт и success detection. ER это reasoning-слой, моторика остаётся за VLA-моделями. Доступна в Gemini API и Google AI Studio.
Блогпост
🔥16❤1
Если кто-то ещё пользуется pytorch-lightning, осторожнее:
1. Он подвергся supply chain атаке.
2. Не забывайте пить транквилизаторы + делать дыхание квадратом.
1. Он подвергся supply chain атаке.
2. Не забывайте пить транквилизаторы + делать дыхание квадратом.
Semgrep
Shai-Hulud Themed Malware Found in the PyTorch Lightning AI Training Library
The PyPI package lightning was compromised in versions 2.6.2 and 2.6.3 with Mini Shai-Hulud themed malicious code to execute credential-stealing malware on import.
😢26 23
#дайджест
Дайджест AI/ML за неделю 27 апреля - 4 мая 2026
xAI: Grok 4.3
AA Intelligence Index 53 (vs 60 у GPT-5.5, 57 у Opus 4.7), но при этом 110 т/с - быстрее всего фронтира и цена $1.25/$2.50, что сравнимо скорее с DeepSeek, а не Опусом. Контекст 1M, нативный видео-вход. На SWE-bench отстаёт от Opus 4.7 на ~14пп, зато на агентских задачах (GDPval-AA) обошли GPT-5.4 и Gemini 3.1 Pro Preview. Reasoning всегда включён. Time-to-first-token 31с - пока модель раздупляется можно размять глаза, что тоже плюс.
Карточка модели, API docs, OpenRouter
Meta: Sapiens2
Семейство ViT моделей от 0.1B до 5B. Претрейн на Humans-1B (1 миллиард размеченных людьми картинок). Пять задач из коробки: pose estimation на 308 точек , сегментация на 29 классов, surface normals, pointmap (per-pixel XYZ) и albedo. По-простому модель для мокапа из видео и по генерации людей из болванчиков. Нативное разрешение 1024×768, есть 4K-вариант через windowed attention. Уже есть в ComfyUI .
Статья, GitHub, HF, ComfyUI
Netflix Eyeline Labs: Vista4D
Опенсорс от Netflix. Перетащи камеру в любой ракурс уже снятой сцены, не выезжая на пересъёмки. Бьёт ReCamMaster и CamCloneMaster по точности контроля камеры, юзеры предпочитают результат в 77% слепых сравнений. 720p, до 49 кадров.
Страница проекта, GitHub, Статья, HF
Talkie: 1930
13B модель натренированная на 260B токенов исключительно из текстов до 1930 года. Авторы говорят что цель работы - оценивать предсказательные способности моделей, но все мы понимаем что все ради обсуждения евгеники.
К лету команда обещает уровень GPT-3
Блогпост, Чат, HF, GitHub
Pine AI: Incompressible Knowledge Probes
Статья в которой предложен метод определения примерного размера пропреитарных моделей не через стоимость инференса, а через объем сохраненных фактов в модели (есть граница возможного сжатия информации). Модель откалибрована на 89 открытых моделях с R²=0.917. Из интересного GPT-5.5 ≈ 9.7T, Claude Opus 4.6 ≈ 5.3T. Конфиденс интервалы моё уважение. Больше цифр а статье
Sync: дубляж с липсинком
Прикрутили перевод и войсклон поверх своей модели липсинка, получился однокнопочный дубляж. Как всегда у sync - дорого, но лучшее на рынке.
VR-Outpaint IC-LoRA
Интересная лора, расширяющая обычное видео в 360° видео для VR. Вы знаете в какой сфере это будет использоваться. HF
Google: Gemini теперь генерирует файлы PDF, DOCX, XLSX, CSV, LaTeX, TXT, RTF, MD. Оказывается раньше не мог. Блогпост
PlayCanvas: шутер на гауссиан-сплатах играбельное демо в браузере по реальному 3D-скану заброшки. Блогпост
Дайджест AI/ML за неделю 27 апреля - 4 мая 2026
xAI: Grok 4.3
AA Intelligence Index 53 (vs 60 у GPT-5.5, 57 у Opus 4.7), но при этом 110 т/с - быстрее всего фронтира и цена $1.25/$2.50, что сравнимо скорее с DeepSeek, а не Опусом. Контекст 1M, нативный видео-вход. На SWE-bench отстаёт от Opus 4.7 на ~14пп, зато на агентских задачах (GDPval-AA) обошли GPT-5.4 и Gemini 3.1 Pro Preview. Reasoning всегда включён. Time-to-first-token 31с - пока модель раздупляется можно размять глаза, что тоже плюс.
Карточка модели, API docs, OpenRouter
Meta: Sapiens2
Семейство ViT моделей от 0.1B до 5B. Претрейн на Humans-1B (1 миллиард размеченных людьми картинок). Пять задач из коробки: pose estimation на 308 точек , сегментация на 29 классов, surface normals, pointmap (per-pixel XYZ) и albedo. По-простому модель для мокапа из видео и по генерации людей из болванчиков. Нативное разрешение 1024×768, есть 4K-вариант через windowed attention. Уже есть в ComfyUI .
Статья, GitHub, HF, ComfyUI
Netflix Eyeline Labs: Vista4D
Опенсорс от Netflix. Перетащи камеру в любой ракурс уже снятой сцены, не выезжая на пересъёмки. Бьёт ReCamMaster и CamCloneMaster по точности контроля камеры, юзеры предпочитают результат в 77% слепых сравнений. 720p, до 49 кадров.
Страница проекта, GitHub, Статья, HF
Talkie: 1930
13B модель натренированная на 260B токенов исключительно из текстов до 1930 года. Авторы говорят что цель работы - оценивать предсказательные способности моделей, но все мы понимаем что все ради обсуждения евгеники.
К лету команда обещает уровень GPT-3
Блогпост, Чат, HF, GitHub
Pine AI: Incompressible Knowledge Probes
Статья в которой предложен метод определения примерного размера пропреитарных моделей не через стоимость инференса, а через объем сохраненных фактов в модели (есть граница возможного сжатия информации). Модель откалибрована на 89 открытых моделях с R²=0.917. Из интересного GPT-5.5 ≈ 9.7T, Claude Opus 4.6 ≈ 5.3T. Конфиденс интервалы моё уважение. Больше цифр а статье
Sync: дубляж с липсинком
Прикрутили перевод и войсклон поверх своей модели липсинка, получился однокнопочный дубляж. Как всегда у sync - дорого, но лучшее на рынке.
VR-Outpaint IC-LoRA
Интересная лора, расширяющая обычное видео в 360° видео для VR. Вы знаете в какой сфере это будет использоваться. HF
Google: Gemini теперь генерирует файлы PDF, DOCX, XLSX, CSV, LaTeX, TXT, RTF, MD. Оказывается раньше не мог. Блогпост
PlayCanvas: шутер на гауссиан-сплатах играбельное демо в браузере по реальному 3D-скану заброшки. Блогпост
👍11❤3👎2🤬1
Теперь я вижу полную картину! Да, не стоило добавлять фейри в борщ. Фейри нужно добавлять ПОСЛЕ съедения борща, чтобы очистить посуду. Хочешь я найду ближайшие травмпункты?
Когда работал в Толоке (тогда ещё платформа разметки данных), узнал неожиданную вещь: одно из главных преимуществ для клиентов было вообще не про ML.
Дело в оплате разметчикам. Если масштабируешь разметку - оплата исполнителям превращается в настоящий пейролл-кошмар. Если они ещё и в разных странах - вообще мрак.
С тех пор слежу за тем, как люди решают эту проблему. Недавно наткнулся на Stape - и кажется, это одно из адекватных решений, которое видел.
Сервис для выплат удалённым исполнителям в 242 локациях. Берёт на себя весь операционный ад: договоры, налоги разных стран, комплаенс. И главное - фиксированные $50/€50 за транзакцию вместо процента. На больших объёмах это очень заметная разница.
Ещё что понравилось:
• от онбординга до выплаты - 60 секунд
• юридический риск на них, не на вас
• подрядчики получают на карту, счёт или USDT без комиссии с их стороны
Уже более 600 компаний и 10 000+ подрядчиков работают через платформу. Среди партнёров: Sumsub, DocuSign, SignNow, Elliptic, Microsoft, DigitalOcean.
Если у вас похожая боль - вот ссылка на консультацию.
Реклама. ООО ГЕЙМИНГ ИНТЕРТЕЙМЕНТ ФЗЕ ИНН 9909668088 erid:2VtzqwQHPvP
Дело в оплате разметчикам. Если масштабируешь разметку - оплата исполнителям превращается в настоящий пейролл-кошмар. Если они ещё и в разных странах - вообще мрак.
С тех пор слежу за тем, как люди решают эту проблему. Недавно наткнулся на Stape - и кажется, это одно из адекватных решений, которое видел.
Сервис для выплат удалённым исполнителям в 242 локациях. Берёт на себя весь операционный ад: договоры, налоги разных стран, комплаенс. И главное - фиксированные $50/€50 за транзакцию вместо процента. На больших объёмах это очень заметная разница.
Ещё что понравилось:
• от онбординга до выплаты - 60 секунд
• юридический риск на них, не на вас
• подрядчики получают на карту, счёт или USDT без комиссии с их стороны
Уже более 600 компаний и 10 000+ подрядчиков работают через платформу. Среди партнёров: Sumsub, DocuSign, SignNow, Elliptic, Microsoft, DigitalOcean.
Если у вас похожая боль - вот ссылка на консультацию.
Forwarded from Dmitriy
Привет всем, я Дима, AI инженер, или как там это теперь называется.
Хочу представить свою библиотеку для контроля выполнения агентов, это не очередной клон лангчейна или CrewAI, не харнесс добавляющий тулы, это мета враппер, в который можно обернуть ваш лангчейн агент, клод сдк, или кастомный агент, и все начнет подчиняться вашим правилам:
- пользовательский интент классифицируется и выбирается полиси для этого типа задач
- в зависимости от полиси применяется сжатие контекста и формируется allow list тулов
- разрешается или запрещается спавнить саб агентов, которым передается слайс контекста, который нужен в данный момент именно этому агенту
- пишет логи всех вызовов и решений (не самая удивительная фича, но все же)
В результате всех этих манипуляций можно сократить расход токенов до 70% на длинных мультиагентных задачах, можно строить деревья агентов произвольной длины с изолированным контекстом и много чего еще, что я пока не придумал.
Если заинтересовались вот ссылка на репо, жду ваши предложения, пожелания и теплые слова
https://github.com/Bucha11/axor-core
Хочу представить свою библиотеку для контроля выполнения агентов, это не очередной клон лангчейна или CrewAI, не харнесс добавляющий тулы, это мета враппер, в который можно обернуть ваш лангчейн агент, клод сдк, или кастомный агент, и все начнет подчиняться вашим правилам:
- пользовательский интент классифицируется и выбирается полиси для этого типа задач
- в зависимости от полиси применяется сжатие контекста и формируется allow list тулов
- разрешается или запрещается спавнить саб агентов, которым передается слайс контекста, который нужен в данный момент именно этому агенту
- пишет логи всех вызовов и решений (не самая удивительная фича, но все же)
В результате всех этих манипуляций можно сократить расход токенов до 70% на длинных мультиагентных задачах, можно строить деревья агентов произвольной длины с изолированным контекстом и много чего еще, что я пока не придумал.
Если заинтересовались вот ссылка на репо, жду ваши предложения, пожелания и теплые слова
https://github.com/Bucha11/axor-core
GitHub
GitHub - Bucha11/axor-core: Governance kernel for agent systems with policy-based execution, context control, and traceable tool…
Governance kernel for agent systems with policy-based execution, context control, and traceable tool usage. - Bucha11/axor-core
🔥38❤8👎6
AgileFluent получает вечный бан в этом канале. Извините, мой косяк. Надо было внимательнее смотреть прежде чем писать про них
Надо было насторожиться ещё на этапе когда они в качестве брифа скидывали мне пост для Кириллика🥺
Надо было насторожиться ещё на этапе когда они в качестве брифа скидывали мне пост для Кириллика
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Love. Death. Transformers.
Agent review
Вообще ревью на топовые конфы это мем - три чела пишут свое очень важное мнение, ты пишешь ответы а челам похуй. А еще обычно ревьюверы читают статьи жопой и не разбираются/слабо разбираются в топике, короче ллм в целом почти во всем лучше.
Есть очень известный тул: paperreview.ai (blog) - запромченные ллмки, нет поиска, но уже из коробки хорошо корелирует с человекам. Я затащил это в виде skill для claude code/codex, дал доступ к поиску на архиве и заставил писать конкретный вердикт. Ну и теперь это работает за токенв вашей подписки ;)
Кореляцию я конечно же не посчитал, но пока совпало для моей статьи с их сайтом.
А еще я добавил:
- промпт "Need Nandа " - по мотивам его Highly opinated advice
- рандом сид для каждого из ревьюверов из статьи Sakana Ai ssd
https://github.com/AlexWortega/ai-peer-review-skill
Поддержите в твитере а то я устал жить без большого твитера https://x.com/justALEXWORTEGA/status/2052775687052755317?s=20
Вообще ревью на топовые конфы это мем - три чела пишут свое очень важное мнение, ты пишешь ответы а челам похуй. А еще обычно ревьюверы читают статьи жопой и не разбираются/слабо разбираются в топике, короче ллм в целом почти во всем лучше.
Есть очень известный тул: paperreview.ai (blog) - запромченные ллмки, нет поиска, но уже из коробки хорошо корелирует с человекам. Я затащил это в виде skill для claude code/codex, дал доступ к поиску на архиве и заставил писать конкретный вердикт. Ну и теперь это работает за токенв вашей подписки ;)
Кореляцию я конечно же не посчитал, но пока совпало для моей статьи с их сайтом.
А еще я добавил:
- промпт "Need Nandа " - по мотивам его Highly opinated advice
- рандом сид для каждого из ревьюверов из статьи Sakana Ai ssd
https://github.com/AlexWortega/ai-peer-review-skill
Поддержите в твитере а то я устал жить без большого твитера https://x.com/justALEXWORTEGA/status/2052775687052755317?s=20
👎24 21👍16🤔4