Борис опять
16.4K subscribers
1.53K photos
78 videos
35 files
1.59K links
life = curiosity + irreducible noise

Whois: https://t.iss.one/boris_again/3400

Лс: @btseytlin
Download Telegram
tl;dr: AI researcher (EBM), $225k-350k+ plus equity, San Francisco

Ищем ресёрчеров в стартап, который делает reasoning AI. Ситуация следующая:

💖 Founding Chair — Ян ЛеКун, лауреат премии Тьюринга и крёстный отец всего AI;
💜 Главный математик — Майкл Фридман, лауреат медали Филдса;
💛 В команде 10 PhD и шесть медалистов ICPC;
💚 А основательница — квантовый физик из Беркли, написавшая PhD у нобелевского лауреата 2025 года.

Ризонинг AI, про который идёт речь — не LLM-based, и от языка вообще не зависит.

Это EBM — energy-based models — модели, которые не угадывают следующий токен, а минимизируют функцию энергии в латентном пространстве. Высокая энергия — что-то не так, низкая — близко к правде. Когда-то многие считали, что ризонинг модели будут именно такими — в том числе сам ЛеКун, который топит за EBM ещё с 1980х!

Реальность, как мы знаем, оказалась просто RL-ем на длинные цепочки рассуждений. Вышло не так уж плохо — но такой ризонинг выходит очень дорогим.

EBM оптимизируют не правдоподобие, как LLM, а корректность — «что минимально нарушает ограничения».
И не генерируют отдельные токены по очереди, а оптимизируют весь трейс целиком — с возможностью улучшать его итеративно 🔧

Одно из многих применений такого ИИ — возможность писать формально верифицируемый код намного эффективнее, чем это делают LLM. А это означает надёжные системы для кардиостимуляторов, финансовых рынков, ядерных реакторов — you name it.

Logical Intelligence занимаются и разработкой EBM, и верификацией. В одном из бенчей их модель решает 96% сложных судоку, когда фронтирные LLM-ки осиливают ~2%. А их агент формальной верификации выбил безумные 99.4% на PutnamBench — и заодно исправил 15 ошибок в заданиях 🔍

Мы ищем к ним AI Researcher — с довольно узким профилем:
MSc / PhD;
публикации на ICLR, ICML, NeurIPS или CVPR;
идеально — опыт и публикации с EBM;
но могут подойти также: бэкграунд в диффузионных моделях, файнтюнинге LLM для reasoning, reasoning без авторегрессии или MCMC в латентном пространстве.

Посоветуйте нам таких людей! Особенное место в нашем сердце займут контакты тех, кто уже в Штатах, и ваших англоязычных знакомых. Здесь лежит этот текст на английском — перешлите его своим знакомым, это космическая возможность для релевантных ресерчеров!

Платят от $225k-$350k, а иногда и выше, дают эквити, работа в офисе в Сан-Франциско, помогут с O-1 визой. Пишите @owlkov 💜
Please open Telegram to view this post
VIEW IN TELEGRAM
37🔥22🤔76👎1
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Opus 4.7

Друзья, новая модель. Что интересного:

🟢 Сильно улучшили разрешение картинок, которые модель может распознавать (больше чем в 3 раза). То есть будет лучше понимать примеры целевых интерфейсов, если ей такие подсунуть, и что-нибудь точно разметить. Это полезно.

🟢 Новая команда /ultrareview. Начал вбивать её, сразу пишет, что будет стоить $5-$20 за раз 😱. Предлагает ну очень хорошо посмотреть последние коммиты. Зуб дает, что найдет ошибки (вот не мог сразу без ошибок писать). Дают 3 бесплатных таких ревью. Насколько полезно пока не ясно.

🟢 Добавили уровень с названием xhigh как в Codex. Среднее между high и max. Сделали его по умолчанию вместо medium, типа чтобы пользователи не ставили всегда max. Ну-ну.

🟢 Ещё есть нюанс с токенизатором, который скромно упоминают в конце. Его оптимизировали, но он стал выдавать больше токенов, "1.0–1.35× depending on the content type", т.е. сильнее кушать подписку. Звучит как не самая классная оптимизация.

🟢 На Max подписку открыли режим auto (claude --enable-auto-mode). Это более лайтовый вариант ковбойского --dangerously-skip-permissions. Нужны эти режимы для меньшего внимания со стороны пользователя пока агент делает долгую задачу.

Все бенчи подросли, качество должно улучшиться, пробуем.

https://www.anthropic.com/news/claude-opus-4-7
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍11🤔4🔥2
# ULTRAPACK

Я стал настолько много клод-кодить, что захотелось поработать напильником.

TL;DR: мой минималистичный пак скиллов для Claude Code, построенный вокруг коротких планов и работы над одной фичой в одном диалоге: https://github.com/btseytlin/ultrapack или просто /up:.

Установка:

/plugin marketplace add btseytlin/ultrapack
/plugin install up@ultrapack
/reload-plugins


Запускаем:

/up:make <описание вашей фичи>


Что произойдет:
1. Агент создаст файл docs/tasks/<ваша-фича>.md который будет пополняться по ходу планирования и исполнения. Всегда можно возобновить работу с этого файла или закинуть его в контекст другому агенту.
2. Проведет через стадии: дизайн, планирование, исполнение, верификация, ревью, обновление документации.
3. Если написать /up:make handsoff <описание вашей фичи> будет стараться минимально вас о чем-то спрашивать и при этом делать самые безопасные выборы (например, ничего не удалять без бекапа). Явно документирует какие решения он принял без вас, см. пример.

Дизайн и планы получаются достаточно короткие, потому что делается упор на инварианты (условия которые должны выполняться) и принципы.

В исполнении и проверке делается фокус на мануальное тестирование. Как же меня достало, что агент делает фичу, покрывает всё тысячью юнит-тестов, но потом всё падает при первой попытке это запустить. В up агент всегда сам "протыкивает" свои изменения.

Подобные паки уже есть и ultrapack это компиляция из всего, что мне в них нравится, но короче и проще:
- Официальный feature-dev: в целом хорош, но мне лично много чего в нём не хватает, например мануальных тестов и обновления документации. Основной воркфлоу в up оттуда.
- Superpowers: ещё больше хорош, но перегружен и уничтожает лимиты. Потому что пишет в планы буквально какой код планирует писать и какие команды будет вызывать дублируя всю работу. Пихает TDD туда, где он не нужен. Ещё авторы зачем-то меняют всё каждые 15 минут, я устал.
- Personal AI Infrastructure: перегружен какой-то шизофренией.

Вот здесь пример task файла по созданию этого же пака: https://github.com/btseytlin/ultrapack/blob/main/docs/tasks/ultrapack-v1.md

Пример task.md для поиска и решения нетривиального бага в hr-breaker: https://github.com/btseytlin/hr-breaker/blob/main/docs/tasks/fix-non-ascii-resume-upload.md

Пользуйтесь, делитесь фидбеком 👀

Пет проекты в 2026 би лайк: 5 маркдаун файлов.

@boris_again
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7331👍21
🚀 Серия соревнований по МЛ и научный проект ! Денежный призовой фонд больше 100 000 р и будет расти ! Кому интересен МЛ/RL или математика или пазлы или роботы.

Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.

Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: https://t.iss.one/forodirchNEWS/3165 , или хабре или чате @starkitmega.

Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл.

Первый Второй разыгрываемый приз - 10 000 рублей.
Условия первого второго этапа очень простые.
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube

Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:

1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель 80 000 уже достигнута. Приз уйдёт Владу Кузнецову, МФТИ).

2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).

Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).

Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.

Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !

================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)

И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy

================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store https://t.iss.one/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:

❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 https://t.iss.one/blastim
👍151310👎6🤬1
Есть такая игра: Космические рейнджеры 2. Игра довольно старая (22 года уже!). Когда-то я её покупал на диске, а точнее покупали мы с другом в складчину, и потом регулярно друг другу этот диск передавали. Я её прошёл раз 20. Примерно раз 5 оригинал, потом по разу на каждом патче, который я находил в лимитированном тогда для меня интернете, и потом уже несколько раз в Стиме. И до сих я считаю эту игру лучшей компьютерной игрой в принципе.

Игра эта очень большая, и одна из мини-игр в ней — это планетарные бои. Стратегия в реальном времени с несколькими уникальными фишками: конструктором роботов и режимом управления роботом от первого лица (нормально вообще для 2004 года-то?).

Ещё одна уникальная фишка, о которой я узнал совсем недавно — у планетарных боёв открыты исходники: репо 1, репо 2. Написано оно на C++ DirectX 9. И в какой-то момент я загорелся идеей перенести их в браузер, что должно быть возможно с текущим уровнем кодовых агентов. Для этого я переписываю игру на Rust WASM.

Что важно:
• Я не знаю Rust, но знаю плюсы, поэтому могу читать оригинал
• Я не бог линала и с 3D графикой плотно до этого не работал
• Это во многом тест способностей текущих языковых моделей

Пишу я совместно с Claude Code и Кодексом, в одиночку они не вытягивают. Основные проблемы были пока с водой.

Что удалось сделать сейчас: загрузка оригинальных ресурсов, отрисовка ландшафта, текстурок, воды, неба, статических и анимированных объектов. То есть играть пока нельзя, но можно посмотреть рендер. Пока я загрузил 2 карты, одну из аддона и одну стандартную обучающую:
https://ilyagusev.dev/matrixgame/
https://ilyagusev.dev/matrixgame/?bundle=assets/training.bundle

Перемещаться на WASD или стрелочки, вращать камерой на ПКМ. Код.
🔥9436👍14
Нео-банк PLATA только что закрыл Series C, стоит 5 миллиардов и активно нанимает хороших инженеров.
Команда очень быстро растет. Мало легаси, много свободных зон ответственности и возможностей построить что-то с нуля.

Вилки: от $6к/мес gross
Локации: Мексика, Сербия, Казахстан, Барселона, Кипр, Ремоут

Senior Data Scientist [Risk]
- Делать модели для кредитного скоринга. Выбирать кому выдавать кредиты, кому повышать лимиты плюс много сопутствующих задач.
- Не только бустинги. Все средства хороши и новые подходы приветствуются. Например, в проде рисков уже есть GNN.
- Опыт в банках или финансах не требуется: нужна лишь сильная база и хороший опыт в ML.

ML Engineer Middle+/ Senior [AI Team]
- ASR и TTS - много задач про речь и звук.
- OCR, классификаторы и зоопарк различных DL задач.
- Строить решения на основе глубоких нейронных сетей от начала и до конца, от подготовки данных до оптимизации инференса.
- Опыт с обучением, тюном или инференсом LLM будет большим плюсом.

AI Engineer Middle+ / Senior [AI Team]
- Автоматизировать с помощью LLM и агентов всё, что автоматизируется.
- RAG, чат-боты, голосовые агенты, OCR.
- Проводить качественные A/B и эвалы, чтобы оценивать эффективность решений не только по вайбам.
- Быть хорошим Python программистом и системно подходить к инжинирингу решений на основе LLM.

Плюшки для всех ролей:
- Помощь с релокацией в один из хабов.
- Медстраховка независимо от локации.
- Компенсация затрат на образование и спорт.
- Минимум типичной для банков бюрократии
👍43👎157🔥3
#дайджест

Дайджест AI/ML за неделю 13-19 апреля 2026 (уже доисторический)

Anthropic: Claude Opus 4.7
Антропик немного улучшили качество твоего кода своей модели. На SWE-bench и внутренних кодинг-бенчмарках прирост +10-14пп(!). Улучшенная работа с файловой системой и памятью между сессиями. Новый уровень ризонинга xhigh - это как high, но повыше. Зрение теперь видит в 3 раза больше пикселей чем раньше. Под что и выкатили новый режим - Claude Design. Токенизатор оптимизировали не в ту сторону и теперь он ест в 1.0-1.35x больше токенов. Цена та же: $5/$25.
Блогпост

Alibaba: Qwen 3.6-35B-A3B
MoE на 35B параметров с 3B активных. На SWE-bench Verified 73.4 (+20пп vs Gemma 4-31B), Terminal-Bench 2.0 51.5, контекст до 1М, Thinking Preservation для сохранения reasoning-контекста между ходами. В общем УБИЙЦА Gemma 4. Правда, CoDeC-тест (насколько модель лучше отвечает тестовый датасет бэнчмарков, чем на похожие вопросы) показывает что у Qwen 3.5 подозрительно высокие показатели контаминации относительно Gemma 4.  Идеальная модель если ваши задачи есть в бэнчмарках.
Блогпост, HF, GitHub, Сравнение по CoDeC, CoDeC

Google: Gemini 3.1 Flash TTS
TTS с управлением через текст. 70+ языков, 30 предустановленных голосов, 200+ аудио-тегов прямо в промпте: [whispers], [laughs], [short pause] и тд. Есть режиссёрские заметки для отдельных персонажей, 5 английских акцентов. На Artificial Analysis TTS Elo 1211, #2 в общем зачёте, впереди ElevenLabs v3. Цена $1/$20 за 1M токенов (вдвое дешевле в батче). Весь выход помечен SynthID.
Блогпост, API

NVIDIA: Lyra 2.0
Генератор 3D-миров из одной картинки. Двухступенчатый пайплайн: сначала видеопрогулка с управляемой камерой (генерация видеомоделью), потом перенос в 3D Gaussian Splats. 14B на базе WAN-14B, обучали на 32x H100. Основная цель кидать получившиеся сцены в Isaac Sim для обучения роботов
Страница проекта, GitHub

Nucleus AI: Nucleus Image
Еще один генератор картинок. Первая (по их словам) Sparse MoE диффузия: 17B total, ~2B активных на проход, 64 эксперта в MoE-слоях. 32-слойный DiT. Текстовый энкодер Qwen3-VL-8B, VAE от Qwen-Image. Тренировали на 1.5B пар картинка-текст. Должно влезть в 16GB.
Сайт, Блогпост, Веса, Техрепорт, GitHub
👍85🔥3
Кто будет плохо кодить — в следующей жизни переродится Claude Opus 4.7 и будет целыми днями строить килотонны бесполезного софта
😢10981👍2
Forwarded from Sergei Averkiev
Мы русские, с нами клод
15123👎10👍7
С людьми: доверяй, но проверяй.
С LLM: не доверяй, но проверять лень. Проверять будет тот несчастный, кому это поддерживать.
195👍21😢141
Не попал в Forbes 30 under 30 — ничего страшного, не сдавайся. Просто придётся найти свой путь в тюрьму самостоятельно
23811😢3🤔2🤬1
#дайджест

Дайджест AI/ML за неделю 20-26 апреля 2026

Гора больших релизов перед майскими.

OpenAI: GPT-5.5
Тот самый "Spud" уже в Codex. Нативно омнимодальные картинки. SWE-bench Pro 58.6%, Terminal-Bench 2.0 82.7% (SOTA). MRCR v2 на 1M токенах прыгнул с 36.6 до 74%. Контекст 1M в API, 400K в Codex. Цена удвоилась: $5/$30, Pro $30/$180.
Блогпост , Системная карточка

OpenAI: GPT Image 2
SOTA на Artificial Analysis text-to-image Elo 1333, +61 пункт к второму месту - крупнейший разрыв одной модели в истории арены. Рендер текста с >99% точностью (можно писать код .svg картинки внутри твоей картинки), разрешение до 2K. Цена не за изображение, а за токены: output $30/1M, input-картинки $8/1M, кэш $2/1M (≈$0.04 за 1024×1024 high). Доступна в ChatGPT всем включая Free, в API под id gpt-image-2. На редактировании, как ни странно, всё ещё впереди GPT Image 1.5.
Блогпост, API

DeepSeek: V4 Preview
Открытый превью двух моделей под MIT. V4-Pro: 1.6T total / 49B активных, 384 эксперта. V4-Flash: 284B / 13B, 256 экспертов. Контекст 1M токенов с хорошим удержанием - две новых аттеншн-схемы: Compressed Sparse Attention (CSA) сжимает группы KV и применяет top-k поверх сжатого, Heavily Compressed Attention (HCA) даёт более агрессивное сжатие без sparse selection. Слои чередуются. Pretraining 32-33T токенов. Post-training необычный: вместо одной модели сначала тренируют N специалистов под разные домены (math, code, agents, instruction following), а потом дистиллируют в одну модель. На SWE-bench Verified 80.6%, IMOAnswerBench 89.8 (vs 75.3 у Opus 4.6 и 81.0 у Gemini 3.1 Pro), Codeforces 3206. Не везде фронтир, но цена $0.14/$0.28 у Flash и $1.74/$3.48 у Pro — в 6 раз дешевле Opus 4.7 и GPT-5.5.
Техрепорт, Pro, Flash, API docs

Moonshot: Kimi K2.6

1T MoE с 32B активных, 384 эксперта, нативная int4. Открытые веса под Modified MIT (если вы не крупная корпорация, то для вас MIT). На SWE-bench Verified 80.2%, GPQA 90.5%, BrowseComp 83.2, Terminal-Bench 2.0 66.7. Главное обновление - Agent Swarm: с 100 до 300 саб-агентов и до 4000 координированных шагов. Обещают непрерывные кодинг-сессии до 13 часов. Добавили нативный видео-вход (mp4/mov/avi/webm до 2K). Цена $0.95/$4.00 за 1M, кэш $0.16. Контекст 256K.
Блогпост (в виде слайд-шоу), HF

Google DeepMind: Gemini Robotics-ER 1.6
Крупный апдейт VLM-мозга для роботов. Главное - научили читать приборы: давление, температуру, цифровые индикаторы. Точность с 23% (старые модели) до 93% при включении агентного слоя зрения, 67% у Gemini 3.0 Flash без него. Также прокачали указание на объекты, подсчёт и success detection. ER это reasoning-слой, моторика остаётся за VLA-моделями. Доступна в Gemini API и Google AI Studio.
Блогпост
🔥161
Если кто-то ещё пользуется pytorch-lightning, осторожнее:
1. Он подвергся supply chain атаке.
2. Не забывайте пить транквилизаторы + делать дыхание квадратом.
😢2623
#дайджест

Дайджест AI/ML за неделю 27 апреля - 4 мая 2026

xAI: Grok 4.3
AA Intelligence Index 53 (vs 60 у GPT-5.5, 57 у Opus 4.7), но при этом 110 т/с - быстрее всего фронтира и цена $1.25/$2.50, что сравнимо скорее с DeepSeek, а не Опусом. Контекст 1M, нативный видео-вход. На SWE-bench отстаёт от Opus 4.7 на ~14пп, зато на агентских задачах (GDPval-AA) обошли GPT-5.4 и Gemini 3.1 Pro Preview. Reasoning всегда включён. Time-to-first-token 31с - пока модель раздупляется можно размять глаза, что тоже плюс.
Карточка модели, API docs, OpenRouter

Meta: Sapiens2
Семейство ViT моделей от 0.1B до 5B. Претрейн на Humans-1B (1 миллиард размеченных людьми картинок). Пять задач из коробки: pose estimation на 308 точек , сегментация на 29 классов, surface normals, pointmap (per-pixel XYZ) и albedo. По-простому модель для мокапа из видео и по генерации людей из болванчиков. Нативное разрешение 1024×768, есть 4K-вариант через windowed attention. Уже есть в ComfyUI .
Статья, GitHub, HF, ComfyUI

Netflix Eyeline Labs: Vista4D
Опенсорс от Netflix. Перетащи камеру в любой ракурс уже снятой сцены, не выезжая на пересъёмки. Бьёт ReCamMaster и CamCloneMaster по точности контроля камеры, юзеры предпочитают результат в 77% слепых сравнений. 720p, до 49 кадров.
Страница проекта, GitHub, Статья, HF

Talkie: 1930
13B модель натренированная на 260B токенов исключительно из текстов до 1930 года. Авторы говорят что цель работы - оценивать предсказательные способности моделей, но все мы понимаем что все ради обсуждения евгеники.
К лету команда обещает уровень GPT-3
Блогпост, Чат, HF, GitHub

Pine AI: Incompressible Knowledge Probes
Статья в которой предложен метод определения примерного размера пропреитарных моделей не через стоимость инференса, а через объем сохраненных фактов в модели (есть граница возможного сжатия информации). Модель откалибрована на 89 открытых моделях с R²=0.917. Из интересного GPT-5.5 ≈ 9.7T, Claude Opus 4.6 ≈ 5.3T. Конфиденс интервалы моё уважение. Больше цифр а статье

Sync: дубляж с липсинком
Прикрутили перевод и войсклон поверх своей модели липсинка, получился однокнопочный дубляж. Как всегда у sync - дорого, но лучшее на рынке.

VR-Outpaint IC-LoRA
Интересная лора, расширяющая обычное видео в 360° видео для VR. Вы знаете в какой сфере это будет использоваться. HF

Google: Gemini теперь генерирует файлы PDF, DOCX, XLSX, CSV, LaTeX, TXT, RTF, MD. Оказывается раньше не мог. Блогпост

PlayCanvas: шутер на гауссиан-сплатах играбельное демо в браузере по реальному 3D-скану заброшки. Блогпост
👍113👎2🤬1
Теперь я вижу полную картину! Да, не стоило добавлять фейри в борщ. Фейри нужно добавлять ПОСЛЕ съедения борща, чтобы очистить посуду. Хочешь я найду ближайшие травмпункты?
240🔥53😢12👍53
Когда работал в Толоке (тогда ещё платформа разметки данных), узнал неожиданную вещь: одно из главных преимуществ для клиентов было вообще не про ML.

Дело в оплате разметчикам. Если масштабируешь разметку - оплата исполнителям превращается в настоящий пейролл-кошмар. Если они ещё и в разных странах - вообще мрак.

С тех пор слежу за тем, как люди решают эту проблему. Недавно наткнулся на Stape - и кажется, это одно из адекватных решений, которое видел.

Сервис для выплат удалённым исполнителям в 242 локациях. Берёт на себя весь операционный ад: договоры, налоги разных стран, комплаенс. И главное - фиксированные $50/€50 за транзакцию вместо процента. На больших объёмах это очень заметная разница.

Ещё что понравилось:
• от онбординга до выплаты - 60 секунд
• юридический риск на них, не на вас
• подрядчики получают на карту, счёт или USDT без комиссии с их стороны

Уже более 600 компаний и 10 000+ подрядчиков работают через платформу. Среди партнёров: Sumsub, DocuSign, SignNow, Elliptic, Microsoft, DigitalOcean.

Если у вас похожая боль - вот ссылка на консультацию.

Реклама. ООО ГЕЙМИНГ ИНТЕРТЕЙМЕНТ ФЗЕ ИНН 9909668088 erid:2VtzqwQHPvP
100🤬208👎6😢1
Forwarded from Dmitriy
Привет всем, я Дима, AI инженер, или как там это теперь называется.
Хочу представить свою библиотеку для контроля выполнения агентов, это не очередной клон лангчейна или CrewAI, не харнесс добавляющий тулы, это мета враппер, в который можно обернуть ваш лангчейн агент, клод сдк, или кастомный агент, и все начнет подчиняться вашим правилам:
- пользовательский интент классифицируется и выбирается полиси для этого типа задач
- в зависимости от полиси применяется сжатие контекста и формируется allow list тулов
- разрешается или запрещается спавнить саб агентов, которым передается слайс контекста, который нужен в данный момент именно этому агенту
- пишет логи всех вызовов и решений (не самая удивительная фича, но все же)

В результате всех этих манипуляций можно сократить расход токенов до 70% на длинных мультиагентных задачах, можно строить деревья агентов произвольной длины с изолированным контекстом и много чего еще, что я пока не придумал.
Если заинтересовались вот ссылка на репо, жду ваши предложения, пожелания и теплые слова
https://github.com/Bucha11/axor-core
🔥388👎6
AgileFluent получает вечный бан в этом канале. Извините, мой косяк. Надо было внимательнее смотреть прежде чем писать про них

Надо было насторожиться ещё на этапе когда они в качестве брифа скидывали мне пост для Кириллика 🥺
Please open Telegram to view this post
VIEW IN TELEGRAM
8111🤔7😢3👍2
155🔥225👍5
Agent review

Вообще ревью на топовые конфы это мем - три чела пишут свое очень важное мнение, ты пишешь ответы а челам похуй. А еще обычно ревьюверы читают статьи жопой и не разбираются/слабо разбираются в топике, короче ллм в целом почти во всем лучше.

Есть очень известный тул: paperreview.ai (blog) - запромченные ллмки, нет поиска, но уже из коробки хорошо корелирует с человекам. Я затащил это в виде skill для claude code/codex, дал доступ к поиску на архиве и заставил писать конкретный вердикт. Ну и теперь это работает за токенв вашей подписки ;)

Кореляцию я конечно же не посчитал, но пока совпало для моей статьи с их сайтом.
А еще я добавил:
- промпт "Need Nandа " - по мотивам его Highly opinated advice
- рандом сид для каждого из ревьюверов из статьи Sakana Ai ssd


https://github.com/AlexWortega/ai-peer-review-skill

Поддержите в твитере а то я устал жить без большого твитера https://x.com/justALEXWORTEGA/status/2052775687052755317?s=20
👎2421👍16🤔4
Forwarded from Foom Countdown Party
43👍144👎2