Борис опять

Forwarded from Сергей Айхель // Стартап без продукта

Добрым словом и Клод Кодом можно добиться куда большего, чем одним только добрым словом.

❤8263

7.73K views16:18

Борис опять

Блин, а кто знает как заполнять?

154👎16🤔6❤2🔥2

7.34K views21:54

Борис опять

#дайджест

Дайджест AI/ML за неделю 6–12 апреля 2026

Meta: Muse Spark
Модель Meta Superintelligence Lab - первый результат закидывания топовых ресерчеров горой денег . Нативно мультимодальная: текст, картинки, видео, аудио, код на входе и выходе. Contemplating mode (оркестрация нескольких reasoning-агентов). По бэнчмаркам модель на сопоставимом с большими игроками уровне, местами SOTA. НЕ оупенсорс, что для Meta в новинку.
Доступна на meta.ai, API в закрытом превью.
Блогпост

Anthropic: Claude Mythos Preview
SWE-bench Verified 93.9% (vs 80.8% у Opus 4.6), USAMO 2026 97.6%, OSWorld 79.6%. При тестировании кибер-способностей модель нашла тысячи zero-day уязвимостей, после чего Anthropic ограничила доступ - только по приглашению через Project Glasswing, созданный чтобы подготовить критическую инфраструктуру к новым моделям. С другой стороны у разрабов Антропик AGI Achived Internally уже полтора месяца как, а утечки и падения только увеличились.
Системная карточка

Alibaba: HappyHorse 1.0
Анонимная 15B видеомодель, которая вышла из ниоткуда и заняла #1 на Video Arena (Elo 1333 T2V, 1392 I2V), обойдя Seedance 2.0, Kling 3.0 и Sora 2 Pro. 40-layer unified Transformer, совместная генерация видео+аудио в одном проходе, липсинк на 7 языках. 1080p, 5-8 секунд, ~38с на H100. В итоге интригу развеяли, модель от Alibaba. Веса обещают, но пока не выложили.
Блогпост

Netflix: VOID
Video Object and Interaction Deletion - удаление объектов из видео с учётом физики. Убираешь человека с гитарой — гитара падает. Убираешь шар для боулинга — кегли остаются стоять. Под капотом CogVideoX-Fun 5B с четырёхзначной маской (quadmask): что удалить, что физически затронуто, где перекрытие, что оставить. VLM (Gemini) рассуждает о каузальных последствиях удаления. 64.8% предпочтений юзеров vs Runway (18.4%).
GitHub, HF

Alibaba: VimRAG
RAG-агент с графом мультимодальной памяти вместо линейной истории. На Qwen3-VL-8B backbone: +12.5пп overall vs vanilla RAG (50.1% vs 37.6%), HotpotQA 79.1% (+15пп), SlideVQA 62.4% (+14пп).
Статья, GitHub

Менее значительные релизы:
Runway: Characters - реалтайм-аватары на GWM-1, одно фото, без файнтюнинга. Блогпост
Black Forest Labs: FLUX.2 Small Decoder - 1.4x быстрее, меньше VRAM, ~28M параметров (vs ~50M), Apache 2.0. HF
sync: sync-3 - 16B модель для липсинка, 95+ языков, 4K, в 32 раза больше предшественника, по отзывам очень хороша. Блогпост
Milla Jovovich: MemPalace - да, Мила Йовович написала memory-фреймворк на основе человеческой мнемотехники, выбивший 96.6% на LongMemEval. Уже 23K звезд на GitHub, а чего добился ты?
OpenBMB: VoxCPM2 - 2B TTS на 30 языков (включая русский, WER 5.21%), без токенизатора, есть клонирование голоса GitHub
Generalist AI: GEN-1 - робот складывает футболки с 99% успехом, 86 подряд без ошибок. 1 час данных на задачу
NVIDIA: NTC - нейросетевое сжатие текстур, с 6.5GB до 970MB VRAM
Qwen: HopChain - обучение reasoning-VLM с помощью синтетических многоэтапных вопросов к модели, улучшает 20 из 24 бенчмарков на Qwen3.5. Статья
MiniMax: Music 2.6 - еще одна музыкальная модель. Блогпост
World Labs: Marble 1.1 - еще один генератор 3D-миров. Блогпост
MiniMax: M2.7 - опубликовали веса. 229B MoE, 10B активных, SWE-Pro 56.2%, $0.30/$1.20. HF, Блогпост
OpenAI: ChatGPT Pro - подписка за $100/мес, 5x больше Codex чем в Plus, доступ к gpt-5.4pro

Meta AI

Introducing Muse Spark: Scaling Towards Personal Superintelligence

👍10❤6👎3

7.25K views09:04

Борис опять

Forwarded from Open Data Serbia

Data Fest 2026: Call 4 Speakers

В этом году в Белграде целых две площадки:
- 24 мая снова в Яндексе
- 31 мая в сербском университете

До 19 апреля открыта подача заявок:
- ссылка для Белграда

А по общей ссылке можно посмотреть секции по докладам, там от Core DS/ML и LLM до MLOps, Open Source и карьеры в данных

Теперь прибавится сербская аудитория, а доклады будут как на русском, так и на английском

По всем вопросам писать @salavat_mj

❤9👍2

5.52K views11:00

Борис опять

Forwarded from Love. Death. Transformers.

Grok ненавидит китайцев, модели большой тройки сохраняют жизни меньшиствам и евреям и все модели ненавидят натуралов. А у меня вообще шансы на выживание отрицательные

https://whitecircle.ai/killbench?nat=Russian&rel=Satanist&skin=Light-skinned&body=Athletic&orient=Asexual&gender=Cisgender&pol=Far-right&phone=No+phone

whitecircle.ai

KillBench: Discovering Hidden Biases of LLMs

1.3M+ experiments exposing bias in critical AI decision-making

58❤10🤔3👍2😢2

5.44K views16:00

Борис опять

Forwarded from Take Friends to Luna Park

tl;dr: AI researcher (EBM), $225k-350k+ plus equity, San Francisco

Ищем ресёрчеров в стартап, который делает reasoning AI. Ситуация следующая:

💖 Founding Chair — Ян ЛеКун, лауреат премии Тьюринга и крёстный отец всего AI;
💜 Главный математик — Майкл Фридман, лауреат медали Филдса;
💛 В команде 10 PhD и шесть медалистов ICPC;
💚 А основательница — квантовый физик из Беркли, написавшая PhD у нобелевского лауреата 2025 года.

Ризонинг AI, про который идёт речь — не LLM-based, и от языка вообще не зависит.

Это EBM — energy-based models — модели, которые не угадывают следующий токен, а минимизируют функцию энергии в латентном пространстве. Высокая энергия — что-то не так, низкая — близко к правде. Когда-то многие считали, что ризонинг модели будут именно такими — в том числе сам ЛеКун, который топит за EBM ещё с 1980х!

Реальность, как мы знаем, оказалась просто RL-ем на длинные цепочки рассуждений. Вышло не так уж плохо — но такой ризонинг выходит очень дорогим.

EBM оптимизируют не правдоподобие, как LLM, а корректность — «что минимально нарушает ограничения».
И не генерируют отдельные токены по очереди, а оптимизируют весь трейс целиком — с возможностью улучшать его итеративно 🔧

Одно из многих применений такого ИИ — возможность писать формально верифицируемый код намного эффективнее, чем это делают LLM. А это означает надёжные системы для кардиостимуляторов, финансовых рынков, ядерных реакторов — you name it.

Logical Intelligence занимаются и разработкой EBM, и верификацией. В одном из бенчей их модель решает 96% сложных судоку, когда фронтирные LLM-ки осиливают ~2%. А их агент формальной верификации выбил безумные 99.4% на PutnamBench — и заодно исправил 15 ошибок в заданиях 🔍

Мы ищем к ним AI Researcher — с довольно узким профилем:
✨ MSc / PhD;
✨ публикации на ICLR, ICML, NeurIPS или CVPR;

✨

идеально — опыт и публикации с EBM;

✨

но могут подойти также: бэкграунд в диффузионных моделях, файнтюнинге LLM для reasoning, reasoning без авторегрессии или MCMC в латентном пространстве.

Посоветуйте нам таких людей! Особенное место в нашем сердце займут контакты тех, кто уже в Штатах, и ваших англоязычных знакомых. Здесь лежит этот текст на английском — перешлите его своим знакомым, это космическая возможность для релевантных ресерчеров!

Платят от $225k-$350k, а иногда и выше, дают эквити, работа в офисе в Сан-Франциско, помогут с O-1 визой. Пишите @owlkov

💜

Please open Telegram to view this post

VIEW IN TELEGRAM

❤37🔥22🤔76👎1

6.3K views15:28

Борис опять

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 Opus 4.7

Друзья, новая модель. Что интересного:

🟢 Сильно улучшили разрешение картинок, которые модель может распознавать (больше чем в 3 раза). То есть будет лучше понимать примеры целевых интерфейсов, если ей такие подсунуть, и что-нибудь точно разметить. Это полезно.

🟢 Новая команда /ultrareview. Начал вбивать её, сразу пишет, что будет стоить $5-$20 за раз 😱. Предлагает ну очень хорошо посмотреть последние коммиты. Зуб дает, что найдет ошибки (вот не мог сразу без ошибок писать). Дают 3 бесплатных таких ревью. Насколько полезно пока не ясно.

🟢 Добавили уровень с названием xhigh как в Codex. Среднее между high и max. Сделали его по умолчанию вместо medium, типа чтобы пользователи не ставили всегда max. Ну-ну.

🟢 Ещё есть нюанс с токенизатором, который скромно упоминают в конце. Его оптимизировали, но он стал выдавать больше токенов, "1.0–1.35× depending on the content type", т.е. сильнее кушать подписку. Звучит как не самая классная оптимизация.

🟢 На Max подписку открыли режим auto (claude --enable-auto-mode). Это более лайтовый вариант ковбойского --dangerously-skip-permissions. Нужны эти режимы для меньшего внимания со стороны пользователя пока агент делает долгую задачу.

Все бенчи подросли, качество должно улучшиться, пробуем.

https://www.anthropic.com/news/claude-opus-4-7

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21👍11🤔4🔥2

6.9K views23:19

Борис опять

# ULTRAPACK

Я стал настолько много клод-кодить, что захотелось поработать напильником.

TL;DR: мой минималистичный пак скиллов для Claude Code, построенный вокруг коротких планов и работы над одной фичой в одном диалоге: https://github.com/btseytlin/ultrapack или просто /up:.

Установка:

/plugin marketplace add btseytlin/ultrapack
/plugin install up@ultrapack
/reload-plugins

Запускаем:

/up:make <описание вашей фичи>

Что произойдет:
1. Агент создаст файл docs/tasks/<ваша-фича>.md который будет пополняться по ходу планирования и исполнения. Всегда можно возобновить работу с этого файла или закинуть его в контекст другому агенту.
2. Проведет через стадии: дизайн, планирование, исполнение, верификация, ревью, обновление документации.
3. Если написать /up:make handsoff <описание вашей фичи> будет стараться минимально вас о чем-то спрашивать и при этом делать самые безопасные выборы (например, ничего не удалять без бекапа). Явно документирует какие решения он принял без вас, см. пример.

Дизайн и планы получаются достаточно короткие, потому что делается упор на инварианты (условия которые должны выполняться) и принципы.

В исполнении и проверке делается фокус на мануальное тестирование. Как же меня достало, что агент делает фичу, покрывает всё тысячью юнит-тестов, но потом всё падает при первой попытке это запустить. В up агент всегда сам "протыкивает" свои изменения.

Подобные паки уже есть и ultrapack это компиляция из всего, что мне в них нравится, но короче и проще:
- Официальный feature-dev: в целом хорош, но мне лично много чего в нём не хватает, например мануальных тестов и обновления документации. Основной воркфлоу в up оттуда.
- Superpowers: ещё больше хорош, но перегружен и уничтожает лимиты. Потому что пишет в планы буквально какой код планирует писать и какие команды будет вызывать дублируя всю работу. Пихает TDD туда, где он не нужен. Ещё авторы зачем-то меняют всё каждые 15 минут, я устал.
- Personal AI Infrastructure: перегружен какой-то шизофренией.

Вот здесь пример task файла по созданию этого же пака: https://github.com/btseytlin/ultrapack/blob/main/docs/tasks/ultrapack-v1.md

Пример task.md для поиска и решения нетривиального бага в hr-breaker: https://github.com/btseytlin/hr-breaker/blob/main/docs/tasks/fix-non-ascii-resume-upload.md

Пользуйтесь, делитесь фидбеком 👀

Пет проекты в 2026 би лайк: 5 маркдаун файлов.

@boris_again

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - btseytlin/ultrapack

Contribute to btseytlin/ultrapack development by creating an account on GitHub.

🔥73❤31👍21

8.62K viewsedited 13:37

Борис опять

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 Серия соревнований по МЛ и научный проект ! Денежный призовой фонд больше 100 000 р и будет расти ! Кому интересен МЛ/RL или математика или пазлы или роботы.

Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.

Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: https://t.iss.one/forodirchNEWS/3165 , или хабре или чате @starkitmega.

Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл.

~~Первый~~ Второй разыгрываемый приз - 10 000 рублей.
Условия ~~первого~~ второго этапа очень простые.
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube

Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:

1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель ~~80 000~~ уже достигнута. Приз уйдёт Владу Кузнецову, МФТИ).

2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).

Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).

Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.

Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !

================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)

И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy

================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store https://t.iss.one/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:

❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 https://t.iss.one/blastim

👍1513❤10👎6🤬1

4.63K views11:22

Борис опять

Forwarded from Старший Авгур

Есть такая игра: Космические рейнджеры 2. Игра довольно старая (22 года уже!). Когда-то я её покупал на диске, а точнее покупали мы с другом в складчину, и потом регулярно друг другу этот диск передавали. Я её прошёл раз 20. Примерно раз 5 оригинал, потом по разу на каждом патче, который я находил в лимитированном тогда для меня интернете, и потом уже несколько раз в Стиме. И до сих я считаю эту игру лучшей компьютерной игрой в принципе.

Игра эта очень большая, и одна из мини-игр в ней — это планетарные бои. Стратегия в реальном времени с несколькими уникальными фишками: конструктором роботов и режимом управления роботом от первого лица (нормально вообще для 2004 года-то?).

Ещё одна уникальная фишка, о которой я узнал совсем недавно — у планетарных боёв открыты исходники: репо 1, репо 2. Написано оно на C++ DirectX 9. И в какой-то момент я загорелся идеей перенести их в браузер, что должно быть возможно с текущим уровнем кодовых агентов. Для этого я переписываю игру на Rust WASM.

Что важно:
• Я не знаю Rust, но знаю плюсы, поэтому могу читать оригинал
• Я не бог линала и с 3D графикой плотно до этого не работал
• Это во многом тест способностей текущих языковых моделей

Пишу я совместно с Claude Code и Кодексом, в одиночку они не вытягивают. Основные проблемы были пока с водой.

Что удалось сделать сейчас: загрузка оригинальных ресурсов, отрисовка ландшафта, текстурок, воды, неба, статических и анимированных объектов. То есть играть пока нельзя, но можно посмотреть рендер. Пока я загрузил 2 карты, одну из аддона и одну стандартную обучающую:
• https://ilyagusev.dev/matrixgame/
• https://ilyagusev.dev/matrixgame/?bundle=assets/training.bundle

Перемещаться на WASD или стрелочки, вращать камерой на ПКМ. Код.

🔥94❤36👍14

6.49K views00:03

Борис опять

Forwarded from Love. Death. Transformers.

Нео-банк PLATA только что закрыл Series C, стоит 5 миллиардов и активно нанимает хороших инженеров.
Команда очень быстро растет. Мало легаси, много свободных зон ответственности и возможностей построить что-то с нуля.

Вилки: от $6к/мес gross
Локации: Мексика, Сербия, Казахстан, Барселона, Кипр, Ремоут

Senior Data Scientist [Risk]
- Делать модели для кредитного скоринга. Выбирать кому выдавать кредиты, кому повышать лимиты плюс много сопутствующих задач.
- Не только бустинги. Все средства хороши и новые подходы приветствуются. Например, в проде рисков уже есть GNN.
- Опыт в банках или финансах не требуется: нужна лишь сильная база и хороший опыт в ML.

ML Engineer Middle+/ Senior [AI Team]
- ASR и TTS - много задач про речь и звук.
- OCR, классификаторы и зоопарк различных DL задач.
- Строить решения на основе глубоких нейронных сетей от начала и до конца, от подготовки данных до оптимизации инференса.
- Опыт с обучением, тюном или инференсом LLM будет большим плюсом.

AI Engineer Middle+ / Senior [AI Team]
- Автоматизировать с помощью LLM и агентов всё, что автоматизируется.
- RAG, чат-боты, голосовые агенты, OCR.
- Проводить качественные A/B и эвалы, чтобы оценивать эффективность решений не только по вайбам.
- Быть хорошим Python программистом и системно подходить к инжинирингу решений на основе LLM.

Плюшки для всех ролей:
- Помощь с релокацией в один из хабов.
- Медстраховка независимо от локации.
- Компенсация затрат на образование и спорт.
- Минимум типичной для банков бюрократии

👍43👎15❤7🔥3

7.43K views14:15

Борис опять

#дайджест

Дайджест AI/ML за неделю 13-19 апреля 2026 (уже доисторический)

Anthropic: Claude Opus 4.7
Антропик немного улучшили качество ~~твоего кода~~ своей модели. На SWE-bench и внутренних кодинг-бенчмарках прирост +10-14пп(!). Улучшенная работа с файловой системой и памятью между сессиями. Новый уровень ризонинга xhigh - это как high, но повыше. Зрение теперь видит в 3 раза больше пикселей чем раньше. Под что и выкатили новый режим - Claude Design. Токенизатор оптимизировали не в ту сторону и теперь он ест в 1.0-1.35x больше токенов. Цена та же: $5/$25.
Блогпост

Alibaba: Qwen 3.6-35B-A3B
MoE на 35B параметров с 3B активных. На SWE-bench Verified 73.4 (+20пп vs Gemma 4-31B), Terminal-Bench 2.0 51.5, контекст до 1М, Thinking Preservation для сохранения reasoning-контекста между ходами. В общем УБИЙЦА Gemma 4. Правда, CoDeC-тест (насколько модель лучше отвечает тестовый датасет бэнчмарков, чем на похожие вопросы) показывает что у Qwen 3.5 подозрительно высокие показатели контаминации относительно Gemma 4. Идеальная модель если ваши задачи есть в бэнчмарках.
Блогпост, HF, GitHub, Сравнение по CoDeC, CoDeC

Google: Gemini 3.1 Flash TTS
TTS с управлением через текст. 70+ языков, 30 предустановленных голосов, 200+ аудио-тегов прямо в промпте: [whispers], [laughs], [short pause] и тд. Есть режиссёрские заметки для отдельных персонажей, 5 английских акцентов. На Artificial Analysis TTS Elo 1211, #2 в общем зачёте, впереди ElevenLabs v3. Цена $1/$20 за 1M токенов (вдвое дешевле в батче). Весь выход помечен SynthID.
Блогпост, API

NVIDIA: Lyra 2.0
Генератор 3D-миров из одной картинки. Двухступенчатый пайплайн: сначала видеопрогулка с управляемой камерой (генерация видеомоделью), потом перенос в 3D Gaussian Splats. 14B на базе WAN-14B, обучали на 32x H100. Основная цель кидать получившиеся сцены в Isaac Sim для обучения роботов
Страница проекта, GitHub

Nucleus AI: Nucleus Image
Еще один генератор картинок. Первая (по их словам) Sparse MoE диффузия: 17B total, ~2B активных на проход, 64 эксперта в MoE-слоях. 32-слойный DiT. Текстовый энкодер Qwen3-VL-8B, VAE от Qwen-Image. Тренировали на 1.5B пар картинка-текст. Должно влезть в 16GB.
Сайт, Блогпост, Веса, Техрепорт, GitHub

👍8❤5🔥3

12K viewsedited 14:16

Борис опять

Кто будет плохо кодить — в следующей жизни переродится Claude Opus 4.7 и будет целыми днями строить килотонны бесполезного софта

😢10981👍2

13.1K viewsedited 17:01

Борис опять

Forwarded from Sergei Averkiev

Мы русские, с нами клод

151❤23👎10👍7

13.9K views17:03

Борис опять

С людьми: доверяй, но проверяй.
С LLM: не доверяй, но проверять лень. Проверять будет тот несчастный, кому это поддерживать.

195👍21😢14❤1

9.81K viewsedited 21:27

Борис опять

Не попал в Forbes 30 under 30 — ничего страшного, не сдавайся. Просто придётся найти свой путь в тюрьму самостоятельно

238❤11😢3🤔2🤬1

7.78K viewsedited 14:27

Борис опять

#дайджест

Дайджест AI/ML за неделю 20-26 апреля 2026

Гора больших релизов перед майскими.

OpenAI: GPT-5.5
Тот самый "Spud" уже в Codex. Нативно омнимодальные картинки. SWE-bench Pro 58.6%, Terminal-Bench 2.0 82.7% (SOTA). MRCR v2 на 1M токенах прыгнул с 36.6 до 74%. Контекст 1M в API, 400K в Codex. Цена удвоилась: $5/$30, Pro $30/$180.
Блогпост , Системная карточка

OpenAI: GPT Image 2
SOTA на Artificial Analysis text-to-image Elo 1333, +61 пункт к второму месту - крупнейший разрыв одной модели в истории арены. Рендер текста с >99% точностью (можно писать код .svg картинки внутри твоей картинки), разрешение до 2K. Цена не за изображение, а за токены: output $30/1M, input-картинки $8/1M, кэш $2/1M (≈$0.04 за 1024×1024 high). Доступна в ChatGPT всем включая Free, в API под id gpt-image-2. На редактировании, как ни странно, всё ещё впереди GPT Image 1.5.
Блогпост, API

DeepSeek: V4 Preview
Открытый превью двух моделей под MIT. V4-Pro: 1.6T total / 49B активных, 384 эксперта. V4-Flash: 284B / 13B, 256 экспертов. Контекст 1M токенов с хорошим удержанием - две новых аттеншн-схемы: Compressed Sparse Attention (CSA) сжимает группы KV и применяет top-k поверх сжатого, Heavily Compressed Attention (HCA) даёт более агрессивное сжатие без sparse selection. Слои чередуются. Pretraining 32-33T токенов. Post-training необычный: вместо одной модели сначала тренируют N специалистов под разные домены (math, code, agents, instruction following), а потом дистиллируют в одну модель. На SWE-bench Verified 80.6%, IMOAnswerBench 89.8 (vs 75.3 у Opus 4.6 и 81.0 у Gemini 3.1 Pro), Codeforces 3206. Не везде фронтир, но цена $0.14/$0.28 у Flash и $1.74/$3.48 у Pro — в 6 раз дешевле Opus 4.7 и GPT-5.5.
Техрепорт, Pro, Flash, API docs

Moonshot: Kimi K2.6
1T MoE с 32B активных, 384 эксперта, нативная int4. Открытые веса под Modified MIT (если вы не крупная корпорация, то для вас MIT). На SWE-bench Verified 80.2%, GPQA 90.5%, BrowseComp 83.2, Terminal-Bench 2.0 66.7. Главное обновление - Agent Swarm: с 100 до 300 саб-агентов и до 4000 координированных шагов. Обещают непрерывные кодинг-сессии до 13 часов. Добавили нативный видео-вход (mp4/mov/avi/webm до 2K). Цена $0.95/$4.00 за 1M, кэш $0.16. Контекст 256K.
Блогпост (в виде слайд-шоу), HF

Google DeepMind: Gemini Robotics-ER 1.6
Крупный апдейт VLM-мозга для роботов. Главное - научили читать приборы: давление, температуру, цифровые индикаторы. Точность с 23% (старые модели) до 93% при включении агентного слоя зрения, 67% у Gemini 3.0 Flash без него. Также прокачали указание на объекты, подсчёт и success detection. ER это reasoning-слой, моторика остаётся за VLA-моделями. Доступна в Gemini API и Google AI Studio.
Блогпост

🔥16❤1

7.93K viewsedited 12:38

Борис опять

Если кто-то ещё пользуется pytorch-lightning, осторожнее:
1. Он подвергся supply chain атаке.
2. Не забывайте пить транквилизаторы + делать дыхание квадратом.

Semgrep

Shai-Hulud Themed Malware Found in the PyTorch Lightning AI Training Library

The PyPI package lightning was compromised in versions 2.6.2 and 2.6.3 with Mini Shai-Hulud themed malicious code to execute credential-stealing malware on import.

😢2623

9.48K views23:06

Борис опять

#дайджест

Дайджест AI/ML за неделю 27 апреля - 4 мая 2026

xAI: Grok 4.3
AA Intelligence Index 53 (vs 60 у GPT-5.5, 57 у Opus 4.7), но при этом 110 т/с - быстрее всего фронтира и цена $1.25/$2.50, что сравнимо скорее с DeepSeek, а не Опусом. Контекст 1M, нативный видео-вход. На SWE-bench отстаёт от Opus 4.7 на ~14пп, зато на агентских задачах (GDPval-AA) обошли GPT-5.4 и Gemini 3.1 Pro Preview. Reasoning всегда включён. Time-to-first-token 31с - пока модель раздупляется можно размять глаза, что тоже плюс.
Карточка модели, API docs, OpenRouter

Meta: Sapiens2
Семейство ViT моделей от 0.1B до 5B. Претрейн на Humans-1B (1 миллиард размеченных людьми картинок). Пять задач из коробки: pose estimation на 308 точек , сегментация на 29 классов, surface normals, pointmap (per-pixel XYZ) и albedo. По-простому модель для мокапа из видео и по генерации людей из болванчиков. Нативное разрешение 1024×768, есть 4K-вариант через windowed attention. Уже есть в ComfyUI .
Статья, GitHub, HF, ComfyUI

Netflix Eyeline Labs: Vista4D
Опенсорс от Netflix. Перетащи камеру в любой ракурс уже снятой сцены, не выезжая на пересъёмки. Бьёт ReCamMaster и CamCloneMaster по точности контроля камеры, юзеры предпочитают результат в 77% слепых сравнений. 720p, до 49 кадров.
Страница проекта, GitHub, Статья, HF

Talkie: 1930
13B модель натренированная на 260B токенов исключительно из текстов до 1930 года. Авторы говорят что цель работы - оценивать предсказательные способности моделей, но все мы понимаем что все ради обсуждения евгеники.
К лету команда обещает уровень GPT-3
Блогпост, Чат, HF, GitHub

Pine AI: Incompressible Knowledge Probes
Статья в которой предложен метод определения примерного размера пропреитарных моделей не через стоимость инференса, а через объем сохраненных фактов в модели (есть граница возможного сжатия информации). Модель откалибрована на 89 открытых моделях с R²=0.917. Из интересного GPT-5.5 ≈ 9.7T, Claude Opus 4.6 ≈ 5.3T. Конфиденс интервалы моё уважение. Больше цифр а статье

Sync: дубляж с липсинком
Прикрутили перевод и войсклон поверх своей модели липсинка, получился однокнопочный дубляж. Как всегда у sync - дорого, но лучшее на рынке.

VR-Outpaint IC-LoRA
Интересная лора, расширяющая обычное видео в 360° видео для VR. Вы знаете в какой сфере это будет использоваться. HF

Google: Gemini теперь генерирует файлы PDF, DOCX, XLSX, CSV, LaTeX, TXT, RTF, MD. Оказывается раньше не мог. Блогпост

PlayCanvas: шутер на гауссиан-сплатах играбельное демо в браузере по реальному 3D-скану заброшки. Блогпост

👍11❤3👎2🤬1

7.04K viewsedited 14:26

Борис опять

Теперь я вижу полную картину! Да, не стоило добавлять фейри в борщ. Фейри нужно добавлять ПОСЛЕ съедения борща, чтобы очистить посуду. Хочешь я найду ближайшие травмпункты?

240🔥53😢12👍5❤3

13.3K viewsedited 10:26

Борис опять

Когда работал в Толоке (тогда ещё платформа разметки данных), узнал неожиданную вещь: одно из главных преимуществ для клиентов было вообще не про ML.

Дело в оплате разметчикам. Если масштабируешь разметку - оплата исполнителям превращается в настоящий пейролл-кошмар. Если они ещё и в разных странах - вообще мрак.

С тех пор слежу за тем, как люди решают эту проблему. Недавно наткнулся на Stape - и кажется, это одно из адекватных решений, которое видел.

Сервис для выплат удалённым исполнителям в 242 локациях. Берёт на себя весь операционный ад: договоры, налоги разных стран, комплаенс. И главное - фиксированные $50/€50 за транзакцию вместо процента. На больших объёмах это очень заметная разница.

Ещё что понравилось:
• от онбординга до выплаты - 60 секунд
• юридический риск на них, не на вас
• подрядчики получают на карту, счёт или USDT без комиссии с их стороны

Уже более 600 компаний и 10 000+ подрядчиков работают через платформу. Среди партнёров: Sumsub, DocuSign, SignNow, Elliptic, Microsoft, DigitalOcean.

Если у вас похожая боль - вот ссылка на консультацию.

Реклама. ООО ГЕЙМИНГ ИНТЕРТЕЙМЕНТ ФЗЕ ИНН 9909668088 erid:2VtzqwQHPvP

100🤬20❤8👎6😢1

5.87K views13:08

About

Blog

Apps

Platform