Осцилляции WaveCut
890 subscribers
168 photos
79 videos
134 links
Download Telegram
Еще новиночки. Zyphra представляет 🐰 ZAYA1-8B — микро MoE-модель с 8.4B параметров в сумме и примерно 760M активных. Главная фишка — в заявленной плотности мозгов на FLOP: архитектура с Compressed Convolutional Attention, новым роутером экспертов, learned residual scaling и 🥕🥕🥕 Markovian RSA, где модель как-бы крутит reasoning несколькими трассами и агрегирует результат без раздувания контекста.

Компания малоизвестная, крутится в моих чертогах разума, а в блоге у них много достижений: до этого у них были Zamba/Zamba2, гибриды Mamba + attention, Zyda/Zyda-2 датасеты и Zonos для TTS. Они давно ковыряют маленькие эффективные архитектуры, on-device сценарии, KV-cache, latency и прочие радости людей, которым больно смотреть на счета за инференс. Плюс ZAYA1-8B обучали на AMD Instinct MI300 stack, что само по себе панк.

На циферки гляжу с прищуром. Zyphra заявляет, что модель такого размера местами догоняет сильно более тяжёлых взрослых: Mistral-Small-119B, DeepSeek-R1, Gemini 2.5 Pro, Claude 4.5 Sonnet, GPT-5-High. Попахивает знатным бенч-максингом. Надо вайб-чекать руками, ну а вдруг в этот раз чутье подвело?

Hugging Face
🔥8👾2
У меня и моих друзей в Spotify появился робот-диджей. Хоть на сайте компании анонс появился еще и в феврале, видимо, европейские AI регуляции его немножко задержали в пути.
Ведёт себя как настоящий радиодиджей. Комментирует, по какому принципу отбираются треки, когда я их наиболее часто слушал, и подбрасывает новинки в селекшн.
Достаточно забавно, как будто настоящее персональное радио с личным комментатором, и совсем не навязчиво.
🔥9👍4
ds4.c - — маленький inference engine под Metal для DeepSeek V4 Flash. 💻
C/Objective-C/Metal, свои GGUF, CLI, локальный сервер с OpenAI/Anthropic-compatible API, tool calls, streaming.

Двухбитный квант влазит в Маки со 128 ГБ памяти. q4 требует 256+ GB.
На MacBook Pro M3 Max 128 GB заявлено около 26.7 ток/с на коротком prompt и 21.5 ток/с после 11.7k токенов контекста. Движок не держит модель онлайн, загружает и выгружает её между запросами почти мгновенно, используя memory mapping.

Мой товарищ поднял это на MacBook M5 Max 128 GB и великодушно записал для нас демку. У меня челюсть, честно, немного отвисла при просмотре.

Для агентов там тоже есть мясо: ds4-server умеет /v1/chat/completions, /v1/messages, SSE streaming, tool calls и оффлод KV cache на диск. Клиенты любят присылать один и тот же огромный prefix заново, а движок умеет сохранять KV на диск и переиспользовать его между запросами. В README прямо советуют на 128 GB держать контекст где-то в районе 100–300k, потому что полный 1M контекст сам по себе отъедает десятки гигабайт.

Ограничения: Metal-only, один live graph/session, параллельные запросы ждут очередь, стандартный GGUF не подсунешь, CPU path лучше не трогать — автор пугает крашем macOS kernel и сухо резюмирует: software sucks.

Счастливые обладатели жирных MacBook’ов уже могут держать фронтир DeepSeek V4 Flash локально и закрывать им ежедневные LLM-задачи без похода во внешний API. Везунчики. Остальные — продолжаем почесывать свои маленькие VRAM и делать вид, что нам нормально😎.
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
19🔥7
Forwarded from ForJest
👍112🤡1
Собрал экспериментальную ветку "три в одном" llama.cpp для Gemma 4: TurboQuant, ускоренные CUDA-кернелы и поддержку MTP.

Изначально хотелось проверить, можно ли сложить несколько свежих ускорений и получить ещё более быструю генерацию для Плотвы. TurboQuant должен помогать с толстым KV-кэшем, ускоренные кернелы — с самой Gemma 4, а MTP — заранее предсказывать следующие токены и отдавать их основной модели на проверку.

По замерам чуда не вышло. В этой конфигурации сборка лучше работает без MTP-ассистента. На RTX 3090 с Gemma 4 26B A4B IT Q4_K_M и KV-кэшем K=q8_0, V=turbo4 даёт в среднем около 113.5 ток/с. С Q4_K_M MTP-ассистентом скорость падает до ~95.3 ток/с, с F16-ассистентом — до ~61 ток/с.

На длинных генерациях принятие драфт токенов у Q4-ассистента довольно высокое. Просто сама модель-ассистент, синхронизация и проверка токенов добавляют достаточно задержки, чтобы съесть весь выигрыш. Ускоренные кернелы уже считают Gemma 4 достаточно быстро, и MTP в текущем виде не окупается.

Но сборка всё равно полезная. Даже без MTP она даёт заметно более быструю генерацию, чем ванильный llama.cpp в моём сценарии с моими размерами контекста, плюс TurboQuant-часть, которой в апстриме еще нет. В ближайшее время, скорее всего, это будет основой для локальной платформы Плотвы.

Результаты замеров и детали лежат в README в репо.
6🔥3🥰2👍1
Forwarded from Плотвозорий
🔥8🎉53😁3😱3
Я тут вам анонс принес, но это на четверг!
🔥8👍7🦄3
Мини-червь Shai-Hulud снова разошёлся по пакетным менеджерам.
Socket сейчас трекает уже 416 заражённых артефактов в npm и PyPI.

Начиналось с SAP/TanStack, дальше поехали UiPath, OpenSearch, Squawk, Guardrails, Lightning, Intercom, Mistral и пачка менее заметных пакетов.

Схематоз срабатывает при установке или импорте, подтягивает Bun runtime, запускает огромный обфусцированный JS-стилер, собирает GitHub/npm/cloud/Vault/Kubernetes/SSH/CI секреты и пытается расползаться дальше через украденные npm-токены.

Оно лезет туда, где у нас обычно лежит всё святое: GitHub Actions, npm publishing, облачные ключи, .env, Kubernetes config, Vault, AI-tool configs, .claude/settings.json, .vscode/tasks.json. То есть заражает пайплайны, лечить придется долго и аккуратно.

Отдельно про Mistral. Тут два разных вектора.
В npm-волне у Socket светятся @mistralai/mistralai, @mistralai/mistralai-azure и @mistralai/mistralai-gcp.
А рядом всплыл PyPI-пакет mistralai==2.4.6: в GitHub issue описан backdoor, который на Linux срабатывает прямо при import mistralai, качает /tmp/transformers.pyz с жёстко прописанного IP и запускает его в фоне. Название файла пытается ввести в заблуждение. “Ничего страшного, просто transformers”.


⚠️⚠️⚠️
UPD:
В последних версиях зловреда есть Dead Man Switch, который срабатывает если GitHub Token используемый для их работы просрочился, был отозван или как-то иначе стал невалидным — зловред просто делает `rm -rf ~/` на текущем зараженном инстансе.
Токен проверяется ежеминутно, т.ч. лечение от оного надо начинать именно с зачистки его активных процессов, но никак не с ротации ключей.


Если у вас в последние сутки обновлялись зависимости из этого списка — проверяйте lock-файлы и историю установок. Для подозрительных окружений нормальная реакция простая: считать машину и CI грязными, убрать заражённые версии, проверить неожиданные публикации пакетов и репозитории с описанием A Mini Shai-Hulud has Appeared, ротировать GitHub/npm/cloud/Vault/Kubernetes секреты, искать мусор вроде router_runtime.js, execution.js, /tmp/transformers.pyz, .claude/settings.json, .vscode/tasks.json.

Легкий способ бросить обновляться на свежее:
npm config set min-release-age 2


pnpm config set --location=project --json minimumReleaseAge 2880


# bunfig.toml
[install]
minimumReleaseAge = 172800


yarn config set npmMinimalAgeGate 2d


# pyproject.toml
[tool.uv]
exclude-newer = "2 days"
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍7
Осцилляции WaveCut
Мини-червь Shai-Hulud снова разошёлся по пакетным менеджерам. Socket сейчас трекает уже 416 заражённых артефактов в npm и PyPI. Начиналось с SAP/TanStack, дальше поехали UiPath, OpenSearch, Squawk, Guardrails, Lightning, Intercom, Mistral и пачка менее заметных…
⚠️⚠️⚠️ Важное дополнение по червю Shai-Hulud:

В последних версиях зловреда есть Dead Man Switch, который срабатывает если GitHub Token используемый для их работы просрочился, был отозван или как-то иначе стал невалидным — зловред просто делает rm -rf ~/ на текущем зараженном инстансе.
Токен проверяется ежеминутно, т.ч. лечение от оного надо начинать именно с зачистки его активных процессов, но никак не с ротации ключей.
Please open Telegram to view this post
VIEW IN TELEGRAM
1😱6
Забавка от NASA, где можно ввести свое имя или никнейм на английском и получить его в виде коллажа из снимков с Landsat.
🔥11
Новый убийца NVIDIA и AMD: Skymizer

Анонс PCIe-карты HTX301 для локального инференса больших моделей.

На плате 6 чипов на 384 GB LPDDR4/5, примерно 240W потребления. Обещают запускать модели до 700B параметров.

Меня тут сразу напрягает LPDDR. С одной стороны, много дешёвой памяти рядом с чипом — хорошо. С другой — LPDDR всё ещё LPDDR. Пропускная способность магическим образом не вырастет. Владельцы DGX Spark и прочил AMD Ryzen AI 395+ PRO не дадут соврать — это не сплошная радость, но еще и воз страданий.

Весть стек будет называться HyperThought. Есть проприетарный LISA (Language Instruction Set Architecture) . Они предлагают гибридную архитектуру, где есть разделение на prefill, обеспечиваемый взрослыми GPU, и decode, выполняемый на этом самом HTX301. Тем самым, видимо, они пытаются решить проблему с большими контекстами и тратами на него.

Но "700B на одной PCIe-карте при 240W на LPDDR" я пока читаю с сильно поднятой бровью. Попахивает удобрениями. Хочется увидеть что-нибудь живое, и нормальные внешние замеры.

Компания не пустышка, они давно крутятся вокруг компиляторов, LPU/IP и edge/on-prem инференса, HyperThought показывали ещё на Computex. Поэтому новость не хочется сразу списывать в мусорку.

Наблюдаем с моноклем.
6🔥1
Forwarded from эйай ньюз
JavaScript рантайм Bun, который в конце прошлого года купили Anthropic, переписали с языка Zig на Rust. У лид разработчика, при помощи Claude (вероятно Mythos), на это ушло десять дней с первого коммита. Структура кода осталась той же, так что по сути это тот же код просто на другом языке.

За процессом портирования было крайне интересно наблюдать — первый коммит попал на главную страницу Hacker News, в реакцию на что разработчик написал что ветка экспериментальная, а код на Rust вероятно выкинут. Но уже через пару дней Rust версия проходила 99,8% тестов Bun и на пути на помойку оказалась наоборот оригинальная версия на Zig.

Пока что переписанная версия находится в статусе Canary, но она заменит Zig версию она уже в следующем релизе. Причина миграции — нестабильность работы Bun, в том числе из-за багов с памятью. У новой версии нет регрессий по скорости работы, она наоборот даже местами быстрее.

@ai_newz
🔥4😱1
Осцилляции WaveCut
Я тут вам анонс принес, но это на четверг!
Слухи подтвердились: Codex теперь можно пинать с телефона.

OpenAI выкатили Codex в мобильном приложении ChatGPT. Он подключается к машине, где уже крутится Codex — ноутбук, Mac mini, devbox, удалённое окружение — и подтягивает живое состояние задач: треды, вывод терминала, диффы, скриншоты, результаты тестов, approvals.

То есть локальный проект остаётся на твоей машине, с её файлами, ключами и окружением, а телефон превращается в пульт управления. Можно выйти потрогать траву, получить вопрос от агента, разрешить команду, поменять направление, посмотреть дифф и вернуться домой к уже прожеванной задаче.

Remote SSH тоже доехал до релиза. Codex умеет ходить в управляемые удалённые окружения, а потом эти сессии доступны с авторизованных устройств через их доверенный узел. Windows-подключение к Codex app пока "coming soon", macOS уже в деле.
4🔥3🤔2😍1
Новая открытая музыкальная модель: Khala.

Скучные детали, пропускайте:
Khala генерирует песню через единую иерархию акустических токенов. 64 слоя RVQ, сначала backbone делает грубую структуру трека, потом super-resolution модель достраивает более тонкие слои, после чего декодер собирает аудио. Авторы отдельно давят на мысль, что текстово-вокальное выравнивание может появляться прямо внутри acoustic-token моделирования, без отдельного semantic-token этапа.


На слух онлайн демки звучат неожиданно годно. В гармонии и частотном спектре не слышу привычных для открытых моделей артефактов. Ноты не промахиваются мимо кассы, тембр не начинает плавать через полминуты, вокал не зажевывает как пленку на бобине (привет ровесники). По демо мне это нравится больше, чем Ace Step 1.5 XL.

Для самостоятельной сборки рекомендуют NVIDIA GPU от 24 GB VRAM, то есть 3090-класс и выше. Веса сейчас под CC BY-NC 4.0, так что запрос к ЧатДТП на коммерческую ферму генерации хитов "для мамкиных Spotify-миллионеров" отменяйте уже.

Руками не трогал, есть вероятность промышленного черри-пикинга.
В README ещё висит предупреждение, что они нашли возможную проблему, которая может сильно влиять на качество инференса и, вероятно, связана с численной точностью.

Нужен вайб-чек. Если доберусь в ближайшее время — допишу фоллоу-ап.

Демки
Код
Веса
👍41👌1