Nano Banana 2 (Gemini 3.1 Flash Image):
1. Улучшенное знание мира
2. Апгрейд рендера текста в картинках
3. Консистентность персонажей (до 5 персонажей и 14 объектов)
4. Лучшая поддержка соотношений сторон и разрешений (до 4k)
5. Улучшенное качество и детализация при быстрой генерации
🔗 blog.google/innovation-and-ai/technology/ai/nano-banana-2/
#AudioVisualGenAI #Gemini #Google
1. Улучшенное знание мира
2. Апгрейд рендера текста в картинках
3. Консистентность персонажей (до 5 персонажей и 14 объектов)
4. Лучшая поддержка соотношений сторон и разрешений (до 4k)
5. Улучшенное качество и детализация при быстрой генерации
🔗 blog.google/innovation-and-ai/technology/ai/nano-banana-2/
#AudioVisualGenAI #Gemini #Google
Google
Nano Banana 2: Combining Pro capabilities with lightning-fast speed
Our latest image generation model offers advanced world knowledge, production-ready specs, subject consistency and more, all at Flash speed.
This media is not supported in your browser
VIEW IN TELEGRAM
Production-ready реализация InvisPose — системы детального распознавания поз человека на базе Wi-Fi, которая позволяет в реальном времени отслеживать движения всего тела сквозь стены, используя обычные mesh-роутеры.
* Основа технологии: анализ данных о состоянии канала Wi-Fi (CSI — Channel State Information) для точного моделирования позы (DensePose) без использования камер.
* Производительность: Задержка менее 50 мс при выдаче 30 кадров в секунду. Поддерживается одновременное отслеживание до 10 человек.
* Аналитика: Система умеет распознавать падения, различные виды активности, а также считывать частоту дыхания.
🔗 github.com/ruvnet/wifi-densepose
#Cyberpunk #Future #Hardware
* Основа технологии: анализ данных о состоянии канала Wi-Fi (CSI — Channel State Information) для точного моделирования позы (DensePose) без использования камер.
* Производительность: Задержка менее 50 мс при выдаче 30 кадров в секунду. Поддерживается одновременное отслеживание до 10 человек.
* Аналитика: Система умеет распознавать падения, различные виды активности, а также считывать частоту дыхания.
🔗 github.com/ruvnet/wifi-densepose
#Cyberpunk #Future #Hardware
Анонимный телеграм-канал
https://www.youtube.com/watch?v=2PWFj50DcZU
И смех и грех:
Сообщают, что Мета приобрела тот самый Moltbook, и наняла её создателей, Мэтта Шлихта и Бена Парра для работы в Meta Superintelligence Labs.
🔗 theregister.com/2026/03/10/ai_nonsense_finds_new_home
#AIslop #Cyberpunk #LLM #Meta
Сообщают, что Мета приобрела тот самый Moltbook, и наняла её создателей, Мэтта Шлихта и Бена Парра для работы в Meta Superintelligence Labs.
🔗 theregister.com/2026/03/10/ai_nonsense_finds_new_home
#AIslop #Cyberpunk #LLM #Meta
The Register
AI nonsense finds new home as Meta acquires Moltbook
: Think it's hard to tell bot from human on Facebook now?
Nvidia в последующие 5 лет потратит 26 миллиардов долларов на разработку собственных LLM с открытыми весами. Естественно, хорошо оптимизированные для инференса на оборудовании Nvidia. Учитывая что она же его и производит и строит датацентры, а также первые успехи с Nemotron, идея «вертикальной интеграции» витала в воздухе.
В недалеком будущем «поставщик железа и драйверов к нему» может стать вполне себе монструозным провайдером, который потеснит OpenAI и Anthropic.
P.S. Кстати о моделях с открытыми весами, Nvidia (build.nvidia.com) весьма щедро раздает бесплатные GLM-4.7/Kimi K2.5 и другие до 40 rpm, если вдруг кому надо.
🔗 wired.com/story/nvidia-investing-26-billion-open-source-models
В недалеком будущем «поставщик железа и драйверов к нему» может стать вполне себе монструозным провайдером, который потеснит OpenAI и Anthropic.
P.S. Кстати о моделях с открытыми весами, Nvidia (build.nvidia.com) весьма щедро раздает бесплатные GLM-4.7/Kimi K2.5 и другие до 40 rpm, если вдруг кому надо.
🔗 wired.com/story/nvidia-investing-26-billion-open-source-models
Замечаю, как OpenCode и прочие «инструментальные слои для LLM» медленно проникают во все, что делаешь, даже далеко за пределами написания кода.
Некоторое время уже пишу скрипты и управляю удаленными ssh-хостами через простые текстовые запросы, типа «прочитай базу знаний по инфраструктуре в текущей папке и подними Jellyfin в докере на этом хосте», все магическим образом поднимается без муторной возни с Ansible. Или «почитай логи там-то и выясни что случилось».
Также «общаюсь» со своими заметками в Obsidian, которые давно попросил модель правильно систематизировать и слинковать ссылками и тегами между собой.
А на днях я «оцифровал» и потом вычитал семейные медицинские документы переведя их в «машиночитаемый» md (включая текстовое описание снимков и графиков и отлично распознанный всратый врачебный почерк), результаты анализов, направления, справки.
Попросил GPT-5.4 сформировать большой таймлайн и индекс со ссылками на конкретные документы. В итоге нашлись важные результаты анализов, которые затерялись в бумажном виде, нашлась важная справка, которую забыли забрать из медучреждения, обнаружились косяки в лечении, которые замылились из-за того, что большой массив бюрократического текста трудно держать в голове.
Теперь можно задавать вопросы прямо в OpenCode по текущему состоянию, делать короткие отчеты/истории болезни для врачей на любом языке за 5 секунд, просить советы, узнавать что можно чего нельзя, спрашивать какие тесты надо сдать прямо сейчас, добавлять новые сведения и анализы (опять же, на любом языке) — модель загружает все в контекст за раз, т.к. это крохи по сравнению даже с небольшой кодобазой, и отвечает намного точнее, автоматом учитывая всю текущую картину и все произошедшее ранее.
Удивительно, насколько инструменты для «вайбкодинга» могут применяться как тулинговые обвязки для простого общения с данными и внешним миром с системой разрешений поверх.
Это, конечно, не так красиво и YOLO-широкодушевно, как выдать все разрешения и доступы к личным данным OpenClaw подрубив его к китайской LLM через китайского провайдера... Но все же.
#LLM #Cyberpunk #Future #Med #Data #OpenCode
Некоторое время уже пишу скрипты и управляю удаленными ssh-хостами через простые текстовые запросы, типа «прочитай базу знаний по инфраструктуре в текущей папке и подними Jellyfin в докере на этом хосте», все магическим образом поднимается без муторной возни с Ansible. Или «почитай логи там-то и выясни что случилось».
Также «общаюсь» со своими заметками в Obsidian, которые давно попросил модель правильно систематизировать и слинковать ссылками и тегами между собой.
А на днях я «оцифровал» и потом вычитал семейные медицинские документы переведя их в «машиночитаемый» md (включая текстовое описание снимков и графиков и отлично распознанный всратый врачебный почерк), результаты анализов, направления, справки.
Попросил GPT-5.4 сформировать большой таймлайн и индекс со ссылками на конкретные документы. В итоге нашлись важные результаты анализов, которые затерялись в бумажном виде, нашлась важная справка, которую забыли забрать из медучреждения, обнаружились косяки в лечении, которые замылились из-за того, что большой массив бюрократического текста трудно держать в голове.
Теперь можно задавать вопросы прямо в OpenCode по текущему состоянию, делать короткие отчеты/истории болезни для врачей на любом языке за 5 секунд, просить советы, узнавать что можно чего нельзя, спрашивать какие тесты надо сдать прямо сейчас, добавлять новые сведения и анализы (опять же, на любом языке) — модель загружает все в контекст за раз, т.к. это крохи по сравнению даже с небольшой кодобазой, и отвечает намного точнее, автоматом учитывая всю текущую картину и все произошедшее ранее.
Удивительно, насколько инструменты для «вайбкодинга» могут применяться как тулинговые обвязки для простого общения с данными и внешним миром с системой разрешений поверх.
Это, конечно, не так красиво и YOLO-широкодушевно, как выдать все разрешения и доступы к личным данным OpenClaw подрубив его к китайской LLM через китайского провайдера... Но все же.
#LLM #Cyberpunk #Future #Med #Data #OpenCode
❤1🔥1
Похоже, новая MiniMax 2.7 не совсем хайпожорская история, как было с 2.5.
Пишут, что приближается вплотную к уровню одной из самых толковых из китайских открытых — GLM-5 при значительно большей эффективности (= значительно меньшей цене вывода).
🔗 artificialanalysis.ai/models/minimax-m2-7
Пишут, что приближается вплотную к уровню одной из самых толковых из китайских открытых — GLM-5 при значительно большей эффективности (= значительно меньшей цене вывода).
🔗 artificialanalysis.ai/models/minimax-m2-7
🔥1
Анонимный телеграм-канал
Похоже, новая MiniMax 2.7 не совсем хайпожорская история, как было с 2.5. Пишут, что приближается вплотную к уровню одной из самых толковых из китайских открытых — GLM-5 при значительно большей эффективности (= значительно меньшей цене вывода). 🔗 artif…
Туда же можно отнести нового тяжеловеса Xiaomi MiMo-V2-Pro на триллион параметров. Тестирую второй день (она доступна в OpenCode Zen с постфиксом Free) — по первым ощущениям даже лучше, чем GLM-5, минимум косяков и правок при следовании подробным инструкциям в больших заданиях.
Топ за свои деньги + прекрасно что так пышно цветет LLM-поляна.
🔗 mimo.xiaomi.com/mimo-v2-pro
🔗 artificialanalysis.ai/models/mimo-v2-pro
Топ за свои деньги + прекрасно что так пышно цветет LLM-поляна.
🔗 mimo.xiaomi.com/mimo-v2-pro
🔗 artificialanalysis.ai/models/mimo-v2-pro
🤯1
Forwarded from Марков цепи пропил
Dial-up 2.0, или гоним трафик в обход белых списков через звонки в ВК
Пока железки в пути, решил заняться насущным вопросом, который в последнее время что-то обострился.
VK-звонки работают через WebRTC с Selective Forwarding Unit, который пробрасывает SCTP DataChannel между участниками, не заглядывая внутрь. Помимо своего animoji-канала (id:1) VK туда ничего больше не кладёт, поэтому можно создать рядом свой DataChannel (id:2) и использовать его как двунаправленный пайп для произвольных данных. Весь трафик при этом идёт через TURN-серверы VK, которые находятся в белых списках - для DPI это выглядит как обычный звонок.
На стороне Creator'а (тот, у кого есть доступ в интернет) запускается Go relay и hook.js сниппет в браузере. Сниппет хукает RTCPeerConnection, перехватывает ICE-конфигурацию прямо из конструктора, после чего создаётся туннельный DataChannel и бриджится с локальным WebSocket'ом, через который relay раздаёт трафик наружу.
На стороне Joiner'а (тот, кто в зоне белых списков) всё чуть интереснее. Приложение открывает VK-звонок в WebView, поднимает VpnService, который перехватывает весь IP-трафик устройства, прогоняет его через tun2socks, дальше в SOCKS5 прокси на Go, и уже оттуда через WebSocket в тот же DataChannel. Go-часть собирается через gomobile в .aar и линкуется прямо в APK, поэтому можно обойтись без рута/termux.
На speed test получилось добиться 9.57 Мбит/с на скачивание, 4.15 Мбит/с на загрузку с задержкой 14 мс до Брюсселя с мобильной сети.
Есть моменты, которые можно улучшить и автоматизировать, но в целом пока пойдет.
Код/билды здесь [тык]
Пока железки в пути, решил заняться насущным вопросом, который в последнее время что-то обострился.
VK-звонки работают через WebRTC с Selective Forwarding Unit, который пробрасывает SCTP DataChannel между участниками, не заглядывая внутрь. Помимо своего animoji-канала (id:1) VK туда ничего больше не кладёт, поэтому можно создать рядом свой DataChannel (id:2) и использовать его как двунаправленный пайп для произвольных данных. Весь трафик при этом идёт через TURN-серверы VK, которые находятся в белых списках - для DPI это выглядит как обычный звонок.
На стороне Creator'а (тот, у кого есть доступ в интернет) запускается Go relay и hook.js сниппет в браузере. Сниппет хукает RTCPeerConnection, перехватывает ICE-конфигурацию прямо из конструктора, после чего создаётся туннельный DataChannel и бриджится с локальным WebSocket'ом, через который relay раздаёт трафик наружу.
На стороне Joiner'а (тот, кто в зоне белых списков) всё чуть интереснее. Приложение открывает VK-звонок в WebView, поднимает VpnService, который перехватывает весь IP-трафик устройства, прогоняет его через tun2socks, дальше в SOCKS5 прокси на Go, и уже оттуда через WebSocket в тот же DataChannel. Go-часть собирается через gomobile в .aar и линкуется прямо в APK, поэтому можно обойтись без рута/termux.
На speed test получилось добиться 9.57 Мбит/с на скачивание, 4.15 Мбит/с на загрузку с задержкой 14 мс до Брюсселя с мобильной сети.
Есть моменты, которые можно улучшить и автоматизировать, но в целом пока пойдет.
Код/билды здесь [тык]
👍1🔥1
Analysis & deep-dive of the Apple A18 Pro SoC that powers the MacBook Neo. How does it compare to the M4?
🔗 youtube.com/watch?v=fTBvm4Hj7Mw
#Hardware #Apple
🔗 youtube.com/watch?v=fTBvm4Hj7Mw
#Hardware #Apple
YouTube
A18 Pro & MacBook Neo Deep-dive
Analysis & deep-dive of the Apple A18 Pro SoC that powers the MacBook Neo. How does it compare to the M4?
Become a supporter on Patreon: https://www.patreon.com/user?u=46978634
Follow me on X: https://x.com/highyieldYT
Follow me on bsky: https://bsky.ap…
Become a supporter on Patreon: https://www.patreon.com/user?u=46978634
Follow me on X: https://x.com/highyieldYT
Follow me on bsky: https://bsky.ap…
kitten-tts-rs — синтез речи адекватного качества даже на медленных CPU. По сути это Rust-порт Kitten-TTS, работающий в несколько раз быстрее пайтоновского оригинала и представляющий собой единственный бинарь размером в пару десятков мегабайт.
Прикольный момент: на GPU оно работает заметно медленнее, на таких маленьких размерах оверхед возни с копированием в GPU выше чем просто отработать вывод на CPU.
Запустить просто:
0. Ставите espeak-ng (нужен для перевода текста в фонемы)
1. Качаете бинарник под свою платформу здесь: github.com/second-state/kitten_tts_rs/releases
2. Модель здесь: huggingface.co/KittenML
3. Запускаете вывод:
🔗 github.com/second-state/kitten_tts_rs
#AudioVisualGenAI #GenAI
Прикольный момент: на GPU оно работает заметно медленнее, на таких маленьких размерах оверхед возни с копированием в GPU выше чем просто отработать вывод на CPU.
Запустить просто:
0. Ставите espeak-ng (нужен для перевода текста в фонемы)
1. Качаете бинарник под свою платформу здесь: github.com/second-state/kitten_tts_rs/releases
2. Модель здесь: huggingface.co/KittenML
3. Запускаете вывод:
./kitten-tts ./models/kitten-tts-micro "hello my dear" Luna
🔗 github.com/second-state/kitten_tts_rs
#AudioVisualGenAI #GenAI
GitHub
Releases · second-state/kitten_tts_rs
A Rust port of KittenTTS — ultra-lightweight ONNX-based text-to-speech. - second-state/kitten_tts_rs
🔥1