Заметки Computer Vision инженера – Telegram

Заметки Computer Vision инженера

5.91K subscribers

42 photos

15 videos

350 links

Мои статьи из разных мест.
Моя телега - @wk_zb

Про консультации - https://telegra.ph/Pro-konsultacii-03-19
Про рекламу - https://telegra.ph/Pro-reklamu-v-bloge-03-19
Про политоту - https://telegra.ph/Pro-politiku-na-kanale-vo-izbezhanie-bana-04-11

Download Telegram

About

Blog

Apps

Platform

Заметки Computer Vision инженера

5.91K subscribers

Заметки Computer Vision инженера

На CES анонсировали интересную штуку. Некоторый внешний инференс сервак для моделек - https://tiiny.ai/
Выглядит интересно, даже показывают демо.
Но по характеристикам как-то странно, такого никогда не видел.
Несколько гипотез после быстрого гугления:
1) Процессор с NPU на борту похож на CIX P1 CD8180. Сам NPU чип похож на Houmo.ai. Ни тот ни другой я не щупал. Зная железо у китайских ноунеймов - я бы удивился что это заработало из коробки. Но опять же, на демо могут показывать фейк и надеятся что соберут всё сами.
2) Какая-то комбинация Qualcomm/Mediatek. Сама коробка похожа на смартфон. И у тех и у тех есть чипы под 100NPU. Питание должно быть примерно похожим. Но очень сомнительно.
3) Кто-нибудь известный по типу Axelera. Но там числа не бьются. И, конечно, там у них будет очень много сложностей на этом пути.

Короче дико интересно. Ваши ставки?

🔥13❤2💩2😱1

6.26K views23:31

Заметки Computer Vision инженера

Всем привет!
В одной из компаний с которыми я работал последние несколько лет в понедельник решили сократить половину ML команды. Из 4х человек которых сократили двое уже нашли работу:)
Но остальных двух вы можете успеть нанять.
Если вдруг вы ищете сильного синьера по CV, который разбирается в LLM-ках и VLM-ках, тогда могу посоветовать вам Кирилла и Алексея. С обоими я работал в нескольких компаниях последние 8 лет и очень рекомендую.
Кирилл (linkedin, @kirillfish)
Алексей (linkedin, @avihirev)

💔37🔥18💩4😱3

4.99K views10:57

Заметки Computer Vision инженера

Небольшой проект который я запилил месяц назад. Хотелось сделать какой-нибудь телеоп робот для бабушек и внуков. В целом, идея сработала.
https://medium.com/@zlodeibaal/a-simples-telepresence-robot-60c27bbeff5f
Но достаточно забавно следующее:
* Два года назад на рынке таких роботов вообще не было
* Пол года назад когда я заказал робота и запланировал всё - я смог найти телеоп роботов для питомцев, но не для детей
* За эти пол года в продаже появилось несколько роботов оптимизированных именно под детей.

Так что сегодня я бы такое не делал:)
Но так как сделал - решил сделать небольшую статейку.

A Simples Telepresence Robot

A short guide to building one of the cheapest teleop robots for children. Simple robot + rpi + a little bit streaming.

❤32🔥7💩2

4.1K views02:25

Заметки Computer Vision инженера

Когда я брал робота из прошлого поста, то у меня, конечно, был план не только с телеопом поэкспериментировать. Думал и с VLA и какими-то другими подходами.
Сейчас, когда я смотрю на механику и реализацию - сомневаюсь что это надо делать. Разве что полностью управление переписать. Так что одно из следующих видео про VLA будет на базе другого сетапа.
Но всё же пару экспериментов я решил провести. Тех которые были быстрее всего и почти не вселяли надежды:)
Один из них был. "А насколько State-Of-The-Art модели решают задачу навигации?".

Я знал про бенчмарк с часами. Так что у меня не было больших ожиданий. Но я не ожидал что всё настолько плохо. (Ещё один пример в комментариях).

Я тестировал с десяток разных промптов, накладывал разные линейки, и.т.д. Результат один - ни разу ни одна модель не попала в точку с соблюдением критериев.

❤22💩2

5.16K views18:09

Заметки Computer Vision инженера

Ок. Как я и говорил - следующее видео будет про тренировку VLA.
Давно хотел сделать что-то подобное. А сегодня это клепается за 2 вечера. Короче супер интересно, заодно вспомнил как в кваке кнопки нажимать
https://youtu.be/FrAxpEhobfA
И ещё статья
https://medium.com/@zlodeibaal/vla-training-robots-to-kill-a723d731b810

Training SmolVLA to kill people without trial

00:00:00 - Intro: why VLAs?
00:00:53 - Why VLAs?
00:01:44 - What is everyone trying to pitch you
00:02:37 - What most people experience at the start (So arm 100 / Push T)
00:04:42 - What I did: Quake, LeRobot Dataset, inference
00:05:49 - Real result. What…

❤19🔥7💩3

5.68K views19:47

Заметки Computer Vision инженера

Как вам драма с OpenClaw/Moltbot/Clawdbot? Я с интересом наблюдаю последние дни (1,1,1,1,1, итд, итп).
При этом, как бы, ваш капитан намекает что реальность там часто не та же что и видна снаружи.
Опрос ща добавлю:)
Но если кто-то участвует пишите!

🔥3😱2💩2

3.89K views19:31

Заметки Computer Vision инженера

Что у вас с OpenClaw?

Anonymous Poll

Не интересно!

Наблюдаю.

Уже поставил!

Зачем ставить, уже сам там сижу как бот

💩13🔥4

697 voters3.76K views19:32

Заметки Computer Vision инженера

У Gemini и у ChatGPT есть две больших проблемы. Причем одна проблема у Gemini, а вторая у ChatGPT.

И то и то последние пол года-год, и то и то становится только хуже.

1) ChatGPT считает что он умеет работать с аудиофайлами. Настолько упорно считает что расшифровывает текст которого внутри нет.
При этом русский он воспринимает хорошо (если надиктовывать прямо туда). И через API он аудио тоже хорошо распознаёт.
2) Gemini очень плохо работает с контекстом последнего года. До последнего уверяет что того что я прошу не существует. Пока не ткнёшь ссылку отказывается использовать новый синтаксис, эвойдит просьбу гуглить все термины, и.т.д. Более того - ацки галлюцинирует время выхода любых вещей. Например я просил его найти VLM модели за последние пол года. И, надо заметить, что SmolVLM2 это февраль 25ого.
———
Ах, ещё вспомнил в огород ChatGPT. Он не умеет генерировать картинки заданного размера. Gemini тоже не очень умеет, но его можно обмануть через "рисуй поверх", а вот ChatGPT уверен в своей непогрешимости

😱12❤8🔥4💩2

3.99K views20:58

Заметки Computer Vision инженера

После прошлого видео я не удержался и захотел натренировать Qwen-3VL на той же кваке. Но он оказался чудовищно медленным для неё. Так что таки решил обучить робота про которого раньше рассказывал.
Он все же сильно проще нормальной роборуки, да и раздолбать не так жалко😈
Видео - https://youtu.be/Vd8sQ-O7blI
Статья - https://medium.com/p/551cf9bf2e60

Мне кажется что когда VLM-ки можно применять вместо VLA - так делать и надо. Они проще поддерживаются всем, проще обучать.
Но, конечно, я не вижу пока что смысла для реальных производственных задач ни в VLA ни в VLM. Знание мира в них пока никакое, а обучать проще простую свертку.

Let's make VLA out of Qwen-3VL!

00:00:00 - Intro. Easyest VLA.
00:01:58 - The task
00:02:20 - How to train
00:05:48 - The result
00:07:19 - Theory. VLMs/VLA-0/ other models. VLA and VLM advantage

Article about this video - https://medium.com/@zlodeibaal/one-of-the-best-vla-models-qwen…

🔥23❤4💩2

5.01K views22:41

Заметки Computer Vision инженера

Давно что-то на Хабр ничего не постил.
Решил собрать прошлые три статьи в стройную статью и бахнуть туда
https://habr.com/ru/companies/recognitor/articles/992476/

VLM / VLA / World Models / Physical AI

Нейроночки в последнее время заполонили всё. Ну, почти всё. Вот, сейчас подбираются к роботам. И реального прогресса там почти так же много как нейрослопа, пиара и преувеличений . Короче, прогресс...

🔥42💩2

5.03K views01:35

Заметки Computer Vision инженера

За последние пару недель вышло пару алгоритмов которые могут принципиально поменять как выглядит StereoDepth.
Эта область зависала в прошлом последние 5 лет. И наконец кто-то сделал что-то новое. Я надеюсь что эти алгоритмы через пару лет придут в дешевый сегмент камер. Эти алгоритмы смогут бегать на обычных NPU + давать разумный FPS.
https://youtu.be/m6WsI_pxvYw

Breakthrough in 3D depth: LingBot Depth and Neural-Assisted Stereo

00:00:00 - Intro. A breakthrough
00:02:38 - LingBot Depth
00:05:55 - Luxonis Neural-Assisted Stereo
00:09:40 - Summary

LingBot Depth - https://github.com/Robbyant/lingbot-depth/
Neural-Assisted Stereo - https://discuss.luxonis.com/blog/6656-neural-assisted…

🔥28❤4💩3

4.57K views11:28

Заметки Computer Vision инженера

Не на все комментарии на YouTube отвечаю, но читаю все.
И, надо сказать, что среди всех вендоров NPU/3д камер/бордов есть только один который не брезгует нагнать ботов под видео.
Причем обычно волнами идёт:)

Самое забавно в это ситуации: видео негативное.
И это настолько очевидно что под него даже пришёл представитель Radxa и сказал что да, у них тут с OpenSource коллабом с медиатеком не вышло, и плата вышла не очень по софту.

😱19💩9

4.91K views12:19

Заметки Computer Vision инженера

Как только говорю "следующее видео будет такое" - почти сразу значит что что-то пойдёт не так.
Так вот. 4 месяца назад я подумал что следующее видео после A7A будет про A5E. Но что-то пошло не так:)
Оказалось что Radxa прислала мне версию без NPU. Это не было написано на коробке, надо было прочитать надпись на чипе.
Попробовав раза 3 переустановить разные системы стало понятно что что-то не так.
Новая плата пришла перед НГ, но там уже был план и не было лишних сил. Так что добрался только что.

По сути видео - короткое добавление к A7A. Плюс пара картинок.

https://youtu.be/dcBqIn4fu18

Radxa A5E - a small NPU powered board

Board - https://docs.radxa.com/en/cubie/a5e
Thanks, Radxa, for providing it to test

Article about A7A (similar pipeline) - https://medium.com/@zlodeibaal/radxa-cubie-a7a-f7401a185694

00:00:00 - Intro
00:01:39 - Difference with A7A
00:02:55 - Speed
00:03:13…

🔥8❤3😱3💩2

4.41K viewsedited 19:06

Заметки Computer Vision инженера

This media is not supported in your browser

VIEW IN TELEGRAM

Сыну в мае будет 6. Но в целом уже вполне дорос до понимания того что такое "вайб-кодинг":)
Результатом что у него получилось был очень доволен.

Ну а я записал небольшое видео о том насколько важны сейчас агенты и вайбкодинг, что надо делать через них в Computer Vision'е и нейронках:

https://youtu.be/TkWXotR-rLM

(видео на русском на втором канале)

🔥42❤12💩6😱2

4.76K viewsedited 17:04

Заметки Computer Vision инженера

В своих видео я неоднократно говорил что следующий шаг в нейроночках - печать сетки напрямую на кремнии. Либо какие-то промежуточные варианты, например "загружать веса при прошивке". Даже как-то помогал товарищам оценивать перспективы одного такого стартапа.
Я думаю все уже видели эти недавные картинки. А вот тут можно потыкать и почувствовать это в реальном времени - https://chatjimmy.ai/

Что прикольного. Вместо "загрузить веса напрямую" Taalas делают это всё через LORA.
У всего этого есть существенный минус. Если ты делаешь что-то заточенное на определённую сетку/архитектуру/веса - то ты зарелизишь железку через год-полтора. А сетка уже может устареет. А когда ты подтянешь маркетинг и продажи - уже сетка безвозвратно устареет.
Год назад был Qwen 2. Сейчас уже Qwen 3.5. Даже Qwen 2 -> Qwen 2.5 это был огромный скачок.
В эту железку Taalas загружена Llama3.1 (23 Jul 2024). Полтора года - это огромный срок сегодня. Да, Lora чуть чуть патчит, но не сильно.

Сегодня такие проекты могут существовать:
1) Либо если срок печати сети будет в пределах нескольких месяцев. Я видел стартапы которые такое обещали. Но пока не видел результата:)
2) Либо если нейроночки глобально прекратят менять архитектуру. Но мы видим за последний год появление мультимодальности, цепочки размышлений, мультиагентности, и.т.д. Часть это аффектило архитектуру.
3) Либо если цена на такую железку будет ~100 USD или меньше. Тогда можно будет заменять напрямую для edge устройств. Но тут и 15к токенов / сек не надо

Я верю что 1-2-3 произойдёт в течении лет двух. Наблюдаем:)

🔥34❤6💩3

4.02K views15:43

Заметки Computer Vision инженера

Я думаю вы сегодня уже видели этот ресерч от OpenAI 😆🤣😌. Если что, там даже пропагандисты засветились, наряду с вашим умершим дядюшкой из Нигерии.

Короче, всё достаточно предсказуемо.
Когда я ходил и показывал всем SnitchBench - все ржали и никто не верил что это будет внедрено в реальности.
Но да, внедрено будет. Но не надо бегать кругами и кричать "the end in near! 🔔" и отказываться от AI. Разве что если у вас есть много денег и сил.
А для нищебродов типа нас надо грамотно разделать сущности:
▪️Для личного использования - используйте что хотите, до момента пока вы не грузите личные документы / компрометирующие вас сведения / свои бизнес планы. Вы не сможете сделать результат лучше чем OpenAI/Antropic из коробки. И глупо не использовать эту мощь.
▪️Для корпоративного использования:
🔹Минимальная предосторожность - корпоративная подписка. OpenAI / Antropic / Gemini мамой клянутся что не будут использовать ваши данные для обучения. Но вот стучать.... Хз-хз. Не должны. Но вы сами помните как Antropic отрубал всем налево и направо подписку. Уверен это было не на бесплатном/персональном тире.
🔹Чуть лучше - использовать через корпоративные AWS / Azure аккаунты. Они типа как "SOC compliance". Я не лазил глубоко в эти дебри. Есть кто-то кто знает - могут ли как-то понять что происходит или нет? Подозреваю что могут.
🔹Идеально - самохостинг.
▪️Что делать точно не надо в бизнесе?
🔹Наши сотрудники сами купят себе подписки / пусть сами разбираются. НЕТ, НЕТ, НЕТ. Стратегия использования должна быть согласована на уровне компании. Начиная с 5 человек. Вы же не хотите чтобы ваши сотрудники использовали бесплатный Qwen для ваших секретиков?
🔹Ща сделаем всё через Open Agent и Open Router через открытые модели! Нет! Вы не знаете кто эти модели хостит и что делает с вашими промптами!
▪️Вы делаете что-то сомнительное / goverment-related? Только самохостинг:) Все кто таким занимается - должны страдать.

🔥11😱4❤3💩2

3.39K viewsedited 12:30

Заметки Computer Vision инженера

Сделал небольшое видео по вопросу который у меня часто спрашивают. На удивление много народу до сих пор не разобрались когда надо использовать OpenRouter а когда самохостить:)
Я не поднимаю тут вопрос про секьюрити из прошлого поста. Но про остальное достаточно подробно.

❤22💩2

3.46K views16:44

Заметки Computer Vision инженера

Давно хотел сделать видео про World Models.
А тут ещё недавно статья неплохая от Nvidia была. Пожалуй хороший повод.
Между прочим, почему-то именно в робототехнике Nvidia лидер OpenSource сейчас. Многие прошлые вещи которые они выпускали были сомнительные. Ну да, можно использовать, но обычно не понятно зачем, если есть конкурирующие сети с State-of-the-art уровнем.
А с роботами прямо во многих вещах State-of-the-art только у Nvidia
https://youtu.be/6hDSWPb0_Rc

World models in robotics - a silent breakthrough?

00:00:00 - Intro
00:01:03 - History
00:02:53 - DreamZero / DreamDojo / COSMOS
00:08:26 - Real performance?
00:09:55 - My thoughts / Summary

My LinkedIn - https://www.linkedin.com/in/maltsevanton/
My Telegram channel - https://t.iss.one/CVML_team
e-mail: [email protected]…

🔥16💩2

2.37K views14:42

Заметки Computer Vision инженера

Media is too big

VIEW IN TELEGRAM

Вчера я выложил видео про World Models.
Прогресс огромный - не только в World Models, но и в VLA. Но… действительно ли это препятствует внедрению роботов? Низкое качество моделей?

И да, и нет.
Когда модели научатся делать всё, что умеют люди, это откроет путь гуманоидным роботам. Но человечество пока далеко. Есть проблемы с грипперами, сенсорами, механикой и с самими моделями.

При этом 95% задач уже могут быть автоматизированы сейчас. Но в большинстве случаев это просто невыгодно экономически.

Например, в супермаркете нет человека, который занимается только «раскладкой». Сотрудник может убирать магазин, принимать товары, работать на кассе — и выполнять ещё множество других задач. Если поставить в такой магазин робота для раскладки товара, это будут дополнительные расходы, потому что человека всё равно нельзя будет уволить.
Если же где-то есть сотрудник, который всё время занят только одним, тогда его уже можно автоматизировать. Но для этого гуманоидные роботы не нужны — и к тому же они слишком дороги.

🔥24❤2💩1

2.6K views13:27

Заметки Computer Vision инженера

Вчера решил таки послушаться ботов и посмотреть, не починили ли плату Radxa NIO 12L про которую у меня когда-то уже было видео на канале. Все же было бы круто если бы MediaTek тоже включился в гонку. Radxa за это время на удивление даже обновила прошивку, выложила Ubuntu сборку для ядра. Но... Там не было предустановлено никаких NPU драйверов.
Так что для меня все так же и остаётся загадкой. Для кого вообще сделан NeuroPilot? На какой плате он должен работать? Кажется кроме радксы больше плат нет.
Вообще есть ли у кого-то опыт с не-андроид MediaTek NPU? Расскажите!

🔥7💩1

2.72K views10:57