Заметки Computer Vision инженера
5.91K subscribers
42 photos
15 videos
350 links
Мои статьи из разных мест.
Моя телега - @wk_zb

Про консультации - https://telegra.ph/Pro-konsultacii-03-19
Про рекламу - https://telegra.ph/Pro-reklamu-v-bloge-03-19
Про политоту - https://telegra.ph/Pro-politiku-na-kanale-vo-izbezhanie-bana-04-11
Download Telegram
На CES анонсировали интересную штуку. Некоторый внешний инференс сервак для моделек - https://tiiny.ai/
Выглядит интересно, даже показывают демо.
Но по характеристикам как-то странно, такого никогда не видел.
Несколько гипотез после быстрого гугления:
1) Процессор с NPU на борту похож на CIX P1 CD8180. Сам NPU чип похож на Houmo.ai. Ни тот ни другой я не щупал. Зная железо у китайских ноунеймов - я бы удивился что это заработало из коробки. Но опять же, на демо могут показывать фейк и надеятся что соберут всё сами.
2) Какая-то комбинация Qualcomm/Mediatek. Сама коробка похожа на смартфон. И у тех и у тех есть чипы под 100NPU. Питание должно быть примерно похожим. Но очень сомнительно.
3) Кто-нибудь известный по типу Axelera. Но там числа не бьются. И, конечно, там у них будет очень много сложностей на этом пути.

Короче дико интересно. Ваши ставки?
🔥132💩2😱1
Всем привет!
В одной из компаний с которыми я работал последние несколько лет в понедельник решили сократить половину ML команды. Из 4х человек которых сократили двое уже нашли работу:)
Но остальных двух вы можете успеть нанять.
Если вдруг вы ищете сильного синьера по CV, который разбирается в LLM-ках и VLM-ках, тогда могу посоветовать вам Кирилла и Алексея. С обоими я работал в нескольких компаниях последние 8 лет и очень рекомендую.
Кирилл (linkedin, @kirillfish)
Алексей (linkedin, @avihirev)
💔37🔥18💩4😱3
Небольшой проект который я запилил месяц назад. Хотелось сделать какой-нибудь телеоп робот для бабушек и внуков. В целом, идея сработала.
https://medium.com/@zlodeibaal/a-simples-telepresence-robot-60c27bbeff5f
Но достаточно забавно следующее:
* Два года назад на рынке таких роботов вообще не было
* Пол года назад когда я заказал робота и запланировал всё - я смог найти телеоп роботов для питомцев, но не для детей
* За эти пол года в продаже появилось несколько роботов оптимизированных именно под детей.

Так что сегодня я бы такое не делал:)
Но так как сделал - решил сделать небольшую статейку.
32🔥7💩2
Когда я брал робота из прошлого поста, то у меня, конечно, был план не только с телеопом поэкспериментировать. Думал и с VLA и какими-то другими подходами.
Сейчас, когда я смотрю на механику и реализацию - сомневаюсь что это надо делать. Разве что полностью управление переписать. Так что одно из следующих видео про VLA будет на базе другого сетапа.
Но всё же пару экспериментов я решил провести. Тех которые были быстрее всего и почти не вселяли надежды:)
Один из них был. "А насколько State-Of-The-Art модели решают задачу навигации?".

Я знал про бенчмарк с часами. Так что у меня не было больших ожиданий. Но я не ожидал что всё настолько плохо. (Ещё один пример в комментариях).

Я тестировал с десяток разных промптов, накладывал разные линейки, и.т.д. Результат один - ни разу ни одна модель не попала в точку с соблюдением критериев.
22💩2
Ок. Как я и говорил - следующее видео будет про тренировку VLA.
Давно хотел сделать что-то подобное. А сегодня это клепается за 2 вечера. Короче супер интересно, заодно вспомнил как в кваке кнопки нажимать
https://youtu.be/FrAxpEhobfA
И ещё статья
https://medium.com/@zlodeibaal/vla-training-robots-to-kill-a723d731b810
19🔥7💩3
Как вам драма с OpenClaw/Moltbot/Clawdbot? Я с интересом наблюдаю последние дни (1,1,1,1,1, итд, итп).
При этом, как бы, ваш капитан намекает что реальность там часто не та же что и видна снаружи.
Опрос ща добавлю:)
Но если кто-то участвует пишите!
🔥3😱2💩2
У Gemini и у ChatGPT есть две больших проблемы. Причем одна проблема у Gemini, а вторая у ChatGPT.

И то и то последние пол года-год, и то и то становится только хуже.

1) ChatGPT считает что он умеет работать с аудиофайлами. Настолько упорно считает что расшифровывает текст которого внутри нет.
При этом русский он воспринимает хорошо (если надиктовывать прямо туда). И через API он аудио тоже хорошо распознаёт.
2) Gemini очень плохо работает с контекстом последнего года. До последнего уверяет что того что я прошу не существует. Пока не ткнёшь ссылку отказывается использовать новый синтаксис, эвойдит просьбу гуглить все термины, и.т.д. Более того - ацки галлюцинирует время выхода любых вещей. Например я просил его найти VLM модели за последние пол года. И, надо заметить, что SmolVLM2 это февраль 25ого.
———
Ах, ещё вспомнил в огород ChatGPT. Он не умеет генерировать картинки заданного размера. Gemini тоже не очень умеет, но его можно обмануть через "рисуй поверх", а вот ChatGPT уверен в своей непогрешимости
😱128🔥4💩2
После прошлого видео я не удержался и захотел натренировать Qwen-3VL на той же кваке. Но он оказался чудовищно медленным для неё. Так что таки решил обучить робота про которого раньше рассказывал.
Он все же сильно проще нормальной роборуки, да и раздолбать не так жалко😈
Видео - https://youtu.be/Vd8sQ-O7blI
Статья - https://medium.com/p/551cf9bf2e60

Мне кажется что когда VLM-ки можно применять вместо VLA - так делать и надо. Они проще поддерживаются всем, проще обучать.
Но, конечно, я не вижу пока что смысла для реальных производственных задач ни в VLA ни в VLM. Знание мира в них пока никакое, а обучать проще простую свертку.
🔥234💩2
За последние пару недель вышло пару алгоритмов которые могут принципиально поменять как выглядит StereoDepth.
Эта область зависала в прошлом последние 5 лет. И наконец кто-то сделал что-то новое. Я надеюсь что эти алгоритмы через пару лет придут в дешевый сегмент камер. Эти алгоритмы смогут бегать на обычных NPU + давать разумный FPS.
https://youtu.be/m6WsI_pxvYw
🔥284💩3
Не на все комментарии на YouTube отвечаю, но читаю все.
И, надо сказать, что среди всех вендоров NPU/3д камер/бордов есть только один который не брезгует нагнать ботов под видео.
Причем обычно волнами идёт:)

Самое забавно в это ситуации: видео негативное.
И это настолько очевидно что под него даже пришёл представитель Radxa и сказал что да, у них тут с OpenSource коллабом с медиатеком не вышло, и плата вышла не очень по софту.
😱19💩9
Как только говорю "следующее видео будет такое" - почти сразу значит что что-то пойдёт не так.
Так вот. 4 месяца назад я подумал что следующее видео после A7A будет про A5E. Но что-то пошло не так:)
Оказалось что Radxa прислала мне версию без NPU. Это не было написано на коробке, надо было прочитать надпись на чипе.
Попробовав раза 3 переустановить разные системы стало понятно что что-то не так.
Новая плата пришла перед НГ, но там уже был план и не было лишних сил. Так что добрался только что.

По сути видео - короткое добавление к A7A. Плюс пара картинок.

https://youtu.be/dcBqIn4fu18
🔥83😱3💩2
This media is not supported in your browser
VIEW IN TELEGRAM
Сыну в мае будет 6. Но в целом уже вполне дорос до понимания того что такое "вайб-кодинг":)
Результатом что у него получилось был очень доволен.

Ну а я записал небольшое видео о том насколько важны сейчас агенты и вайбкодинг, что надо делать через них в Computer Vision'е и нейронках:

https://youtu.be/TkWXotR-rLM

(видео на русском на втором канале)
🔥4212💩6😱2
В своих видео я неоднократно говорил что следующий шаг в нейроночках - печать сетки напрямую на кремнии. Либо какие-то промежуточные варианты, например "загружать веса при прошивке". Даже как-то помогал товарищам оценивать перспективы одного такого стартапа.
Я думаю все уже видели эти недавные картинки. А вот тут можно потыкать и почувствовать это в реальном времени - https://chatjimmy.ai/

Что прикольного. Вместо "загрузить веса напрямую" Taalas делают это всё через LORA.
У всего этого есть существенный минус. Если ты делаешь что-то заточенное на определённую сетку/архитектуру/веса - то ты зарелизишь железку через год-полтора. А сетка уже может устареет. А когда ты подтянешь маркетинг и продажи - уже сетка безвозвратно устареет.
Год назад был Qwen 2. Сейчас уже Qwen 3.5. Даже Qwen 2 -> Qwen 2.5 это был огромный скачок.
В эту железку Taalas загружена Llama3.1 (23 Jul 2024). Полтора года - это огромный срок сегодня. Да, Lora чуть чуть патчит, но не сильно.

Сегодня такие проекты могут существовать:
1) Либо если срок печати сети будет в пределах нескольких месяцев. Я видел стартапы которые такое обещали. Но пока не видел результата:)
2) Либо если нейроночки глобально прекратят менять архитектуру. Но мы видим за последний год появление мультимодальности, цепочки размышлений, мультиагентности, и.т.д. Часть это аффектило архитектуру.
3) Либо если цена на такую железку будет ~100 USD или меньше. Тогда можно будет заменять напрямую для edge устройств. Но тут и 15к токенов / сек не надо

Я верю что 1-2-3 произойдёт в течении лет двух. Наблюдаем:)
🔥346💩3
Я думаю вы сегодня уже видели этот ресерч от OpenAI 😆🤣😌. Если что, там даже пропагандисты засветились, наряду с вашим умершим дядюшкой из Нигерии.

Короче, всё достаточно предсказуемо.
Когда я ходил и показывал всем SnitchBench - все ржали и никто не верил что это будет внедрено в реальности.
Но да, внедрено будет. Но не надо бегать кругами и кричать "the end in near! 🔔" и отказываться от AI. Разве что если у вас есть много денег и сил.
А для нищебродов типа нас надо грамотно разделать сущности:
▪️Для личного использования - используйте что хотите, до момента пока вы не грузите личные документы / компрометирующие вас сведения / свои бизнес планы. Вы не сможете сделать результат лучше чем OpenAI/Antropic из коробки. И глупо не использовать эту мощь.
▪️Для корпоративного использования:
🔹Минимальная предосторожность - корпоративная подписка. OpenAI / Antropic / Gemini мамой клянутся что не будут использовать ваши данные для обучения. Но вот стучать.... Хз-хз. Не должны. Но вы сами помните как Antropic отрубал всем налево и направо подписку. Уверен это было не на бесплатном/персональном тире.
🔹Чуть лучше - использовать через корпоративные AWS / Azure аккаунты. Они типа как "SOC compliance". Я не лазил глубоко в эти дебри. Есть кто-то кто знает - могут ли как-то понять что происходит или нет? Подозреваю что могут.
🔹Идеально - самохостинг.
▪️Что делать точно не надо в бизнесе?
🔹Наши сотрудники сами купят себе подписки / пусть сами разбираются. НЕТ, НЕТ, НЕТ. Стратегия использования должна быть согласована на уровне компании. Начиная с 5 человек. Вы же не хотите чтобы ваши сотрудники использовали бесплатный Qwen для ваших секретиков?
🔹Ща сделаем всё через Open Agent и Open Router через открытые модели! Нет! Вы не знаете кто эти модели хостит и что делает с вашими промптами!
▪️Вы делаете что-то сомнительное / goverment-related? Только самохостинг:) Все кто таким занимается - должны страдать.
🔥11😱43💩2
Сделал небольшое видео по вопросу который у меня часто спрашивают. На удивление много народу до сих пор не разобрались когда надо использовать OpenRouter а когда самохостить:)
Я не поднимаю тут вопрос про секьюрити из прошлого поста. Но про остальное достаточно подробно.
22💩2
Давно хотел сделать видео про World Models.
А тут ещё недавно статья неплохая от Nvidia была. Пожалуй хороший повод.
Между прочим, почему-то именно в робототехнике Nvidia лидер OpenSource сейчас. Многие прошлые вещи которые они выпускали были сомнительные. Ну да, можно использовать, но обычно не понятно зачем, если есть конкурирующие сети с State-of-the-art уровнем.
А с роботами прямо во многих вещах State-of-the-art только у Nvidia
https://youtu.be/6hDSWPb0_Rc
🔥16💩2
Media is too big
VIEW IN TELEGRAM
Вчера я выложил видео про World Models.
Прогресс огромный - не только в World Models, но и в VLA. Но… действительно ли это препятствует внедрению роботов? Низкое качество моделей?

И да, и нет.
Когда модели научатся делать всё, что умеют люди, это откроет путь гуманоидным роботам. Но человечество пока далеко. Есть проблемы с грипперами, сенсорами, механикой и с самими моделями.

При этом 95% задач уже могут быть автоматизированы сейчас. Но в большинстве случаев это просто невыгодно экономически.

Например, в супермаркете нет человека, который занимается только «раскладкой». Сотрудник может убирать магазин, принимать товары, работать на кассе — и выполнять ещё множество других задач. Если поставить в такой магазин робота для раскладки товара, это будут дополнительные расходы, потому что человека всё равно нельзя будет уволить.
Если же где-то есть сотрудник, который всё время занят только одним, тогда его уже можно автоматизировать. Но для этого гуманоидные роботы не нужны — и к тому же они слишком дороги.
🔥242💩1
Вчера решил таки послушаться ботов и посмотреть, не починили ли плату Radxa NIO 12L про которую у меня когда-то уже было видео на канале. Все же было бы круто если бы MediaTek тоже включился в гонку. Radxa за это время на удивление даже обновила прошивку, выложила Ubuntu сборку для ядра. Но... Там не было предустановлено никаких NPU драйверов.
Так что для меня все так же и остаётся загадкой. Для кого вообще сделан NeuroPilot? На какой плате он должен работать? Кажется кроме радксы больше плат нет.
Вообще есть ли у кого-то опыт с не-андроид MediaTek NPU? Расскажите!
🔥7💩1