Интересное что-то
517 subscribers
2.71K photos
252 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
Forwarded from Agentic World
Агенты - это все замечательно, но их невозможно сделать без LLM, а значит хорошее понимание всей ллмной внутрянки дает огромное преимущество в построении классных продуктов. 

В блоге vLLM вышла хардкорная статья об их внутренним устройстве. А так как vLLM я горячо люблю, а статья действительно крутая, то сделал ее перевод. Упахался с англицизмами, нюансами и деталями, но оно того стоило 🤙

https://habr.com/ru/articles/957748/
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DevBrain
Паттерны и анти-паттерны использования паттерн-матчинга в Питоне

Наткнулся на доклад про паттерны паттерн-матчинга 😁 и мне он понравился: Patterns and Anti-Patterns in Python's Structural Pattern Matching
Доклад очень понравился, несмотря на то, что паттерн-матчингом я пользуюсь с самого его появления (кажется в 3.10), я подчерпнул полезное для себя. Что понравилось? Последний пример, где Brett показывает обработку semi-structured JSON. Я вспомнил, что часто внешние API могут возвращать разный формат JSON в зависимости от состояния, но мне в голову никогда не приходила идея обернуть обработку этого в match/case.

Элегантно! 💡
Forwarded from e/acc
Вся лента забита цитатами из интервью Андрея Карпаты, я послушал на одном дыхании и рекомендую вам тоже. Это самая взвешенная, но при этом исходящая из глубокого понимания позиция относительно AGI, ASI и влиянии ИИ на мир.

Не буду пересказывать все интервью, но первый час примерно это прям-то таки детальный роадмап по тому что необходимо решить, построить и сделать чтобы получить действительно полезный ИИ, который может выполнять любую работу, которую умеет делать человек:

- уход от запоминания (и моделей в триллионы параметров) к генерализации концептов и принципов, с возможность "посмотреть в базе" какой-то факт когда это будет нужно
- реальная долговременная память, умение интернализировать, рефлексировать знания в долгосрочную базу, лора-адаптер или напрямую в веса модели
- он называет короткую память у людей фичей а не багом, ибо она помогает обобщать, фокусируясь на общих паттернах, а не на деталях; в отличие от LLM, которые отвлекаются идеальной памятью на огромные данные, что мешает глубокому абстрактному пониманию
- развитие агентов, так же как и интернета, займет еще 10 лет, каждый год постепенно автоматизируя и упрощая разные задачи и профессии, но интеграция этого в глобальный ВВП займет время, а не будет спонтанным взрывом

жутко рекомендую!

P.S. а параллельно с этим Илон Маск сегодня утром в очередной раз объявил о неизбежности AGI в ближайшие годы, мол, Grok будет ИИ-рисечером не хуже Андрея :)
С ИИ всё стало умным, в том числе и… малварь — история появления GenAI-полиморфных вирусов #опытэкспертов

GenAI сегодня становится не просто ассистентом для скрипткидди, но и элементом киллчейна, выполняя задачи по генерации вредоносного кода "на лету", уже внутри контролируемого контура — это полноценный новый вектор атаки.


За два года вокруг "расцензуренных" LLM вырос целый подпласт киберугроз. Но если WormGPT/FraudGPT это уже банальные подсказки для фишинга и помощник для скрипт-кидди, то куда интереснее случаи, где модель встраивается в сам цикл атаки и генерирует действия/код "на лету".

Борис Захир, независимый эксперт и автор блога "Борис_ь с ml", выделил в статье четыре интересных кейса, от PoC до боевого инцидента, и сделал вывод — GenAI уже не просто декорация, а значимый элемент киллчейна.

➡️ Читать статью на Хабре

В материале упоминаются и довольно известные инциденты — EchoLeak и Lethal Trifecta, приведены их схемы реализации. И на их фоне становится понятно, чем кардинально отличаются другие, уже менее популярные атаки — BlackMamba, PromptLock, s1ngularity. И рассмотрен также пример раздутой хайпом ситуации, на самом деле не имеющей пока серьезной значимости — это SkyNet.

Главное отличие EchoLeak от BlackMamba и прочих из этой тройки, которые эксперт предлагает называть GenAI-полиморфными вирусами — это не прямая реализация вредоносного действия с помощью тула агента, а использование GenAI для создания конкретных кусочков малвари: кода дискаверинга секретов, шифрования файлов, написание рансом-сообщения жертве.

В самой же статье вы найдете подробную схему реализации (с тактиками/техниками) каждого инцидента, ответы на вопросы об эффективности таких методов атаки и о том, почему же все-таки это работает и обходит защиту, а также взгляд эксперта на перспективы развития таких вирусов.

✏️ Статью написал Борис Захир, независимый эксперт и автор блога  "Борис_ь с ml"
Please open Telegram to view this post
VIEW IN TELEGRAM
На этих выходных буду выступать онлайн на Practical ML Conf 2025 с докладом о том, как мы год шли от статьи с красивой идеей до высоконагруженного прода. И это была не самая приятная прогулка))

– Почему решила стать спикером?
– Устала от докладов в стиле «посмотрите, какие у нас красивые метрики на тестовой выборке».

Хочется показать реальный путь с факапами, переделками и неожиданными инсайтами. Потому что между – работает в jupyter notebook и выдерживает 2,5 миллиарда событий в день – огромная разница, you know😬

О чем расскажу

💛Как мы решали проблему холодного старта для новых товаров в WB
💛Почему MoE архитектура с экспертами оказалась важна для e-commerce
💛Как влияла мультимодальность
💛Самый волнующий вопрос – что выбирать? Сложную архитектуру или стабилизацию в обучении?

Что унесете с собой с конфы

Подарки не вышлю, кхм, сами прилетайте на сходку в Сербию, но ментально унесете эту инфу:

💛Готовые решения для прода
💛Никаких игрушечных экспов. Мы за хардкор и то, что работает на миллионах пользователей. Сами уже знаем, плавали😪

Немного похвалю PML

Контекст конференции выглядит супер: 167 заявок на 21 место (конкурс 8:1), фокус именно на практическом применении ML в продуктах. Программа отражает главные тренды 2025: ИИ в e-commerce, оптимизация инференса, мультимодальные системы. Будет все, что можно представить, говоря про мл конфу: cv/nlp/speech/recsys/mlops/ds . А что вам еще надо? 🧐

27 сентября в Москве и онлайн. Регистрируйтесь

🩰🩰Обещаю рассказать и про те эксперименты, которые провалились. Потому что именно на них учишься больше всего
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from • Dmitry Legchikov
technical_guide_ai_agents.pdf
25.4 MB
Google выпустила туториал по разработке ИИ агентов для стартапов

Очевидно, что это маркетинговый материал для привлечения стартапов в свое облако.
Но даже в нем можно найти пользу
Я увидел, по крайней мере, две:

1 — Для многих нетехнических людей порог входа в разработку ИИ нелегкий.
Материалы написаны понятно, с хорошими иллюстрациями и дают хорошее общее понимание о том, как устроены ИИ Агенты.
Все примеры приводятся для Google Cloud - это конечно может создать трудности в будущем.

2 — У Google хорошая инфраструктура для Gen AI стартапов.
При этом они дают щедрые гранты на использование (до 350k$).
Знаю ребят, которые получали такие гранты и были довольны.
Есть риск, что ваш проект взлетит и при масштабировании Google отыграется на вас сполна (vendor lock). А цены при масштабировании реально космические, и часто стоимость использования определяется количеством запросов, а не временем использования.

Если разобраться в инструментах, то получится быстро итерироваться и тестировать гипотезы.
Приветствую, дорогие друзья!

На просторах интернета нашла очередную приколюху, которую сегодня также планирую досконально изучить.

В LinkedIn это назвали весьма высокопарно - MBA для продактов (окак!). По структуре - это набор разного рода подкастов .
По приложенным ссылкам можно увидеть небольшое саммэри выпуска, ключевые идеи и даже упоминаемые в подкасте материалы.

Ну, поглядим. Сохраняйте себе, вдруг пригодится 😎

#позапросамстраждущих #какворватьсяваналитику #продуктовыеистории
Forwarded from Dataism
Список вопросов к команде и HR.pdf
64.5 KB
🆕35 обязательных вопросов к команде и hr

Представь, что ты получаешь заветное сообщение от hr с оффером. Забыв обо всем на свете, радостно соглашаешься, выходишь на работу, а там ….. сюрпраааааайз: и переработки постоянные, и процессы рабочие фиговые, и премию перестали платить в компании, потому что кризис (а у тебя внезапно зп в оффере состоит из 40% премии). В общем, фулл фарш.

Неприятно? Естественно.
Поэтому очень важно включить внутреннего душнилу (а кому-то даже и включать ничего не надо, по жизни такой) и все-все узнать на этапе собеседований.

Я решила систематизировать и оформить в приличный pdf важные вопросы, которые просто необходимо обсудить до того, как примете оффер от компании.

Только так вы сможете уменьшить риск того, что уже через пару недель работы, вы ее возненавидите.
Понятное дело, что работодатель может где-то приврать, но тут уж у вас есть опция просто уйти с испыталки. Помним, что испытательный срок не только для работника, но и для работодателя.

#поискработы
Please open Telegram to view this post
VIEW IN TELEGRAM
🧩 sync-with-uv

Небольшой, но полезный пакет, который автоматизирует синхронизацию версий между uv.lock и .pre-commit-config.yaml.

Зачем это нужно:
- Часто версии инструментов (black, ruff, mypy и др.) расходятся: одно указано в lock-файле, другое — в pre-commit.
- В итоге могут воспроизводиться разные окружения и непредсказуемые ошибки.

Что делает sync-with-uv:
- Автоматически подтягивает версии из uv.lock в .pre-commit-config.yaml.
- Интегрируется как pre-commit hook.
- Поддерживает частичную синхронизацию — не затрагивает инструменты, для которых версии не заданы.

Итог: один источник правды для зависимостей, меньше ручной рутины и более стабильные пайплайны.

🔗 Репозиторий: https://github.com/tsvikas/sync-with-uv
Forwarded from ML physicist (Алексей Маметьев)
Думаю многие понимают что в современных LLM attention работает не как Attention(Q, K, V) = softmax(QK^T / √d_k)V

Решил покопаться в том, какие хаки используют в топовых моделях чтобы выжать максимум качества из внимания.

Multi-head Latent Attention (MLA)
Сжимают KV - проецируют в низкоразмерное пространство, а потом восстанавливают обратно когда нужно вычислять внимание.
Что дает: KV-cache меньше в 28 раз (с 213GB до 7.6GB), скорость +20x
Где: DeepSeek

Grouped Query Attention (GQA)
Вместо отдельных KV для каждой головы - шарят между группами. Типа 32 query головы делят 8 KV голов.

Что дает: Память меньше в 2-4 раза, инференс быстрее, можно дообучить существующую MHA модель за 5% compute
Где: Llama-2/3, Mistral, Gemma-2, Qwen

Multi-Query Attention (MQA)
Экстремальная версия GQA - всего 1 KV голова на все queries.
Что дает: Максимальная экономия памяти (до 8x), но качество страдает
Где: Falcon, PaLM, старые модели Google

Sliding Window Attention
Каждый токен смотрит только на n ближайших
Что дает: O(N) сложность вместо O(N²), можно обрабатывать бесконечные последовательности
Где: Mistral, Gemma-2 (чередует с полным), Longformer

Unmasked attention for prefix
Для системного сообщения в диалоге атеншн работает без маски, а для остальных сообщений в диалоге с. Таким образом ЛЛМ начинает напоминать encoer-decoder архитектуру.
Что дает: лучшее следование инструкциям
Где: эксперементировал гугл в 2021-23, но не вылилось ни во что большое. Сейчас в многих VLM атеншн по визуальным патчам работает именно так

Sparse Attention (H2O, Scissorhands)
На каждом шаге выкидываем из KV кеша те токены на которые мало смотрели на прошлыхх заменяя их 0.
Что дает: KV-cache меньше в 10-20 раз, но можно потерять важную информацию
Где: StreamingLLM, модели для длинного контекста, скорее экзотика

Linear Attention
Заменяют softmax на линейное ядро, позволяя формулировать как RNN.
Что дает: O(N) сложность, можно делать рекуррентный инференс с постоянной памятью
Где: RWKV, RetNet, Hyena, GLA - экзотика
Forwarded from ML physicist (Алексей Маметьев)
Думаю многие понимают что в современных LLM attention работает не как Attention(Q, K, V) = softmax(QK^T / √d_k)V

Решил покопаться в том, какие хаки используют в топовых моделях чтобы выжать максимум качества из внимания.

Multi-head Latent Attention (MLA)
Сжимают KV - проецируют в низкоразмерное пространство, а потом восстанавливают обратно когда нужно вычислять внимание.
Что дает: KV-cache меньше в 28 раз (с 213GB до 7.6GB), скорость +20x
Где: DeepSeek

Grouped Query Attention (GQA)
Вместо отдельных KV для каждой головы - шарят между группами. Типа 32 query головы делят 8 KV голов.

Что дает: Память меньше в 2-4 раза, инференс быстрее, можно дообучить существующую MHA модель за 5% compute
Где: Llama-2/3, Mistral, Gemma-2, Qwen

Multi-Query Attention (MQA)
Экстремальная версия GQA - всего 1 KV голова на все queries.
Что дает: Максимальная экономия памяти (до 8x), но качество страдает
Где: Falcon, PaLM, старые модели Google

Sliding Window Attention
Каждый токен смотрит только на n ближайших
Что дает: O(N) сложность вместо O(N²), можно обрабатывать бесконечные последовательности
Где: Mistral, Gemma-2 (чередует с полным), Longformer

Unmasked attention for prefix
Для системного сообщения в диалоге атеншн работает без маски, а для остальных сообщений в диалоге с. Таким образом ЛЛМ начинает напоминать encoer-decoder архитектуру.
Что дает: лучшее следование инструкциям
Где: эксперементировал гугл в 2021-23, но не вылилось ни во что большое. Сейчас в многих VLM атеншн по визуальным патчам работает именно так

Sparse Attention (H2O, Scissorhands)
На каждом шаге выкидываем из KV кеша те токены на которые мало смотрели на прошлыхх заменяя их 0.
Что дает: KV-cache меньше в 10-20 раз, но можно потерять важную информацию
Где: StreamingLLM, модели для длинного контекста, скорее экзотика

Linear Attention
Заменяют softmax на линейное ядро, позволяя формулировать как RNN.
Что дает: O(N) сложность, можно делать рекуррентный инференс с постоянной памятью
Где: RWKV, RetNet, Hyena, GLA - экзотика