Интересное что-то
517 subscribers
2.71K photos
252 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
С ИИ всё стало умным, в том числе и… малварь — история появления GenAI-полиморфных вирусов #опытэкспертов

GenAI сегодня становится не просто ассистентом для скрипткидди, но и элементом киллчейна, выполняя задачи по генерации вредоносного кода "на лету", уже внутри контролируемого контура — это полноценный новый вектор атаки.


За два года вокруг "расцензуренных" LLM вырос целый подпласт киберугроз. Но если WormGPT/FraudGPT это уже банальные подсказки для фишинга и помощник для скрипт-кидди, то куда интереснее случаи, где модель встраивается в сам цикл атаки и генерирует действия/код "на лету".

Борис Захир, независимый эксперт и автор блога "Борис_ь с ml", выделил в статье четыре интересных кейса, от PoC до боевого инцидента, и сделал вывод — GenAI уже не просто декорация, а значимый элемент киллчейна.

➡️ Читать статью на Хабре

В материале упоминаются и довольно известные инциденты — EchoLeak и Lethal Trifecta, приведены их схемы реализации. И на их фоне становится понятно, чем кардинально отличаются другие, уже менее популярные атаки — BlackMamba, PromptLock, s1ngularity. И рассмотрен также пример раздутой хайпом ситуации, на самом деле не имеющей пока серьезной значимости — это SkyNet.

Главное отличие EchoLeak от BlackMamba и прочих из этой тройки, которые эксперт предлагает называть GenAI-полиморфными вирусами — это не прямая реализация вредоносного действия с помощью тула агента, а использование GenAI для создания конкретных кусочков малвари: кода дискаверинга секретов, шифрования файлов, написание рансом-сообщения жертве.

В самой же статье вы найдете подробную схему реализации (с тактиками/техниками) каждого инцидента, ответы на вопросы об эффективности таких методов атаки и о том, почему же все-таки это работает и обходит защиту, а также взгляд эксперта на перспективы развития таких вирусов.

✏️ Статью написал Борис Захир, независимый эксперт и автор блога  "Борис_ь с ml"
Please open Telegram to view this post
VIEW IN TELEGRAM
На этих выходных буду выступать онлайн на Practical ML Conf 2025 с докладом о том, как мы год шли от статьи с красивой идеей до высоконагруженного прода. И это была не самая приятная прогулка))

– Почему решила стать спикером?
– Устала от докладов в стиле «посмотрите, какие у нас красивые метрики на тестовой выборке».

Хочется показать реальный путь с факапами, переделками и неожиданными инсайтами. Потому что между – работает в jupyter notebook и выдерживает 2,5 миллиарда событий в день – огромная разница, you know😬

О чем расскажу

💛Как мы решали проблему холодного старта для новых товаров в WB
💛Почему MoE архитектура с экспертами оказалась важна для e-commerce
💛Как влияла мультимодальность
💛Самый волнующий вопрос – что выбирать? Сложную архитектуру или стабилизацию в обучении?

Что унесете с собой с конфы

Подарки не вышлю, кхм, сами прилетайте на сходку в Сербию, но ментально унесете эту инфу:

💛Готовые решения для прода
💛Никаких игрушечных экспов. Мы за хардкор и то, что работает на миллионах пользователей. Сами уже знаем, плавали😪

Немного похвалю PML

Контекст конференции выглядит супер: 167 заявок на 21 место (конкурс 8:1), фокус именно на практическом применении ML в продуктах. Программа отражает главные тренды 2025: ИИ в e-commerce, оптимизация инференса, мультимодальные системы. Будет все, что можно представить, говоря про мл конфу: cv/nlp/speech/recsys/mlops/ds . А что вам еще надо? 🧐

27 сентября в Москве и онлайн. Регистрируйтесь

🩰🩰Обещаю рассказать и про те эксперименты, которые провалились. Потому что именно на них учишься больше всего
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from • Dmitry Legchikov
technical_guide_ai_agents.pdf
25.4 MB
Google выпустила туториал по разработке ИИ агентов для стартапов

Очевидно, что это маркетинговый материал для привлечения стартапов в свое облако.
Но даже в нем можно найти пользу
Я увидел, по крайней мере, две:

1 — Для многих нетехнических людей порог входа в разработку ИИ нелегкий.
Материалы написаны понятно, с хорошими иллюстрациями и дают хорошее общее понимание о том, как устроены ИИ Агенты.
Все примеры приводятся для Google Cloud - это конечно может создать трудности в будущем.

2 — У Google хорошая инфраструктура для Gen AI стартапов.
При этом они дают щедрые гранты на использование (до 350k$).
Знаю ребят, которые получали такие гранты и были довольны.
Есть риск, что ваш проект взлетит и при масштабировании Google отыграется на вас сполна (vendor lock). А цены при масштабировании реально космические, и часто стоимость использования определяется количеством запросов, а не временем использования.

Если разобраться в инструментах, то получится быстро итерироваться и тестировать гипотезы.
Приветствую, дорогие друзья!

На просторах интернета нашла очередную приколюху, которую сегодня также планирую досконально изучить.

В LinkedIn это назвали весьма высокопарно - MBA для продактов (окак!). По структуре - это набор разного рода подкастов .
По приложенным ссылкам можно увидеть небольшое саммэри выпуска, ключевые идеи и даже упоминаемые в подкасте материалы.

Ну, поглядим. Сохраняйте себе, вдруг пригодится 😎

#позапросамстраждущих #какворватьсяваналитику #продуктовыеистории
Forwarded from Dataism
Список вопросов к команде и HR.pdf
64.5 KB
🆕35 обязательных вопросов к команде и hr

Представь, что ты получаешь заветное сообщение от hr с оффером. Забыв обо всем на свете, радостно соглашаешься, выходишь на работу, а там ….. сюрпраааааайз: и переработки постоянные, и процессы рабочие фиговые, и премию перестали платить в компании, потому что кризис (а у тебя внезапно зп в оффере состоит из 40% премии). В общем, фулл фарш.

Неприятно? Естественно.
Поэтому очень важно включить внутреннего душнилу (а кому-то даже и включать ничего не надо, по жизни такой) и все-все узнать на этапе собеседований.

Я решила систематизировать и оформить в приличный pdf важные вопросы, которые просто необходимо обсудить до того, как примете оффер от компании.

Только так вы сможете уменьшить риск того, что уже через пару недель работы, вы ее возненавидите.
Понятное дело, что работодатель может где-то приврать, но тут уж у вас есть опция просто уйти с испыталки. Помним, что испытательный срок не только для работника, но и для работодателя.

#поискработы
Please open Telegram to view this post
VIEW IN TELEGRAM
🧩 sync-with-uv

Небольшой, но полезный пакет, который автоматизирует синхронизацию версий между uv.lock и .pre-commit-config.yaml.

Зачем это нужно:
- Часто версии инструментов (black, ruff, mypy и др.) расходятся: одно указано в lock-файле, другое — в pre-commit.
- В итоге могут воспроизводиться разные окружения и непредсказуемые ошибки.

Что делает sync-with-uv:
- Автоматически подтягивает версии из uv.lock в .pre-commit-config.yaml.
- Интегрируется как pre-commit hook.
- Поддерживает частичную синхронизацию — не затрагивает инструменты, для которых версии не заданы.

Итог: один источник правды для зависимостей, меньше ручной рутины и более стабильные пайплайны.

🔗 Репозиторий: https://github.com/tsvikas/sync-with-uv
Forwarded from ML physicist (Алексей Маметьев)
Думаю многие понимают что в современных LLM attention работает не как Attention(Q, K, V) = softmax(QK^T / √d_k)V

Решил покопаться в том, какие хаки используют в топовых моделях чтобы выжать максимум качества из внимания.

Multi-head Latent Attention (MLA)
Сжимают KV - проецируют в низкоразмерное пространство, а потом восстанавливают обратно когда нужно вычислять внимание.
Что дает: KV-cache меньше в 28 раз (с 213GB до 7.6GB), скорость +20x
Где: DeepSeek

Grouped Query Attention (GQA)
Вместо отдельных KV для каждой головы - шарят между группами. Типа 32 query головы делят 8 KV голов.

Что дает: Память меньше в 2-4 раза, инференс быстрее, можно дообучить существующую MHA модель за 5% compute
Где: Llama-2/3, Mistral, Gemma-2, Qwen

Multi-Query Attention (MQA)
Экстремальная версия GQA - всего 1 KV голова на все queries.
Что дает: Максимальная экономия памяти (до 8x), но качество страдает
Где: Falcon, PaLM, старые модели Google

Sliding Window Attention
Каждый токен смотрит только на n ближайших
Что дает: O(N) сложность вместо O(N²), можно обрабатывать бесконечные последовательности
Где: Mistral, Gemma-2 (чередует с полным), Longformer

Unmasked attention for prefix
Для системного сообщения в диалоге атеншн работает без маски, а для остальных сообщений в диалоге с. Таким образом ЛЛМ начинает напоминать encoer-decoder архитектуру.
Что дает: лучшее следование инструкциям
Где: эксперементировал гугл в 2021-23, но не вылилось ни во что большое. Сейчас в многих VLM атеншн по визуальным патчам работает именно так

Sparse Attention (H2O, Scissorhands)
На каждом шаге выкидываем из KV кеша те токены на которые мало смотрели на прошлыхх заменяя их 0.
Что дает: KV-cache меньше в 10-20 раз, но можно потерять важную информацию
Где: StreamingLLM, модели для длинного контекста, скорее экзотика

Linear Attention
Заменяют softmax на линейное ядро, позволяя формулировать как RNN.
Что дает: O(N) сложность, можно делать рекуррентный инференс с постоянной памятью
Где: RWKV, RetNet, Hyena, GLA - экзотика
Forwarded from ML physicist (Алексей Маметьев)
Думаю многие понимают что в современных LLM attention работает не как Attention(Q, K, V) = softmax(QK^T / √d_k)V

Решил покопаться в том, какие хаки используют в топовых моделях чтобы выжать максимум качества из внимания.

Multi-head Latent Attention (MLA)
Сжимают KV - проецируют в низкоразмерное пространство, а потом восстанавливают обратно когда нужно вычислять внимание.
Что дает: KV-cache меньше в 28 раз (с 213GB до 7.6GB), скорость +20x
Где: DeepSeek

Grouped Query Attention (GQA)
Вместо отдельных KV для каждой головы - шарят между группами. Типа 32 query головы делят 8 KV голов.

Что дает: Память меньше в 2-4 раза, инференс быстрее, можно дообучить существующую MHA модель за 5% compute
Где: Llama-2/3, Mistral, Gemma-2, Qwen

Multi-Query Attention (MQA)
Экстремальная версия GQA - всего 1 KV голова на все queries.
Что дает: Максимальная экономия памяти (до 8x), но качество страдает
Где: Falcon, PaLM, старые модели Google

Sliding Window Attention
Каждый токен смотрит только на n ближайших
Что дает: O(N) сложность вместо O(N²), можно обрабатывать бесконечные последовательности
Где: Mistral, Gemma-2 (чередует с полным), Longformer

Unmasked attention for prefix
Для системного сообщения в диалоге атеншн работает без маски, а для остальных сообщений в диалоге с. Таким образом ЛЛМ начинает напоминать encoer-decoder архитектуру.
Что дает: лучшее следование инструкциям
Где: эксперементировал гугл в 2021-23, но не вылилось ни во что большое. Сейчас в многих VLM атеншн по визуальным патчам работает именно так

Sparse Attention (H2O, Scissorhands)
На каждом шаге выкидываем из KV кеша те токены на которые мало смотрели на прошлыхх заменяя их 0.
Что дает: KV-cache меньше в 10-20 раз, но можно потерять важную информацию
Где: StreamingLLM, модели для длинного контекста, скорее экзотика

Linear Attention
Заменяют softmax на линейное ядро, позволяя формулировать как RNN.
Что дает: O(N) сложность, можно делать рекуррентный инференс с постоянной памятью
Где: RWKV, RetNet, Hyena, GLA - экзотика
Forwarded from ML physicist (Алексей Маметьев)
Дифузионнки для текста

Пару месяцев назад gemini анонсировало gemini diffusion - первую дифузионную текстовую модель, которая по метрикам относительно близка к обычным LLM (и то и то трансформер, но один авторегерессионный а другой - дифузионный)

Как она работает

Обычная ллмка последовательно, токен за токеном генерирует последовательность. На запрос LLM(Какая сталица франции) результатом будет распределение вероятности следующего токена из которого сразу выберется самый вероятный кандидат

Gemini diffusion работает немного подругому. Вместо того что бы сразу определяться с токеном, она "постепенно" расшумляет его распределение вероятности. То есть на выходе из модели так же распределения вероятностей токенов, но мы не семплируем output сразу, а много раз вызываем одну и ту же модель, подавая output i го шага как вход i+1

И только после этого семплируем токен.

Такой подход позваляет генерировать не "токен за токеном", а сразу "разшумлять" весь ответ ллмки, так что скорости генерации таких моделей получаются ошеломительные
Работа с данными на Kaggle

Меня попросили сделать доклад о примерах того, как в соревнованиях на Kaggle была важна работа с данными (примеры анализа, magic/golden features, внешние источники, понимание домена и так далее).

Я повспоминал былое и поискал подобные соревнования, получился примерно такой список:

Home Credit Default Risk - На основе суммы кредита, ежемесячной суммы выплаты и количества выплат (этого не было в данных, но сделали модель для предсказания) удалось восстановить процентную ставку (которой не было в данных). А процентная ставка - очень сильный сигнал, ибо по факту отражает степень риска клиента.

Instant Gratification - это была задачка с синтетическими данными. Многим удалось сделать reverse engineering функции генерации данных, и благодаря этому получить 0.97+ AUC.

Santander Customer Transaction - люди обнаружили, что в тесте часть данных была синтетической. Был довольно хитрый подход - синтетические данные определяли по распределению значений. Суть в том, что в данных было 200 независимых признаков. Если просто тренировать на них модель, она найдёт какие-нибудь паттерны и оверфитнется. Было несколько решений проблемы: Построить 200 моделей или Naive Bayes, использовать shuffle augmentation, использовать деревянные модели с малой глубиной.

Red Hat Business Value - в данных были лики, которые позволяли для многих строк довольно точно определять таргет. Поэтому многие строили отдельные модели для ликованых строк и для других.

Intel & MobileODT Cervical Cancer Screening - нашлись случаи, когда фото одного и того же человека были в трейне и тесте, использование этой информации улучшало модели.

IEEE-CIS Fraud Detection - организаторы соревнования убрали userid, но людям удалось сделать reverse engineering с высокой точность, и это было ключом к успеху.

Quora Question Pairs - участникам удалось построить графы вопросом на трейне совместно с тестом, что давало большой буст.

Two Sigma Connect: Rental Listing Inquiries - timestamp-ы папок с картинками сильно коррелировали с таргетом

Bosch Production Line Performance - определенные последовательности данных имели значительно более высокий шанс failure (таргета).

Sberbank Russian Housing Market - было важно извлечь год из данных и добавить макроэкономические данные

Rossmann Store Sales - было очень полезно использовать внешние данные (погода, праздники и прочее).

Какие ещё были подобные интересные соревнования?

#kaggle #datascience