Forwarded from Love. Death. Transformers.
HF kernels hub
кернел это такой кусок кода встраивыаемый в вычислительный граф и описыващий какие то спецефичные по памяти/последовательности вычислений операции которые за счет последовательности прям сильно быстрее работают(flash attn как хороший пример)
HF выпускают библеотеку кернелов, чтобы не таскать из vllm в sglang и обратно кернелы, а просто делать
ВСЕ, ускоряем почти любой кусок графа в несколько раз бесплатно!
link
кернел это такой кусок кода встраивыаемый в вычислительный граф и описыващий какие то спецефичные по памяти/последовательности вычислений операции которые за счет последовательности прям сильно быстрее работают(flash attn как хороший пример)
HF выпускают библеотеку кернелов, чтобы не таскать из vllm в sglang и обратно кернелы, а просто делать
import torch
import torch.nn.functional as F
from kernels import get_kernel
DEVICE = "cuda"
activation_kernels = get_kernel("kernels-community/activation")
x = torch.randn((4, 4), dtype=torch.float16, device=DEVICE)
# Prepare an output tensor
y = torch.empty_like(x)
# Run the fast GELU kernel
activation_kernels.gelu_fast(y, x)
# Get expected output using PyTorch's built-in GELU
expected = F.gelu(x)
ВСЕ, ускоряем почти любой кусок графа в несколько раз бесплатно!
link
Forwarded from Love. Death. Transformers.
замены нет. Или есть? современные замены трансформеров
скорее набор ссылок чем блогпост
Medusa, mtp и разные варианты спекулятивки я не рассматриваю все же, хотя стоит.
скорее набор ссылок чем блогпост
Medusa, mtp и разные варианты спекулятивки я не рассматриваю все же, хотя стоит.
Forwarded from Синицын, бл🤬
Про промпты
Оказывается, чтобы ИИ не генерил говно — нужно не магия, а нормальное ТЗ.
Я тут нашел статью от NNGroup, и они предлагают неплохой базовый фреймворк для хороших промптов: CARE.
🔘 C = Context
ИИ не знает, кто ты, где ты, зачем ты, и что тебе уже известно. Если не задать контекст — он придумает свой. А он, мягко говоря, может не совпасть.
Пример: ты продакт, делаешь дашборд, а ИИ тебе генерит текст для HR-директора. Почему? Потому что не сказал, что ты продакт и ты делаешь дашборд.
Сформулируй: кто ты, в какой роли, в какой ситуации, на каком этапе. Лучше два абзаца контекста, чем 20 минут редактирования потом.
🔘 A = Ask
Что конкретно ты хочешь? Не в духе “расскажи мне про CICD”, а “дай краткое сравнение GitLab и GitHub Actions для команды из 3 человек, которая раньше не использовала CI”. Чем точнее запрос — тем ближе ответ к делу.
ИИ не умеет читать мысли. Он не знает, какой формат ты хочешь: таблицу, мем, список, анекдот, короткий совет? Скажи.
🔘 R = Rules
Формат, стиль, ограничения, объём. Не хочешь воды — напиши. Нужен текст в академическом или разговорном стиле — напиши. Нужно 500 слов, не больше — укажи это.
ИИ вообще не против следовать правилам, но если их нет — он накидает шаблонного трёпа. Ну потому что может.
🔘 E = Examples
Покажи пример — и всё встанет на места. Один хорошо подобранный пример лучше любого описания. Ты хочешь текст “как у Максима Ильяхова”? Приложи скрин.
И не стесняйся дать анти-пример — "мне не надо как тут", это тоже полезно. ИИ — штука обучаемая, но без данных он будет импровизировать.
Итого:
Хочешь, чтобы нейросетка работала на тебя, а не наоборот — не ленись формулировать. Промпт — это не “пиши”, это “вот тебе задача, вот вводные, вот ограничения, вот желаемый результат”.
Всё как в жизни. Только теперь ещё и с ИИ.
Бонус-трек:
LLM не любит длинные чаты, с каждым новом сообщением качество ответа будет ухудшаться. Лучше один очень длинный базовый промпт.
〰️〰️〰️〰️〰️〰️〰️
🗞 @boombah_in_da_house
Оказывается, чтобы ИИ не генерил говно — нужно не магия, а нормальное ТЗ.
Я тут нашел статью от NNGroup, и они предлагают неплохой базовый фреймворк для хороших промптов: CARE.
ИИ не знает, кто ты, где ты, зачем ты, и что тебе уже известно. Если не задать контекст — он придумает свой. А он, мягко говоря, может не совпасть.
Пример: ты продакт, делаешь дашборд, а ИИ тебе генерит текст для HR-директора. Почему? Потому что не сказал, что ты продакт и ты делаешь дашборд.
Сформулируй: кто ты, в какой роли, в какой ситуации, на каком этапе. Лучше два абзаца контекста, чем 20 минут редактирования потом.
Что конкретно ты хочешь? Не в духе “расскажи мне про CICD”, а “дай краткое сравнение GitLab и GitHub Actions для команды из 3 человек, которая раньше не использовала CI”. Чем точнее запрос — тем ближе ответ к делу.
ИИ не умеет читать мысли. Он не знает, какой формат ты хочешь: таблицу, мем, список, анекдот, короткий совет? Скажи.
Формат, стиль, ограничения, объём. Не хочешь воды — напиши. Нужен текст в академическом или разговорном стиле — напиши. Нужно 500 слов, не больше — укажи это.
ИИ вообще не против следовать правилам, но если их нет — он накидает шаблонного трёпа. Ну потому что может.
Покажи пример — и всё встанет на места. Один хорошо подобранный пример лучше любого описания. Ты хочешь текст “как у Максима Ильяхова”? Приложи скрин.
И не стесняйся дать анти-пример — "мне не надо как тут", это тоже полезно. ИИ — штука обучаемая, но без данных он будет импровизировать.
Итого:
Хочешь, чтобы нейросетка работала на тебя, а не наоборот — не ленись формулировать. Промпт — это не “пиши”, это “вот тебе задача, вот вводные, вот ограничения, вот желаемый результат”.
Всё как в жизни. Только теперь ещё и с ИИ.
Бонус-трек:
LLM не любит длинные чаты, с каждым новом сообщением качество ответа будет ухудшаться. Лучше один очень длинный базовый промпт.
〰️〰️〰️〰️〰️〰️〰️
🗞 @boombah_in_da_house
Please open Telegram to view this post
VIEW IN TELEGRAM
Nielsen Norman Group
CARE: Structure for Crafting AI Prompts
To get better results from generative-AI chatbots, write CAREful prompts. Include context, what you’re asking the system to do, rules for how to do it, and examples of what you want.
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Fireplexity — открытый аналог Perplexity
Простой движок вопросов и ответов на базе ИИ.
Работает через два основных эндпоинта:
•
•
Ответы ИИ формируются на основе найденной информации и включают ссылки на источники.
Можно использовать как готовый сервис или собрать свою версию — код открыт.
Подходит для интеграции в чат-ботов, ассистентов и внутренних инструментов.
📌 Github
📌 Попробовать
@data_analysis_ml
Простой движок вопросов и ответов на базе ИИ.
Работает через два основных эндпоинта:
•
/search — выполняет поиск по интернету •
/scrape — извлекает текст со страницОтветы ИИ формируются на основе найденной информации и включают ссылки на источники.
Можно использовать как готовый сервис или собрать свою версию — код открыт.
Подходит для интеграции в чат-ботов, ассистентов и внутренних инструментов.
git clone https://github.com/mendableai/fireplexity.git
cd fireplexity
npm install📌 Github
📌 Попробовать
@data_analysis_ml
Forwarded from Всеволод Викулин | AI разбор
vikulin_ai.report.0625.pdf
1.7 MB
10 рабочих ИИ решений за июнь 2025
Меня жутко бесят все AI-каналы, где собирают самые бесполезные в мире новости. Как у Сэма Альтмана перекупают разработчиков, когда британские ученые предсказывают AGI и тд. Хочу собрать реально полезный ИИ-дайджест.
И собрал. Дайджест из 10 рабочих решений, которые вышли/прославились в июне 2025.
Здесь опенсорс библиотеки, модели, гайды, прикладные статьи. Например:
- релизы опенсорс моделей Gemma и Qwen
- обзор архитектур защиты от промпт инъекций
- библиотека для RAG на графе знаний
- насколько успешны vLLM в классическом CV
и куча еще всего.
Делитесь, комментируйте. Если зайдет — сделаю регулярным
Меня жутко бесят все AI-каналы, где собирают самые бесполезные в мире новости. Как у Сэма Альтмана перекупают разработчиков, когда британские ученые предсказывают AGI и тд. Хочу собрать реально полезный ИИ-дайджест.
И собрал. Дайджест из 10 рабочих решений, которые вышли/прославились в июне 2025.
Здесь опенсорс библиотеки, модели, гайды, прикладные статьи. Например:
- релизы опенсорс моделей Gemma и Qwen
- обзор архитектур защиты от промпт инъекций
- библиотека для RAG на графе знаний
- насколько успешны vLLM в классическом CV
и куча еще всего.
Делитесь, комментируйте. Если зайдет — сделаю регулярным
Forwarded from Тимлид Очевидность | Евгений Антонов
Я принес. Как ковались «Джедайские техники» или о выживании в большом объеме задач
Прочитал недавно в блоге у Максима Дорофеева о том, как он внедрял свои джедайские техники, а главное, как он их патчил, когда они перестали помогать https://club.mnogosdelal.ru/post/3245/
Думаю, такое чтение и рефлексия после него будет полезна мидл-менеджерам-отличникам, желающим всё успеть, или особо перегруженным по каким-то причинам тимлидам.
Признаюсь честно, с тех пор, как я научился быть сразу и тимлидом команды разработки, и менеджером мультикомандных проектов, и тимлидом менеджеров, я думаю, что просто тимлидом работу свою можно организовать не шибко напряжно.
Но вот если добавляются какие-то дополнительные активности или скоуп растет в мидл-менеджмент нескольких команд – там уже плотненько. И там уже люди приходят к тому, к чему пришел Максим в статье. Когда уже обмазывание тайм-менеджментом и системой ведения дел перестает помогать с потоком всех входящих задач, когда в принципе невозможно физически справиться с этим потоком на хорошем уровне, там и начинается либо ноулайф-режим с постепенным выгоранием, либо контролируемый продолб и выбор поддержания себя здоровым и видящим смысл в своей работе.
И в конце золотая цитата «Слышал мнение, что за такое поведение могут и уволить, если вдруг на пол упадет что-то важное. Согласен. Могут. Но в такой ситуации, если уж на то пошло, этого не избежать. Так пусть уж уволят в трезвом уме и твердой памяти, чем через полгода задротом-неврастеником.»
Прочитал недавно в блоге у Максима Дорофеева о том, как он внедрял свои джедайские техники, а главное, как он их патчил, когда они перестали помогать https://club.mnogosdelal.ru/post/3245/
Думаю, такое чтение и рефлексия после него будет полезна мидл-менеджерам-отличникам, желающим всё успеть, или особо перегруженным по каким-то причинам тимлидам.
Признаюсь честно, с тех пор, как я научился быть сразу и тимлидом команды разработки, и менеджером мультикомандных проектов, и тимлидом менеджеров, я думаю, что просто тимлидом работу свою можно организовать не шибко напряжно.
Но вот если добавляются какие-то дополнительные активности или скоуп растет в мидл-менеджмент нескольких команд – там уже плотненько. И там уже люди приходят к тому, к чему пришел Максим в статье. Когда уже обмазывание тайм-менеджментом и системой ведения дел перестает помогать с потоком всех входящих задач, когда в принципе невозможно физически справиться с этим потоком на хорошем уровне, там и начинается либо ноулайф-режим с постепенным выгоранием, либо контролируемый продолб и выбор поддержания себя здоровым и видящим смысл в своей работе.
И в конце золотая цитата «Слышал мнение, что за такое поведение могут и уволить, если вдруг на пол упадет что-то важное. Согласен. Могут. Но в такой ситуации, если уж на то пошло, этого не избежать. Так пусть уж уволят в трезвом уме и твердой памяти, чем через полгода задротом-неврастеником.»
Джедайский Клуб
Как ковались "Джедайские техники" или о выживании в большом объеме задач — Джедайский Клуб
Изначально этот пост был опубликован в моем ЖЖ в октябре 2011 года.
Тогда я еще сам работал по найму (руководил отделом разработки в "Лаборатори…
Тогда я еще сам работал по найму (руководил отделом разработки в "Лаборатори…
Forwarded from TechSparks
На заметку любителям новых терминов: только-только всех начали учить промт-инжинирингу, только-только про промтинг заговорили все, от школьных учителей до продавцов инфобиза — и на тебе. Промт-инжиниринг - это, как выясняется, прошлый год (а в ИИ-мире это означает замшелый прошлый век).
Теперь, говорят, пора учиться контекст-инжинирингу, если хочешь всерьез работать с современным ИИ. Если шуточки в сторону, то в новом названии (и подходе) есть реальный смысл. CEO Shopify формулирует его так: It describes the core skill better: the art of providing all the context for the task to be plausibly solvable by the LLM.
Промт ведь, даже затейливый, — просто инструкция, а в реальных задачах почти всегда очень важен контекст, без него ответы нередко либо поверхностны, либо глуповаты. Вот тут-то и появляется необходимость овладеть delicate art and science of filling the context window with just the right information for the next step. Беда, правда, в том, что для этого надо неплохо владеть предметной областью и уметь думать, а любители промтить всеми силами стараются этого избежать:)
https://officechai.com/ai/context-engineering/
Теперь, говорят, пора учиться контекст-инжинирингу, если хочешь всерьез работать с современным ИИ. Если шуточки в сторону, то в новом названии (и подходе) есть реальный смысл. CEO Shopify формулирует его так: It describes the core skill better: the art of providing all the context for the task to be plausibly solvable by the LLM.
Промт ведь, даже затейливый, — просто инструкция, а в реальных задачах почти всегда очень важен контекст, без него ответы нередко либо поверхностны, либо глуповаты. Вот тут-то и появляется необходимость овладеть delicate art and science of filling the context window with just the right information for the next step. Беда, правда, в том, что для этого надо неплохо владеть предметной областью и уметь думать, а любители промтить всеми силами стараются этого избежать:)
https://officechai.com/ai/context-engineering/
OfficeChai
“Context Engineering” A Better Term Than Prompt Engineering, Say Tech Leaders
The rapid pace of the development of AI means that the terms that are used to describe it are changing just as rapidly too. Several tech leaders have said that they prefer the term "context engineering'
Forwarded from Базы данных & SQL
Хабр
Базы данных. Как выбрать подходящее решение? Полный гид по SQL, NoSQL и не только
Привет, хабр! Меня зовут Кирилл, и на протяжении последних двух лет я мечтал научиться проходить System Design интервью. Но только недавно взялся за дело всерьёз. Изучив различные хранилища данных, я...
Forwarded from Евгений Козлов пишет про IT (Eugene Kozlov)
Саморазвитие в Computer Science через практику языка Си
Есть один язык, на котором я особенно люблю писать, когда хочется по-настоящему разобраться в теме. Это язык - Си.
Постоянно нахожу годные материалы по запросу «Write X in C». За время работы и учебы накопил много классных туториалов и мини-книг, очень хочу с вами поделиться и замотивировать вас копнуть чуть глубже прикладного уровня.
Пусть этот пост будет маленьким островком романтики Computer Science в мире фреймворков и бизнес-задач.
-----
Туториалы
🔸 Указатели. База, без которой никуда
- https://github.com/jflaherty/ptrtut13
- https://cslibrary.stanford.edu/102/PointersAndMemory.pdf
🔸 Хэш-таблица. Реализация самой популярной структуры данных с нуля
- https://github.com/jamesroutley/write-a-hash-table
🔸 Минималистичный HTTP-сервер на C с fork()
- https://github.com/foxweb/pico
🔸 Собственная командная строка (shell)
- https://brennan.io/2015/01/16/write-a-shell-in-c/
🔸 Виртуальная память
Мини-книга про malloc, кучу, стек и байты:
- https://github.com/alx-tools/Hack-The-Virtual-Memory
🔸 Реализация Garbage Collector на C
- https://github.com/mkirchner/gc
🔸 Кооперативные потоки (userspace multitasking)
- https://brennan.io/2020/05/24/userspace-cooperative-multitasking/
🔸 Системные вызовы (syscalls). Как реализовать syscall в ядре Linux:
- https://brennan.io/2016/11/14/kernel-dev-ep3/
🔸 Клон SQLite - реализация базы данных
- https://cstack.github.io/db_tutorial/
🔸 TCP/IP стек на C
Реализация сетевого стека с нуля:
- https://github.com/saminiir/level-ip
-----
Книги
🔸 Мини-книги по C / Unix / сетям
- https://beej.us/guide/
🔸 ООП в C
Как реализовать принципы объектного программирования в языке без ООП:
- https://www.cs.rit.edu/~ats/books/ooc.pdf
Если заинтересовало - сохраняйте, пробуйте, читайте. А если есть свои любимые ресурсы про C, ОС, память или сети - делитесь в комментах😊
Есть один язык, на котором я особенно люблю писать, когда хочется по-настоящему разобраться в теме. Это язык - Си.
Постоянно нахожу годные материалы по запросу «Write X in C». За время работы и учебы накопил много классных туториалов и мини-книг, очень хочу с вами поделиться и замотивировать вас копнуть чуть глубже прикладного уровня.
Пусть этот пост будет маленьким островком романтики Computer Science в мире фреймворков и бизнес-задач.
-----
Туториалы
🔸 Указатели. База, без которой никуда
- https://github.com/jflaherty/ptrtut13
- https://cslibrary.stanford.edu/102/PointersAndMemory.pdf
🔸 Хэш-таблица. Реализация самой популярной структуры данных с нуля
- https://github.com/jamesroutley/write-a-hash-table
🔸 Минималистичный HTTP-сервер на C с fork()
- https://github.com/foxweb/pico
🔸 Собственная командная строка (shell)
- https://brennan.io/2015/01/16/write-a-shell-in-c/
🔸 Виртуальная память
Мини-книга про malloc, кучу, стек и байты:
- https://github.com/alx-tools/Hack-The-Virtual-Memory
🔸 Реализация Garbage Collector на C
- https://github.com/mkirchner/gc
🔸 Кооперативные потоки (userspace multitasking)
- https://brennan.io/2020/05/24/userspace-cooperative-multitasking/
🔸 Системные вызовы (syscalls). Как реализовать syscall в ядре Linux:
- https://brennan.io/2016/11/14/kernel-dev-ep3/
🔸 Клон SQLite - реализация базы данных
- https://cstack.github.io/db_tutorial/
🔸 TCP/IP стек на C
Реализация сетевого стека с нуля:
- https://github.com/saminiir/level-ip
-----
Книги
🔸 Мини-книги по C / Unix / сетям
- https://beej.us/guide/
🔸 ООП в C
Как реализовать принципы объектного программирования в языке без ООП:
- https://www.cs.rit.edu/~ats/books/ooc.pdf
Если заинтересовало - сохраняйте, пробуйте, читайте. А если есть свои любимые ресурсы про C, ОС, память или сети - делитесь в комментах😊
Forwarded from Борис_ь с ml
AI-агенты и мультиагентные системы, MCP и A2A. Основные угрозы и подходы к обеспечению безопасности
#иб_для_ml
⛓ https://habr.com/ru/articles/920744/
Сначала по мотивам своего выступления писал серию постов, но вскоре достаточно разрослись, и они превратились в целую статью. Так что - приглашаю к прочтению!
Про AI-агентов, мултиагентные системы, MCP, A2A, и их безопасность - местами даже чуть углубленнее, чем в самом докладе.
#иб_для_ml
Сначала по мотивам своего выступления писал серию постов, но вскоре достаточно разрослись, и они превратились в целую статью. Так что - приглашаю к прочтению!
Про AI-агентов, мултиагентные системы, MCP, A2A, и их безопасность - местами даже чуть углубленнее, чем в самом докладе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
AI-агенты и мультиагентные системы, MCP и A2A. Основные угрозы и подходы к обеспечению безопасности
Всем привет! Меня зовут Борис, я веду канал «Борис_ь с ml» про информационную безопасность и машинное обучение. Сейчас мой основной вектор исследований - мультиагентные системы и их безопасность....
Forwarded from Concise Research (Sergey Kastryulin)
Масштабирование и байесы
Для диффузионок и не только
1. Cost-Aware Routing for Efficient Text-To-Image Generation
Авторы говорят, что промты бывают разной сложности. Более сложные промты могут потребовать больше шагов семплирования для получения качественных генераций. Давайте учить классификатор сложности промтов параллельно с диффузионкой. На инференсе подберем число шагов для каждого уровня сложности так чтоб сбалансировать компьют и качество
2. Scaling Inference Time Compute for Diffusion Models
Обычно в диффузии масштабирование компьюта на инференса происходит только за счет подбора числа шагов семплирования, но качество довольно быстро насыщается. Что делать если хочется потратить больше ресурсов для получения топ картинки? Авторы предлагаю помимо прочего перебирать еще и подаваемый для генерации шум (как стартовый, так и промежуточный), а также изучают сами стратегии перебора. Качество генераций валидируют стандартными метриками и VLMкой
3. Scaling Diffusion Transformers Efficiently via μP
Показывают, что стандартный μP обобщается и на диффузионные трансформеры. За счет этого, в среднем, получают единицы процентов буста скорости обучения отмасштабированных моделей. В одном случае (DiT-XL-2) обучение ускоряется в разы. Все замеры на FID-50k
4. Why Does ChatGPT “Delve” So Much? Exploring the Sources of Lexical Overrepresentation in Large Language Models
Тест на внимательность и то читают ли посты до конца☕️ Чуть мемный анализ того почему языковые модели склонны генерить слова из старого английского. В том что они точно склонны сомнений нет: частота появления в публикациях слов вроде delve, intricate и aligns экспоненциально выросла с появлением LLM. Гипотеза о том что модели учились на старых или очень научных текстах не подтверждается, да и в целом у авторов нет однозначного объяснения. Основное подозрение падает на RLHF, но его трудно подтвердить из-за того что многие детали этого процесса для проприетарных моделей закрыты
Для диффузионок и не только
1. Cost-Aware Routing for Efficient Text-To-Image Generation
Авторы говорят, что промты бывают разной сложности. Более сложные промты могут потребовать больше шагов семплирования для получения качественных генераций. Давайте учить классификатор сложности промтов параллельно с диффузионкой. На инференсе подберем число шагов для каждого уровня сложности так чтоб сбалансировать компьют и качество
2. Scaling Inference Time Compute for Diffusion Models
Обычно в диффузии масштабирование компьюта на инференса происходит только за счет подбора числа шагов семплирования, но качество довольно быстро насыщается. Что делать если хочется потратить больше ресурсов для получения топ картинки? Авторы предлагаю помимо прочего перебирать еще и подаваемый для генерации шум (как стартовый, так и промежуточный), а также изучают сами стратегии перебора. Качество генераций валидируют стандартными метриками и VLMкой
3. Scaling Diffusion Transformers Efficiently via μP
Показывают, что стандартный μP обобщается и на диффузионные трансформеры. За счет этого, в среднем, получают единицы процентов буста скорости обучения отмасштабированных моделей. В одном случае (DiT-XL-2) обучение ускоряется в разы. Все замеры на FID-50k
4. Why Does ChatGPT “Delve” So Much? Exploring the Sources of Lexical Overrepresentation in Large Language Models
Тест на внимательность и то читают ли посты до конца
Please open Telegram to view this post
VIEW IN TELEGRAM