Интересное что-то
526 subscribers
2.72K photos
253 videos
140 files
4.54K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
HF kernels hub

кернел это такой кусок кода встраивыаемый в вычислительный граф и описыващий какие то спецефичные по памяти/последовательности вычислений операции которые за счет последовательности прям сильно быстрее работают(flash attn как хороший пример)

HF выпускают библеотеку кернелов, чтобы не таскать из vllm в sglang и обратно кернелы, а просто делать
import torch
import torch.nn.functional as F
from kernels import get_kernel

DEVICE = "cuda"


activation_kernels = get_kernel("kernels-community/activation")
x = torch.randn((4, 4), dtype=torch.float16, device=DEVICE)

# Prepare an output tensor
y = torch.empty_like(x)

# Run the fast GELU kernel
activation_kernels.gelu_fast(y, x)

# Get expected output using PyTorch's built-in GELU
expected = F.gelu(x)


ВСЕ, ускоряем почти любой кусок графа в несколько раз бесплатно!

link
замены нет. Или есть? современные замены трансформеров
скорее набор ссылок чем блогпост

Medusa, mtp и разные варианты спекулятивки я не рассматриваю все же, хотя стоит.
Forwarded from Синицын, бл🤬
Про промпты

Оказывается, чтобы ИИ не генерил говно — нужно не магия, а нормальное ТЗ.

Я тут нашел статью от NNGroup, и они предлагают неплохой базовый фреймворк для хороших промптов: CARE.

🔘 C = Context
ИИ не знает, кто ты, где ты, зачем ты, и что тебе уже известно. Если не задать контекст — он придумает свой. А он, мягко говоря, может не совпасть.
Пример: ты продакт, делаешь дашборд, а ИИ тебе генерит текст для HR-директора. Почему? Потому что не сказал, что ты продакт и ты делаешь дашборд.

Сформулируй: кто ты, в какой роли, в какой ситуации, на каком этапе. Лучше два абзаца контекста, чем 20 минут редактирования потом.

🔘 A = Ask
Что конкретно ты хочешь? Не в духе “расскажи мне про CICD”, а “дай краткое сравнение GitLab и GitHub Actions для команды из 3 человек, которая раньше не использовала CI”. Чем точнее запрос — тем ближе ответ к делу.
ИИ не умеет читать мысли. Он не знает, какой формат ты хочешь: таблицу, мем, список, анекдот, короткий совет? Скажи.

🔘 R = Rules
Формат, стиль, ограничения, объём. Не хочешь воды — напиши. Нужен текст в академическом или разговорном стиле — напиши. Нужно 500 слов, не больше — укажи это.
ИИ вообще не против следовать правилам, но если их нет — он накидает шаблонного трёпа. Ну потому что может.

🔘 E = Examples
Покажи пример — и всё встанет на места. Один хорошо подобранный пример лучше любого описания. Ты хочешь текст “как у Максима Ильяхова”? Приложи скрин.
И не стесняйся дать анти-пример — "мне не надо как тут", это тоже полезно. ИИ — штука обучаемая, но без данных он будет импровизировать.

Итого:
Хочешь, чтобы нейросетка работала на тебя, а не наоборот — не ленись формулировать. Промпт — это не “пиши”, это “вот тебе задача, вот вводные, вот ограничения, вот желаемый результат”.
Всё как в жизни. Только теперь ещё и с ИИ.

Бонус-трек:
LLM не любит длинные чаты, с каждым новом сообщением качество ответа будет ухудшаться. Лучше один очень длинный базовый промпт.

〰️〰️〰️〰️〰️〰️〰️
🗞 @boombah_in_da_house
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Fireplexity — открытый аналог Perplexity

Простой движок вопросов и ответов на базе ИИ.
Работает через два основных эндпоинта:

/search — выполняет поиск по интернету
/scrape — извлекает текст со страниц

Ответы ИИ формируются на основе найденной информации и включают ссылки на источники.
Можно использовать как готовый сервис или собрать свою версию — код открыт.

Подходит для интеграции в чат-ботов, ассистентов и внутренних инструментов.

git clone https://github.com/mendableai/fireplexity.git
cd fireplexity
npm install


📌 Github
📌 Попробовать

@data_analysis_ml
vikulin_ai.report.0625.pdf
1.7 MB
10 рабочих ИИ решений за июнь 2025

Меня жутко бесят все AI-каналы, где собирают самые бесполезные в мире новости. Как у Сэма Альтмана перекупают разработчиков, когда британские ученые предсказывают AGI и тд. Хочу собрать реально полезный ИИ-дайджест.

И собрал. Дайджест из 10 рабочих решений, которые вышли/прославились в июне 2025.

Здесь опенсорс библиотеки, модели, гайды, прикладные статьи. Например:
- релизы опенсорс моделей Gemma и Qwen

- обзор архитектур защиты от промпт инъекций

- библиотека для RAG на графе знаний

- насколько успешны vLLM в классическом CV

и куча еще всего.

Делитесь, комментируйте. Если зайдет — сделаю регулярным
Я принес. Как ковались «Джедайские техники» или о выживании в большом объеме задач

Прочитал недавно в блоге у Максима Дорофеева о том, как он внедрял свои джедайские техники, а главное, как он их патчил, когда они перестали помогать https://club.mnogosdelal.ru/post/3245/

Думаю, такое чтение и рефлексия после него будет полезна мидл-менеджерам-отличникам, желающим всё успеть, или особо перегруженным по каким-то причинам тимлидам.
Признаюсь честно, с тех пор, как я научился быть сразу и тимлидом команды разработки, и менеджером мультикомандных проектов, и тимлидом менеджеров, я думаю, что просто тимлидом работу свою можно организовать не шибко напряжно.

Но вот если добавляются какие-то дополнительные активности или скоуп растет в мидл-менеджмент нескольких команд – там уже плотненько. И там уже люди приходят к тому, к чему пришел Максим в статье. Когда уже обмазывание тайм-менеджментом и системой ведения дел перестает помогать с потоком всех входящих задач, когда в принципе невозможно физически справиться с этим потоком на хорошем уровне, там и начинается либо ноулайф-режим с постепенным выгоранием, либо контролируемый продолб и выбор поддержания себя здоровым и видящим смысл в своей работе.

И в конце золотая цитата «Слышал мнение, что за такое поведение могут и уволить, если вдруг на пол упадет что-то важное. Согласен. Могут. Но в такой ситуации, если уж на то пошло, этого не избежать. Так пусть уж уволят в трезвом уме и твердой памяти, чем через полгода задротом-неврастеником.»
Forwarded from TechSparks
На заметку любителям новых терминов: только-только всех начали учить промт-инжинирингу, только-только про промтинг заговорили все, от школьных учителей до продавцов инфобиза — и на тебе. Промт-инжиниринг - это, как выясняется, прошлый год (а в ИИ-мире это означает замшелый прошлый век).
Теперь, говорят, пора учиться контекст-инжинирингу, если хочешь всерьез работать с современным ИИ. Если шуточки в сторону, то в новом названии (и подходе) есть реальный смысл. CEO Shopify формулирует его так: It describes the core skill better: the art of providing all the context for the task to be plausibly solvable by the LLM.
Промт ведь, даже затейливый, — просто инструкция, а в реальных задачах почти всегда очень важен контекст, без него ответы нередко либо поверхностны, либо глуповаты. Вот тут-то и появляется необходимость овладеть delicate art and science of filling the context window with just the right information for the next step. Беда, правда, в том, что для этого надо неплохо владеть предметной областью и уметь думать, а любители промтить всеми силами стараются этого избежать:)
https://officechai.com/ai/context-engineering/
Forwarded from Евгений Козлов пишет про IT (Eugene Kozlov)
Саморазвитие в Computer Science через практику языка Си

Есть один язык, на котором я особенно люблю писать, когда хочется по-настоящему разобраться в теме. Это язык - Си.

Постоянно нахожу годные материалы по запросу «Write X in C». За время работы и учебы накопил много классных туториалов и мини-книг, очень хочу с вами поделиться и замотивировать вас копнуть чуть глубже прикладного уровня.

Пусть этот пост будет маленьким островком романтики Computer Science в мире фреймворков и бизнес-задач.

-----

Туториалы

🔸 Указатели. База, без которой никуда
- https://github.com/jflaherty/ptrtut13
- https://cslibrary.stanford.edu/102/PointersAndMemory.pdf

🔸 Хэш-таблица. Реализация самой популярной структуры данных с нуля
- https://github.com/jamesroutley/write-a-hash-table

🔸 Минималистичный HTTP-сервер на C с fork()
- https://github.com/foxweb/pico

🔸 Собственная командная строка (shell)
- https://brennan.io/2015/01/16/write-a-shell-in-c/

🔸 Виртуальная память
Мини-книга про malloc, кучу, стек и байты:
- https://github.com/alx-tools/Hack-The-Virtual-Memory

🔸 Реализация Garbage Collector на C
- https://github.com/mkirchner/gc

🔸 Кооперативные потоки (userspace multitasking)
- https://brennan.io/2020/05/24/userspace-cooperative-multitasking/

🔸 Системные вызовы (syscalls). Как реализовать syscall в ядре Linux:
- https://brennan.io/2016/11/14/kernel-dev-ep3/

🔸 Клон SQLite - реализация базы данных
- https://cstack.github.io/db_tutorial/

🔸 TCP/IP стек на C
Реализация сетевого стека с нуля:
- https://github.com/saminiir/level-ip

-----

Книги

🔸 Мини-книги по C / Unix / сетям
- https://beej.us/guide/

🔸 ООП в C
Как реализовать принципы объектного программирования в языке без ООП:
- https://www.cs.rit.edu/~ats/books/ooc.pdf

Если заинтересовало - сохраняйте, пробуйте, читайте. А если есть свои любимые ресурсы про C, ОС, память или сети - делитесь в комментах😊
Forwarded from Борис_ь с ml
AI-агенты и мультиагентные системы, MCP и A2A. Основные угрозы и подходы к обеспечению безопасности
#иб_для_ml

https://habr.com/ru/articles/920744/

Сначала по мотивам своего выступления писал серию постов, но вскоре достаточно разрослись, и они превратились в целую статью. Так что - приглашаю к прочтению!

Про AI-агентов, мултиагентные системы, MCP, A2A, и их безопасность - местами даже чуть углубленнее, чем в самом докладе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Concise Research (Sergey Kastryulin)
Масштабирование и байесы

Для диффузионок и не только

1. Cost-Aware Routing for Efficient Text-To-Image Generation
Авторы говорят, что промты бывают разной сложности. Более сложные промты могут потребовать больше шагов семплирования для получения качественных генераций. Давайте учить классификатор сложности промтов параллельно с диффузионкой. На инференсе подберем число шагов для каждого уровня сложности так чтоб сбалансировать компьют и качество

2. Scaling Inference Time Compute for Diffusion Models
Обычно в диффузии масштабирование компьюта на инференса происходит только за счет подбора числа шагов семплирования, но качество довольно быстро насыщается. Что делать если хочется потратить больше ресурсов для получения топ картинки? Авторы предлагаю помимо прочего перебирать еще и подаваемый для генерации шум (как стартовый, так и промежуточный), а также изучают сами стратегии перебора. Качество генераций валидируют стандартными метриками и VLMкой

3. Scaling Diffusion Transformers Efficiently via μP
Показывают, что стандартный μP обобщается и на диффузионные трансформеры. За счет этого, в среднем, получают единицы процентов буста скорости обучения отмасштабированных моделей. В одном случае (DiT-XL-2) обучение ускоряется в разы. Все замеры на FID-50k

4. Why Does ChatGPT “Delve” So Much? Exploring the Sources of Lexical Overrepresentation in Large Language Models
Тест на внимательность и то читают ли посты до конца ☕️ Чуть мемный анализ того почему языковые модели склонны генерить слова из старого английского. В том что они точно склонны сомнений нет: частота появления в публикациях слов вроде delve, intricate и aligns экспоненциально выросла с появлением LLM. Гипотеза о том что модели учились на старых или очень научных текстах не подтверждается, да и в целом у авторов нет однозначного объяснения. Основное подозрение падает на RLHF, но его трудно подтвердить из-за того что многие детали этого процесса для проприетарных моделей закрыты
Please open Telegram to view this post
VIEW IN TELEGRAM