AI на дровах 🪵
235 subscribers
76 photos
19 videos
1 file
130 links
Привет! Меня зовут Семён, я работаю в сфере ML и аналитики данных, пишу в блог nerdit.ru статьи о своем опыте и том, что может пригодиться начинающим в начале их пути изучения больших данных.

👾HSE ML Unit Head⚡️
❤️Litres DS Team
Download Telegram
Месяц экспериментов над собой
(все трюки выполнены профессионалами)

Провёл интересный эксперимент.
Цель: понять пределы при пиковой нагрузке.
Условия: каждый день - и будни, и выходные - минимум пауз, максимум рабочих задач.

Первые две недели всё шло бодро: закрывал таски, нырял в новые темы, что-то улучшал и допиливал до 3 ночи. Утром - подъём в 8–9 и снова в бой.

Потом начались когнитивные проседания. "Но это ещё не предел", - подумал я.
Дальше всё посыпалось по экспоненте, пока не достиг дна: отсутствие сил и внимания, потерянность и апатия.

Классическое выгорание 🫠
🤯4👀2
Прошла неделя с окончания эксперимента, и вот какие (очевидные) выводы:

📌Сон — архиважная штука. Без 7–8 часов всё остальное бессмысленно.
📌Перерывы и физическая активность — must-have. Короткие паузы каждый час, прогулки/физическая активность ежедневно.
📌Выходные — это часть системы, а не слабость. Серии без дней восстановления ломают продуктивность.
📌Планирование > героизм. 1 глубокая задача в день + 2–3 мелких — лучше, чем 12 вкладок хаоса.
📌Питание и вода влияют сильнее, чем кажется. Кофе не замена сну.
📌Сигналы перегруза нужно отслеживать. Туман в голове, раздражительность, ошибки как ред флаги.
📌Делегирование и "нет" — инструменты чтобы не выгореть окончательно.

Что меняю дальше: режим v2.0 - 2×90 минут фокус-спринтов днём, работа до 22:30 максимум, суббота - off, воскресенье - лёгкие дела и планирование.

TL;DR: марафон без сна = быстрый путь к выгоранию.
Система > спринты на адреналине.

В первую очередь пишу этот пост для себя, чтобы возвращаться к нему и не повторять подобного)
Возможно кому-то тоже будет полезно)

P.S. Конечно всё зависит от возраста, лет в 20 я бы и месяц продержался))

#работа #фокус #выгорание #сон #продуктивность #эксперимент
👍51😱1👀1
Тем не менее, из этого эксперимента, помимо негативных последствий для меня лично, родилось много хорошего.
Одним из таких продуктов стал бот по архетипам.


«Архетипы — это универсальные сценарии мышления и поведения,
которые повторяются у людей и культур. Они не про “ярлык”,
а про подсветку сильных сторон и типичных ловушек.»
Зачем это вообще после истории с выгоранием?
Я увидел, что "один режим для всех" не работает. Кому-то заходит спринт и дедлайны, кому-то исследование и погружения. Бот помогает быстро понять свой паттерн и настроить день под себя.

Этот бот делает 3 ключевые вещи:

Определяет твой личный архетип по дате рождения.
Помогает увидеть, как ты воспринимаешь реальность: где твои сильные стороны и какие уязвимости стоит прикрыть.

Сопоставляет его с «архетипом дня».
Показывает, какие энергии «в воздухе» сегодня и как именно они влияют на тебя.

Дает практические рекомендации на день:
- на что обратить внимание;
- где можно потерять энергию;
- как восполнить ресурс;
- какие действия помогут прожить день «в себе» и «в силе».

Кому зайдёт:

- тем, кто хочет поднять продуктивность без саморазрушения;
- тем, кому важно точнее делегировать и меньше микроменеджить;
- всем, кто чувствует «туман в голове» и ищет рабочую систему.

Это не психодиагностика и не диагноз. Это практичный инструмент самонастройки.

Проект только в начальной стадии своего предзапуска, но мы с командой: из замечательного специалиста по архетипам @jsilver_finE, и не менее прекрасного маркетолога (и не только 😎) @zharchenkov уже проделали много работы и готовы пригласить желающих на открытое тестирование:

Хочу на тест!

#архетипы #продуктивность #выгорание #самоменеджмент
🔥2
Если у AI-проекта нет валидационной команды, эту роль выполнит… пользователь.
И сделает он это дорого, громко и в проде 🙂

Чем больше мы растим ИИ ассистента в Вышке, тем очевиднее: валидация - такой же обязательный компонент, как репозиторий, CI/CD и алерты.
Тут пара мыслей о том, как я это вижу изнутри и почему без неё нельзя.

Что такое "валидационная команда"?
Это не "разметчики", хотя без них тоже никуда. Это мини-команда со своей миссией: гарантировать полезные, безопасные и предсказуемые ответы модели при любых изменениях - от базы знаний до промпта и версии LLM.

Из кого она должна состоять (в идеале):
Lead/методолог - формулирует критерии качества и процесс
Red team - ломает: джейлбрейки, утечки PII, токсичность, промпт-инъекции
Валидационные аналитики - эталоны, чек-листы, «золотой набор», слепая разметка
QA/Tooling - пайплайны A/B, автоматизация регресса, мониторинги
Data analyst - отчёты, метрики, деградации, приоритизация фиксов

Что именно они делают на практике:
- собирают и поддерживают golden set: реальные диалоги + краевые кейсы
- пишут критерии приёмки для каждой категории: полнота, точность, тон, безопасность
- гоняют A/B: промты, контекст, температуры, политика эскалации
- проводят ред-тиминг по сценариям (фишинг, PII, провокации)
- ставят апрув на релиз: ни один промпт/модель/статья не уходит в прод без их одобрения
- мониторят в проде дрейф: триггеры на падение качества и всплеск эскалаций

И с первого дня проекта, валидация участвует в постановке задач, определяет «что такое хороший ответ», помогает собрать первый golden set. Перед релизом проводит стресс-тесты. В проде мониторинг деградаций.
И это должен быть непрерывный процесс.

#Вышка #ИИ #валидация #AIQuality #MLOps
🔥31👍1
Думаю в какую сторону дальше развивать канал, а главное как это лучше делать.

В планах до конца года дойти до 300 подписчиков, это такая микроцель, но кажется уже упёрся в "потолок".

Разный тип контента выкладываю: и новости и события из жизни и рабочие моменты, но все не так заходит как должно.

Может пора подключать и тут какую-то расширенную аналитику, посмотреть какие посты получили больше просмотров и реакций и на них сконцентрироваться?

У меня когда-то была уже идея и даже заготовка в виде бота, который анализирует ТГ каналы и предлагает темы для постов на основе данных, попробую его достать из чулана идей)

Что думаете, получится набрать до конца года 300 подписчиков? 😉
🔥3👍2🤷‍♂1
На какую тему лично вам интересно читать посты? Можно выбрать несколько вариантов.

Ниже то, о чем мне самому интересно писать:
Anonymous Poll
44%
LLM и разные инструменты для работы с ИИ
50%
Кодинг: python, про мой стек технологий в целом
56%
Вести с полей: что нового в рабочих процессах и в индустрии
6%
Свой вариант в комментариях
3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Открылся предзаказ на первого домашнего робота, за 499 долларов в месяц по подписке.

Он там весь мягкий и безопасный с точностью манипуляторов в 1мм, но все же, есть ощущение, что люди пока не готовы к таким девайсам.

Даже если бы они продавались у нас за 499 руб. в месяц, кто бы себе такого взял домой?

Вот представьте: ходит у вас такое гуманоидное чудо по квартире, что-то там делает по хозяйству, с ним даже можно поговорить и все такое.

Представили? И как ощущения?

Несмотря на всю мою любовь к технологиям, что-то поёжилось внутри, какой-то первобытный инстинк самосохранения как бы намекнул: "Аккуратнее с этой штуковиной, она только притворяется твоим другом"⛄️
2🔥1👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Первая H100 GPU выведена в космос 🚀

В рамках проекта, который предполагает строительство дата центра в космосе, который будет выведен на гелиосинхронную орбиту, для экономии энергии, которую он будет получать от солнца.

Ждём тарифные планы:
- Moscow
- Dallas
- Tokio
- Space 🚀

Можно будет скоро пафосно заявлять, что обучал модельку в космосе)
👍2🔥2👏1
Привет! Хочу рассказать про очередной сайд-проект, который наконец допилился до стадии MVP.

Пишешь в Telegram-канале? Знаешь, как бывает: идеи кончились, времени нет, а посты нужны регулярно.
Или хочется, чтобы AI-генератор писал в твоём стиле, а не шаблонны.

Так появилась идея для бота IdeaFlow — он помогает авторам каналов генерировать посты в их стиле.

Как это работает:
1. Бот анализирует твои посты — определяет стиль, темы, голос
2. Предлагает идеи для новых постов на основе твоей тематики
3. Генерирует черновики, которые звучат как ты, а не как ChatGPT

Что умеет:
• Анализ стиля канала через AI (GPT-4 + embeddings)
• Генерация идей под твою тематику
• Создание черновиков в твоём стиле
• Редактирование постов через текстовые запросы
• Поддержка нескольких каналов
• Веб-приложение для удобной работы
• История и избранное

Технические детали:
• Backend: Python 3.11 + aiogram 3.x для бота, FastAPI для REST API
• AI: OpenAI GPT-4 для генерации, text-embedding-3-small для анализа стиля
• NLP: KMeans для кластеризации тем, кастомная лексическая аналитика для определения стиля
• База данных: PostgreSQL для хранения профилей и истории
• Кэш: Redis для оптимизации запросов
• Frontend: Next.js 15 + TypeScript + Tailwind CSS (Telegram Mini App)
• Инфраструктура: Docker, rate limiting, retry-механизмы, структурированное логирование

Главное отличие от GPT: бот не пишет шаблонно.
Он изучает твой стиль через embeddings и кластеризацию, анализирует лексику и синтаксис, и пишет так, как пишешь ты. (очень старается)

Проект в стадии MVP, но уже работает, можно тестить)

#Telegram #AI #ContentCreation #WriteFlow #Python #NextJS
🔥6
Цикл Колба или как можно учиться в эпоху ИИ

Все чаще ловлю себя на мысли, что классические модели обучения требуют апдейта под реальность, где рядом с нами живёт ИИ. Сегодня коротко про цикл Колба и как можно бустануть своё обучение с ИИ.

Что такое цикл Колба?
Цикл Колба это модель, которая описывает, как мы действительно учимся.
В этой модели 4 шага, и ключевая идея в циклах обучения:
1. Конкретный опыт
Ты что-то сделал: провёл митинг, запустил рекламу, поговорил с клиентом, попробовал новый инструмент.

2. Рефлексия (наблюдение и анализ)
На этом этапе мы задаёмся вопросами:
Что получилось? Что пошло не так? Что я чувствовал? Что заметил?

3. Выведение выводов и концепций
Из этого опыта рождаются закономерности:
- Если я делаю X, то обычно случается Y.
- Появляются гипотезы и свои рабочие правила.

4. Эксперимент и проверка
Ты пробуешь действовать по-новому, уже опираясь на выводы:
меняешь формат встречи, текст, стратегию, инструменты и запускаешь следующий цикл.

📌 Важно: это не линейный путь "сделал и забыл", а постоянный круг: опыт → осмысление → выводы → эксперимент → новый опыт.


Где здесь ИИ? Моя версия обновлённого цикла
Мне кажется, ИИ логично добавить не как отдельный пятый шаг, а как усилитель на каждом этапе.
Получается цикл Колба 2.0:

- Опыт + фиксация через ИИ
После действия мы часто ничего не записываем.
ИИ может помочь:
- конспектировать встречи (по заметкам/записям),
- структурировать переписки с клиентами,
- вытаскивать ключевые моменты из хаоса задач.

👉 Результат: у опыта появляется цифровой след, с которым можно работать и к которому можно возвращаться.

- Рефлексия вместе с ИИ
Большинство людей рефлексию пропускает: нет времени, тяжело думать, непонятно, с чего начать.
ИИ можно использовать как рефлексивного партнёра или собеседника:
- задаёт тебе вопросы по ситуации;
- помогает увидеть альтернативные интерпретации;
- ловит паттерны: Смотри, уже третий раз ты пишешь, что дедлайны горят на этом этапе.

👉 Результат: глубже осмысление, меньше самообмана.

- Формирование гипотез и моделей с помощью ИИ
Когда есть осмысленный опыт, ИИ может:
- предложить возможные объяснения: Это похоже на типичную проблему Х;
- подсунуть теории/фреймворки из психологии, менеджмента, обучения, маркетинга;
- помочь сформулировать гипотезы: Если в следующий раз сделать А и Б, ожидаем С.

👉 Результат: из что-то пошло не так рождается понятная модель.

- Планирование экспериментов с ИИ
Перед тем как снова действовать, ИИ помогает:
- подготовить скрипты, письма, сценарий встречи;
- смоделировать ответы сложного клиента;
- продумать риски и альтернативные планы.

👉 Результат: следующий шаг менее хаотичный и более осознанный.

Зачем вообще добавлять ИИ в цикл Колба?

Для меня главное в этом:

- Снизить когнитивную нагрузку.
Меньше держать в голове, больше доверять системе, которая структурирует опыт.

- Ускорить рефлексию.
Вместо когда-нибудь сяду и подумаю есть быстрый диалог с ИИ по свежему кейсу.

- Быстрее превращать ошибки в улучшения.
Не просто ой, не получилось, а понятный: опыт → вывод → новый эксперимент.

И очень важно: ИИ не забирает у человека ответственность за выбор, он только усиливает способность видеть, понимать и экспериментировать осмысленно.


Как вам идея цикла Колба 2.0 с ИИ-слоем?
Используете ли вы ИИ в рефлексии и обучении или пока только как поисковик на стероидах?
Если пост наберёт достаточное количество реакций, в следующий раз расскажу какие инструменты использую на каждом этапе цикла Колба.

#цикл_колба
👍7🤔5🔥3
Цикл Колба, шаг 1 Опыт: сделал и записал 🔄

А теперь давайте разберём подробнее каждый шаг цикла Колба.
Начнем с первого шага и какими тут методами и инструментами можно пользоваться.

Мы все постоянно что-то делаем: созвоны, встречи, проекты, переговоры, обучение.
Но если честно большая часть этого опыта просто испаряется.

Сделал, выдохнул и побежал дальше.

В цикле Колба первый шаг называется "конкретный опыт".
Другими словами это момент, когда ты:

- что-то попробовал;
- что-то запустил;
- с кем-то поговорил;
- о чём-то договорился.

Но есть важный нюанс в этой методологии: опытом становится только то, что мы можем потом "потрогать" и вспомнить, а не просто смутное "ну там что-то было".

Где всё обычно ломается?

На этом шаге у большинства обучение заканчивается, даже не начавшись:

- ничего не записали и через день уже не вспомнили деталей;
- в голове осталось "норм/ненорм", без конкретики;
- нет точки, от которой можно оттолкнуться в рефлексии.

И в следующий раз мы действуем почти так же, потому что не с чем сравнивать и не на что опираться.


Как я добавляю ИИ на первом шаге 🤖

Я смотрю на первый шаг "Опыт" так:
сделал → быстро оставил "след" → уже есть материал для обучения.

ИИ здесь помогает не думать о форме, а просто выгружать.

Вот как это может выглядеть 👇
Голос → текст → конспект
Сразу после встречи / важного созвона:

1. Наговариваешь в диктофон 1–3 минуты или заводишь текстовую заметку:
- с кем был разговор;
- о чём;
- до чего договорились;
- что тебя зацепило (радость/напряг/сомнение).

2. Кидаешь этот текст ИИ с запросом:
Сделай краткий конспект встречи: участники, суть разговора, ключевые решения, нерешённые вопросы.

На выходе получаем 1 абзац структуры вместо 20 минут несвязного текста.


2. Текст встречи / переписки → выжимка

Если у тебя есть:

- протокол встречи;
- длинная переписка с клиентом;
- чат команды

можно просто сказать ИИ:

Выдели главное:
– контекст: о чём вообще речь,
– что уже сделано,
– какие решения приняты,
– какие проблемы/риски всплыли.


Это и есть "оцифрованный опыт", а именно факт того, что произошло.


3. Мини-шаблон
Формат, который можно гонять каждый день:

Сегодняшний кусок опыта:
1) Что я сделал?
2) Где было сложно/стрёмно?
3) Что меня удивило?
4) Какой момент точно стоит разобрать подробнее?

Можно закинуть это ИИ и попросить:

Оформи мои ответы в краткое описание опыта, с которым мы потом будем работать на рефлексии.

То есть на первом шаге ИИ это не "умный советчик", а "секретарь", который:

- собирает все куски дня в одном место;
- превращает разрозненную информацию в задокументированный вид;
- помогает не потерять детали.

Микро-эксперимент, кто хочет начать применять для себя.

Если хочешь попробовать "цикл Колба 2.0" на практике, то начни только с первого шага:

Ближайшие 3 дня:

1. Выбери один важный эпизод в день (созвон, конфликт, выступление, запуск задачи).
2. Сразу после него:
- наговори голосом/напечатай 1–2 минуты впечатлений;
- закинь это ИИ с промтом: Сделай краткое описание опыта, с фактами и ключевыми моментами.

3. Сохрани эти выжимки туда, где ты хранишь заметки (заметки, Obsidian, Notion что угодно).

Я сверху часто использую NotebookLM как слой "над заметками":
закидываю туда конспекты созвонов, переписки, документы;
прошу: "Собери, какие ситуации за неделю вызывали у меня больше всего напряжения/сомнений" или "Сделай короткий обзор моих встреч и составь список задач";
готовлю таким обгазом почву для следующего шага рефлексии.

По сути, NotebookLM у меня становится таким "хранилищем опыта", где все маленькие следы дня складываются в одну картину, а не живут хаотично в разных приложениях.

Всё, этого будет достаточно на текущем шаге.

В следующем посте шаг 2 цикла Колба про рефлексию:
как разбирать эти "следы", что спрашивать у себя и как ИИ может быть уже не конспектологом, а собеседником 💬

#цикл_колба
1👍5🔥43
AI на дровах 🪵
Цикл Колба, шаг 1 Опыт: сделал и записал 🔄 А теперь давайте разберём подробнее каждый шаг цикла Колба. Начнем с первого шага и какими тут методами и инструментами можно пользоваться. Мы все постоянно что-то делаем: созвоны, встречи, проекты, переговоры…
Отдельного внимания, конечно, заслуживает NotebookML.

Сервис, который умеет превращать твой опыт в разные форматы: аудио, видео, тесты, инфографику и многое другое.

Вот, например, инфографика по итогам одного из проектов.

Так что советую попробовать, кто ещё не знаком)

P.S. Пост, конечно же, ради красочных картинок 🙃
1👍6🔥5🤯3
Как же я люблю то, чем занимаюсь ❤️

Вот так иногда посмотришь со стороны и вспоминается как я мечтал в детстве о полном погружении в современные техно-штуки, как фанатично посещал уроки информатики в школе 👨‍💻

Полезно бывает валидировать текущий жизненный статус, чтобы не заоверфититься и не выгореть 🙃

Почти 20 лет вАйти и не выйти)
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥3❤‍🔥2
The Thinking Game

Вышел фильм о пути CEO Google DeepMind Демиса Хассабиса к Нобелевской преми, который снимали целых 5 лет. Фильм о том, как команда DeepMind под руководством Хассабиса использовала игры как полигон для развития ИИ, что привело к созданию AlphaGo и, позднее, к научному прорыву AlphaFold.

Смотреть можно здесь или скачать через нашего бота @summ_youtube_bot
🎲 Crowd-Control Hero, когда толпа управляет героем

Давно ничего не постил, конец года выдался горячим)

Решил сегодня покопаться в закромах и нашёл один проект: идея пришла ещё полгода назад, руки дошли раньше, а рассказываю только сейчас.

Что ж в этот раз необычный проект, как обычно с LLM под капотом, куда без него)

Crowd-Control Hero интерактивная текстовая RPG в Telegram, где толпа управляет героем.

Как это работает:
Начинаешь или вступаешь в игру → видишь сцену с описанием ситуации → голосуешь за один из вариантов действий. Когда таймер истекает, определяется победивший вариант, бросается d20, и результат влияет на последствия: от критического успеха до катастрофы.

Причём можно играть не только в одиночку, а компанией, обсуждая попутно в специальной тг-группе, где автоматом создаются треды под каждую игру.

15 сеттингов на выбор: от классического фэнтези и киберпанка до Лавкрафтианского прибрежного городка и Феодальной Японии с ёкаями. У каждого свои архетипы героев, локации и таблицы лута.

🔧 Немного технички:
Архитектура: два процесса на общей SQLite (с WAL):
FastAPI: API + статика Mini App, логика игры, планировщик
aiogram3: бот для тредов в супергруппе и логирования обсуждений
LLM-движок: GPT-4o-mini генерирует сцены, эпилоги и варианты действий. Всё через structured output в JSON. Есть локальный fallback на случай ошибок API.

Механика кубика: d20 → модификатор [-3..+5] + тон.
Тон влияет на исход: шанс лута, множитель урона, вероятность потери предметов.
Система исходов: базовый d100 + бонусы от предметов/эффектов/d20. Сложность масштабируется из акта в акт. Бросок кубика определяет HP-дельту, лут, статус-эффекты.
SSE для real-time обновлений состояния, чтобы фронт не дёргал API каждую секунду.

Трёхактная структура: Вступление → Середина → Кульминация. Переходы по флагам сюжета + счётчику сцен. В финале открываются окна победы или поражения (тут как сыграете).

Фичи:
✓ Инвентарь с категориями и защитой новых предметов от потери
✓ Статус-эффекты с длительностью (воодушевление, раны, царапины)
✓ Прогресс цели 0-100%
✓ История игр с эпилогами
✓ Форумные темы для обсуждения в Telegram

Короче, это такой эксперимент на стыке интерактивки, мини-аппа и партий в стиле DnD, где в роли game-мастера выступает LLM.

В планах, если звёзды сойдутся как нужно, генерить картинки под каждую игру и фоновую музыку.

Потестить можно тут: @crowd_control_hero_bot

#gamedev #telegram #python #llm #sideproject
👍3🔥3
Media is too big
VIEW IN TELEGRAM
Концепция поиска чего угодно книг

Всем привет!

Мы все уже привыкли (или нет) пользоваться поиском в интернете, чтобы найти что-то нужное. Каждый по-разному решает эту задачу и тратит время пропорционально своим скиллам.
В последнее время поиск трансформировался в запрос к ИИ, что дало огромный буст в скорости для всех, бесплатно и без смс)

Но что если нужно найти что-то, что не имеет четкой формулировки, только очертания на уровне идеи?

Внимательный читатель может сказать, что уже есть магия, способная к пониманию интента запроса и оно работает и уже давно, на что я скажу: "да-да, но мы же все любим изобретать велосипед😂"

И вот мой трёхколёсный велосипед в виде бота для поиска книг 📚

А нафига? Спросите вы и в какой-то мере будете правы)

Но давайте разберемся, вся суть в деталях.

Основные требования:
-Поиск по открытой базе книг
-Поиск по закрытой базе книг (шучу)😄

Но если серьезно, то вот какие фичи реализованы в этом новом эксперименте:

- Поиск на естественном языке. Можно писать запросы как душе угодно: "что-то легкое на вечер", "детектив без насилия", "фантастика как у Азимова".

- Книги ищутся из нескольких источников: Open Library, Google Books и других открытых API.

- ИИ-ранжирование, семантический поиск, эвристики...

Так стоп! Есть же классный способ объяснить эту концепцию через видео, которое мне помог создать сервис notebooklm 🪄

Приятного просмотра, но пару мыслей ещё допишу.

Почему книги?
Книги, это отличный полигон для экспериментов, потому что их сложно искать "по запросу", если у тебя только смутная идея или настроение.

Да, и наверное самое важное: в результатах поиска можно найти книгу на Литрес, Озон или Я.Маркете.
В предверии нового года, (с чем я всех и поздравляю 🎄), это может быть актуально 🎁

Бот уже работает в тестовом режиме можно попробовать и покрутить, вдруг вы найдёте себе книгу по душе ❤️

@book_aisearch_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤‍🔥1👍1
Тут в смежных каналах, коллеги подводят итоги года через сервис анализа TG посредством LLM, ну и я вместе с ними)

Детальнее и прочекать свои каналы, можно тут: https://tgwrapped.com/nerditru?year=2025
👍2🔥21
Всем привет 👋
Решил подвести итоги уходящего года.

Для меня он получился насыщенным и по-настоящему интересным. Прошёл под эгидой цифровой личной трансформации, ну и профессионально тоже знатно бустанул 🚀

Несколько ключевых инсайтов года:

1️⃣ Делиться идеями и опытом
Оказалось, это не только полезно, но и очень мотивирует. Особенно когда появляется отклик и находятся единомышленники.
Идей в этом году было много, не все вышли дальше MVP, но один сайд-проект, выделю как отдельную радость и гордость:
🤖 бот по разбору архетипов по дате рождения.
Запустились всего пару недель назад, а уже 500+ активных пользователей и это отличный результат.

2️⃣ Тайм-менеджмент и здоровый сон
Я уже писал про свой эксперимент со временем — он многое мне показал.
Возможность вджобывать ночами и по выходным не всегда коррелирует с ресурсом в долгую.
Спринты иногда ок, но потом вылезать из ямы без сил и энергии очень непросто.

3️⃣ Софт-скиллы
Смотреть шире, разбираться в смежных областях, понимать, что происходит у коллег, читать профильные тг-каналы, участвовать в обсуждениях сообществ, пилить сайд-проекты и это всё прокачивает и в нужный момент открывает новые возможности.

На этом, пожалуй, остановлюсь.
Последний пост в этом году 🎄🎅

Желаю всем хорошего Нового года, больше отдыха, баланса и развития.
Увидимся в следующем году 👋
Please open Telegram to view this post
VIEW IN TELEGRAM
5🎄4
🚀 Новые оптимизации в llama.cpp: что стоит включать в 2026

Если ты гоняешь LLM локально (как я), то в 2026 llama.cpp сильно прокачали: меньше VRAM, больше токенов в секунду, стабильнее длинный контекст.

Ниже список свежайших оптимизаций, которые стоит попробовать.

1) Квантизация KV-кэша

Тот самый скрытый "пылесос", который раздувается вместе с контекстом и первым съедает VRAM. Поэтому часто ограничение по контексту это не модель, а именно кэш.

Что включать:
-ctk q4_0 -ctv q4_0


Почему это стоит использовать:
- обычно экономит до ~50% памяти под кэш
- можно поставить больше --ctx-size или влезть в модель крупнее
- качество чаще всего почти не страдает, потому что это "рабочая память", а не веса

2) Flash Attention

Внимание самая дорогая часть инференса. Flash Attention считает то же самое, но эффективнее (особенно на новых GPU). Плюс удобно, что теперь можно просто доверить авто-режиму.

Что включать:
-fa auto

Почему это стоит использовать:
- на подходящем железе часто даёт +20–30% к скорости
- меньше просадок на большом контексте
- auto сам разрулит совместимость (включится там, где можно)

3) Context Checkpoints

Боль длинных диалогов: если сервис перезапустился или ты пересобрал контекст, то приходится заново "пережёвывать" тысячи токенов. Чекпоинты уменьшают эту боль.

Что включать:
--ctx-checkpoints 8


Почему это стоит использовать:
- быстрее восстанавливаешь состояние при длинных сессиях
- меньше времени на повторный "прогрев"
- особенно полезно в llama-server, когда это живёт как сервис

4) MLA-оптимизация (DeepSeek / Qwen и подобные)

Для моделей с Multi-head Latent Attention llama.cpp умеет автоматом делать оптимизацию (переиспользование K-тензоров для V), чтобы не считать лишнее.

Почему это стоит использовать:
- это "бесплатный бонус" и часто включается автоматически
- даёт ускорение/экономию именно на MLA-моделях
- не требует настроек: просто запускаешь модель и всё хорошо)

5) CUDA graphs для MoE + --n-cpu-moe

Если ты выгружаешь MoE-слои на CPU (--n-cpu-moe), это помогает влезть в VRAM, но иногда даёт overhead. CUDA graphs этот overhead заметно сглаживают.

Почему это стоит использовать:
- быстрее и стабильнее работает связка "GPU + часть MoE на CPU"
- меньше накладных расходов на запуск вычислений
- делает MoE-режим более пригодным на "НЕ топовом" железе

6) Speculative Decoding

Одна из самых приятных оптимизаций, потому что ускоряет именно генерацию (то, что реально ждёшь). Маленькая draft-модель быстро предлагает пачку токенов, большая просто подтверждает.

Что включать:
--model-draft Qwen/Qwen3-14B-GGUF --draft 16

Почему это стоит использовать:
- генерация часто становится в 1.5–2 раза быстрее
- особенно заметно в чат-режиме и на длинных ответах
- можно ускориться без замены основной модели и железа

Быстрый чеклист: что включать
Почти всегда
KV-кэш квантизация: -ctk q4_0 -ctv q4_0
Flash Attention: -fa auto

По ситуации
--ctx-checkpoints 8 если длинные диалоги/сервер/перезапуски
speculative decoding если хочется быстрее генерацию
--n-cpu-moe + CUDA graphs если MoE не влезает в VRAM

Только для некоторых моделей
MLA-оптимизация — актуально для DeepSeek/Qwen и других MLA (обычно авто)

Я сейчас запускаю Qwen3-14B (GGUF) на RTX 4070 через llama-server с длинным контекстом 32k.

По скорости получается так:
Промпт (prefill): ~1300 tok/s
Генерация (decode): ~65 tok/s


То есть: ввод "проглатывает" почти мгновенно, а ответ печатает комфортно, без ощущения тормозов, почти как топовые модели)

#llama #llm #selfhosted #llamacpp #ai #inference
1🔥5👍4👌1