Интересное что-то

Automatic Prefix Caching (APC) - это техника инференс-движков, которая позволяет ускорить этот самый инференс и сэкономить немного на вычислениях.

Предположим, у нас есть финансовый отчет. Один большой отчет. И мы хотим позадавать по нему вопросы. Отчет один, а вопросов много.
Чтобы задавать вопросы по отчету нужно каждый раз вставлять в промт и сам отчет и вопрос.

В самом простом случаи LLM будет при каждом вызове прогонять этот большой отчет через модель и производить все необходимые вычисления.
А т.к. отчет "статичен", то большинство вычислений были бы каждый раз одинаковыми. Вот тут то нам и нужен APC - он кэширует статичную часть и позволяет экономить на вычислениях.

Как это работает на практике (на примере vLLM)...

Все что нужно - включить параметр enable_prefix_caching при запуске vLLM (он может быть по умолчанию уже включен).

from vllm import LLM, SamplingParams

llm = LLM(
    model = '/models/qwen/Qwen3-8B',
    enable_prefix_caching = True
)

Дальше определяем неизменяемый префикс:

LONG_PREFIX = '''
Длинный, длинный, длинный... отчет.
'''

А дальше подставляем этот префикс во все запросы:

query = LONG_PREFIX + "Использую данные из таблице выше, ответь на вопрос: сколько компания заработала в прошлом году?"

Первый такой запрос обработает достаточно "долго", потому что через модель будет пропущена вся последовательность. Но vLLM запомнит его.

Когда в следующий раз на вход придет запрос с таким же префиксом vLLM обнаружит его и возьмет вычисленные значения и из кэша. И скорость ответа в этот раз будет намного выше.

query = LONG_PREFIX + "Использую данные из таблице выше, ответь на вопрос: какой юридический адрес у нашей компании?"

Потестировал запросы и с enable_prefix_caching и без него. Прирост в скорости получается примерно в 3-7 раз.

Чуть более подробно: https://docs.vllm.ai/en/stable/design/prefix_caching.html

З.Ы. Порядок менять нельзя: сначала должна идти статичная часть, а потом различные "динамические" вопросы.

68 views15:01

Интересное что-то

#llm #petproject

67 views15:01

Интересное что-то

Forwarded from LLM is all you need

Решил тут разобраться в великом множестве локальных UI-клиентов для LLM.
Поставил себе 10 штук и опробовал их.
Результатом проб стала статься на Хабре: Краткий обзор 10 локальных UI для LLM

90 views15:01

Интересное что-то

#llm

82 views15:02

Интересное что-то

Forwarded from LLM is all you need

logit_bias это параметр генерации, который позволяет контролировать какие токены и с какой вероятностью должна печатать модель.

Как он работает...

Рассмотрим такой запрос: Столица Франции? Одним словом.. Скорее всего мы получим ответ: Париж.
Но мы хотим "услышать" от модели что-то другое.

Сначала выясним из каких токенов состоит слово Париж.

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('/models/qwen/Qwen3-14B')
token_ids = tokenizer.encode('Париж')
token_text = [tokenizer.decode([token_id]) for token_id in token_ids]
print("ID токенов:", token_ids) # [16854, 125947, 16964]
print("Текст токенов:", token_text) # ['П', 'ари', 'ж']

Итак, за букву П отвечает токен 16854. Занулим его:

from openai import OpenAI

client = OpenAI(
    base_url='https://192.168.0.108:8000/v1',
    api_key='any'
)

prompt = 'Столица Франции? Одним словом.'

response = client.chat.completions.create(
    model = '/Qwen3-14B',
    messages = [
        {'role': 'user', 'content': prompt}
    ],
    temperature = 0.9,
    max_tokens = 500,
    logit_bias = {16854:-100}, # Выкручиваем вероятность появления токена в 0
    extra_body = {'chat_template_kwargs': {'enable_thinking': False}}
)

content = response.choices[0].message.reasoning_content
print(content)

После этого модель не сможеть начать текст с буквы "П" (да и вообще ее напечатать) и мы сможем увидеть в ответе что-то вроде "Ницца", "Версаль" и много чего еще :)

Измеряется logit_bias от -100 до 100. При -100 вероятность появления токена около нулевая, а при 100 модель только его и будет печатать :)
В logit_bias можно передать сразу несколько токенов: {16854:-100, 125947:-100, 16964:-100}

91 views15:02

Интересное что-то

#llm #petproject

88 views19:02

Интересное что-то

Forwarded from AI и грабли

Хотя я и в водовороте ИИ хайпа, но у меня почти нет ИИ продуктов, которыми я пользуюсь каждый день

Прям на постоянке только Cursor/Claude Code, Wispr Flow, chatgpt/ai.studio, пару самописных ботов и Granola

Почему так? Если честно, кажется, что большинство продуктов просто не дают достаточно интерфейсной ценности в сравнении с обычным ChatGPT.

Granola – крутой пример обратного. Вот вроде обычный транскрибатор, но на самом деле все сильно глубже. Никаким chatgpt такой флоу заменить не получится. Подробнее показывал на воркшопе пару недель назад. Постарался не столько дать инструмент, сколько сформулировать универсальные подходы и реальные кейсы

Выложил эту часть в бесплатный доступ на ютуб – смотреть можно тут

YouTube

ИИ инструмент для коммуникации, который сохранил мне несколько тысяч долларов

Granola – granola.ai
Enterprise-grade security – fireflies.ai
Тоже обещают GDPR и давно на рынке (раньше делали шумодав) – krisp.ai

(Канал новый, так что ссылки не кликабельные)

UPD: granola тоже обещает SOC2 и GDPR - granola.ai/security

Мой канал в тг:…

93 views19:02

Интересное что-то

#systemdesign

82 views19:05

Интересное что-то

Forwarded from Евгений Козлов пишет про IT (Eugene Kozlov)

Пока я отчаянно пытаюсь найти время на продолжение цикла постов про Concurrency & Consistency хочу поделиться классной методичкой по потоковой обработке данных от признанного специалиста в этой области. Считаю что она незаслуженно обделена вниманием, поэтому исправляю это.

Making Sense of Stream Processing. The Philosophy Behind Apache Kafka and Scalable Stream Data Platforms

В далеком 2016м, Мартин Клепманн (да, это автор того самого кабанчика) написал методичку на 180 страниц в которой очень понятно и доступно рассказывает про:
- События, потоки данных.
- DDD, CQRS.
- Change Data Capture паттерн и при чем тут Kafka.
- Как тюнить базы данных под разные сценарии, особенно аналитические.

Чем хороша книга - в ней много понятных примеров и иллюстраций. Именно её я советую сейчас и советовал ранее своим менти, когда получал запрос на материалы про потоки данных "понятным языком".

Скачать книгу можно бесплатно с сайта автора: https://martin.kleppmann.com/papers/stream-processing.pdf

Делитесь в комментариях отзывами если читали, буду рад если посоветуете материалы которые помогли вам быстро вникнуть в тему Stream Processing.

P.S. Материал для постов по Concurrency почти готов, скоро будут посты. Будем велосипедить примитивы синхронизации с нуля и сравнивать с эталонными реализациями заодно щупая на практике все проблемы конкурентного программирования.

90 views19:05

Интересное что-то

#llm #petproject #resume

87 views19:07

Интересное что-то

Forwarded from Инжиниринг Данных (Dmitry)

Проект, который может сделать каждый - Кастомизацию резюме.

Мой пример. Она пока работает, но еще надо тюнить и добавить prompts с рекомендациями.

Что использую:
- Cursor ID
- Antropic API key (вы можете любой AI использовать)
- Markdown файл с моим исходным резюме
- Open Resume framework (создает PDF резюме в нужном формате). Сам framework я даже не использовал, только взял идею JSON->PDF и сделал ее в PDF.

Механика простая:
1) Запускаю скрипт
2) Даю ссылку на вакансию
3) Python crawler забирает все
4) Antropic читает требования и обновляет резюме
5) Open Resume создает JSON и конвертирует его в PDF

Это пока сырой пример, и он там немного от себя напридумывал и зачем-то даты убрал из резюме, и написал, что я еще в Амазоне работаю (хитрый, однако)


make optimize-interactive
🎯 Interactive Resume Optimization
==================================

Please provide the job posting URL:
Job URL: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights

🔄 Processing job posting: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
✅ Loaded resume: DMITRY ANOSHIN
🔍 Extracting job content from: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
✅ Extracted 5528 characters of job content
🤖 Analyzing job requirements with Claude...
✅ Job analysis completed
🔧 Optimizing resume for job match...
✅ Resume optimization completed
💾 Saved optimized resume to: src-resume/my-resume-optimized.json

📊 RESUME OPTIMIZATION REPORT
==================================================

📝 SUMMARY CHANGES:
Original length: 492
Optimized length: 754

💼 WORK EXPERIENCE REORDERING:
Original order: Rock Your Data, Inc. → Microsoft → Amazon → Wawanesa Insurance → Forex Club → Teradata / Lamoda / BNP Paribas
Optimized order: Senior Data Engineer, Alexa Team → Lead Data Engineer → Senior Data Engineer → Lead Data Engineer → Data Engineer / BI Developer → Senior Data Engineer / BI Architect

🛠️ SKILLS UPDATED:
  1. **Coding:** SQL, Python, bash, PySpark → **AWS Technologies:** Redshift, S3, Glue, EMR, Kinesis, Lambda, IAM
  2. **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, Elastic MapReduce, HDInsight, EMR → **Programming Languages:** Python, SQL, Scala, PySpark, Java, NodeJS, bash
  3. **ETL:** dbt, Amazon Glue, Airflow, SSIS, Prefect, Azure Data Factory, Luigi → **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, EMR, HDInsight
  4. **BI:** Tableau, Looker, Power BI, MicroStrategy, SAP Business Objects, Jupyter Notebooks → **Orchestration & ETL:** Airflow, dbt, AWS Glue, Azure Data Factory, Prefect, SSIS, Luigi
  5. **DevOps:** GitHub, GitLab, Azure DevOps, Terraform, Azure Bicep, Kubernetes, Ansible, Helm Values → **Databases:** NoSQL, Graph databases, Column-family databases, Key-value stores, Object storage, SQL Server, Oracle
  6. **Cloud:** AWS, Azure, Google Cloud → **Infrastructure-as-Code & DevOps:** Terraform, Azure Bicep, GitHub, GitLab, Azure DevOps, Kubernetes, Ansible, Helm

📋 Optimization report saved to: optimization_report.txt

✅ Resume optimization complete!
📄 Original: src-resume/my-resume.json
📄 Optimized: src-resume/my-resume-optimized.json
📋 Report: optimization_report.txt

🔄 Generating optimized PDF...
🔄 Converting src-resume/my-resume-optimized.json to PDF...
✅ PDF created successfully: src-resume/my-resume-optimized.pdf
✅ Optimization complete!
📄 Files created:
   - src-resume/my-resume-optimized.json
   - src-resume/my-resume-optimized.pdf
   - optimization_report.txt

А дальше, можно строить агента, например на N8N или от OpenAI посмотреть. Он может за вас ходить смотреть вакансии и делать отклики. Можно настроить все через Телегам Бота - увидели вакансию, скинули ссылку и дальше все само.

GitHub

GitHub - xitanggg/open-resume: OpenResume is a powerful open-source resume builder and resume parser. https://open-resume.com/

OpenResume is a powerful open-source resume builder and resume parser. https://open-resume.com/ - xitanggg/open-resume

112 views19:07

Интересное что-то

#ml

84 views13:28

Интересное что-то

Forwarded from DziS Science | Data Science

Привет всем!

Сегодня продолжим рассмотрение методов отбора признаков.
Ранее мы познакомились с довольно интересным методом - Boruta.

Сегодня мы пообщаемся про его улучшение - Boruta Shap.

Прежде, чем понять, чем этот лучше оригинального, напомню основную проблему, связанную с оригинальным подходом - ограничение выбора моделей.
В оригинальном методе модели должны иметь "деревянную архитектуру".

Так как метод действительно хорош, основная идея улучшения - распространить подход на другие модели, не привязываясь к архитектуре.

Тут как раз на помощь приходит метод, популярный в сценарии "black box" (когда нам без разницы какую модель мы оцениваем) -SHapley Additive exPlanations.

Таким образом мы можем сформулировать алгоритм работы Boruta Shap:

1️⃣

🔤Создаем теневые признаки (Shadow Features), аналогично оригинальному методу Boruta, перемешивая значения, делая признаки случайными.

2️⃣

🔤 Считаем Shapley Additive Explanations для всех признаков, в качестве метрики отбора. Это и есть главное премущество данного подхода в сравнении с оригинальным, дающий нам большую гибкость.

3️⃣

🔤 Отбираем признаки, по которым Shapley выше, чем у самого значимого теневого признака.

4️⃣

🔤 Повторяем процедуру итеративно, вычисляя Z-score для разделения признаков на 3 группы:
🔵Подтвержденные (Confirmed) — важные признаки.
🔹Временные (Tentative) — признаки, по которым алгоритм не смог принять однозначного решения.
🔸Отклоненные (Rejected) — неважные признаки.

Собственно, признаки отбираются в полном признаковом пространстве, выбирая все лучшие признаки, а не только топ-N признаков, тем самым гарантируя полноту и информативность признаков в модели, не ограничивая архитектуру используемой модели.

Реализация в 🐍 представлена в виде библиотеки BorutaShap, документацию которой можно посмотреть в оригинальном репозитории.

Сразу скажу, что данный метод хорош даже в промышленном использовании, особенно когда более простые итеративные методы гоняются долго и есть сомнение касаемо их результатов (Forward Feature Selection не дает стабильный набор признаков). Например, в моделях кредитного риска, где основная задача получить стабильный и качественный набор данных, балансируя между производительностью и объяснимостью моделей.

По традиции, 🔥, если понравилось.

#ds_лайфхаки

Please open Telegram to view this post

VIEW IN TELEGRAM

96 views13:28

About

Blog

Apps

Platform