Forwarded from Small Data Science for Russian Adventurers
#визуализация
Ещё одна электронная книга (небольшая) с визуализацией концепций ML. Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео). Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети. Материал "начального уровня" (но удобно, что он тут собран).
https://ml-visualized.com/
Ещё одна электронная книга (небольшая) с визуализацией концепций ML. Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео). Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети. Материал "начального уровня" (но удобно, что он тут собран).
https://ml-visualized.com/
Forwarded from LLM под капотом
Новый кейс - автоматический перевод YouTube с озвучкой и AI Researcher
Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.
Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).
LLM под капотом проекта:
- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.
При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.
Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:
- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.
Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.
Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.
Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:
(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в
(2) Анализируем код, проглядываем журнал экспериментов и в файл
(3) реализуем код и запускаем
(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.
Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:
Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.
Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.
Ваш, @llm_under_hood 🤗
PS: Список всех кейсов канала
Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.
Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).
LLM под капотом проекта:
- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.
При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.
Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:
- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.
Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.
Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.
Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:
(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в
experiments/007-experiment.md(2) Анализируем код, проглядываем журнал экспериментов и в файл
experiments/007-experiment.md дописываем план для улучшения текущего score(3) реализуем код и запускаем
make eval. Если score стал лучше, то отправляем все в коммит с описанием(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.
Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:
PROMPT_TEMPLATE="запусти следующий эксперимент, который оптимизирует код генрации wav файла"
for ((start_index=0; start_index<=50; start_index+=1)); do
codex exec --sandbox danger-full-access "$PROMPT_TEMPLATE"
done
Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.
Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.
Ваш, @llm_under_hood 🤗
PS: Список всех кейсов канала
Forwarded from Artem Ryblov’s Data Science Weekly
A/B Testing & Experimentation Roadmap
This roadmap is for analysts, data scientists, and product folks who want to go from “I know what an A/B test is” to running trustworthy, advanced online experiments (CUPED, sequential testing, quasi-experiments, Bayesian, etc.).
It’s organized by topics. You don’t have to go strictly top-to-bottom, but earlier sections are foundations for later ones.
Link: GitHub
Navigational hashtags: #armknowledgesharing #armtutorials
General hashtags: #statistics #abtesting #ab
@data_science_weekly
This roadmap is for analysts, data scientists, and product folks who want to go from “I know what an A/B test is” to running trustworthy, advanced online experiments (CUPED, sequential testing, quasi-experiments, Bayesian, etc.).
It’s organized by topics. You don’t have to go strictly top-to-bottom, but earlier sections are foundations for later ones.
Link: GitHub
Navigational hashtags: #armknowledgesharing #armtutorials
General hashtags: #statistics #abtesting #ab
@data_science_weekly
Forwarded from Борис опять
#дайджест
Дайджест ML/AI за неделю 5 - 11 Января 2026
Lightricks: LTX-2
Open-weight видео foundation-модель с синхронной генерацией 4K/50fps видео. Модель заточена под длинные клипы до 20 сек, нативный звук. На artificialanalysis в общем зачете занимает почетное 21-е место и первое среди моделей с открытыми весами.
Блогпост, HF, Статья, Код
OpenAI: ChatGPT Health
OpenAI запустили ChatGPT Health - отдельный режим для работы с медицинскими данными. Можно загружать анализы, снимки, отчёты врачей, данные из фитнес-трекеров и MyFitnessPal. Доступно даже бесплатным пользователям через вэйтлист (записаться здесь) и пока, как обычно, без EU/UK.
Блогпост
Tencent: Hunyuan HY-MT1.5-1.8B
Tencent выпустили компактную модель для машинного перевода HY-MT1.5-1.8B. Обещают лучший перформанс в своем весе. Поддерживает 33 языка, оптимизирована под on-device и дешёвый inference.
HF, Код , Карточка, Статья
ByteDance: DreamID-V
ByteDance выпустили DreamID-V - модель для замены лиц на видео по фото-референсу через трансформер-диффузию. Обещают устойчивость к разному освещению, прическам и тд. Черри-пики выглядят хорошо.
Примеры и проект, GitHub, Статья
NVIDIA: Vera Rubin
NVIDIA представили платформу Vera Rubin для датацентров - next-gen архитектуру для AI-вычислений, которая придёт на смену Blackwell. Простым людям пообещали игровые видеокарты RTX 60xx на базе Vera Rubin во второй половине 2027 года. Как обычно все в несколько раз быстрее, выше, сильнее. Готовый сервер NVL144 будет иметь в три раза больше exaFLOPS, чем NVL72 GB300.
Из прекрасного: параллельно с трансляцией Nvidia кто-то запустил трансляцию на Youtube, где Дип-фейк Хуанг продавал крипу. Она собрала в 10 раз больше зрителей.
Пресс-релиз NVIDIA, Про фейк-крипто-хуанга, разбор Сиолошной
Дайджест ML/AI за неделю 5 - 11 Января 2026
Lightricks: LTX-2
Open-weight видео foundation-модель с синхронной генерацией 4K/50fps видео. Модель заточена под длинные клипы до 20 сек, нативный звук. На artificialanalysis в общем зачете занимает почетное 21-е место и первое среди моделей с открытыми весами.
Блогпост, HF, Статья, Код
OpenAI: ChatGPT Health
OpenAI запустили ChatGPT Health - отдельный режим для работы с медицинскими данными. Можно загружать анализы, снимки, отчёты врачей, данные из фитнес-трекеров и MyFitnessPal. Доступно даже бесплатным пользователям через вэйтлист (записаться здесь) и пока, как обычно, без EU/UK.
Блогпост
Tencent: Hunyuan HY-MT1.5-1.8B
Tencent выпустили компактную модель для машинного перевода HY-MT1.5-1.8B. Обещают лучший перформанс в своем весе. Поддерживает 33 языка, оптимизирована под on-device и дешёвый inference.
HF, Код , Карточка, Статья
ByteDance: DreamID-V
ByteDance выпустили DreamID-V - модель для замены лиц на видео по фото-референсу через трансформер-диффузию. Обещают устойчивость к разному освещению, прическам и тд. Черри-пики выглядят хорошо.
Примеры и проект, GitHub, Статья
NVIDIA: Vera Rubin
NVIDIA представили платформу Vera Rubin для датацентров - next-gen архитектуру для AI-вычислений, которая придёт на смену Blackwell. Простым людям пообещали игровые видеокарты RTX 60xx на базе Vera Rubin во второй половине 2027 года. Как обычно все в несколько раз быстрее, выше, сильнее. Готовый сервер NVL144 будет иметь в три раза больше exaFLOPS, чем NVL72 GB300.
Из прекрасного: параллельно с трансляцией Nvidia кто-то запустил трансляцию на Youtube, где Дип-фейк Хуанг продавал крипу. Она собрала в 10 раз больше зрителей.
Пресс-релиз NVIDIA, Про фейк-крипто-хуанга, разбор Сиолошной
ltx.io
LTX-2: Production-Grade AI Video Generation Model | LTX Model
LTX-2 is a pro AI video model for production. It offers precise control, native 4K, high frame rates and proven performance for long-form creative tasks.
Forwarded from Борис опять
Очень хороший практический гайд по всем трюкам, велосипедам и костылям для построения RAG систем:
https://habr.com/ru/articles/893356/
В продакшне часть из описанного можно упростить (с точки зрения реализации) подключив любимый агентский фреймворк, но суть особо не меняется
https://habr.com/ru/articles/893356/
В продакшне часть из описанного можно упростить (с точки зрения реализации) подключив любимый агентский фреймворк, но суть особо не меняется
Хабр
Как я победил в RAG Challenge: от нуля до SoTA за один конкурс
Автор - DarkBones Предисловие В этом посте я расскажу про подход, благодаря которому я занял первое место в обеих призовых номинациях и в общем SotA рейтинге. В чём суть RAG Challenge? Нужно создать...
Forwarded from Алексей
claude для кода gpt для проверки qwen для оценки gemini для того чтобы понять что написано
Forwarded from Quant Researcher
Nautilus Trader — индустриальный бэктестинг
https://github.com/nautechsystems/nautilus_trader
Если вы пытались превратить красивую идею в реплицируемый PnL, вы знаете, как это весело и увлекательно: бэктест не сходится, исполнение — по ценам с ффилами, а латенси существует только на словах.
Nautilus Trader — это попытка закрыть именно этот разрыв. Проект от Nautech Systems, open-source, сразу целится в production-grade trading stack.
🧠 Ключевая идея
Бэктест = симуляция реальной торговой системы, а не просто прогон сигналов по историческим ценам.
Библиотека моделирует не только рынок, но и ордера, исполнение, задержки, комиссии, частичную ликвидность, состояние портфеля, event-driven логику.
Фактически, это единый движок для research, backtesting, paper trading, live.
Без переписывания стратегии под каждый этап.
⚙️ Архитектура
- Event-driven ядро (никаких «for price in prices»)
- Строгое разделение:
- Strategy
- Execution
- Portfolio
- Risk
- Детальная модель ордеров (limit / market / stop / OCO и т.д.)
- Поддержка crypto, FX, equities
- Python + Rust (где нужна скорость)
Это не обертка над pandas, а торговый симулятор, ближе по духу к тому, как думают HFT / prop desks.
📊 Почему это важно для квантов
Большинство стратегий умирают не из-за идеи, а из-за недоучтённого исполнения, хвостов распределения PnL, нелинейностей при масштабировании.
Nautilus Trader заставляет как можно раньше подумать про ликвидность, проскальзывание, устойчивость PnL, path-dependence.
А значит — лучше понимать, какие риски вы реально покупаете или продаете.
⸻
А выкаким порошком пользуетесь:
• моделируете исполнение в бэктестах?
• знаете, чувствительность своего PnL от проскальзывания и комиссий?
Quant Researcher
https://github.com/nautechsystems/nautilus_trader
Если вы пытались превратить красивую идею в реплицируемый PnL, вы знаете, как это весело и увлекательно: бэктест не сходится, исполнение — по ценам с ффилами, а латенси существует только на словах.
Nautilus Trader — это попытка закрыть именно этот разрыв. Проект от Nautech Systems, open-source, сразу целится в production-grade trading stack.
🧠 Ключевая идея
Бэктест = симуляция реальной торговой системы, а не просто прогон сигналов по историческим ценам.
Библиотека моделирует не только рынок, но и ордера, исполнение, задержки, комиссии, частичную ликвидность, состояние портфеля, event-driven логику.
Фактически, это единый движок для research, backtesting, paper trading, live.
Без переписывания стратегии под каждый этап.
⚙️ Архитектура
- Event-driven ядро (никаких «for price in prices»)
- Строгое разделение:
- Strategy
- Execution
- Portfolio
- Risk
- Детальная модель ордеров (limit / market / stop / OCO и т.д.)
- Поддержка crypto, FX, equities
- Python + Rust (где нужна скорость)
Это не обертка над pandas, а торговый симулятор, ближе по духу к тому, как думают HFT / prop desks.
📊 Почему это важно для квантов
Большинство стратегий умирают не из-за идеи, а из-за недоучтённого исполнения, хвостов распределения PnL, нелинейностей при масштабировании.
Nautilus Trader заставляет как можно раньше подумать про ликвидность, проскальзывание, устойчивость PnL, path-dependence.
А значит — лучше понимать, какие риски вы реально покупаете или продаете.
⸻
А вы
• моделируете исполнение в бэктестах?
• знаете, чувствительность своего PnL от проскальзывания и комиссий?
Quant Researcher
Forwarded from max.sh
Когда-то давно, во времена учебы в ШАДе, нам читали интенсив по основам архитектуры GPU и разработки на CUDA. Обещали рассказать, как устроены видеокарты и почему они эффективны для машинного обучения. Я тогда дальше
Лекции читали разработчики из Nvidia. Да, это было такое время, когда у компании был Московский офис и они периодически нанимали DL-инженеров, а иногда и стажеров (марафон технических раундов и глубоких вопросов на понимание, чтобы побороться за 2 стажерские позиции).
Курс, по моему мнению, получился ужасным. Материал стремительно усложнялся без какой-либо оглядки на аудиторию и тот факт, что ко второй лекции половина слушателей уже отвалилась. Я потерял суть происходящего уже минуте на 20-30 первой лекции, в момент когда термины вида SM, warp schedulers, cuda cores заполняли каждый слайд, а повествование превратилось во внутренний митап для инженеров Nvidia.
Худо-бедно интенсив я закрыл, решая задачи методом проб и ошибок. От курса в голове не осталось почти ничего. Разве что боязнь копаться в деталях работы с GPU.
Позже, уже в 2022-2023 году, модели перестали влазить в память одной ГПУ и нужно было учиться паралелить, оценивать эффективность инфраструктуры в поисках ответа на вопрос: а почему все так медленно? are we compute bound or communication bound? Снова я столкнулся с GPU акселераторами лицом к лицу. Документации от Nvidia было не очень много, так что неподготовленному читателю входить было не просто. Но дело двигалось тем же путем проб и ошибок и общением с коллегами по работе.
А хороших гайдов на понимание все еще не было. Мне кажется их и сейчас не очень много. ( Как и специалистов в этой области. Performance Engineer крайне актуальная роль в области DL на ближайшие годы)
Недавно наткнулся на "книгу" от ребят из DeepMind, они проделали невероятную методологическую работу. И выпустили онлайн-учебник How to Scale Your Model. Центральный предмет книги о том, как учить трансформеры на больших кластерах, арифметику моделей (откуда набегает так много гигабайтов памяти, чтобы сделать один forward pass) и что такое TPU/GPU. К каждой главе идет еще набор квизов, чтобы посчитать что-нибудь руками.
Крайне Рекомендую!
https://jax-ml.github.io/scaling-book/
model.to('cuda:0') в этом вопросе ничего не знал, поэтому с интересом записался.Лекции читали разработчики из Nvidia. Да, это было такое время, когда у компании был Московский офис и они периодически нанимали DL-инженеров, а иногда и стажеров (марафон технических раундов и глубоких вопросов на понимание, чтобы побороться за 2 стажерские позиции).
Курс, по моему мнению, получился ужасным. Материал стремительно усложнялся без какой-либо оглядки на аудиторию и тот факт, что ко второй лекции половина слушателей уже отвалилась. Я потерял суть происходящего уже минуте на 20-30 первой лекции, в момент когда термины вида SM, warp schedulers, cuda cores заполняли каждый слайд, а повествование превратилось во внутренний митап для инженеров Nvidia.
Худо-бедно интенсив я закрыл, решая задачи методом проб и ошибок. От курса в голове не осталось почти ничего. Разве что боязнь копаться в деталях работы с GPU.
Позже, уже в 2022-2023 году, модели перестали влазить в память одной ГПУ и нужно было учиться паралелить, оценивать эффективность инфраструктуры в поисках ответа на вопрос: а почему все так медленно? are we compute bound or communication bound? Снова я столкнулся с GPU акселераторами лицом к лицу. Документации от Nvidia было не очень много, так что неподготовленному читателю входить было не просто. Но дело двигалось тем же путем проб и ошибок и общением с коллегами по работе.
А хороших гайдов на понимание все еще не было. Мне кажется их и сейчас не очень много. ( Как и специалистов в этой области. Performance Engineer крайне актуальная роль в области DL на ближайшие годы)
Недавно наткнулся на "книгу" от ребят из DeepMind, они проделали невероятную методологическую работу. И выпустили онлайн-учебник How to Scale Your Model. Центральный предмет книги о том, как учить трансформеры на больших кластерах, арифметику моделей (откуда набегает так много гигабайтов памяти, чтобы сделать один forward pass) и что такое TPU/GPU. К каждой главе идет еще набор квизов, чтобы посчитать что-нибудь руками.
Крайне Рекомендую!
https://jax-ml.github.io/scaling-book/
jax-ml.github.io
How To Scale Your Model
Training LLMs often feels like alchemy, but understanding and optimizing the performance of your models doesn't have to. This book aims to demystify the science of scaling language models: how TPUs (and GPUs) work and how they communicate with each other…
Forwarded from Machine head - Александр О.
Анатомия ИИ-агентов. Часть 1 - Истоки и архитектура. [1/2]
Подходит концу первая рабочая неделя этого года. Дабы провести выходные с пищей для ума, самое время с двух ног запрыгнуть в устройство ИИ-агентов. Начнем с истоков.⚡️
Первыми практическими предшественниками современных ИИ-агентов стали экспертные системы, появившиеся в 1960-х годах. Экспертная система — это система искусственного интеллекта (весьма ограниченного), которая на основании знаний и опыта эксперта-человека может решать задачи в определенной области. В 1965 году в Стэнфордском университете Эдвард Фейгенбаум создал DENDRAL — первую в истории экспертную систему для определения структуры химических веществ.
Прорыв в понимании ИИ-агентов произошел в 1973 году, когда Карл Хьюитт разработал модель актора — подход, позволяющий создавать системы, где независимые агенты взаимодействуют друг с другом через обмен сообщениями. Одной из первых таких систем стала Distributed Problem Solver, созданная в 1981 году. В 1986 году Марвин Минский в книге “Society of Mind” предложил представлять сложные задачи как результат взаимодействия множества отдельных агентов, работающих в “сообществе”. Почему это важно? Модель актора обеспечила сдвиг ментальной модели программирования от систем с общей памятью и блокировками к архитектуре, основанной на передаче сообщений и изоляции состояния.
Современный ИИ-агент, следуя принципам акторной модели и построенный поверх большой лингвистической модели, отличителен 3-мя ключевыми свойствами:
Свойство 1. Автономность и независимое выполнение задач.
В понимании современных ИИ-агентов речь идет о способности агента к планированию следующего шага. В отличие от “голой” LLM, где мы работаем в режиме “запрос-ответ”, агент действует в, так называемом, агентском цикле: Наблюдение → Планирование → Действие. Агентский цикл конечен. Независимо от его сложности, агент на вход получает запрос, запускает цикл и его цель вернуть ожидаемый результат. Вот, что делают шаги цикла:
1. Наблюдение. Агент анализирует результаты своих предыдущих действий, собирает данные из окружения, выполняет контекстное обогащение.
2. Планирование. Агент использует различные методы рассуждений для определения наилучшего способа действий. Модель начинает думать над решением запроса пользователя, разрабатывает план для дальнейших действий и определяет, какие инструменты можно использовать.
3. Действие. Агент выбирает необходимые инструменты и начинает их использовать в соответствии с задачами, сформулированными на этапе планирования.
Свойство 2. Интеграция с инструментами и окружением
В шаге планирования и действия агенту доступно мета-описание его окружения: команд, которые может выбрать LLM, для взаимодействия с окружающим миром. Между командой и LLM - тонкий слой управляющего кода, интерпретирующего текстовые ответы в вызов кода самой команды. Именно поэтому к LLM выдвигается требование к способности отвечать структурированно (Structured output). Действуя, агент делает 1 или множество запросов к LLM, получая структурированные ответы, вызывает инструменты - обычный код в функциях и классах с поведением, исполняемый процессором, выполняет работу, а также сверяется с исходным планом.
продолжение...
Подходит концу первая рабочая неделя этого года. Дабы провести выходные с пищей для ума, самое время с двух ног запрыгнуть в устройство ИИ-агентов. Начнем с истоков.
Первыми практическими предшественниками современных ИИ-агентов стали экспертные системы, появившиеся в 1960-х годах. Экспертная система — это система искусственного интеллекта (весьма ограниченного), которая на основании знаний и опыта эксперта-человека может решать задачи в определенной области. В 1965 году в Стэнфордском университете Эдвард Фейгенбаум создал DENDRAL — первую в истории экспертную систему для определения структуры химических веществ.
Прорыв в понимании ИИ-агентов произошел в 1973 году, когда Карл Хьюитт разработал модель актора — подход, позволяющий создавать системы, где независимые агенты взаимодействуют друг с другом через обмен сообщениями. Одной из первых таких систем стала Distributed Problem Solver, созданная в 1981 году. В 1986 году Марвин Минский в книге “Society of Mind” предложил представлять сложные задачи как результат взаимодействия множества отдельных агентов, работающих в “сообществе”. Почему это важно? Модель актора обеспечила сдвиг ментальной модели программирования от систем с общей памятью и блокировками к архитектуре, основанной на передаче сообщений и изоляции состояния.
Современный ИИ-агент, следуя принципам акторной модели и построенный поверх большой лингвистической модели, отличителен 3-мя ключевыми свойствами:
Свойство 1. Автономность и независимое выполнение задач.
Многие проводят равенство между автономностью и самостоятельностью, мол, агент живет сам по себе и делает работу, как человек, то нет. Самостоятельность - способность не только выполнять действия без надзора, но и ставить подцели, адаптироваться к неизвестным заранее условиям. Дело не в технических ограничениях. Самостоятельность (и его объем) - производное от доверия, а доверие - краеугольный камень любых внешних, не только агентских систем.
В понимании современных ИИ-агентов речь идет о способности агента к планированию следующего шага. В отличие от “голой” LLM, где мы работаем в режиме “запрос-ответ”, агент действует в, так называемом, агентском цикле: Наблюдение → Планирование → Действие. Агентский цикл конечен. Независимо от его сложности, агент на вход получает запрос, запускает цикл и его цель вернуть ожидаемый результат. Вот, что делают шаги цикла:
1. Наблюдение. Агент анализирует результаты своих предыдущих действий, собирает данные из окружения, выполняет контекстное обогащение.
2. Планирование. Агент использует различные методы рассуждений для определения наилучшего способа действий. Модель начинает думать над решением запроса пользователя, разрабатывает план для дальнейших действий и определяет, какие инструменты можно использовать.
3. Действие. Агент выбирает необходимые инструменты и начинает их использовать в соответствии с задачами, сформулированными на этапе планирования.
Свойство 2. Интеграция с инструментами и окружением
В шаге планирования и действия агенту доступно мета-описание его окружения: команд, которые может выбрать LLM, для взаимодействия с окружающим миром. Между командой и LLM - тонкий слой управляющего кода, интерпретирующего текстовые ответы в вызов кода самой команды. Именно поэтому к LLM выдвигается требование к способности отвечать структурированно (Structured output). Действуя, агент делает 1 или множество запросов к LLM, получая структурированные ответы, вызывает инструменты - обычный код в функциях и классах с поведением, исполняемый процессором, выполняет работу, а также сверяется с исходным планом.
продолжение...
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machine head - Александр О.
Анатомия ИИ-агентов. Часть 1 - Истоки и архитектура. [2/2]
В начало
Свойство 3. Память
LLM не обладает собственной памятью (или состоянием) между запросами - каждый запрос обрабатывается независимо, как в первый раз. То, что мы называем агентом, является обычной программой с собственным окружением. Как и любая другая программа, она может хранить состояние в оперативной памяти, обращаться к базам данных, собирать необходимый контекст для выполнения пользовательской задачи. Простейший вид памяти - сохранение всей последовательности запросов к LLM и ее ответов.
Так же как человеческий мозг имеет полушария и специализированные отделы, обеспечивающие нам интеллектуальные способности во всем их многообразии, ИИ-агент может быть разделен на части для пущей интеллектуальности. Программную архитектуру можно представить в виде фрактала - узора, обладающего свойством самоподобия: его части в уменьшенном масштабе повторяют структуру целого, где основной узор - агентский цикл. Агентский цикл, как архитектурная единица, в том же виде используется для создания под-модулей: планировщика, рефлексии, цензора, интерпретатора и тд. Когда и как эти подмодули-микроагенты (не путать с суб-агентами) будут вступать в работу определяет разработчик, склеивая их в процесс всё тем же обычным кодом (как, увидим в следующих статьях).
——
Подытоживая, архитектура ИИ-агента удивляет своей простотой и масштабируемостью, являясь кирпичиком системы любой сложности. Агент может быть как простейшим SingleRun-вызовом к LLM с остановкой после ответа, так и ReAct-агентом, самостоятельно принимающим решение как действовать дальше и когда заканчивать. Их и будем разбирать далее.
Подписывайтесь на MachineHead и делитесь с друзьями! Stay tuned!✌️
В начало
Свойство 3. Память
LLM не обладает собственной памятью (или состоянием) между запросами - каждый запрос обрабатывается независимо, как в первый раз. То, что мы называем агентом, является обычной программой с собственным окружением. Как и любая другая программа, она может хранить состояние в оперативной памяти, обращаться к базам данных, собирать необходимый контекст для выполнения пользовательской задачи. Простейший вид памяти - сохранение всей последовательности запросов к LLM и ее ответов.
Так же как человеческий мозг имеет полушария и специализированные отделы, обеспечивающие нам интеллектуальные способности во всем их многообразии, ИИ-агент может быть разделен на части для пущей интеллектуальности. Программную архитектуру можно представить в виде фрактала - узора, обладающего свойством самоподобия: его части в уменьшенном масштабе повторяют структуру целого, где основной узор - агентский цикл. Агентский цикл, как архитектурная единица, в том же виде используется для создания под-модулей: планировщика, рефлексии, цензора, интерпретатора и тд. Когда и как эти подмодули-микроагенты (не путать с суб-агентами) будут вступать в работу определяет разработчик, склеивая их в процесс всё тем же обычным кодом (как, увидим в следующих статьях).
——
Подытоживая, архитектура ИИ-агента удивляет своей простотой и масштабируемостью, являясь кирпичиком системы любой сложности. Агент может быть как простейшим SingleRun-вызовом к LLM с остановкой после ответа, так и ReAct-агентом, самостоятельно принимающим решение как действовать дальше и когда заканчивать. Их и будем разбирать далее.
Подписывайтесь на MachineHead и делитесь с друзьями! Stay tuned!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Nikolay
Амазон
1)https://www.amazon.jobs/en/principles
2)https://medium.com/@scarletinked/are-you-the-leader-were-looking-for-interviewing-at-amazon-8301d787815d 3)https://docs.google.com/spreadsheets/d/1oBA6vanArm8gh79vzUnyJL-1kriLiGznYKh8gXAfD4s/edit?usp=drivesdk 4)https://www.notion.so/BE-Interview-8adc74cf14ad450fab3083e0633d2821#7b7c9b724012423f9572ef0787536c6e тут собираем вопросы https://docs.google.com/document/d/10mS6Whiybl3VjO9t3ZbMhp9TinNWBIArQoqmTaoSfqs/edit?usp=sharing 5) https://www2.hws.edu/pdf/career/behavioral_interview_questions.pdf
1)https://www.amazon.jobs/en/principles
2)https://medium.com/@scarletinked/are-you-the-leader-were-looking-for-interviewing-at-amazon-8301d787815d 3)https://docs.google.com/spreadsheets/d/1oBA6vanArm8gh79vzUnyJL-1kriLiGznYKh8gXAfD4s/edit?usp=drivesdk 4)https://www.notion.so/BE-Interview-8adc74cf14ad450fab3083e0633d2821#7b7c9b724012423f9572ef0787536c6e тут собираем вопросы https://docs.google.com/document/d/10mS6Whiybl3VjO9t3ZbMhp9TinNWBIArQoqmTaoSfqs/edit?usp=sharing 5) https://www2.hws.edu/pdf/career/behavioral_interview_questions.pdf
amazon.jobs
Leadership Principles
We use our Leadership Principles every day, whether we’re discussing ideas for new projects or deciding on the best way to solve a problem. It’s just one of the things that makes Amazon peculiar.