Сюююда: GitHub-репозиторий, чтобы учиться AI Engineering.
Там собраны одни из лучших бесплатных курсов, статей, туториалов и видео по темам:
Математическая база
Основы AI и ML
Deep Learning и специализации
Generative AI
Большие языковые модели (LLM)
Гайды по prompt engineering
RAG, агенты и MCP
Смотри тут: https://github.com/ashishps1/learn-ai-engineering
👉 @PythonPortal
Там собраны одни из лучших бесплатных курсов, статей, туториалов и видео по темам:
Математическая база
Основы AI и ML
Deep Learning и специализации
Generative AI
Большие языковые модели (LLM)
Гайды по prompt engineering
RAG, агенты и MCP
Смотри тут: https://github.com/ashishps1/learn-ai-engineering
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍4
Изучи Python с Университетом University of Helsinki
✓ С официальным сертификатом
✓ С нуля до продвинутого уровня
✓ 14 частей с практическими заданиями
Весь контент доступен → здесь
👉 @PythonPortal
✓ С официальным сертификатом
✓ С нуля до продвинутого уровня
✓ 14 частей с практическими заданиями
Весь контент доступен → здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18
pip 26.0: pre-release и фильтрация по времени загрузки
Три большие новые фичи:
▪️
▪️
▪️
Куда более подробный пост: читать
Официальный анонс здесь
Полный changelog здесь
👉 @PythonPortal
Три большие новые фичи:
--all-releases <package> и --only-final <package>: контроль pre-release по каждому пакету отдельно, плюс возможность отключить все pre-release пакеты через --only-final :all:--uploaded-prior-to <timstamp>: можно ограничить по времени загрузки пакета, например --uploaded-prior-to "2026-01-01T00:00:00Z"--requirements-from-script <script>: установка зависимостей, объявленных в inline metadata скрипта (PEP 723)Куда более подробный пост: читать
Официальный анонс здесь
Полный changelog здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Richard Si
What's new in pip 26.0 - prerelease and upload-time filtering!
pip 26.0 includes support for reading requirements from inline script metadata, excluding distributions by upload time, per-package prerelease selection, and experimental support for in-process build dependencies.
❤10🔥6😢1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17🤔2👍1🔥1
Вот частое заблуждение про RAG
Когда говорят про RAG, обычно думают так: проиндексировали док → потом достали этот же док.
Но индексация ≠ ретривал.
То есть данные, которые ты индексируешь, не обязаны совпадать с теми данными, которые ты потом скармливаешь LLM на этапе генерации.
Вот 4 умных способа индексировать данные:
1) Chunk Indexing
▪️ Самый распространенный подход.
▪️ Режешь документ на чанки, строишь эмбеддинги и кладешь их в векторную базу.
▪️ Во время запроса просто достаешь ближайшие чанки.
Подход простой и рабочий, но большие или шумные чанки могут просаживать точность.
2) Sub-chunk Indexing
▪️ Берешь исходные чанки и дробишь их еще мельче на сабчанки.
▪️ Индексируешь уже эти более мелкие куски.
▪️ Но при выдаче все равно возвращаешь “большой” чанк для контекста.
Помогает, когда в одном абзаце/секции намешано несколько разных идей: шанс точно сматчиться с запросом выше.
3) Query Indexing
▪️ Вместо сырого текста генеришь гипотетические вопросы, на которые, по мнению LLM, этот чанк может ответить.
▪️ Эмбеддишь эти вопросы и сохраняешь.
▪️ При ретривале реальные пользовательские запросы обычно лучше ложатся на такие “вопросные” представления.
▪️ Похожая идея есть в HyDE, только там матчат гипотетический ответ с реальными чанками.
Кайфово для QA-систем, потому что уменьшает семантический разрыв между запросом пользователя и тем, что лежит в индексе.
4) Summary Indexing
▪️ Просишь LLM кратко резюмировать каждый чанк в компактную семантическую форму.
▪️ Индексируешь summary вместо исходного текста.
▪️ А возвращаешь все равно полный чанк для контекста.
Особенно эффективно для плотных или структурированных данных (типа CSV/таблиц), где эмбеддинги сырого текста часто слабо что-то выражают
👉 @PythonPortal
Когда говорят про RAG, обычно думают так: проиндексировали док → потом достали этот же док.
Но индексация ≠ ретривал.
То есть данные, которые ты индексируешь, не обязаны совпадать с теми данными, которые ты потом скармливаешь LLM на этапе генерации.
Вот 4 умных способа индексировать данные:
1) Chunk Indexing
Подход простой и рабочий, но большие или шумные чанки могут просаживать точность.
2) Sub-chunk Indexing
Помогает, когда в одном абзаце/секции намешано несколько разных идей: шанс точно сматчиться с запросом выше.
3) Query Indexing
Кайфово для QA-систем, потому что уменьшает семантический разрыв между запросом пользователя и тем, что лежит в индексе.
4) Summary Indexing
Особенно эффективно для плотных или структурированных данных (типа CSV/таблиц), где эмбеддинги сырого текста часто слабо что-то выражают
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9
Вот полный путь, который я бы рекомендовал, чтобы в этом году собрать production-grade AI-агентов:
▪️ база по Python и алгоритмам
▪️ математика и основы ML
▪️ трансформеры и LLM
▪️ prompt engineering
▪️ memory и RAG
▪️ tools и интеграции
▪️ фреймворки типа LangChain или CrewAI
▪️ multi-agent системы
▪️ тестирование, деплой, безопасность
👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8❤4👍3🤣3