Python Portal
56K subscribers
2.42K photos
386 videos
51 files
984 links
Всё самое интересное из мира Python

Связь: @devmangx

РКН: https://clck.ru/3GMMF6
Download Telegram
pip 26.0: pre-release и фильтрация по времени загрузки

Три большие новые фичи:

▪️ --all-releases <package> и --only-final <package>: контроль pre-release по каждому пакету отдельно, плюс возможность отключить все pre-release пакеты через --only-final :all:
▪️ --uploaded-prior-to <timstamp>: можно ограничить по времени загрузки пакета, например --uploaded-prior-to "2026-01-01T00:00:00Z"
▪️ --requirements-from-script <script>: установка зависимостей, объявленных в inline metadata скрипта (PEP 723)

Куда более подробный пост: читать

Официальный анонс здесь

Полный changelog здесь

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥6😢1
This media is not supported in your browser
VIEW IN TELEGRAM
λ-2D от Lingdong Huang: визуальный, нарисованный руками язык программирования.

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
19🤔2👍1🔥1
Вот частое заблуждение про RAG

Когда говорят про RAG, обычно думают так: проиндексировали док → потом достали этот же док.

Но индексация ≠ ретривал.

То есть данные, которые ты индексируешь, не обязаны совпадать с теми данными, которые ты потом скармливаешь LLM на этапе генерации.

Вот 4 умных способа индексировать данные:

1) Chunk Indexing

▪️Самый распространенный подход.
▪️Режешь документ на чанки, строишь эмбеддинги и кладешь их в векторную базу.
▪️Во время запроса просто достаешь ближайшие чанки.

Подход простой и рабочий, но большие или шумные чанки могут просаживать точность.

2) Sub-chunk Indexing

▪️Берешь исходные чанки и дробишь их еще мельче на сабчанки.
▪️Индексируешь уже эти более мелкие куски.
▪️Но при выдаче все равно возвращаешь “большой” чанк для контекста.

Помогает, когда в одном абзаце/секции намешано несколько разных идей: шанс точно сматчиться с запросом выше.

3) Query Indexing

▪️Вместо сырого текста генеришь гипотетические вопросы, на которые, по мнению LLM, этот чанк может ответить.
▪️Эмбеддишь эти вопросы и сохраняешь.
▪️При ретривале реальные пользовательские запросы обычно лучше ложатся на такие “вопросные” представления.
▪️Похожая идея есть в HyDE, только там матчат гипотетический ответ с реальными чанками.

Кайфово для QA-систем, потому что уменьшает семантический разрыв между запросом пользователя и тем, что лежит в индексе.

4) Summary Indexing

▪️Просишь LLM кратко резюмировать каждый чанк в компактную семантическую форму.
▪️Индексируешь summary вместо исходного текста.
▪️А возвращаешь все равно полный чанк для контекста.

Особенно эффективно для плотных или структурированных данных (типа CSV/таблиц), где эмбеддинги сырого текста часто слабо что-то выражают

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
11
Вот полный путь, который я бы рекомендовал, чтобы в этом году собрать production-grade AI-агентов:

▪️база по Python и алгоритмам
▪️математика и основы ML
▪️трансформеры и LLM
▪️prompt engineering
▪️memory и RAG
▪️tools и интеграции
▪️фреймворки типа LangChain или CrewAI
▪️multi-agent системы
▪️тестирование, деплой, безопасность

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁125🤣5👍3
JS пойман

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤣48🔥5
5 AI-проектов, которые помогут устроиться на работу в 2026:

1. RAG с нуля
GitHub: ссылка

2. AI-агент для соцсетей
GitHub: ссылка

3. Анализ медицинских изображений
GitHub: ссылка

4. Агенты с tool-calling через MCP
Ноутбук: ссылка

5. AI-ассистент с памятью
GitHub: ссылка

👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4