Please open Telegram to view this post
VIEW IN TELEGRAM
❤22🤔4🔥2👍1
Вот частое заблуждение про RAG
Когда говорят про RAG, обычно думают так: проиндексировали док → потом достали этот же док.
Но индексация ≠ ретривал.
То есть данные, которые ты индексируешь, не обязаны совпадать с теми данными, которые ты потом скармливаешь LLM на этапе генерации.
Вот 4 умных способа индексировать данные:
1) Chunk Indexing
▪️ Самый распространенный подход.
▪️ Режешь документ на чанки, строишь эмбеддинги и кладешь их в векторную базу.
▪️ Во время запроса просто достаешь ближайшие чанки.
Подход простой и рабочий, но большие или шумные чанки могут просаживать точность.
2) Sub-chunk Indexing
▪️ Берешь исходные чанки и дробишь их еще мельче на сабчанки.
▪️ Индексируешь уже эти более мелкие куски.
▪️ Но при выдаче все равно возвращаешь “большой” чанк для контекста.
Помогает, когда в одном абзаце/секции намешано несколько разных идей: шанс точно сматчиться с запросом выше.
3) Query Indexing
▪️ Вместо сырого текста генеришь гипотетические вопросы, на которые, по мнению LLM, этот чанк может ответить.
▪️ Эмбеддишь эти вопросы и сохраняешь.
▪️ При ретривале реальные пользовательские запросы обычно лучше ложатся на такие “вопросные” представления.
▪️ Похожая идея есть в HyDE, только там матчат гипотетический ответ с реальными чанками.
Кайфово для QA-систем, потому что уменьшает семантический разрыв между запросом пользователя и тем, что лежит в индексе.
4) Summary Indexing
▪️ Просишь LLM кратко резюмировать каждый чанк в компактную семантическую форму.
▪️ Индексируешь summary вместо исходного текста.
▪️ А возвращаешь все равно полный чанк для контекста.
Особенно эффективно для плотных или структурированных данных (типа CSV/таблиц), где эмбеддинги сырого текста часто слабо что-то выражают
👉 @PythonPortal
Когда говорят про RAG, обычно думают так: проиндексировали док → потом достали этот же док.
Но индексация ≠ ретривал.
То есть данные, которые ты индексируешь, не обязаны совпадать с теми данными, которые ты потом скармливаешь LLM на этапе генерации.
Вот 4 умных способа индексировать данные:
1) Chunk Indexing
Подход простой и рабочий, но большие или шумные чанки могут просаживать точность.
2) Sub-chunk Indexing
Помогает, когда в одном абзаце/секции намешано несколько разных идей: шанс точно сматчиться с запросом выше.
3) Query Indexing
Кайфово для QA-систем, потому что уменьшает семантический разрыв между запросом пользователя и тем, что лежит в индексе.
4) Summary Indexing
Особенно эффективно для плотных или структурированных данных (типа CSV/таблиц), где эмбеддинги сырого текста часто слабо что-то выражают
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15
Вот полный путь, который я бы рекомендовал, чтобы в этом году собрать production-grade AI-агентов:
▪️ база по Python и алгоритмам
▪️ математика и основы ML
▪️ трансформеры и LLM
▪️ prompt engineering
▪️ memory и RAG
▪️ tools и интеграции
▪️ фреймворки типа LangChain или CrewAI
▪️ multi-agent системы
▪️ тестирование, деплой, безопасность
👉 @PythonPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁15❤6🤣5👍4
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10
Большой Python-грех: использовать изменяемый объект как аргумент по умолчанию
Не используй изменяемые объекты в качестве значений по умолчанию. В Python значения аргументов по умолчанию вычисляются один раз, в момент определения функции, а не при каждом ее вызове.
Если у тебя аргумент по умолчанию выглядит так:
Лучший вариант: ставить неизменяемый объект в значение по умолчанию. Тогда каждый вызов будет получать новый список, как в примере
👉 @PythonPortal
Не используй изменяемые объекты в качестве значений по умолчанию. В Python значения аргументов по умолчанию вычисляются один раз, в момент определения функции, а не при каждом ее вызове.
Если у тебя аргумент по умолчанию выглядит так:
items=[], этот список будет общим для всех вызовов, и ты получишь накапливающееся состояние, которого не планировал.Лучший вариант: ставить неизменяемый объект в значение по умолчанию. Тогда каждый вызов будет получать новый список, как в примере
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24❤11👍5😁5
Please open Telegram to view this post
VIEW IN TELEGRAM
😁43🤣20❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Китайский агент для автоматизации рабочего стола, который работает полностью локально.
Он умеет запускать любые приложения, открывать файлы, серфить по сайтам и автоматизировать задачи без подключения к интернету.
100% Open-Source.
👉 @PythonPortal
Он умеет запускать любые приложения, открывать файлы, серфить по сайтам и автоматизировать задачи без подключения к интернету.
100% Open-Source.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤6🤔2
Please open Telegram to view this post
VIEW IN TELEGRAM
👀22❤4👍3
Онлайн-обучение Python и SQL с экспертами из НИУ ВШЭ
В Центре непрерывного образования факультета компьютерных наук НИУ ВШЭ открыт набор на программы повышения квалификации онлайн-формата, обучение на которых позволит вам с нуля освоить ключевые инструменты аналитиков данных — Python и SQL.
1️⃣Python для автоматизации и анализа данных
Вы научитесь работать с основными конструкциями и структурами данных в Python. Изучите Numpy и Pandas — фундаментальные библиотеки для науки о данных. Познакомитесь со всеми шагами проведения разведочного анализа данных. Освоите создание Telegram-ботов и поймете, как грамотно собирать данные. Научитесь строить визуализации для презентации данных.
📁 Старт — 3 февраля. Присоединиться можно до 10 февраля. Подать заявку 📍
2️⃣SQL для начинающих
Вы освоите базовые принципы работы с реляционными базами данных и научитесь грамотно фильтровать и сортировать данные, используя ключевые операторы и выражения. Разберете агрегирующие функции, методы работы с датами и строками и поймете, как устроены связи между таблицами. Научитесь использовать подзапросы и временные таблицы, изучите оконные функции.
📁 Старт — 16 февраля. Присоединиться можно до 24 февраля. Подать заявку 📍
Реклама. НИУ "ВШЭ". ИНН 7714030726. erid: 2SDnjcx8Peg
В Центре непрерывного образования факультета компьютерных наук НИУ ВШЭ открыт набор на программы повышения квалификации онлайн-формата, обучение на которых позволит вам с нуля освоить ключевые инструменты аналитиков данных — Python и SQL.
1️⃣Python для автоматизации и анализа данных
Вы научитесь работать с основными конструкциями и структурами данных в Python. Изучите Numpy и Pandas — фундаментальные библиотеки для науки о данных. Познакомитесь со всеми шагами проведения разведочного анализа данных. Освоите создание Telegram-ботов и поймете, как грамотно собирать данные. Научитесь строить визуализации для презентации данных.
2️⃣SQL для начинающих
Вы освоите базовые принципы работы с реляционными базами данных и научитесь грамотно фильтровать и сортировать данные, используя ключевые операторы и выражения. Разберете агрегирующие функции, методы работы с датами и строками и поймете, как устроены связи между таблицами. Научитесь использовать подзапросы и временные таблицы, изучите оконные функции.
Реклама. НИУ "ВШЭ". ИНН 7714030726. erid: 2SDnjcx8Peg
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🌭1👀1
Чувак полностью реализовал архитектуру GPT-OSS-20B с нуля на PyTorch. Все компоненты написаны с нуля:
▪️ RoPE с YaRN + NTK-by-parts для масштабирования контекста
▪️ RMSNorm
▪️ SwiGLU с клэмпингом и residual connections
▪️ Mixture-of-Experts (MoE)
▪️ Self-Attention, оптимизированный через Grouped Query Attention (GQA)
▪️ Learned sinks
▪️ Banded (скользящее окно) attention
▪️ Поддержка KV-кэширования
Всё это работает на одной A100 SXM (80GB). Он также написал подробную документацию с теорией каждого компонента, а также инструкциями по настройке и инференсу.
Репозиторий: https://github.com/HamzaElshafie/gpt-oss-20B
👉 @PythonPortal
Всё это работает на одной A100 SXM (80GB). Он также написал подробную документацию с теорией каждого компонента, а также инструкциями по настройке и инференсу.
Репозиторий: https://github.com/HamzaElshafie/gpt-oss-20B
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21🤯15🔥9👍6
Google выпустил новый инструмент: PaperBanana
Умеет создавать академические иллюстрации, готовые к публикации, просто на основе текста с описанием методологии.
Без Figma. Без ручного дизайна. Без навыков рисования.
Как это работает:
Команда AI-агентов трудится за кулисами:
→ Один ищет подходящие примеры диаграмм
→ Один планирует структуру
→ Один оформляет стиль и компоновку
→ Один генерирует изображение
→ Один оценивает результат и улучшает его
Самое интересное: случайные примеры ссылок работают почти так же хорошо, как идеально подобранные. Главное — показать модели, как выглядят хорошие диаграммы, а не искать идеальный тематический пример.
В слепых тестах люди предпочли результаты PaperBanana в 75% случаев.
Это та самая рекурсия, которую мы ждали: AI-системы, способные полностью визуально документировать сами себя.
Открыта запись в лист ожидания
👉 @PythonPortal
Умеет создавать академические иллюстрации, готовые к публикации, просто на основе текста с описанием методологии.
Без Figma. Без ручного дизайна. Без навыков рисования.
Как это работает:
Команда AI-агентов трудится за кулисами:
→ Один ищет подходящие примеры диаграмм
→ Один планирует структуру
→ Один оформляет стиль и компоновку
→ Один генерирует изображение
→ Один оценивает результат и улучшает его
Самое интересное: случайные примеры ссылок работают почти так же хорошо, как идеально подобранные. Главное — показать модели, как выглядят хорошие диаграммы, а не искать идеальный тематический пример.
В слепых тестах люди предпочли результаты PaperBanana в 75% случаев.
Это та самая рекурсия, которую мы ждали: AI-системы, способные полностью визуально документировать сами себя.
Открыта запись в лист ожидания
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7