Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.07K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Готовим RAG системы правильно.

Фиксированный размер обеспечивает равные части по токенам с перекрытием, прост в реализации, но может нарушать смысл.

Семантический подход работает с естественным изложением, повышает точность поиска через косинусное сходство векторов.

Рекурсивное деление сначала разбивает на параграфы, затем дробит крупные сегменты на подструктуры и предложения.

Структурный метод опирается на разделы и подразделы документов, а так же на его опорные элементы и требует четкой организации контента.

LLM-based задействует языковые модели для создания связных частей, ресурсоемок, но семантически точен.

Эффективность каждого метода зависит от типа данных, мощности оборудования и требований к точности.

Отличная шпаргалка от Daily Dose of Data Science 📚

#RAG #chunking #semantics
-------
@tsingular
👍7221