This media is not supported in your browser
VIEW IN TELEGRAM
Готовим RAG системы правильно.
Фиксированный размер обеспечивает равные части по токенам с перекрытием, прост в реализации, но может нарушать смысл.
Семантический подход работает с естественным изложением, повышает точность поиска через косинусное сходство векторов.
Рекурсивное деление сначала разбивает на параграфы, затем дробит крупные сегменты на подструктуры и предложения.
Структурный метод опирается на разделы и подразделы документов, а так же на его опорные элементы и требует четкой организации контента.
LLM-based задействует языковые модели для создания связных частей, ресурсоемок, но семантически точен.
Эффективность каждого метода зависит от типа данных, мощности оборудования и требований к точности.
Отличная шпаргалка от Daily Dose of Data Science 📚
#RAG #chunking #semantics
-------
@tsingular
Фиксированный размер обеспечивает равные части по токенам с перекрытием, прост в реализации, но может нарушать смысл.
Семантический подход работает с естественным изложением, повышает точность поиска через косинусное сходство векторов.
Рекурсивное деление сначала разбивает на параграфы, затем дробит крупные сегменты на подструктуры и предложения.
Структурный метод опирается на разделы и подразделы документов, а так же на его опорные элементы и требует четкой организации контента.
LLM-based задействует языковые модели для создания связных частей, ресурсоемок, но семантически точен.
Эффективность каждого метода зависит от типа данных, мощности оборудования и требований к точности.
Отличная шпаргалка от Daily Dose of Data Science 📚
#RAG #chunking #semantics
-------
@tsingular
👍7⚡2✍2❤1