Задача прогнозирования дохода клиента, или Как избавиться от неприличных вопросов в заявке
Спрашивать о зарплате — неприличный вопрос. Конечно, если вас не спросили об этом на Патриках 🙂. Прогнозирование доходов клиентов — это одна из ключевых задач, стоящих перед современными финансовыми учреждениями. Оно не просто помогает в оптимизации внутренних процессов, но и играет важную роль в улучшении клиентского опыта. Поэтому, даже если бы мы были на Патриках, то не доверяли бы утверждениям из уст опрашиваемых.
Для этого у нас есть модели.
Читать: https://habr.com/ru/companies/alfa/articles/862118/
#ru
@big_data_analysis | Другие наши каналы
Спрашивать о зарплате — неприличный вопрос. Конечно, если вас не спросили об этом на Патриках 🙂. Прогнозирование доходов клиентов — это одна из ключевых задач, стоящих перед современными финансовыми учреждениями. Оно не просто помогает в оптимизации внутренних процессов, но и играет важную роль в улучшении клиентского опыта. Поэтому, даже если бы мы были на Патриках, то не доверяли бы утверждениям из уст опрашиваемых.
Для этого у нас есть модели.
Читать: https://habr.com/ru/companies/alfa/articles/862118/
#ru
@big_data_analysis | Другие наши каналы
Пора перестать в любой непонятной ситуации строить DWH для аналитики
Привет!
Кажется, первая статья нашла своего благодарного читателя.Снова мысли от CDO трудящегося вместе с одной небольшой компанией ру-сегмента.
Продолжу о том, что "наболело".
Эта статья может быть Вам полезна, если консалтинг/интегратор/CTO/CIO/сын маминой подруги настойчиво хочет решить все Ваши "проблемы" в аналитике классным корпоративным хранилищем, далее - DWH.
Читать: https://habr.com/ru/articles/863308/
#ru
@big_data_analysis | Другие наши каналы
Привет!
Кажется, первая статья нашла своего благодарного читателя.Снова мысли от CDO трудящегося вместе с одной небольшой компанией ру-сегмента.
Продолжу о том, что "наболело".
Эта статья может быть Вам полезна, если консалтинг/интегратор/CTO/CIO/сын маминой подруги настойчиво хочет решить все Ваши "проблемы" в аналитике классным корпоративным хранилищем, далее - DWH.
Читать: https://habr.com/ru/articles/863308/
#ru
@big_data_analysis | Другие наши каналы
Как должен выглядеть идеальный GitHub для поиска работы
Сколько раз вы слышали совет: "Укажи GitHub в резюме для поиска работы"?
Многие думают, что просто создать аккаунт и запушить пару репозиториев будет достаточно, чтобы работодатели будут выстраиваться в очередь. Но на самом деле это совсем не так.
Сегодня мы разберёмся, почему пустой GitHub не только не помогает в поиске работы, но и может навредить вашим карьерным перспективам.
Читать: https://habr.com/ru/articles/863238/
#ru
@big_data_analysis | Другие наши каналы
Сколько раз вы слышали совет: "Укажи GitHub в резюме для поиска работы"?
Многие думают, что просто создать аккаунт и запушить пару репозиториев будет достаточно, чтобы работодатели будут выстраиваться в очередь. Но на самом деле это совсем не так.
Сегодня мы разберёмся, почему пустой GitHub не только не помогает в поиске работы, но и может навредить вашим карьерным перспективам.
Читать: https://habr.com/ru/articles/863238/
#ru
@big_data_analysis | Другие наши каналы
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях
Привет, меня зовут Коновалов Андрей, я Data Scientist персональных рекомендаций Wildberries. В этой статье разберем, как можно тюнингом TF-IDF побить BERT4Rec в ретро-тесте рекомендательной системы.
Читать: https://habr.com/ru/companies/wildberries/articles/861466/
#ru
@big_data_analysis | Другие наши каналы
Привет, меня зовут Коновалов Андрей, я Data Scientist персональных рекомендаций Wildberries. В этой статье разберем, как можно тюнингом TF-IDF побить BERT4Rec в ретро-тесте рекомендательной системы.
Читать: https://habr.com/ru/companies/wildberries/articles/861466/
#ru
@big_data_analysis | Другие наши каналы
Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS
В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.
Читать: https://habr.com/ru/articles/863902/
#ru
@big_data_analysis | Другие наши каналы
В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.
Читать: https://habr.com/ru/articles/863902/
#ru
@big_data_analysis | Другие наши каналы
Переобучение моделей: гайд и советы для начинающих
С развитием нейросетей появляются новые вызовы. Один из них — переобучение моделей. Совместно с Александром Рыжковым, ментором Skillfactory, руководителем команды LightAutoML и 4х Kaggle Grandmaster, разбираемся, что такое переобучение, хорошо ли это и как его избежать.
Читать: https://habr.com/ru/companies/skillfactory/articles/864234/
#ru
@big_data_analysis | Другие наши каналы
С развитием нейросетей появляются новые вызовы. Один из них — переобучение моделей. Совместно с Александром Рыжковым, ментором Skillfactory, руководителем команды LightAutoML и 4х Kaggle Grandmaster, разбираемся, что такое переобучение, хорошо ли это и как его избежать.
Читать: https://habr.com/ru/companies/skillfactory/articles/864234/
#ru
@big_data_analysis | Другие наши каналы
Документация, которая точно не навредит аналитике в Вашем проекте
Привет!
Я работаю Chief Data Officer в средней российской компании и, думаю, попробовал "всякое" в плане работы с документацией для команды, которая работает с данными.
Хочу поделиться своим опытом того, что "маст хев" в документации в Вашем проекте, когда есть планы вроде "make analysis great [again]".
Нука-нука!
Читать: https://habr.com/ru/articles/864512/
#ru
@big_data_analysis | Другие наши каналы
Привет!
Я работаю Chief Data Officer в средней российской компании и, думаю, попробовал "всякое" в плане работы с документацией для команды, которая работает с данными.
Хочу поделиться своим опытом того, что "маст хев" в документации в Вашем проекте, когда есть планы вроде "make analysis great [again]".
Нука-нука!
Читать: https://habr.com/ru/articles/864512/
#ru
@big_data_analysis | Другие наши каналы
Алгоритмы и структуры данных для численных вычислений с автоматической оценкой точности
Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай на протяжении нескольких лет изучал фундаментальную проблему быстрой потери точности вычислений. Она связана с повсеместно применяемым форматом экспоненциальной записи чисел и наиболее остро затрагивает сферы AI, HPC и Big Data.
Читать: https://habr.com/ru/companies/kryptonite/articles/863838/
#ru
@big_data_analysis | Другие наши каналы
Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай на протяжении нескольких лет изучал фундаментальную проблему быстрой потери точности вычислений. Она связана с повсеместно применяемым форматом экспоненциальной записи чисел и наиболее остро затрагивает сферы AI, HPC и Big Data.
Читать: https://habr.com/ru/companies/kryptonite/articles/863838/
#ru
@big_data_analysis | Другие наши каналы
Автоматизация ТОиР инженерных систем в ВТБ: кейс внедрения SAP PM для 100 000 единиц оборудования
В новостных сводках, каналах, изданиях мы все чаще наблюдаем за успехами оптимизации, автоматизации и внедрения новых систем ТОиР промышленного оборудования. На больших предприятиях оборудование принято называть активами, подчеркивая их важность для достижения целей компании.
Да, промышленное оборудование - безусловно критически важное оборудование инфраструктуры предприятия и от надежности такого оборудования во многом зависит доход компании.
А что же с активами банков? Нет, не теми финансовыми инструментами, которыми они пользуются, а «железными» активами, которые также помогают банкам работать. Как же быть с обслуживанием инженерного оборудования или оборудования противопожарных систем, а еще и кассовой техники? - зададимся мы вопросом. Почему про процессы обслуживания этого оборудования мы мало где можем найти информацию? Ведь оно также является немаловажным звеном основной цепочки бизнес-процесса предприятия, и от его бесперебойной работоспособности зависит многое.
Возьмем например банк. Инженерные системы и системы противопожарной безопасности банка – это «сердце», жизненно важный элемент объекта. Кассовая техника – это «стержень» кассового узла, центра пересчета. Исправное и безотказное состояние элементов инженерных систем обеспечивает удобство, уют и комфорт сотрудникам и клиентам банка, а кассовой техники – непрерывность процесса пересчета и, как следствие, напрямую влияет на прибыль.
Наша команда Банка ВТБ давно занимается этими вопросами и мы хотим рассказать об одной такой истории автоматизации процессов ТОиР в банковской сфере.
В 2020 году Банк ВТБ, как и положено крупным компаниям, обновлял программное обеспечение и переходил на обновленную версию SAP S4. Управление эксплуатации Административного департамента банка, проанализировав текущие процессы ТОиР, вынесла предложение включить в новую сборку программы SAP дополнительный модуль PM (ТОРО). Руководство компании поддержало идею цифровизации технического обслуживания и ремонта. Так началась история автоматизации ТОиР в Банке ВТБ.
Читать: https://habr.com/ru/articles/864568/
#ru
@big_data_analysis | Другие наши каналы
В новостных сводках, каналах, изданиях мы все чаще наблюдаем за успехами оптимизации, автоматизации и внедрения новых систем ТОиР промышленного оборудования. На больших предприятиях оборудование принято называть активами, подчеркивая их важность для достижения целей компании.
Да, промышленное оборудование - безусловно критически важное оборудование инфраструктуры предприятия и от надежности такого оборудования во многом зависит доход компании.
А что же с активами банков? Нет, не теми финансовыми инструментами, которыми они пользуются, а «железными» активами, которые также помогают банкам работать. Как же быть с обслуживанием инженерного оборудования или оборудования противопожарных систем, а еще и кассовой техники? - зададимся мы вопросом. Почему про процессы обслуживания этого оборудования мы мало где можем найти информацию? Ведь оно также является немаловажным звеном основной цепочки бизнес-процесса предприятия, и от его бесперебойной работоспособности зависит многое.
Возьмем например банк. Инженерные системы и системы противопожарной безопасности банка – это «сердце», жизненно важный элемент объекта. Кассовая техника – это «стержень» кассового узла, центра пересчета. Исправное и безотказное состояние элементов инженерных систем обеспечивает удобство, уют и комфорт сотрудникам и клиентам банка, а кассовой техники – непрерывность процесса пересчета и, как следствие, напрямую влияет на прибыль.
Наша команда Банка ВТБ давно занимается этими вопросами и мы хотим рассказать об одной такой истории автоматизации процессов ТОиР в банковской сфере.
В 2020 году Банк ВТБ, как и положено крупным компаниям, обновлял программное обеспечение и переходил на обновленную версию SAP S4. Управление эксплуатации Административного департамента банка, проанализировав текущие процессы ТОиР, вынесла предложение включить в новую сборку программы SAP дополнительный модуль PM (ТОРО). Руководство компании поддержало идею цифровизации технического обслуживания и ремонта. Так началась история автоматизации ТОиР в Банке ВТБ.
Читать: https://habr.com/ru/articles/864568/
#ru
@big_data_analysis | Другие наши каналы
Нам нужен RAG, вам нужен RAG: как встроить LLM туда, где она не нужна
Когда хайп захватывает умы, кажется, что любое техническое решение должно строиться вокруг новой модной технологии и что теперь-то мы ух заживем! Сегодня у нас на хайпе RAG (Retrieval-Augmented Generation), вчера — NFT, позавчера — блокчейн везде и всюду.
Давайте попробуем разобраться, нужен ли RAG на самом деле, или это просто «новый блокчейн» и через год все набьют шишки и забудут о нем.
Читать: https://habr.com/ru/articles/864776/
#ru
@big_data_analysis | Другие наши каналы
Когда хайп захватывает умы, кажется, что любое техническое решение должно строиться вокруг новой модной технологии и что теперь-то мы ух заживем! Сегодня у нас на хайпе RAG (Retrieval-Augmented Generation), вчера — NFT, позавчера — блокчейн везде и всюду.
Давайте попробуем разобраться, нужен ли RAG на самом деле, или это просто «новый блокчейн» и через год все набьют шишки и забудут о нем.
Читать: https://habr.com/ru/articles/864776/
#ru
@big_data_analysis | Другие наши каналы
Элегантная математика фильтров Блума
Вероятностные функции способны моделировать множество алгоритмов и процедур. Они помогают нам оптимизировать процессы для получения наилучших результатов. Опытные программные инженеры знают, что рано или поздно практически любое ПО достигает определённой степени недетерминированности, когда решение является не абсолютным, но при оптимальной конфигурации приближается к наилучшим результатам. В математическом смысле подобное решение обычно сводится к поиску минимума, максимума или пределов неких вероятностных функций.
В этой статье речь пойдёт об изяществе математики, лежащей в основе фильтров Блума. Мы разберём аспекты точности работы и компромиссов при конфигурировании этих фильтров, а также узнаем, почему в некоторых случаях они могут стать отличным выбором, особенно в сфере больших данных и системах OLAP, когда подразумевается обработка огромных и статичных датасетов.
Читать: https://habr.com/ru/companies/ruvds/articles/864354/
#ru
@big_data_analysis | Другие наши каналы
Вероятностные функции способны моделировать множество алгоритмов и процедур. Они помогают нам оптимизировать процессы для получения наилучших результатов. Опытные программные инженеры знают, что рано или поздно практически любое ПО достигает определённой степени недетерминированности, когда решение является не абсолютным, но при оптимальной конфигурации приближается к наилучшим результатам. В математическом смысле подобное решение обычно сводится к поиску минимума, максимума или пределов неких вероятностных функций.
В этой статье речь пойдёт об изяществе математики, лежащей в основе фильтров Блума. Мы разберём аспекты точности работы и компромиссов при конфигурировании этих фильтров, а также узнаем, почему в некоторых случаях они могут стать отличным выбором, особенно в сфере больших данных и системах OLAP, когда подразумевается обработка огромных и статичных датасетов.
Читать: https://habr.com/ru/companies/ruvds/articles/864354/
#ru
@big_data_analysis | Другие наши каналы
ZIP-бомба в формате Apache Parquet
Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe).
Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet.
Читать: https://habr.com/ru/companies/globalsign/articles/864886/
#ru
@big_data_analysis | Другие наши каналы
Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe).
Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet.
Читать: https://habr.com/ru/companies/globalsign/articles/864886/
#ru
@big_data_analysis | Другие наши каналы
Прогнозирование продаж с использованием библиотеки Prophet, часть 2
Привет! Продолжаю знакомить вас с библиотекой Prophet в качестве инстурмента прогнозирования продаж. Первая часть тут.
Функции для критериев качества в нашей прогнозной модели будут выглядеть следующим образом:
Читать: https://habr.com/ru/companies/beeline_tech/articles/865156/
#ru
@big_data_analysis | Другие наши каналы
Привет! Продолжаю знакомить вас с библиотекой Prophet в качестве инстурмента прогнозирования продаж. Первая часть тут.
Функции для критериев качества в нашей прогнозной модели будут выглядеть следующим образом:
Читать: https://habr.com/ru/companies/beeline_tech/articles/865156/
#ru
@big_data_analysis | Другие наши каналы
5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году
«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.
И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен.
Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌
Начнем!
Читать: https://habr.com/ru/articles/865212/
#ru
@big_data_analysis | Другие наши каналы
«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.
И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен.
Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌
Начнем!
Читать: https://habr.com/ru/articles/865212/
#ru
@big_data_analysis | Другие наши каналы
Повышение производительности складской комплектации: как без трудоёмкого хронометража найти потенциал ускорения
Текущая экономическая ситуация в мире приводит к сильному давлению роста цен во всех секторах экономики. Ритейлеры не могут перекладывать эти риски на плечи своих покупателей, что приводит их к необходимости поиска новых путей сокращения затрат на экземпляр процесса, т. е. на штуку товара. Усиливающаяся конкуренция с e-commerce требует перестройки процессов и выхода на повышенные скорости доставки в борьбе за клиента.
И кажется, что все имеющиеся инструменты повышения эффективности уже использованы. Но есть ещё один. В этой статье я расскажу о нашем опыте повышения производительности операций в распределительных центрах торговой сети “Пятёрочка” без больших финансовых вливаний и долгосрочных разработок. Я руковожу Департаментом развития аналитики “Цепочки поставок и поддерживающие функции” в Х5 Tech, и моя команда занимается поиском путей повышения эффективности бизнеса через анализ больших данных.
Читать: https://habr.com/ru/companies/X5Tech/articles/865642/
#ru
@big_data_analysis | Другие наши каналы
Текущая экономическая ситуация в мире приводит к сильному давлению роста цен во всех секторах экономики. Ритейлеры не могут перекладывать эти риски на плечи своих покупателей, что приводит их к необходимости поиска новых путей сокращения затрат на экземпляр процесса, т. е. на штуку товара. Усиливающаяся конкуренция с e-commerce требует перестройки процессов и выхода на повышенные скорости доставки в борьбе за клиента.
И кажется, что все имеющиеся инструменты повышения эффективности уже использованы. Но есть ещё один. В этой статье я расскажу о нашем опыте повышения производительности операций в распределительных центрах торговой сети “Пятёрочка” без больших финансовых вливаний и долгосрочных разработок. Я руковожу Департаментом развития аналитики “Цепочки поставок и поддерживающие функции” в Х5 Tech, и моя команда занимается поиском путей повышения эффективности бизнеса через анализ больших данных.
Читать: https://habr.com/ru/companies/X5Tech/articles/865642/
#ru
@big_data_analysis | Другие наши каналы
Итоги ViRush 2024: еще больше DAX, ETL, ИИ, методик внедрения и практических кейсов
В ноябре мы провели очередной форум ViRush, который стал самой масштабной конференцией Visiology. Однако наш ежегодный ивент отличался не только 500+ очными участниками. В 2024 году на мероприятии было много чего интересного и совершенно нового: элементы практической психологии, мастер-классы по работе с искусственным интеллектом, раскрытые специалистами заказчиков и системных интеграторов уникальные кейсы внедрения и инсайты о развитии рынка. Если вы не попали на саму площадку, под катом мы рассказываем о том, что вы пропустили, публикуем видео докладов и отвечаем на вопрос, почему именно ViRush 2024 открыл новый формат проведения конференций Visiology.
Читать: https://habr.com/ru/companies/visiology/articles/865760/
#ru
@big_data_analysis | Другие наши каналы
В ноябре мы провели очередной форум ViRush, который стал самой масштабной конференцией Visiology. Однако наш ежегодный ивент отличался не только 500+ очными участниками. В 2024 году на мероприятии было много чего интересного и совершенно нового: элементы практической психологии, мастер-классы по работе с искусственным интеллектом, раскрытые специалистами заказчиков и системных интеграторов уникальные кейсы внедрения и инсайты о развитии рынка. Если вы не попали на саму площадку, под катом мы рассказываем о том, что вы пропустили, публикуем видео докладов и отвечаем на вопрос, почему именно ViRush 2024 открыл новый формат проведения конференций Visiology.
Читать: https://habr.com/ru/companies/visiology/articles/865760/
#ru
@big_data_analysis | Другие наши каналы
Airflow 3 is Coming
Как-то один из самых главных контрибьюторов в Airflow Ярек Потиюк рассказал, что Airflow 3 станет новым золотым стандартом индустрии. Это довольно смелое заявление. Я же считаю, что в Airflow 3 еще многого не хватает, чтобы действительно стать стандартом.
Если вы еще не знаете, что такое Airflow, то, к сожалению, это статья будет сложной. Давайте вместе освежим память.
Airflow - это платформа с открытым исходным кодом для написания и управления рабочих процессов. Airflow была основана в 2014 году в AirBnB. С тех пор платформа прошла путь до версии 1.0 в 2015 году, стала Apache Top Level Project в 2019 и плотно обосновалась как Enterprise Production-Ready в 2020 с версией 2.0.
Читать: https://habr.com/ru/articles/865674/
#ru
@big_data_analysis | Другие наши каналы
Как-то один из самых главных контрибьюторов в Airflow Ярек Потиюк рассказал, что Airflow 3 станет новым золотым стандартом индустрии. Это довольно смелое заявление. Я же считаю, что в Airflow 3 еще многого не хватает, чтобы действительно стать стандартом.
Если вы еще не знаете, что такое Airflow, то, к сожалению, это статья будет сложной. Давайте вместе освежим память.
Airflow - это платформа с открытым исходным кодом для написания и управления рабочих процессов. Airflow была основана в 2014 году в AirBnB. С тех пор платформа прошла путь до версии 1.0 в 2015 году, стала Apache Top Level Project в 2019 и плотно обосновалась как Enterprise Production-Ready в 2020 с версией 2.0.
Читать: https://habr.com/ru/articles/865674/
#ru
@big_data_analysis | Другие наши каналы
Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD
Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4.
Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex.
Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.
Читать: https://habr.com/ru/articles/865420/
#ru
@big_data_analysis | Другие наши каналы
Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4.
Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex.
Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.
Читать: https://habr.com/ru/articles/865420/
#ru
@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer виртуальные окружения
В современной Python-разработке управление зависимостями и изоляция проектов являются критически важными аспектами. Независимо от того, работаете ли вы над небольшим скриптом или крупным проектом, правильная организация окружений поможет избежать конфликтов между пакетами и обеспечит воспроизводимость вашего кода.
Читать: https://habr.com/ru/articles/861412/
#ru
@big_data_analysis | Другие наши каналы
В современной Python-разработке управление зависимостями и изоляция проектов являются критически важными аспектами. Независимо от того, работаете ли вы над небольшим скриптом или крупным проектом, правильная организация окружений поможет избежать конфликтов между пакетами и обеспечит воспроизводимость вашего кода.
Читать: https://habr.com/ru/articles/861412/
#ru
@big_data_analysis | Другие наши каналы
GPT: Революция или Апокалипсис
GPT: Революция или Апокалипсис
Человек против машины. Нейросети — конец эпохи человеческого интеллекта?
Читать: https://habr.com/ru/articles/866478/
#ru
@big_data_analysis | Другие наши каналы
GPT: Революция или Апокалипсис
Человек против машины. Нейросети — конец эпохи человеческого интеллекта?
Читать: https://habr.com/ru/articles/866478/
#ru
@big_data_analysis | Другие наши каналы