Arrow Flight + ADBC: как гонять десятки ГБ/с между сервисами без REST
Привет, Хабр!
Когда делаешь сервисы на C++ и вокруг летает много данных, в какой-то момент понимаешь простую вещь: REST хорош для управления сущностями, но плохо подходит для потока колонок в десятки гигабайт в секунду. Переносить фреймы по сто миллионов строк через JSON и спотыкаться об сериализацию — не наш путь. В статье рассмотрим как собрать транспорт данных на Apache Arrow Flight и где встраивается ADBC, чтобы между сервисами гонять таблицы почти на скорости сети и не городить зоопарк драйверов.
Читать: https://habr.com/ru/companies/otus/articles/941432/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
Когда делаешь сервисы на C++ и вокруг летает много данных, в какой-то момент понимаешь простую вещь: REST хорош для управления сущностями, но плохо подходит для потока колонок в десятки гигабайт в секунду. Переносить фреймы по сто миллионов строк через JSON и спотыкаться об сериализацию — не наш путь. В статье рассмотрим как собрать транспорт данных на Apache Arrow Flight и где встраивается ADBC, чтобы между сервисами гонять таблицы почти на скорости сети и не городить зоопарк драйверов.
Читать: https://habr.com/ru/companies/otus/articles/941432/
#ru
@big_data_analysis | Другие наши каналы
Как за год вырастить персонализацию на главной: эволюция рекомендаций в fashion ecom
Привет, Хабр! Меня зовут Данил Комаров, я дата-сайентист в команде персонализации Lamoda Tech. Уже больше года мы меняем подход к рекомендациям на главной странице, делая их персонализированными. Я расскажу, как мы внедряли и масштабировали решение, переводили его из оффлайна в онлайн, и бустили систему на разных слоях.
Читать: https://habr.com/ru/companies/lamoda/articles/943272/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Данил Комаров, я дата-сайентист в команде персонализации Lamoda Tech. Уже больше года мы меняем подход к рекомендациям на главной странице, делая их персонализированными. Я расскажу, как мы внедряли и масштабировали решение, переводили его из оффлайна в онлайн, и бустили систему на разных слоях.
Читать: https://habr.com/ru/companies/lamoda/articles/943272/
#ru
@big_data_analysis | Другие наши каналы
Три сказа о построении RAG: От выбора модели до форматирования базы знаний
Привет! Меня зовут Александр Золотых, уже два года я работаю во ВкусВилле разработчиком ИИ-решений. В этой статье хочу рассказать, как мы сделали карманного консультанта по клиентократии — и зачем вообще он понадобился.
ВкусВилл работает по клиентократии — модели управления, которую развивает и распространяет система управления Beyond Taylor. Основная особенность клиентократии — фокус на клиенте, когда все процессы компании выстраиваются для удовлетворения его потребности. Модель инновационная: погружаешься, и возникает множество вопросов. Конечно, лучше спросить и узнать, чем не спросить и не узнать, но не всем и не всегда это просто. Значит, нужно снижать порог входа и сделать описание модели ближе к изучающему.
Именно из этого понимания у нашей команды и появилась идея карманного консультанта — инструмента, который готов отвечать на все «глупые» и каверзные вопросы. Мы поделились замыслом с коллегами из Beyond Taylor, получили их поддержку и приступили к реализации. Так родилась наша первая задача с тем, что сейчас называется RAG (Retrieval-Augmented Generation).
Конечно, есть готовые решения (Notebook LM, Нейроэксперт), но они имеют несколько минусов:
Читать: https://habr.com/ru/companies/vkusvill/articles/944202/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Александр Золотых, уже два года я работаю во ВкусВилле разработчиком ИИ-решений. В этой статье хочу рассказать, как мы сделали карманного консультанта по клиентократии — и зачем вообще он понадобился.
ВкусВилл работает по клиентократии — модели управления, которую развивает и распространяет система управления Beyond Taylor. Основная особенность клиентократии — фокус на клиенте, когда все процессы компании выстраиваются для удовлетворения его потребности. Модель инновационная: погружаешься, и возникает множество вопросов. Конечно, лучше спросить и узнать, чем не спросить и не узнать, но не всем и не всегда это просто. Значит, нужно снижать порог входа и сделать описание модели ближе к изучающему.
Именно из этого понимания у нашей команды и появилась идея карманного консультанта — инструмента, который готов отвечать на все «глупые» и каверзные вопросы. Мы поделились замыслом с коллегами из Beyond Taylor, получили их поддержку и приступили к реализации. Так родилась наша первая задача с тем, что сейчас называется RAG (Retrieval-Augmented Generation).
Конечно, есть готовые решения (Notebook LM, Нейроэксперт), но они имеют несколько минусов:
Читать: https://habr.com/ru/companies/vkusvill/articles/944202/
#ru
@big_data_analysis | Другие наши каналы
Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?
Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.
Читать: https://habr.com/ru/articles/944284/
#ru
@big_data_analysis | Другие наши каналы
Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.
Читать: https://habr.com/ru/articles/944284/
#ru
@big_data_analysis | Другие наши каналы
Цифровой профиль в ВТБ: как графы и эмбеддинги помогают банку понимать клиентов
Статья рассказывает о том, как банк строит единый цифровой профиль клиента, используя графы и эмбеддинги. Вы узнаете, как разрозненные данные о транзакциях, связях и балансах превращаются в мощный инструмент для анализа и прогнозирования. Разберем, почему классических табличных подходов недостаточно и как графы помогают выявлять скрытые связи между клиентами, как клиенты «превращаются в слова» и на чем измеряется успех. Статья будет полезна data scientist’ам, ML-инженерам и всем, кто интересуется практическим применением графовых методов и машинного обучения в крупном бизнесе.
Читать: https://habr.com/ru/companies/vtb/articles/944338/
#ru
@big_data_analysis | Другие наши каналы
Статья рассказывает о том, как банк строит единый цифровой профиль клиента, используя графы и эмбеддинги. Вы узнаете, как разрозненные данные о транзакциях, связях и балансах превращаются в мощный инструмент для анализа и прогнозирования. Разберем, почему классических табличных подходов недостаточно и как графы помогают выявлять скрытые связи между клиентами, как клиенты «превращаются в слова» и на чем измеряется успех. Статья будет полезна data scientist’ам, ML-инженерам и всем, кто интересуется практическим применением графовых методов и машинного обучения в крупном бизнесе.
Читать: https://habr.com/ru/companies/vtb/articles/944338/
#ru
@big_data_analysis | Другие наши каналы
Практика Kafka: проектирование топиков и обмен сообщениями
Ранее мы с вами развернули кластер Kafka. Что дальше?
В этой статье, как всегда, переходим от теории к практике: разработаем собственные продюсер и консьюмер на Python. Это будет не просто демонстрация кода — мы погрузимся в детали работы с Kafka.
Подробно разберем структуру сообщений Kafka,
Углубимся в основы проектирования: от топиков до настройки клиентов,
На практике изучим ключевые процессы: сериализацию, партиционирование, батчинг и сжатие данных.
Читать: https://habr.com/ru/articles/944432/
#ru
@big_data_analysis | Другие наши каналы
Ранее мы с вами развернули кластер Kafka. Что дальше?
В этой статье, как всегда, переходим от теории к практике: разработаем собственные продюсер и консьюмер на Python. Это будет не просто демонстрация кода — мы погрузимся в детали работы с Kafka.
Подробно разберем структуру сообщений Kafka,
Углубимся в основы проектирования: от топиков до настройки клиентов,
На практике изучим ключевые процессы: сериализацию, партиционирование, батчинг и сжатие данных.
Читать: https://habr.com/ru/articles/944432/
#ru
@big_data_analysis | Другие наши каналы
👍3
Аналитика преимуществ в Fusion Data Intelligence
Benefits Analytics в Fusion Data Intelligence помогает менеджерам и администраторам не просто обрабатывать данные, а извлекать важные инсайты для принятия более эффективных решений в управлении преимуществами сотрудников.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Benefits Analytics в Fusion Data Intelligence помогает менеджерам и администраторам не просто обрабатывать данные, а извлекать важные инсайты для принятия более эффективных решений в управлении преимуществами сотрудников.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Unlocking Workforce Well-Being: Introducing the Benefits Subject Area in Oracle HCM Fusion Data Intelligence (FDI) – 25R2 Update
Explore how Benefits Analytics in Fusion Data Intelligence enables benefit managers and administrators to move beyond transactions and discover insights that shape better decisions.
Uber превращает водителей в дата-лейблеров ИИ: пилот в Индии
Uber запустил пилот в 12 городах Индии: водители размечают данные для ИИ прямо в приложении, получая допдоход. Инициатива Uber AI Solutions может масштабироваться глобально.
Читать: «Uber превращает водителей в дата-лейблеров ИИ: пилот в Индии»
#ru
@big_data_analysis | Другие наши каналы
Uber запустил пилот в 12 городах Индии: водители размечают данные для ИИ прямо в приложении, получая допдоход. Инициатива Uber AI Solutions может масштабироваться глобально.
Читать: «Uber превращает водителей в дата-лейблеров ИИ: пилот в Индии»
#ru
@big_data_analysis | Другие наши каналы
zenplan: как я сделал себе карманного помощника для целей и задач
Привет, Хабр! 👋
Меня зовут Денис, я продуктовый аналитик, и как многие из нас, я постоянно разрываюсь между проектами, встречами, идеями и личными задачами. Список дел разрастается быстрее, чем успеваешь их выполнять, а заметки и цели теряются между Google Docs, Notion и стикерами на рабочем столе.
В какой-то момент я понял, что трачу больше времени на организацию задач, чем на сами задачи. И решил написать себе карманного помощника, который соберёт всё в одном месте. Так появился мой бот zen_plan_bot.
Читать: https://habr.com/ru/articles/945412/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! 👋
Меня зовут Денис, я продуктовый аналитик, и как многие из нас, я постоянно разрываюсь между проектами, встречами, идеями и личными задачами. Список дел разрастается быстрее, чем успеваешь их выполнять, а заметки и цели теряются между Google Docs, Notion и стикерами на рабочем столе.
В какой-то момент я понял, что трачу больше времени на организацию задач, чем на сами задачи. И решил написать себе карманного помощника, который соберёт всё в одном месте. Так появился мой бот zen_plan_bot.
Читать: https://habr.com/ru/articles/945412/
#ru
@big_data_analysis | Другие наши каналы
DataHub: Как интеллектуальный хаб данных меняет правила игры на рынке кредитования и займов
Финансовый рынок цифровизируется с невероятной скоростью: клиенты ждут персональных предложений за пару кликов, банки и МФО ищут качественных заемщиков, а партнеры — удобные и технологичные инструменты для монетизации трафика. На стыке этих интересов возникает потребность в принципиально новых решениях. Старые методы лидогенерации и скоринга уже не справляются: они либо не дают нужной глубины анализа.
Именно этот разрыв между потребностями рынка и существующими возможностями закрывает платформа DataHub. Это не просто очередной сервис, а целая экосистема, которая действует в интересах всех сторон: кредитора, партнера и, что самое важное, конечного клиента. Рассказываем, как мы создаем продукт, который подойдет для всех.
Читать: https://habr.com/ru/articles/945748/
#ru
@big_data_analysis | Другие наши каналы
Финансовый рынок цифровизируется с невероятной скоростью: клиенты ждут персональных предложений за пару кликов, банки и МФО ищут качественных заемщиков, а партнеры — удобные и технологичные инструменты для монетизации трафика. На стыке этих интересов возникает потребность в принципиально новых решениях. Старые методы лидогенерации и скоринга уже не справляются: они либо не дают нужной глубины анализа.
Именно этот разрыв между потребностями рынка и существующими возможностями закрывает платформа DataHub. Это не просто очередной сервис, а целая экосистема, которая действует в интересах всех сторон: кредитора, партнера и, что самое важное, конечного клиента. Рассказываем, как мы создаем продукт, который подойдет для всех.
Читать: https://habr.com/ru/articles/945748/
#ru
@big_data_analysis | Другие наши каналы
👍1
Автоматизируем подготовку промтов для GPT: Python-функция для детального описания DataFrame
Привет, меня зовут Виталий. Автор телеграмм канала "Детектив данных" про смену профессии и мой вкат в "аналитику" после 30 лет. И да, я уже наверное года полтора использую помощь нейросети при написании кода на Питоне.
Следствие установило, что для получения качественного ответа часто приходится потратить довольно много времени на описание таблицы, где какой тип данных, примеры, формат, количество nan значений, диапазон дат и прочие нюансы.
Будто при допросе вместо описания преступника, следователь внимательно изучает все родинки у допрашиваемого лица. И у адвоката.
В качестве жертвы у нас рабочее время, которое можно потратить на описание задачи.
В какой то момент я подумал, а почему бы не сделать универсальную функцию которая будет собирать эту информацию за меня, и сразу писать какой нибудь универсальный промт, потому что, до кучи мне и его лень писать.
В общем вашему вниманию предлагаю эту функцию. Всё что нужно, это вставить код в ячейку, и в следующей команде указать ваш датафрейм. Принт выведет вам готовый промт с описанием вашей таблицы, расскажет тип данных каждого столбца, покажет примеры значений, диапазоны и количество пропусков, а заодно проверит датафрейм на дубликаты.
Смотрим функцию, сохраняем
Читать: https://habr.com/ru/articles/945786/
#ru
@big_data_analysis | Другие наши каналы
Привет, меня зовут Виталий. Автор телеграмм канала "Детектив данных" про смену профессии и мой вкат в "аналитику" после 30 лет. И да, я уже наверное года полтора использую помощь нейросети при написании кода на Питоне.
Следствие установило, что для получения качественного ответа часто приходится потратить довольно много времени на описание таблицы, где какой тип данных, примеры, формат, количество nan значений, диапазон дат и прочие нюансы.
Будто при допросе вместо описания преступника, следователь внимательно изучает все родинки у допрашиваемого лица. И у адвоката.
В качестве жертвы у нас рабочее время, которое можно потратить на описание задачи.
В какой то момент я подумал, а почему бы не сделать универсальную функцию которая будет собирать эту информацию за меня, и сразу писать какой нибудь универсальный промт, потому что, до кучи мне и его лень писать.
В общем вашему вниманию предлагаю эту функцию. Всё что нужно, это вставить код в ячейку, и в следующей команде указать ваш датафрейм. Принт выведет вам готовый промт с описанием вашей таблицы, расскажет тип данных каждого столбца, покажет примеры значений, диапазоны и количество пропусков, а заодно проверит датафрейм на дубликаты.
Смотрим функцию, сохраняем
Читать: https://habr.com/ru/articles/945786/
#ru
@big_data_analysis | Другие наши каналы