Жизнь Data Community в Магните
Меня зовут Олег, и я всё еще занимаюсь управлением данными в сети «Магнит». Статья будет полезна всем, кто делает то же, развивает data-driven культуру в организации, крутит внутренние коммуникации или ДевРелит. Вся история ниже – наш путь с 2022 года. Он начинался с точечных почтовых рассылок и перерос в профессиональное Data Community с численностью в 700+ человек.
Читать: https://habr.com/ru/companies/magnit/articles/880292/
#ru
@big_data_analysis | Другие наши каналы
Меня зовут Олег, и я всё еще занимаюсь управлением данными в сети «Магнит». Статья будет полезна всем, кто делает то же, развивает data-driven культуру в организации, крутит внутренние коммуникации или ДевРелит. Вся история ниже – наш путь с 2022 года. Он начинался с точечных почтовых рассылок и перерос в профессиональное Data Community с численностью в 700+ человек.
Читать: https://habr.com/ru/companies/magnit/articles/880292/
#ru
@big_data_analysis | Другие наши каналы
Как команда DataGo! помогла крупному e-com проекту XCOM-SHOP связать маркетинговые доходы и расходы
В этом материале мы поделимся кейсом, как DataGo! помогли команде XCOM‑SHOP связать маркетинговые расходы с доходами для более точного определения целевых бизнес-метрик: LTV в связке с САС, CPO, ROMI, а также для оптимизации эффективности рекламных кампаний, определения более конверсионного источника трафика и для повышения эффективности работы команды.
Читать: https://habr.com/ru/articles/881364/
#ru
@big_data_analysis | Другие наши каналы
В этом материале мы поделимся кейсом, как DataGo! помогли команде XCOM‑SHOP связать маркетинговые расходы с доходами для более точного определения целевых бизнес-метрик: LTV в связке с САС, CPO, ROMI, а также для оптимизации эффективности рекламных кампаний, определения более конверсионного источника трафика и для повышения эффективности работы команды.
Читать: https://habr.com/ru/articles/881364/
#ru
@big_data_analysis | Другие наши каналы
Автоматизация разведочного анализа данных (EDA) с помощью Python
Всем привет! Меня зовут Константин Некрасов, я работаю дата-сайентистом в Газпромбанке. Хочу рассказать про инструмент, который серьезно упростил мою повседневную работу с данными, и поделиться им.
Если вы когда-нибудь занимались машинным обучением, то знаете — перед тем как строить модель, нужно как следует изучить свои данные. Этот этап называется EDA (Exploratory Data Analysis), или разведочный анализ данных (РАД). Он критически важен — именно здесь мы находим скрытые закономерности, выдвигаем первые гипотезы и понимаем, как лучше обработать данные для будущей модели.
Но EDA отнимает у дата-сайентистов кучу времени, которое можно потратить на что-то другое и не менее важное: придумать новые признаки, поэкспериментировать с разными алгоритмами или настроить гиперпараметры для более высокой точности модели.
Чтобы облегчить задачу, я разработал класс EDAProcessor, который автоматизирует ключевые этапы EDA: от базовой статистики и визуализации распределений до углубленного анализа корреляций, выбросов и временных зависимостей. Результаты анализа сохраняются в виде наглядных графиков и подробной excel-таблицы, где на разных листах представлены все важные статистические показатели и закономерности в данных.
Сразу оговорюсь — я не изобретаю здесь новых статистических методов, не претендую на научную новизну в области математической статистики, а мое решение не универсально. Каждый набор данных уникален, и полностью автоматизировать его анализ невозможно — всегда нужен опытный взгляд аналитика. Но базовые, наиболее часто используемые методы EDA этот инструмент берет на себя, ускоряя начальный этап работы с данными. Я попытался собрать в скрипт наиболее общие концепции EDA, которые используются в подавляющем большинстве случаев на первоначальной стадии разработки ML-модели.
Сам скрипт вот тут, а под катом я расскажу, как он работает и что делает.
Читать дальше
Читать: https://habr.com/ru/companies/gazprombank/articles/881386/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Константин Некрасов, я работаю дата-сайентистом в Газпромбанке. Хочу рассказать про инструмент, который серьезно упростил мою повседневную работу с данными, и поделиться им.
Если вы когда-нибудь занимались машинным обучением, то знаете — перед тем как строить модель, нужно как следует изучить свои данные. Этот этап называется EDA (Exploratory Data Analysis), или разведочный анализ данных (РАД). Он критически важен — именно здесь мы находим скрытые закономерности, выдвигаем первые гипотезы и понимаем, как лучше обработать данные для будущей модели.
Но EDA отнимает у дата-сайентистов кучу времени, которое можно потратить на что-то другое и не менее важное: придумать новые признаки, поэкспериментировать с разными алгоритмами или настроить гиперпараметры для более высокой точности модели.
Чтобы облегчить задачу, я разработал класс EDAProcessor, который автоматизирует ключевые этапы EDA: от базовой статистики и визуализации распределений до углубленного анализа корреляций, выбросов и временных зависимостей. Результаты анализа сохраняются в виде наглядных графиков и подробной excel-таблицы, где на разных листах представлены все важные статистические показатели и закономерности в данных.
Сразу оговорюсь — я не изобретаю здесь новых статистических методов, не претендую на научную новизну в области математической статистики, а мое решение не универсально. Каждый набор данных уникален, и полностью автоматизировать его анализ невозможно — всегда нужен опытный взгляд аналитика. Но базовые, наиболее часто используемые методы EDA этот инструмент берет на себя, ускоряя начальный этап работы с данными. Я попытался собрать в скрипт наиболее общие концепции EDA, которые используются в подавляющем большинстве случаев на первоначальной стадии разработки ML-модели.
Сам скрипт вот тут, а под катом я расскажу, как он работает и что делает.
Читать дальше
Читать: https://habr.com/ru/companies/gazprombank/articles/881386/
#ru
@big_data_analysis | Другие наши каналы
❤1👍1
Как посчитать проект и защитить бизнес от некорректной оценки: руководство для специалистов по данным
Сорванные дедлайны, работа в выходные, недовольный клиент — знакомо? Если да, то вы, вероятно, сталкивались с некорректной оценкой проекта. В прошлой статье я рассказывал о риск-факторах в задачах разметки и сбора данных:
Читать: https://habr.com/ru/articles/881134/
#ru
@big_data_analysis | Другие наши каналы
Сорванные дедлайны, работа в выходные, недовольный клиент — знакомо? Если да, то вы, вероятно, сталкивались с некорректной оценкой проекта. В прошлой статье я рассказывал о риск-факторах в задачах разметки и сбора данных:
Читать: https://habr.com/ru/articles/881134/
#ru
@big_data_analysis | Другие наши каналы
Как мы создали альтернативный сервис для поиска арбитражных дел по компании и другим фильтрам
Не можешь найти что-то классное — сделай это сам. Мы с коллегами из DataNewton подумали так же и решили сделать свой сервис для поиска судебных дел. Приглашаю IT-специалистов на «прожарку», — смотрите, критикуйте, буду рад обратной связи.
Я уже делился здесь, как мы собирали информацию о судах в карточках компаний. Но мы решили пойти дальше и сделать функционал, который позволит искать дела не только по конкретной организации, но и по многим другим признакам.
Главная идея — чтобы поиск был удобным и позволял максимально быстро сузить воронку результатов, то есть вычленить из миллионов дел именно те, которые подходят под заданные параметры.
Читать: https://habr.com/ru/articles/881766/
#ru
@big_data_analysis | Другие наши каналы
Не можешь найти что-то классное — сделай это сам. Мы с коллегами из DataNewton подумали так же и решили сделать свой сервис для поиска судебных дел. Приглашаю IT-специалистов на «прожарку», — смотрите, критикуйте, буду рад обратной связи.
Я уже делился здесь, как мы собирали информацию о судах в карточках компаний. Но мы решили пойти дальше и сделать функционал, который позволит искать дела не только по конкретной организации, но и по многим другим признакам.
Главная идея — чтобы поиск был удобным и позволял максимально быстро сузить воронку результатов, то есть вычленить из миллионов дел именно те, которые подходят под заданные параметры.
Читать: https://habr.com/ru/articles/881766/
#ru
@big_data_analysis | Другие наши каналы
👍1
Установка Arenadata DB 7.2 на компьютер с небольшим объемом оперативной памяти
Установка Arenadata DB 7.2 выполняется с помощью Arenadata Cluster Manager (ADCM). Это средство предназначено для разворачивания кластера на большом числе хостов с большим объемом оперативной памяти на каждом из них. А если кластер Arenadata нужен не для производительной работы, а для проведения экспериментов или для разработки/тестирования, можно ли развернуть его на компьютере с небольшим объемом оперативной памяти, например, 32 Гб? Будет ли кластер работать стабильно? Позволит ли он выполнять тяжелые операции? Каково минимальное количество виртуальных машин, на которых можно запустить Arenadata DB 7.2?
Читать: https://habr.com/ru/articles/881782/
#ru
@big_data_analysis | Другие наши каналы
Установка Arenadata DB 7.2 выполняется с помощью Arenadata Cluster Manager (ADCM). Это средство предназначено для разворачивания кластера на большом числе хостов с большим объемом оперативной памяти на каждом из них. А если кластер Arenadata нужен не для производительной работы, а для проведения экспериментов или для разработки/тестирования, можно ли развернуть его на компьютере с небольшим объемом оперативной памяти, например, 32 Гб? Будет ли кластер работать стабильно? Позволит ли он выполнять тяжелые операции? Каково минимальное количество виртуальных машин, на которых можно запустить Arenadata DB 7.2?
Читать: https://habr.com/ru/articles/881782/
#ru
@big_data_analysis | Другие наши каналы
❤1
Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst
Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом
Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»
#ru
@big_data_analysis | Другие наши каналы
Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом
Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»
#ru
@big_data_analysis | Другие наши каналы
Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst
Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом
Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»
#ru
@big_data_analysis | Другие наши каналы
Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом
Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»
#ru
@big_data_analysis | Другие наши каналы
Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst
Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом
Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»
#ru
@big_data_analysis | Другие наши каналы
Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом
Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»
#ru
@big_data_analysis | Другие наши каналы
Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных
Предварительная обработка текстовых данных: ключевые этапы и методы
Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.
Читать: https://habr.com/ru/articles/881998/
#ru
@big_data_analysis | Другие наши каналы
Предварительная обработка текстовых данных: ключевые этапы и методы
Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.
Читать: https://habr.com/ru/articles/881998/
#ru
@big_data_analysis | Другие наши каналы
Первичный анализ производительности запросов в Arenadata DB 6.27 и Cloudberry Database 1.6
Некоторое время назад руководитель задал мне вопрос: «Какой MPP-кластер лучше с точки зрения разработчика: Arenadata 6 или Cloudberry?» Я рассказал про версии PostgreSQL, лежащие в основе этих кластеров, - 9 и 14 соответственно. Еще сказал, что для детального анализа производительности желательно развернуть кластеры на серверах, заполнить их данными и выполнить побольше разных запросов.
Мой ответ руководителю не понравился, пришлось выдумывать методику первичного анализа производительности кластеров «на берегу», до разворачивания на серверах. Оказалось, что интересные данные о производительности кластеров можно получить и на персональном компьютере.
Читать: https://habr.com/ru/articles/882082/
#ru
@big_data_analysis | Другие наши каналы
Некоторое время назад руководитель задал мне вопрос: «Какой MPP-кластер лучше с точки зрения разработчика: Arenadata 6 или Cloudberry?» Я рассказал про версии PostgreSQL, лежащие в основе этих кластеров, - 9 и 14 соответственно. Еще сказал, что для детального анализа производительности желательно развернуть кластеры на серверах, заполнить их данными и выполнить побольше разных запросов.
Мой ответ руководителю не понравился, пришлось выдумывать методику первичного анализа производительности кластеров «на берегу», до разворачивания на серверах. Оказалось, что интересные данные о производительности кластеров можно получить и на персональном компьютере.
Читать: https://habr.com/ru/articles/882082/
#ru
@big_data_analysis | Другие наши каналы
Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей
Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности, таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента. В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.
Читать: https://habr.com/ru/articles/880234/
#ru
@big_data_analysis | Другие наши каналы
Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности, таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента. В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.
Читать: https://habr.com/ru/articles/880234/
#ru
@big_data_analysis | Другие наши каналы
Кем стать: дата-сайентистом, аналитиком, инженером данных или ML
Чем занимаются и сколько зарабатывают специалисты Data Science — дата-сайентист, аналитик, дата-инженер и инжнер машинного обучения.
Читать: «Кем стать: дата-сайентистом, аналитиком, инженером данных или ML»
#ru
@big_data_analysis | Другие наши каналы
Чем занимаются и сколько зарабатывают специалисты Data Science — дата-сайентист, аналитик, дата-инженер и инжнер машинного обучения.
Читать: «Кем стать: дата-сайентистом, аналитиком, инженером данных или ML»
#ru
@big_data_analysis | Другие наши каналы
Отслеживание изменений размеров таблиц Arenadata DB
История, связанная с этой задачей, началась для нас в мае 2024 года. Один из крупных пользователей Greenplum/Arenadata DB обратился к нам с запросом реализовать возможность отслеживания изменения размеров файлов данных таблиц. Эта функциональность стала бы составной частью, источником событий для системы мониторинга пользовательских кластеров. Задача показалась нам крайне интересной и перспективной. Однако пользователю, как это часто бывает, решение требовалось уже вчера.
С одной стороны, мы осознавали всю сложность этой задачи в полнофункциональной реализации для всех пользователей нашего продукта (и как следствие, адекватно оценивали предполагаемые трудозатраты). С другой стороны, затачивать решение под конкретного пользователя, но в то же время и поставлять эту реализацию как часть общего решения мы сочли неправильным. По итогу команда разработки продолжила работу в своём темпе и в соответствии со своим представлением о реализации.
Читать: https://habr.com/ru/companies/arenadata/articles/881808/
#ru
@big_data_analysis | Другие наши каналы
История, связанная с этой задачей, началась для нас в мае 2024 года. Один из крупных пользователей Greenplum/Arenadata DB обратился к нам с запросом реализовать возможность отслеживания изменения размеров файлов данных таблиц. Эта функциональность стала бы составной частью, источником событий для системы мониторинга пользовательских кластеров. Задача показалась нам крайне интересной и перспективной. Однако пользователю, как это часто бывает, решение требовалось уже вчера.
С одной стороны, мы осознавали всю сложность этой задачи в полнофункциональной реализации для всех пользователей нашего продукта (и как следствие, адекватно оценивали предполагаемые трудозатраты). С другой стороны, затачивать решение под конкретного пользователя, но в то же время и поставлять эту реализацию как часть общего решения мы сочли неправильным. По итогу команда разработки продолжила работу в своём темпе и в соответствии со своим представлением о реализации.
Читать: https://habr.com/ru/companies/arenadata/articles/881808/
#ru
@big_data_analysis | Другие наши каналы
Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания
Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать.
Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.
В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.
Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.
Читать: https://habr.com/ru/articles/882092/
#ru
@big_data_analysis | Другие наши каналы
Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать.
Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.
В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.
Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.
Читать: https://habr.com/ru/articles/882092/
#ru
@big_data_analysis | Другие наши каналы
❤2
EDA of dataset Python
Привет, Хабр!
Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре.
Очищать грязные данные можно c Pandas. Рассмотрим основные методы.
Читать: https://habr.com/ru/articles/882588/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре.
Очищать грязные данные можно c Pandas. Рассмотрим основные методы.
Читать: https://habr.com/ru/articles/882588/
#ru
@big_data_analysis | Другие наши каналы
Эффективное управление доступом в FDI
Fusion Data Intelligence предлагает учетную запись OAX_USER для работы с таблицами хранилища данных. Однако совместное использование этих данных между администраторами может вызвать проблемы с безопасностью. В статье рассматривается создание пользовательской схемы для финансовых пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Fusion Data Intelligence предлагает учетную запись OAX_USER для работы с таблицами хранилища данных. Однако совместное использование этих данных между администраторами может вызвать проблемы с безопасностью. В статье рассматривается создание пользовательской схемы для финансовых пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
FDI: Create Custom Schemas for Finance Users in a Multipillar Subscription
Fusion Data Intelligence (FDI) provides a database schema user account, OAX_USER, with access to all the data warehouse tables. Sharing OAX_USER credentials with multiple administrators is a security concern. Similarily splitting the access in case of a multi…
Улучшите ваши дашборды в Oracle Analytics!
Пост: Хотите создавать динамичные заголовки и описания в Oracle Analytics? Используйте параметры для усиления повествовательного эффекта ваших дашбордов. Узнайте, как сделать данные более привлекательными и информативными.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: Хотите создавать динамичные заголовки и описания в Oracle Analytics? Используйте параметры для усиления повествовательного эффекта ваших дашбордов. Узнайте, как сделать данные более привлекательными и информативными.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Dynamic Text Boxes in Oracle Analytics
Impactful titles and descriptions in dashboards help users quickly grasp key insights.
In Oracle Analytics, storytelling can be enhanced by integrating dynamic measures and attributes into text boxes using parameters. With parameters, SQL queries can be…
In Oracle Analytics, storytelling can be enhanced by integrating dynamic measures and attributes into text boxes using parameters. With parameters, SQL queries can be…
«Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию
xAI представила Grok 3 — «умнейший ИИ в истории», который превзошёл ChatGPT в анализе данных, генерации кода и поиске информации
Читать: ««Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию»
#ru
@big_data_analysis | Другие наши каналы
xAI представила Grok 3 — «умнейший ИИ в истории», который превзошёл ChatGPT в анализе данных, генерации кода и поиске информации
Читать: ««Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию»
#ru
@big_data_analysis | Другие наши каналы
Дружим GX и Impala
Подробные шаги и полезные советы, которые помогут всем, кто хочет улучшить качество обработки данных в своих проектах. Читайте и проверяйте на практике: https://tprg.ru/tpKD
Подробные шаги и полезные советы, которые помогут всем, кто хочет улучшить качество обработки данных в своих проектах. Читайте и проверяйте на практике: https://tprg.ru/tpKD
Dagster: новый стандарт для ETL в 2025?
Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:
Читать: https://habr.com/ru/articles/883700/
#ru
@big_data_analysis | Другие наши каналы
Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:
Читать: https://habr.com/ru/articles/883700/
#ru
@big_data_analysis | Другие наши каналы