Отход от Airflow: почему Dagster — это оркестратор данных следующего поколения
Мы запустили Dagster, потому что в мире данных наблюдается кризис инструментов и инженерии. Существует драматическое несоответствие между сложностью и критичностью данных и инструментами и процессами, которые существуют для их поддержки.
Читать: https://habr.com/ru/articles/867132/
#ru
@big_data_analysis | Другие наши каналы
Мы запустили Dagster, потому что в мире данных наблюдается кризис инструментов и инженерии. Существует драматическое несоответствие между сложностью и критичностью данных и инструментами и процессами, которые существуют для их поддержки.
Читать: https://habr.com/ru/articles/867132/
#ru
@big_data_analysis | Другие наши каналы
Генерация дашборда по DAX мере через AI DAX движок
Привет, Хабр! AI инструменты широко используются в разработке и других сферах, казалось бы, что ещё можно в них улучшить или добавить? Всё зависит от предметной области, в области Business Intelligence при работе с языком запросов DAX актуальным может быть работа с мерами и создание новых мер. Рутинной задачей при этом является создание схемы данных и заполнение её данными для каждой меры, или можно использовать уже имеющуюся схему, однако при этом при переходе с одной схемы (где выполняются запросы) на другую приходится переименовывать таблицы и столбцы, сопоставлять типы данных и т.д. В связи с этим актуальным может быть инструмент для создания схемы данных для меры "на лету" и выполнения запроса с мерой, т.е. построение запроса и дашборда (концептуально, без форматрования) по мере "на лету".
В dax.do можно строить DAX запрос только для существующих схем, т.е. приходится тратить время на переименование полей и таблиц в DAX запросе при переносе написанного DAX-запроса из dax.do.
В этой статье рассматривается решение такой проблемы — генерация схемы, связей, запроса и дашборда "на лету" (концептуально, по аналогии с отображением дашборда на основе DAX в dax.do), но только сугубо средствами AI, без реальных DAX движков. Надеюсь, такие инструменты или идеи могут быть полезны аналитикам и разработчикам для повседневной работы, если Вам интересен AI в DAX — добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/866534/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! AI инструменты широко используются в разработке и других сферах, казалось бы, что ещё можно в них улучшить или добавить? Всё зависит от предметной области, в области Business Intelligence при работе с языком запросов DAX актуальным может быть работа с мерами и создание новых мер. Рутинной задачей при этом является создание схемы данных и заполнение её данными для каждой меры, или можно использовать уже имеющуюся схему, однако при этом при переходе с одной схемы (где выполняются запросы) на другую приходится переименовывать таблицы и столбцы, сопоставлять типы данных и т.д. В связи с этим актуальным может быть инструмент для создания схемы данных для меры "на лету" и выполнения запроса с мерой, т.е. построение запроса и дашборда (концептуально, без форматрования) по мере "на лету".
В dax.do можно строить DAX запрос только для существующих схем, т.е. приходится тратить время на переименование полей и таблиц в DAX запросе при переносе написанного DAX-запроса из dax.do.
В этой статье рассматривается решение такой проблемы — генерация схемы, связей, запроса и дашборда "на лету" (концептуально, по аналогии с отображением дашборда на основе DAX в dax.do), но только сугубо средствами AI, без реальных DAX движков. Надеюсь, такие инструменты или идеи могут быть полезны аналитикам и разработчикам для повседневной работы, если Вам интересен AI в DAX — добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/866534/
#ru
@big_data_analysis | Другие наши каналы
Data driven на практике: с чего начать, как избежать ошибок и эффективно применять
Привет, меня зовут Александр Окороков, я основатель и генеральный директор ИТ-компании и автор медиа вАЙТИ. Мы помогаем заказчикам выстроить оптимальную стратегию принятия управленческих решений, чтобы эффективно использовать ресурсы и не терять деньги. Именно эту задачу решает data-driven-подход к принятию решений и управлению продуктом с опорой на данные.
Читать: https://habr.com/ru/companies/beeline_cloud/articles/867292/
#ru
@big_data_analysis | Другие наши каналы
Привет, меня зовут Александр Окороков, я основатель и генеральный директор ИТ-компании и автор медиа вАЙТИ. Мы помогаем заказчикам выстроить оптимальную стратегию принятия управленческих решений, чтобы эффективно использовать ресурсы и не терять деньги. Именно эту задачу решает data-driven-подход к принятию решений и управлению продуктом с опорой на данные.
Читать: https://habr.com/ru/companies/beeline_cloud/articles/867292/
#ru
@big_data_analysis | Другие наши каналы
Повышение качества данных с использованием Zero Bug Policy
Олег Харатов, Technical Unit Lead в Авито, рассказывает, как навести порядок в огромном хранилище и не сойти с ума.
Читать: «Повышение качества данных с использованием Zero Bug Policy»
#ru
@big_data_analysis | Другие наши каналы
Олег Харатов, Technical Unit Lead в Авито, рассказывает, как навести порядок в огромном хранилище и не сойти с ума.
Читать: «Повышение качества данных с использованием Zero Bug Policy»
#ru
@big_data_analysis | Другие наши каналы
Возможности LLM и RAG на примере реализации бота для поддержки клиентов
Одной из ключевых точек контакта компании с клиентами является техподдержка, которая позволяет оперативно решать вопросы и отрабатывать обратную связь. Но клиенты, которые хотят консультацию и информацию по конкретному вопросу, часто создают нагрузку, которую небольшие отделы поддержки обработать не могут. В итоге бизнесу нужно либо расширять штат, либо автоматизировать часть процессов. В этом помогают чат-боты и нейросети.
Меня зовут Александр Волынский. Я технический менеджер продукта в подразделении Applied ML. В этой статье я хочу рассказать об LLM и RAG, вариантах их использования на примере нашего бота для поддержки клиентов, а также о сценариях применения полученной реализации.
Читать: https://habr.com/ru/companies/vk/articles/866906/
#ru
@big_data_analysis | Другие наши каналы
Одной из ключевых точек контакта компании с клиентами является техподдержка, которая позволяет оперативно решать вопросы и отрабатывать обратную связь. Но клиенты, которые хотят консультацию и информацию по конкретному вопросу, часто создают нагрузку, которую небольшие отделы поддержки обработать не могут. В итоге бизнесу нужно либо расширять штат, либо автоматизировать часть процессов. В этом помогают чат-боты и нейросети.
Меня зовут Александр Волынский. Я технический менеджер продукта в подразделении Applied ML. В этой статье я хочу рассказать об LLM и RAG, вариантах их использования на примере нашего бота для поддержки клиентов, а также о сценариях применения полученной реализации.
Читать: https://habr.com/ru/companies/vk/articles/866906/
#ru
@big_data_analysis | Другие наши каналы
Рынок дата-инженеров и прогноз на 2025
В этой статье вы сможете узнать в каком состоянии находится рынок дата-инженеров в 2024-ом и что с ним будет в 2025-ом.
Читать: https://habr.com/ru/articles/864780/
#ru
@big_data_analysis | Другие наши каналы
В этой статье вы сможете узнать в каком состоянии находится рынок дата-инженеров в 2024-ом и что с ним будет в 2025-ом.
Читать: https://habr.com/ru/articles/864780/
#ru
@big_data_analysis | Другие наши каналы
Анализ фильмов с интернет-портала Кинопоиск
Данное исследование посвящено анализу данных о фильмах, собранных с крупнейшей российской платформы КиноПоиск. Основная цель работы — выявить факторы, влияющие на популярность фильмов, их рейтинги и финансовую успешность. В ходе исследования были проанализированы жанровые предпочтения аудитории, проведено сравнение оценок фильмов на Кинопоиске и IMDb, а также исследована взаимосвязь между бюджетами фильмов и их кассовыми сборами.
Разработка включала этапы сбора, обработки, анализа и визуализации данных. Для обработки данных применялись методы очистки от пропусков и ошибок, фильтрации по ключевым показателям и трансформации структур данных. Были реализованы функции для конвертации валют, извлечения данных о жанрах и персоналиях фильмов (актёрах и режиссёрах), а также вычисления статистических показателей полноты и однородности выборки.
Для эффективной работы системы был использован современный технологический стек. Обработка данных осуществлялась с помощью MongoDB, что обеспечило хранение и управление большими объёмами неструктурированной информации. RabbitMQ организовал асинхронный обмен сообщениями между компонентами системы, а серверная часть приложения разрабатывалась на базе Spring Boot, что ускорило процесс разработки и упростило развертывание приложения. Контейнеризация с использованием Docker обеспечила удобное развертывание и масштабирование системы. Основными языками программирования стали Java 17 и Python: Java использовалась для серверной части и микросервисов, а Python — для анализа данных и построения алгоритмов обработки информации.
Для анализа данных применялись библиотеки Pandas, Seaborn и SciPy, которые обеспечили эффективную обработку данных и визуализацию результатов. В рамках анализа строились графики, отображающие популярность жанров, исследовалась корреляция оценок на Кинопоиске и IMDb, а также визуализировалась связь между бюджетами и кассовыми сборами. Для представления результатов применялись такие инструменты, как matplotlib и seaborn, позволяя визуализировать ключевые закономерности в виде графиков и диаграмм.
Анализ выявил ключевые закономерности: популярность определённых жанров, зависимость коммерческого успеха фильма от его бюджета и значительное влияние известных актёров и режиссёров на успех фильма. Полученные результаты могут быть полезны для киностудий и продюсеров при планировании новых проектов, прогнозировании кассовых сборов и выборе жанров. Результаты также могут применяться для оптимизации маркетинговых стратегий при продвижении фильмов. В будущем планируется углубить исследование, проанализировать долгосрочные тренды в изменении популярности жанров и исследовать влияние пользовательских рецензий на успех фильмов.
Читать: https://habr.com/ru/articles/868238/
#ru
@big_data_analysis | Другие наши каналы
Данное исследование посвящено анализу данных о фильмах, собранных с крупнейшей российской платформы КиноПоиск. Основная цель работы — выявить факторы, влияющие на популярность фильмов, их рейтинги и финансовую успешность. В ходе исследования были проанализированы жанровые предпочтения аудитории, проведено сравнение оценок фильмов на Кинопоиске и IMDb, а также исследована взаимосвязь между бюджетами фильмов и их кассовыми сборами.
Разработка включала этапы сбора, обработки, анализа и визуализации данных. Для обработки данных применялись методы очистки от пропусков и ошибок, фильтрации по ключевым показателям и трансформации структур данных. Были реализованы функции для конвертации валют, извлечения данных о жанрах и персоналиях фильмов (актёрах и режиссёрах), а также вычисления статистических показателей полноты и однородности выборки.
Для эффективной работы системы был использован современный технологический стек. Обработка данных осуществлялась с помощью MongoDB, что обеспечило хранение и управление большими объёмами неструктурированной информации. RabbitMQ организовал асинхронный обмен сообщениями между компонентами системы, а серверная часть приложения разрабатывалась на базе Spring Boot, что ускорило процесс разработки и упростило развертывание приложения. Контейнеризация с использованием Docker обеспечила удобное развертывание и масштабирование системы. Основными языками программирования стали Java 17 и Python: Java использовалась для серверной части и микросервисов, а Python — для анализа данных и построения алгоритмов обработки информации.
Для анализа данных применялись библиотеки Pandas, Seaborn и SciPy, которые обеспечили эффективную обработку данных и визуализацию результатов. В рамках анализа строились графики, отображающие популярность жанров, исследовалась корреляция оценок на Кинопоиске и IMDb, а также визуализировалась связь между бюджетами и кассовыми сборами. Для представления результатов применялись такие инструменты, как matplotlib и seaborn, позволяя визуализировать ключевые закономерности в виде графиков и диаграмм.
Анализ выявил ключевые закономерности: популярность определённых жанров, зависимость коммерческого успеха фильма от его бюджета и значительное влияние известных актёров и режиссёров на успех фильма. Полученные результаты могут быть полезны для киностудий и продюсеров при планировании новых проектов, прогнозировании кассовых сборов и выборе жанров. Результаты также могут применяться для оптимизации маркетинговых стратегий при продвижении фильмов. В будущем планируется углубить исследование, проанализировать долгосрочные тренды в изменении популярности жанров и исследовать влияние пользовательских рецензий на успех фильмов.
Читать: https://habr.com/ru/articles/868238/
#ru
@big_data_analysis | Другие наши каналы
Машинное обучение на Spark
Существует множество подходов к машинному обучению. Со стороны может показаться, что генеративные модели на архитектуре под названием «трансформер» заняли передовые позиции и ближайшее обозримое будущее именно за ними. Но существуют и другие подходы к машинному обучению, которые тиражируются в медийном поле не так широко.
В этой статье вы познакомитесь с таким классом алгоритмов, как ансамблевые методы машинного обучения. А именно — градиентный бустинг на решающих деревьях. В основе они представляют из себя деревья решений, которые являются очень простой структурой, позволяющей получить ответ на основе входных данных. А еще мы разберемся, при чем тут Spark, и посмотрим на эти алгоритмы на практике.
Читать: https://habr.com/ru/companies/vk/articles/868114/
#ru
@big_data_analysis | Другие наши каналы
Существует множество подходов к машинному обучению. Со стороны может показаться, что генеративные модели на архитектуре под названием «трансформер» заняли передовые позиции и ближайшее обозримое будущее именно за ними. Но существуют и другие подходы к машинному обучению, которые тиражируются в медийном поле не так широко.
В этой статье вы познакомитесь с таким классом алгоритмов, как ансамблевые методы машинного обучения. А именно — градиентный бустинг на решающих деревьях. В основе они представляют из себя деревья решений, которые являются очень простой структурой, позволяющей получить ответ на основе входных данных. А еще мы разберемся, при чем тут Spark, и посмотрим на эти алгоритмы на практике.
Читать: https://habr.com/ru/companies/vk/articles/868114/
#ru
@big_data_analysis | Другие наши каналы
Переход на новую архитектуру проекта: как это влияет на надежность стриминга web-данных
Предположим, что перед вашей командой стоит задача по поиску надежного стриминга web и app данных, который бы соответствовал требованиям службы безопасности, ожиданиям отделов маркетинга и аналитики, а также был бы полезен для управляющей команды. Не менее важно удобство и прозрачность работы стриминга, а внесение изменений в ожидаемый результат, желательно, без привлечения дополнительного ресурса аналитиков и разработчиков.
Читать: https://habr.com/ru/articles/868358/
#ru
@big_data_analysis | Другие наши каналы
Предположим, что перед вашей командой стоит задача по поиску надежного стриминга web и app данных, который бы соответствовал требованиям службы безопасности, ожиданиям отделов маркетинга и аналитики, а также был бы полезен для управляющей команды. Не менее важно удобство и прозрачность работы стриминга, а внесение изменений в ожидаемый результат, желательно, без привлечения дополнительного ресурса аналитиков и разработчиков.
Читать: https://habr.com/ru/articles/868358/
#ru
@big_data_analysis | Другие наши каналы
Сравниваем форматы сериализации на Go: скорость и удобство
Дмитрий Королёв, бэкенд-разработчик в Авито, разобрал на примерах, чем отличаются друг от друга форматы сериализации данных и как выбрать самый удобный.
Читать: «Сравниваем форматы сериализации на Go: скорость и удобство»
#ru
@big_data_analysis | Другие наши каналы
Дмитрий Королёв, бэкенд-разработчик в Авито, разобрал на примерах, чем отличаются друг от друга форматы сериализации данных и как выбрать самый удобный.
Читать: «Сравниваем форматы сериализации на Go: скорость и удобство»
#ru
@big_data_analysis | Другие наши каналы
Какой тип разметки данных требуется для вашего проекта? Полный гид по аннотированию изображений
Ограничивающие рамки, полигоны, ключевые точки или 3D-кубоиды? Каждый из этих методов разметки подходит для совершенно разных задач машинного обучения.
Хотите узнать, как правильно выбрать инструмент для своего проекта? Мы сравним преимущества и недостатки каждого инструмента и покажем, как аннотирование помогает создать передовые технологии — от беспилотных авто до диагностики в медицине.
Читать: https://habr.com/ru/companies/data_light/articles/868464/
#ru
@big_data_analysis | Другие наши каналы
Ограничивающие рамки, полигоны, ключевые точки или 3D-кубоиды? Каждый из этих методов разметки подходит для совершенно разных задач машинного обучения.
Хотите узнать, как правильно выбрать инструмент для своего проекта? Мы сравним преимущества и недостатки каждого инструмента и покажем, как аннотирование помогает создать передовые технологии — от беспилотных авто до диагностики в медицине.
Читать: https://habr.com/ru/companies/data_light/articles/868464/
#ru
@big_data_analysis | Другие наши каналы
Как мультифакторные релейшены упростили нашу модель данных в Tableau
Сегодня BI-аналитика немыслима без ETL-процессов. Просто физических джоинов уже не хватает — чаще нужны логические модели данных. С ними можно создавать сложные структуры без запросов вручную. Как self-service инструмент, Tableau дал такую возможность в 2020 году, представив релейшены (relationships).
Читать: https://habr.com/ru/articles/868480/
#ru
@big_data_analysis | Другие наши каналы
Сегодня BI-аналитика немыслима без ETL-процессов. Просто физических джоинов уже не хватает — чаще нужны логические модели данных. С ними можно создавать сложные структуры без запросов вручную. Как self-service инструмент, Tableau дал такую возможность в 2020 году, представив релейшены (relationships).
Читать: https://habr.com/ru/articles/868480/
#ru
@big_data_analysis | Другие наши каналы
Инновационные инструменты для безопасности данных
Oracle FDI представляет новую функцию — настраиваемый контекст безопасности. Эта уникальная возможность обеспечивает точный контроль доступа к финансовым данным, учитывая сегменты баланса и затрат. Узнайте, как улучшить управление данными в вашей организации.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle FDI представляет новую функцию — настраиваемый контекст безопасности. Эта уникальная возможность обеспечивает точный контроль доступа к финансовым данным, учитывая сегменты баланса и затрат. Узнайте, как улучшить управление данными в вашей организации.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Implementing Custom Security Context in Oracle Fusion Data Intelligence (FDI)
Explore Oracle FDI's Configurable Security Context, a limited availability feature that enables custom data access controls based on cost and balancing segments, ensuring precise management of financial data visibility within your organization.
Матрица ошибок confusion_matrix() в scikit-learn
Одним из самых наиболее развёрнутых способов оценки качества классификации является применение матрицы ошибок. Матрица ошибок представляет собой квадратную таблицу, в которой отображается количество предсказанных и фактических классов для классификационной модели. В этой матрице строки представляют истинные классы (реальные метки), а столбцы представляют предсказанные классы (метки, которые предсказала модель). Размер матрицы соответствует количеству классов.
Обычно для бинарной классификации она выглядит так:
Читать: https://habr.com/ru/articles/868636/
#ru
@big_data_analysis | Другие наши каналы
Одним из самых наиболее развёрнутых способов оценки качества классификации является применение матрицы ошибок. Матрица ошибок представляет собой квадратную таблицу, в которой отображается количество предсказанных и фактических классов для классификационной модели. В этой матрице строки представляют истинные классы (реальные метки), а столбцы представляют предсказанные классы (метки, которые предсказала модель). Размер матрицы соответствует количеству классов.
Обычно для бинарной классификации она выглядит так:
Читать: https://habr.com/ru/articles/868636/
#ru
@big_data_analysis | Другие наши каналы
Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам
На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для решения всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.
Но так ли это на самом деле? Данная статья вдохновлена видением компании Anthropic на применение LLM в процессах и на построение автономных агентов, поэтому давайте попробуем во всем разобраться.
Поговорим про Data Pipelines, LLM Workflows и LLM Agents, а так же сравним их между собой.
Читать: https://habr.com/ru/articles/868648/
#ru
@big_data_analysis | Другие наши каналы
На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для решения всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.
Но так ли это на самом деле? Данная статья вдохновлена видением компании Anthropic на применение LLM в процессах и на построение автономных агентов, поэтому давайте попробуем во всем разобраться.
Поговорим про Data Pipelines, LLM Workflows и LLM Agents, а так же сравним их между собой.
Читать: https://habr.com/ru/articles/868648/
#ru
@big_data_analysis | Другие наши каналы
Расцвет скоростей в сетях ЦОД: 400GbE уже мейнстрим или совсем мало?
Привет! Меня зовут Михаил Шпак, я занимаюсь комплексной архитектурой технологических решений в сетевой части ИТ-холдинга Fplus, который выпускает широкий спектр высокотехнологичных электронных устройств. В данной статье я хочу показать, как за последние 5 лет требования современного бизнеса и развитие ресурсоемких приложений (искусственного интеллекта, поисковых систем, мобильной связи стандарта 5G и т.д.) изменили требования к архитектуре, скорости и отзывчивости сетей, используемых в центрах обработки данных. Давайте разберемся, какие комплексные технологические решения заставляют нас ускоряться, а где можно использовать старые наработки и отточенные десятилетиями практики.
Читать: https://habr.com/ru/companies/fplus_tech/articles/868850/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Михаил Шпак, я занимаюсь комплексной архитектурой технологических решений в сетевой части ИТ-холдинга Fplus, который выпускает широкий спектр высокотехнологичных электронных устройств. В данной статье я хочу показать, как за последние 5 лет требования современного бизнеса и развитие ресурсоемких приложений (искусственного интеллекта, поисковых систем, мобильной связи стандарта 5G и т.д.) изменили требования к архитектуре, скорости и отзывчивости сетей, используемых в центрах обработки данных. Давайте разберемся, какие комплексные технологические решения заставляют нас ускоряться, а где можно использовать старые наработки и отточенные десятилетиями практики.
Читать: https://habr.com/ru/companies/fplus_tech/articles/868850/
#ru
@big_data_analysis | Другие наши каналы
Как не нужно визуализировать данные: антипаттерны в примерах
Как делать графики понятными и наглядными? Да ещё и избежать неверных трактовок? Когда использовать круговую диаграмму, а когда нужны линейные графики или столбчатая шкала? Для этого достаточно учесть антипаттерны, которые вредят и запутывают. Разберём на «хороших» и «плохих» примерах.
Привет, Хабр! Меня зовут Андрей Машковцев, я — BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об основных ошибках при визуализации данных. Основные мысли переложил в статью.
Читать: https://habr.com/ru/articles/868870/
#ru
@big_data_analysis | Другие наши каналы
Как делать графики понятными и наглядными? Да ещё и избежать неверных трактовок? Когда использовать круговую диаграмму, а когда нужны линейные графики или столбчатая шкала? Для этого достаточно учесть антипаттерны, которые вредят и запутывают. Разберём на «хороших» и «плохих» примерах.
Привет, Хабр! Меня зовут Андрей Машковцев, я — BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об основных ошибках при визуализации данных. Основные мысли переложил в статью.
Читать: https://habr.com/ru/articles/868870/
#ru
@big_data_analysis | Другие наши каналы
Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах
Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?
Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.
Читать: https://habr.com/ru/companies/hflabs/articles/868062/
#ru
@big_data_analysis | Другие наши каналы
Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?
Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.
Читать: https://habr.com/ru/companies/hflabs/articles/868062/
#ru
@big_data_analysis | Другие наши каналы
Нашли для вас интересную новость из сферы финтеха
А именно — узнали, что ОТП Банк запустил TG-канал для айтишников. Команда строит финтех в международном банке и теперь можно узнавать прямо у них, как они это делают.
На OTP Tech стоит подписаться, чтобы узнавать о внутрянке работы, фичах, которые ребята пилят, как решают разные инфраструктурные задачи и в целом чтобы покайфовать. Мы, например, зависли на этих енотиках. К слову, вакансиями ребята тоже делятся.
Прокачайте свою ленту крутым каналом: OTP Tech
Это #партнёрский пост
А именно — узнали, что ОТП Банк запустил TG-канал для айтишников. Команда строит финтех в международном банке и теперь можно узнавать прямо у них, как они это делают.
На OTP Tech стоит подписаться, чтобы узнавать о внутрянке работы, фичах, которые ребята пилят, как решают разные инфраструктурные задачи и в целом чтобы покайфовать. Мы, например, зависли на этих енотиках. К слову, вакансиями ребята тоже делятся.
Прокачайте свою ленту крутым каналом: OTP Tech
Это #партнёрский пост
Как мы проверяли качество данных после завершения миграции с Teradata на Greenplum
Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.
Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.
Читать: https://habr.com/ru/companies/sberbank/articles/869294/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.
Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.
Читать: https://habr.com/ru/companies/sberbank/articles/869294/
#ru
@big_data_analysis | Другие наши каналы
Как выбрать вкусное вино на основе данных с помощью Luxms BI
В преддверии новогодних праздников предлагаю прочитать статью специально для виноманов! Меня зовут Ярослав Золотухин, я QA Lead Luxms. И сегодня хочу поговорить о том, как с помощью данных и платформы бизнес-аналитики Luxms BI сделать выбор вина более осознанным и приятным.
Читать: https://habr.com/ru/companies/luxms_bi/articles/869382/
#ru
@big_data_analysis | Другие наши каналы
В преддверии новогодних праздников предлагаю прочитать статью специально для виноманов! Меня зовут Ярослав Золотухин, я QA Lead Luxms. И сегодня хочу поговорить о том, как с помощью данных и платформы бизнес-аналитики Luxms BI сделать выбор вина более осознанным и приятным.
Читать: https://habr.com/ru/companies/luxms_bi/articles/869382/
#ru
@big_data_analysis | Другие наши каналы