Анализ фильмов с интернет-портала Кинопоиск
Данное исследование посвящено анализу данных о фильмах, собранных с крупнейшей российской платформы КиноПоиск. Основная цель работы — выявить факторы, влияющие на популярность фильмов, их рейтинги и финансовую успешность. В ходе исследования были проанализированы жанровые предпочтения аудитории, проведено сравнение оценок фильмов на Кинопоиске и IMDb, а также исследована взаимосвязь между бюджетами фильмов и их кассовыми сборами.
Разработка включала этапы сбора, обработки, анализа и визуализации данных. Для обработки данных применялись методы очистки от пропусков и ошибок, фильтрации по ключевым показателям и трансформации структур данных. Были реализованы функции для конвертации валют, извлечения данных о жанрах и персоналиях фильмов (актёрах и режиссёрах), а также вычисления статистических показателей полноты и однородности выборки.
Для эффективной работы системы был использован современный технологический стек. Обработка данных осуществлялась с помощью MongoDB, что обеспечило хранение и управление большими объёмами неструктурированной информации. RabbitMQ организовал асинхронный обмен сообщениями между компонентами системы, а серверная часть приложения разрабатывалась на базе Spring Boot, что ускорило процесс разработки и упростило развертывание приложения. Контейнеризация с использованием Docker обеспечила удобное развертывание и масштабирование системы. Основными языками программирования стали Java 17 и Python: Java использовалась для серверной части и микросервисов, а Python — для анализа данных и построения алгоритмов обработки информации.
Для анализа данных применялись библиотеки Pandas, Seaborn и SciPy, которые обеспечили эффективную обработку данных и визуализацию результатов. В рамках анализа строились графики, отображающие популярность жанров, исследовалась корреляция оценок на Кинопоиске и IMDb, а также визуализировалась связь между бюджетами и кассовыми сборами. Для представления результатов применялись такие инструменты, как matplotlib и seaborn, позволяя визуализировать ключевые закономерности в виде графиков и диаграмм.
Анализ выявил ключевые закономерности: популярность определённых жанров, зависимость коммерческого успеха фильма от его бюджета и значительное влияние известных актёров и режиссёров на успех фильма. Полученные результаты могут быть полезны для киностудий и продюсеров при планировании новых проектов, прогнозировании кассовых сборов и выборе жанров. Результаты также могут применяться для оптимизации маркетинговых стратегий при продвижении фильмов. В будущем планируется углубить исследование, проанализировать долгосрочные тренды в изменении популярности жанров и исследовать влияние пользовательских рецензий на успех фильмов.
Читать: https://habr.com/ru/articles/868238/
#ru
@big_data_analysis | Другие наши каналы
Данное исследование посвящено анализу данных о фильмах, собранных с крупнейшей российской платформы КиноПоиск. Основная цель работы — выявить факторы, влияющие на популярность фильмов, их рейтинги и финансовую успешность. В ходе исследования были проанализированы жанровые предпочтения аудитории, проведено сравнение оценок фильмов на Кинопоиске и IMDb, а также исследована взаимосвязь между бюджетами фильмов и их кассовыми сборами.
Разработка включала этапы сбора, обработки, анализа и визуализации данных. Для обработки данных применялись методы очистки от пропусков и ошибок, фильтрации по ключевым показателям и трансформации структур данных. Были реализованы функции для конвертации валют, извлечения данных о жанрах и персоналиях фильмов (актёрах и режиссёрах), а также вычисления статистических показателей полноты и однородности выборки.
Для эффективной работы системы был использован современный технологический стек. Обработка данных осуществлялась с помощью MongoDB, что обеспечило хранение и управление большими объёмами неструктурированной информации. RabbitMQ организовал асинхронный обмен сообщениями между компонентами системы, а серверная часть приложения разрабатывалась на базе Spring Boot, что ускорило процесс разработки и упростило развертывание приложения. Контейнеризация с использованием Docker обеспечила удобное развертывание и масштабирование системы. Основными языками программирования стали Java 17 и Python: Java использовалась для серверной части и микросервисов, а Python — для анализа данных и построения алгоритмов обработки информации.
Для анализа данных применялись библиотеки Pandas, Seaborn и SciPy, которые обеспечили эффективную обработку данных и визуализацию результатов. В рамках анализа строились графики, отображающие популярность жанров, исследовалась корреляция оценок на Кинопоиске и IMDb, а также визуализировалась связь между бюджетами и кассовыми сборами. Для представления результатов применялись такие инструменты, как matplotlib и seaborn, позволяя визуализировать ключевые закономерности в виде графиков и диаграмм.
Анализ выявил ключевые закономерности: популярность определённых жанров, зависимость коммерческого успеха фильма от его бюджета и значительное влияние известных актёров и режиссёров на успех фильма. Полученные результаты могут быть полезны для киностудий и продюсеров при планировании новых проектов, прогнозировании кассовых сборов и выборе жанров. Результаты также могут применяться для оптимизации маркетинговых стратегий при продвижении фильмов. В будущем планируется углубить исследование, проанализировать долгосрочные тренды в изменении популярности жанров и исследовать влияние пользовательских рецензий на успех фильмов.
Читать: https://habr.com/ru/articles/868238/
#ru
@big_data_analysis | Другие наши каналы
Машинное обучение на Spark
Существует множество подходов к машинному обучению. Со стороны может показаться, что генеративные модели на архитектуре под названием «трансформер» заняли передовые позиции и ближайшее обозримое будущее именно за ними. Но существуют и другие подходы к машинному обучению, которые тиражируются в медийном поле не так широко.
В этой статье вы познакомитесь с таким классом алгоритмов, как ансамблевые методы машинного обучения. А именно — градиентный бустинг на решающих деревьях. В основе они представляют из себя деревья решений, которые являются очень простой структурой, позволяющей получить ответ на основе входных данных. А еще мы разберемся, при чем тут Spark, и посмотрим на эти алгоритмы на практике.
Читать: https://habr.com/ru/companies/vk/articles/868114/
#ru
@big_data_analysis | Другие наши каналы
Существует множество подходов к машинному обучению. Со стороны может показаться, что генеративные модели на архитектуре под названием «трансформер» заняли передовые позиции и ближайшее обозримое будущее именно за ними. Но существуют и другие подходы к машинному обучению, которые тиражируются в медийном поле не так широко.
В этой статье вы познакомитесь с таким классом алгоритмов, как ансамблевые методы машинного обучения. А именно — градиентный бустинг на решающих деревьях. В основе они представляют из себя деревья решений, которые являются очень простой структурой, позволяющей получить ответ на основе входных данных. А еще мы разберемся, при чем тут Spark, и посмотрим на эти алгоритмы на практике.
Читать: https://habr.com/ru/companies/vk/articles/868114/
#ru
@big_data_analysis | Другие наши каналы
Переход на новую архитектуру проекта: как это влияет на надежность стриминга web-данных
Предположим, что перед вашей командой стоит задача по поиску надежного стриминга web и app данных, который бы соответствовал требованиям службы безопасности, ожиданиям отделов маркетинга и аналитики, а также был бы полезен для управляющей команды. Не менее важно удобство и прозрачность работы стриминга, а внесение изменений в ожидаемый результат, желательно, без привлечения дополнительного ресурса аналитиков и разработчиков.
Читать: https://habr.com/ru/articles/868358/
#ru
@big_data_analysis | Другие наши каналы
Предположим, что перед вашей командой стоит задача по поиску надежного стриминга web и app данных, который бы соответствовал требованиям службы безопасности, ожиданиям отделов маркетинга и аналитики, а также был бы полезен для управляющей команды. Не менее важно удобство и прозрачность работы стриминга, а внесение изменений в ожидаемый результат, желательно, без привлечения дополнительного ресурса аналитиков и разработчиков.
Читать: https://habr.com/ru/articles/868358/
#ru
@big_data_analysis | Другие наши каналы
Сравниваем форматы сериализации на Go: скорость и удобство
Дмитрий Королёв, бэкенд-разработчик в Авито, разобрал на примерах, чем отличаются друг от друга форматы сериализации данных и как выбрать самый удобный.
Читать: «Сравниваем форматы сериализации на Go: скорость и удобство»
#ru
@big_data_analysis | Другие наши каналы
Дмитрий Королёв, бэкенд-разработчик в Авито, разобрал на примерах, чем отличаются друг от друга форматы сериализации данных и как выбрать самый удобный.
Читать: «Сравниваем форматы сериализации на Go: скорость и удобство»
#ru
@big_data_analysis | Другие наши каналы
Какой тип разметки данных требуется для вашего проекта? Полный гид по аннотированию изображений
Ограничивающие рамки, полигоны, ключевые точки или 3D-кубоиды? Каждый из этих методов разметки подходит для совершенно разных задач машинного обучения.
Хотите узнать, как правильно выбрать инструмент для своего проекта? Мы сравним преимущества и недостатки каждого инструмента и покажем, как аннотирование помогает создать передовые технологии — от беспилотных авто до диагностики в медицине.
Читать: https://habr.com/ru/companies/data_light/articles/868464/
#ru
@big_data_analysis | Другие наши каналы
Ограничивающие рамки, полигоны, ключевые точки или 3D-кубоиды? Каждый из этих методов разметки подходит для совершенно разных задач машинного обучения.
Хотите узнать, как правильно выбрать инструмент для своего проекта? Мы сравним преимущества и недостатки каждого инструмента и покажем, как аннотирование помогает создать передовые технологии — от беспилотных авто до диагностики в медицине.
Читать: https://habr.com/ru/companies/data_light/articles/868464/
#ru
@big_data_analysis | Другие наши каналы
Как мультифакторные релейшены упростили нашу модель данных в Tableau
Сегодня BI-аналитика немыслима без ETL-процессов. Просто физических джоинов уже не хватает — чаще нужны логические модели данных. С ними можно создавать сложные структуры без запросов вручную. Как self-service инструмент, Tableau дал такую возможность в 2020 году, представив релейшены (relationships).
Читать: https://habr.com/ru/articles/868480/
#ru
@big_data_analysis | Другие наши каналы
Сегодня BI-аналитика немыслима без ETL-процессов. Просто физических джоинов уже не хватает — чаще нужны логические модели данных. С ними можно создавать сложные структуры без запросов вручную. Как self-service инструмент, Tableau дал такую возможность в 2020 году, представив релейшены (relationships).
Читать: https://habr.com/ru/articles/868480/
#ru
@big_data_analysis | Другие наши каналы
Инновационные инструменты для безопасности данных
Oracle FDI представляет новую функцию — настраиваемый контекст безопасности. Эта уникальная возможность обеспечивает точный контроль доступа к финансовым данным, учитывая сегменты баланса и затрат. Узнайте, как улучшить управление данными в вашей организации.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle FDI представляет новую функцию — настраиваемый контекст безопасности. Эта уникальная возможность обеспечивает точный контроль доступа к финансовым данным, учитывая сегменты баланса и затрат. Узнайте, как улучшить управление данными в вашей организации.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Implementing Custom Security Context in Oracle Fusion Data Intelligence (FDI)
Explore Oracle FDI's Configurable Security Context, a limited availability feature that enables custom data access controls based on cost and balancing segments, ensuring precise management of financial data visibility within your organization.
Матрица ошибок confusion_matrix() в scikit-learn
Одним из самых наиболее развёрнутых способов оценки качества классификации является применение матрицы ошибок. Матрица ошибок представляет собой квадратную таблицу, в которой отображается количество предсказанных и фактических классов для классификационной модели. В этой матрице строки представляют истинные классы (реальные метки), а столбцы представляют предсказанные классы (метки, которые предсказала модель). Размер матрицы соответствует количеству классов.
Обычно для бинарной классификации она выглядит так:
Читать: https://habr.com/ru/articles/868636/
#ru
@big_data_analysis | Другие наши каналы
Одним из самых наиболее развёрнутых способов оценки качества классификации является применение матрицы ошибок. Матрица ошибок представляет собой квадратную таблицу, в которой отображается количество предсказанных и фактических классов для классификационной модели. В этой матрице строки представляют истинные классы (реальные метки), а столбцы представляют предсказанные классы (метки, которые предсказала модель). Размер матрицы соответствует количеству классов.
Обычно для бинарной классификации она выглядит так:
Читать: https://habr.com/ru/articles/868636/
#ru
@big_data_analysis | Другие наши каналы
Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам
На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для решения всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.
Но так ли это на самом деле? Данная статья вдохновлена видением компании Anthropic на применение LLM в процессах и на построение автономных агентов, поэтому давайте попробуем во всем разобраться.
Поговорим про Data Pipelines, LLM Workflows и LLM Agents, а так же сравним их между собой.
Читать: https://habr.com/ru/articles/868648/
#ru
@big_data_analysis | Другие наши каналы
На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для решения всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.
Но так ли это на самом деле? Данная статья вдохновлена видением компании Anthropic на применение LLM в процессах и на построение автономных агентов, поэтому давайте попробуем во всем разобраться.
Поговорим про Data Pipelines, LLM Workflows и LLM Agents, а так же сравним их между собой.
Читать: https://habr.com/ru/articles/868648/
#ru
@big_data_analysis | Другие наши каналы
Расцвет скоростей в сетях ЦОД: 400GbE уже мейнстрим или совсем мало?
Привет! Меня зовут Михаил Шпак, я занимаюсь комплексной архитектурой технологических решений в сетевой части ИТ-холдинга Fplus, который выпускает широкий спектр высокотехнологичных электронных устройств. В данной статье я хочу показать, как за последние 5 лет требования современного бизнеса и развитие ресурсоемких приложений (искусственного интеллекта, поисковых систем, мобильной связи стандарта 5G и т.д.) изменили требования к архитектуре, скорости и отзывчивости сетей, используемых в центрах обработки данных. Давайте разберемся, какие комплексные технологические решения заставляют нас ускоряться, а где можно использовать старые наработки и отточенные десятилетиями практики.
Читать: https://habr.com/ru/companies/fplus_tech/articles/868850/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Михаил Шпак, я занимаюсь комплексной архитектурой технологических решений в сетевой части ИТ-холдинга Fplus, который выпускает широкий спектр высокотехнологичных электронных устройств. В данной статье я хочу показать, как за последние 5 лет требования современного бизнеса и развитие ресурсоемких приложений (искусственного интеллекта, поисковых систем, мобильной связи стандарта 5G и т.д.) изменили требования к архитектуре, скорости и отзывчивости сетей, используемых в центрах обработки данных. Давайте разберемся, какие комплексные технологические решения заставляют нас ускоряться, а где можно использовать старые наработки и отточенные десятилетиями практики.
Читать: https://habr.com/ru/companies/fplus_tech/articles/868850/
#ru
@big_data_analysis | Другие наши каналы
Как не нужно визуализировать данные: антипаттерны в примерах
Как делать графики понятными и наглядными? Да ещё и избежать неверных трактовок? Когда использовать круговую диаграмму, а когда нужны линейные графики или столбчатая шкала? Для этого достаточно учесть антипаттерны, которые вредят и запутывают. Разберём на «хороших» и «плохих» примерах.
Привет, Хабр! Меня зовут Андрей Машковцев, я — BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об основных ошибках при визуализации данных. Основные мысли переложил в статью.
Читать: https://habr.com/ru/articles/868870/
#ru
@big_data_analysis | Другие наши каналы
Как делать графики понятными и наглядными? Да ещё и избежать неверных трактовок? Когда использовать круговую диаграмму, а когда нужны линейные графики или столбчатая шкала? Для этого достаточно учесть антипаттерны, которые вредят и запутывают. Разберём на «хороших» и «плохих» примерах.
Привет, Хабр! Меня зовут Андрей Машковцев, я — BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об основных ошибках при визуализации данных. Основные мысли переложил в статью.
Читать: https://habr.com/ru/articles/868870/
#ru
@big_data_analysis | Другие наши каналы
Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах
Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?
Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.
Читать: https://habr.com/ru/companies/hflabs/articles/868062/
#ru
@big_data_analysis | Другие наши каналы
Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?
Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.
Читать: https://habr.com/ru/companies/hflabs/articles/868062/
#ru
@big_data_analysis | Другие наши каналы
Нашли для вас интересную новость из сферы финтеха
А именно — узнали, что ОТП Банк запустил TG-канал для айтишников. Команда строит финтех в международном банке и теперь можно узнавать прямо у них, как они это делают.
На OTP Tech стоит подписаться, чтобы узнавать о внутрянке работы, фичах, которые ребята пилят, как решают разные инфраструктурные задачи и в целом чтобы покайфовать. Мы, например, зависли на этих енотиках. К слову, вакансиями ребята тоже делятся.
Прокачайте свою ленту крутым каналом: OTP Tech
Это #партнёрский пост
А именно — узнали, что ОТП Банк запустил TG-канал для айтишников. Команда строит финтех в международном банке и теперь можно узнавать прямо у них, как они это делают.
На OTP Tech стоит подписаться, чтобы узнавать о внутрянке работы, фичах, которые ребята пилят, как решают разные инфраструктурные задачи и в целом чтобы покайфовать. Мы, например, зависли на этих енотиках. К слову, вакансиями ребята тоже делятся.
Прокачайте свою ленту крутым каналом: OTP Tech
Это #партнёрский пост
Как мы проверяли качество данных после завершения миграции с Teradata на Greenplum
Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.
Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.
Читать: https://habr.com/ru/companies/sberbank/articles/869294/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.
Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.
Читать: https://habr.com/ru/companies/sberbank/articles/869294/
#ru
@big_data_analysis | Другие наши каналы
Как выбрать вкусное вино на основе данных с помощью Luxms BI
В преддверии новогодних праздников предлагаю прочитать статью специально для виноманов! Меня зовут Ярослав Золотухин, я QA Lead Luxms. И сегодня хочу поговорить о том, как с помощью данных и платформы бизнес-аналитики Luxms BI сделать выбор вина более осознанным и приятным.
Читать: https://habr.com/ru/companies/luxms_bi/articles/869382/
#ru
@big_data_analysis | Другие наши каналы
В преддверии новогодних праздников предлагаю прочитать статью специально для виноманов! Меня зовут Ярослав Золотухин, я QA Lead Luxms. И сегодня хочу поговорить о том, как с помощью данных и платформы бизнес-аналитики Luxms BI сделать выбор вина более осознанным и приятным.
Читать: https://habr.com/ru/companies/luxms_bi/articles/869382/
#ru
@big_data_analysis | Другие наши каналы
MLOps: как не потеряться в 10 тысячах фич, часть 1
Всем привет! Меня зовут Дмитрий Ермилов, и сегодня я хочу рассказать про то, как мы в билайне использовали один data catalog-инструмент для того, чтобы построить прозрачные связи между моделями машинного обучения и признаками, от которых эти модели зависят, то есть от фич. Из доклада вы узнаете, зачем и кому это бывает нужно, а также один из способов решения этой задачи.
Для начала немного о себе. Я более десяти лет в разработке и анализе данных, имею научный бэкграунд, принимал участие в различных проектах от построения высоконагруженных сервисов с использованием моделей машинного обучения и глубоких нейронных сетей до построения корпоративных хранилищ данных и ETL-процессов. В настоящий момент работают в билайн, в дирекции билайн бизнес (Big Data&AI).
Департамент DS состоит из двадцати специалистов. Билайн сегодня в первую очередь — технологичная компания, мы любим говорить, что мы технологичны снаружи и технологичны внутри. У нас трудится более 3500 IT-специалистов, более 200 продуктовых команд, которые разбиты на различные сегменты (внутренние продукты, продукты B2C, B2G и B2B). Дирекция Big Data&AI сфокусирована на B2B-сегменте, у нас 13 продуктовых команд, 200 IT-специалистов, это ML, DS, дата аналитики, фронт, бек, DevOps и другие функции.
Спектр продуктов широкий - от платформы видеоаналитики и системы транскрибации и анализа речи до классических продуктов в области банковского скоринга. Мы любим машинное обучение, и это взаимно.
Читать: https://habr.com/ru/companies/beeline_tech/articles/868612/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Дмитрий Ермилов, и сегодня я хочу рассказать про то, как мы в билайне использовали один data catalog-инструмент для того, чтобы построить прозрачные связи между моделями машинного обучения и признаками, от которых эти модели зависят, то есть от фич. Из доклада вы узнаете, зачем и кому это бывает нужно, а также один из способов решения этой задачи.
Для начала немного о себе. Я более десяти лет в разработке и анализе данных, имею научный бэкграунд, принимал участие в различных проектах от построения высоконагруженных сервисов с использованием моделей машинного обучения и глубоких нейронных сетей до построения корпоративных хранилищ данных и ETL-процессов. В настоящий момент работают в билайн, в дирекции билайн бизнес (Big Data&AI).
Департамент DS состоит из двадцати специалистов. Билайн сегодня в первую очередь — технологичная компания, мы любим говорить, что мы технологичны снаружи и технологичны внутри. У нас трудится более 3500 IT-специалистов, более 200 продуктовых команд, которые разбиты на различные сегменты (внутренние продукты, продукты B2C, B2G и B2B). Дирекция Big Data&AI сфокусирована на B2B-сегменте, у нас 13 продуктовых команд, 200 IT-специалистов, это ML, DS, дата аналитики, фронт, бек, DevOps и другие функции.
Спектр продуктов широкий - от платформы видеоаналитики и системы транскрибации и анализа речи до классических продуктов в области банковского скоринга. Мы любим машинное обучение, и это взаимно.
Читать: https://habr.com/ru/companies/beeline_tech/articles/868612/
#ru
@big_data_analysis | Другие наши каналы
👍1
MLOps: как не потеряться в 10 тысячах фич, часть 2
Первая часть — здесь.
Data lineage
Этот подход обеспечивает прослеживание связей в данных и клиентов, которые используют данные, от источника, включая промежуточные стадии, до момента потребления этих данных. Данные может потреблять сервисы, какие-то BI-системы, на которых построены дашборды, эксплуатировать данные могут люди, дата аналитики, которым это необходимо в рабочих процессах. Data lineage позволяет прозрачно взглянуть на эти вещи и отследить момент получения предагрегатов до момента эксплуатации этих данных клиентами.
Нам важен разрез, когда клиентами или целевыми заказчиками данных являются ML-модели.
Читать: https://habr.com/ru/companies/beeline_tech/articles/868730/
#ru
@big_data_analysis | Другие наши каналы
Первая часть — здесь.
Data lineage
Этот подход обеспечивает прослеживание связей в данных и клиентов, которые используют данные, от источника, включая промежуточные стадии, до момента потребления этих данных. Данные может потреблять сервисы, какие-то BI-системы, на которых построены дашборды, эксплуатировать данные могут люди, дата аналитики, которым это необходимо в рабочих процессах. Data lineage позволяет прозрачно взглянуть на эти вещи и отследить момент получения предагрегатов до момента эксплуатации этих данных клиентами.
Нам важен разрез, когда клиентами или целевыми заказчиками данных являются ML-модели.
Читать: https://habr.com/ru/companies/beeline_tech/articles/868730/
#ru
@big_data_analysis | Другие наши каналы
Расширенный CUPAC для снижения дисперсии в A/B экспериментах
Задача снижения дисперсии при проведении A/B экспериментов, кажется, никогда не перестанет быть актуальной. Хочу поделиться небольшим разбором свежей статьи, в которой авторы предлагают еще один довольно-таки провокационный метод для снижения дисперсии.
Можем ли мы использовать для снижения дисперсии данные во время эксперимента? А может ли метод быть сильно лучше CUPAC и что значит «лучше»?
Читать: https://habr.com/ru/articles/869998/
#ru
@big_data_analysis | Другие наши каналы
Задача снижения дисперсии при проведении A/B экспериментов, кажется, никогда не перестанет быть актуальной. Хочу поделиться небольшим разбором свежей статьи, в которой авторы предлагают еще один довольно-таки провокационный метод для снижения дисперсии.
Можем ли мы использовать для снижения дисперсии данные во время эксперимента? А может ли метод быть сильно лучше CUPAC и что значит «лучше»?
Читать: https://habr.com/ru/articles/869998/
#ru
@big_data_analysis | Другие наши каналы
Создание динамических таблиц в SuperSet
Однажды в студеную зимнюю пору из-за морей, из-за океанов прилетело известие: лицензии не выдаем, тех.поддержку не оказываем, а можем и вовсе отключить все системы. В компании погоревали, но делать нечего, решили переходить на новые системы, да такие, чтобы не смогли в любой момент их превратить в тыкву. И стали смотреть в сторону open-sourсe решений. Проанализировали несколько BI-систем и остановились на SuperSet. /*После QlikSense и Tableau казалось, что это так себе затея*/
Меня зовут Корнева Настя, я отвечаю за разработку BI-отчетности в Magnit Tech в рамках проекта Аналитика УЦП (управление цепочками поставок). В этой статье поделюсь нашим опытом создания динамических сводных таблиц в BI-инструменте SuperSet, что будет полезно разработчикам отчетности и всем, кому интересна тематика.
Читать: https://habr.com/ru/companies/magnit/articles/869924/
#ru
@big_data_analysis | Другие наши каналы
Однажды в студеную зимнюю пору из-за морей, из-за океанов прилетело известие: лицензии не выдаем, тех.поддержку не оказываем, а можем и вовсе отключить все системы. В компании погоревали, но делать нечего, решили переходить на новые системы, да такие, чтобы не смогли в любой момент их превратить в тыкву. И стали смотреть в сторону open-sourсe решений. Проанализировали несколько BI-систем и остановились на SuperSet. /*После QlikSense и Tableau казалось, что это так себе затея*/
Меня зовут Корнева Настя, я отвечаю за разработку BI-отчетности в Magnit Tech в рамках проекта Аналитика УЦП (управление цепочками поставок). В этой статье поделюсь нашим опытом создания динамических сводных таблиц в BI-инструменте SuperSet, что будет полезно разработчикам отчетности и всем, кому интересна тематика.
Читать: https://habr.com/ru/companies/magnit/articles/869924/
#ru
@big_data_analysis | Другие наши каналы
Как предсказать будущее с помощью ML?
Привет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении, о том, как с его помощью можно предсказать будущее и о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов.
Читать: https://habr.com/ru/articles/870200/
#ru
@big_data_analysis | Другие наши каналы
Привет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении, о том, как с его помощью можно предсказать будущее и о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов.
Читать: https://habr.com/ru/articles/870200/
#ru
@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer Liquibase
Liquibase — это по сути реализация принципов IaC, но для баз данных, что делает его ключевым инструментом для DataBase as Code (DBaC). Как IaC управляет инфраструктурой, так Liquibase управляет схемами баз данных, обеспечивая автоматизацию, консистентность и версионирование изменений.
Читать: https://habr.com/ru/articles/863242/
#ru
@big_data_analysis | Другие наши каналы
Liquibase — это по сути реализация принципов IaC, но для баз данных, что делает его ключевым инструментом для DataBase as Code (DBaC). Как IaC управляет инфраструктурой, так Liquibase управляет схемами баз данных, обеспечивая автоматизацию, консистентность и версионирование изменений.
Читать: https://habr.com/ru/articles/863242/
#ru
@big_data_analysis | Другие наши каналы