Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Дашборд как инструмент взаимодействия с бизнесом

Всем привет! Сегодня поговорим про дашборды — что это за инструмент такой и как с помощью него взаимодействовать с бизнесом.

Меня зовут Дарья Еськова, я аналитик данных в компании билайн. Если быть точнее, то в команде CLTV, лидирую направление автоматизации визуализации данных. Хочу поделиться с вами своим опытом и наработками.

Поговорим в основном про дашборды с точки зрения бизнеса. Есть технические дашборды, но акцент в посте будет на бизнес-дашбордах — на тех, которые смотрят наши руководители, менеджеры, бизнес-юниты.

Исходно дашбордом называли доску между кучером и лошадью, которая служила преградой для летящей из-под копыт грязи. Но, понятное дело, сейчас мы пользуемся этим словом совершенно для другого. Это информационная панель, которая отображает наши метрики. Как раз этот инструмент, который позволяет донести нужные цифры в нужное время для нужных людей.

Например, наш аналитик, я, кто-то из вас может сказать, что наши продажи выросли, и будет здорово, если бизнесу такой информации достаточно. Но зачастую происходит так, что бизнес просит подтвердить эти факты какими-то данными, которым мы доверяем. И вот как раз визуализация — это очень удобный инструмент, это интерфейс доступа к данным.


Читать: https://habr.com/ru/companies/beeline_tech/articles/847596/

#ru

@big_data_analysis | Другие наши каналы
Современная Lakehouse-платформа данных Data Ocean Nova

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных.

Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь.


Читать: https://habr.com/ru/articles/847770/

#ru

@big_data_analysis | Другие наши каналы
Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.

Давайте разбираться.


Читать: https://habr.com/ru/articles/847780/

#ru

@big_data_analysis | Другие наши каналы
Настройка Oracle Analytics Cloud в сложной архитектуре

Как правильно создать и настроить Oracle Analytics Cloud, если OAC и источник данных находятся в разных виртуальных сетях? Узнайте об эффективной интеграции и настройке на многосетевой архитектуре.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Мощь предсказательной аналитики с Oracle Analytics Cloud

Предсказательная аналитика помогает принимать обоснованные решения, прогнозируя тенденции на основе исторических данных. Платформа Oracle Analytics Cloud, с алгоритмами машинного обучения, получила признание как выбор клиентов 2024 от Gartner Peer Insights.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer ClickHouse

В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".

Рекомендуется всем, кто ещё не знаком с ClickHouse.

В статье постарался всё кратко и понятно рассказать про ClickHouse.


Читать: https://habr.com/ru/articles/842818/

#ru

@big_data_analysis | Другие наши каналы
Контроль качества разметки на проекте: делай как ОКК

Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.

Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось.

Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.


Читать: https://habr.com/ru/companies/data_light/articles/848234/

#ru

@big_data_analysis | Другие наши каналы
«ИИ можно использовать для помощи в кризисных ситуациях, например, при буллинге или потере работы»

Как в таком чувствительном и социальном направлении, как ментальное здоровье, применять большие данные и искусственный интеллект? И может ли ИИ стать психологом? Эти весьма любопытные темы подняли в свежем выпуске подкаста Data Therapy от X5 Tech, гостем которого стал эксперт по управлению большими данными, работающий над проектом Crisis Trends Line, Алексей Артёмов. А ещё обсудили отличия в работе с данными и внедрении инноваций между компаниями в России и за рубежом, а также подходы к их регулированию.


Читать: https://habr.com/ru/companies/X5Tech/articles/848280/

#ru

@big_data_analysis | Другие наши каналы
Применение эффективного асинхронного web-парсинга при работе с Big Data (библиотека Scrapy)

Привет, Хабр! Сегодня с вами Марина Коробова, участница профессионального сообщества NTA.

Многие компании и организации занимаются сбором большого объёма внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором можно допустить ошибки. В этой статье мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4.


Читать: https://habr.com/ru/companies/sberbank/articles/748406/
👍1
Бутстрап в PySpark

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.


Читать: https://habr.com/ru/companies/X5Tech/articles/849322/

#ru

@big_data_analysis | Другие наши каналы
Как разметить 3D кубойды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных

Команда Data Light регулярно встречается с нестандартными задачами, и в прошлом году мы начали работать над одной из них: наш проект неожиданно перерос из привычной разметки LiDAR облаков (изображений со специальных сканеров) в написание скриптов и созданию нестандартных решений для CVAT.

В этой статье я, Алексей Антюшеня, хочу рассказать, как мы нашли это необычное решение, и поделиться методом, который позволит ML специалистам и коллегам по нише решать сложные задачи по 3D разметке.


Читать: https://habr.com/ru/companies/data_light/articles/849384/

#ru

@big_data_analysis | Другие наши каналы
Разработка пакетов на языке R (бесплатный видео курс)

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.


Читать: https://habr.com/ru/articles/849440/

#ru

@big_data_analysis | Другие наши каналы
Оптимизация аналитики с Oracle
Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Данные – это новая нефть

Данные – это реально нефть и даже лучше.

Выгода от данных больше чем от нефти.

Нефть заканчивается, а данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.


Читать: https://habr.com/ru/articles/849066/

#ru

@big_data_analysis | Другие наши каналы
Lamoda Tech Data Science Meetup #2: материалы встречи

В Lаmoda Tech мы внедряем ML, чтобы сделать онлайн-шоппинг для миллионов пользователей комфортным, увлекательным и вдохновляющим.

На нашем втором Data Science митапе мы обсудили подходы к персонализации в поиске, каталоге и других продуктах, рассказали о применении машинного обучения в ценообразовании, а также поговорили о том, как оптимизировать ML-пайплайны и упростить работу дата сайентистов.
Смотреть записи докладов и презентации

Читать: https://habr.com/ru/companies/lamoda/articles/849398/

#ru

@big_data_analysis | Другие наши каналы
Эксперты объяснили необходимость перехода к цифровой трансформации государства и экономике данных

В МТУСИ объяснили необходимость перехода к цифровой трансформации государства и экономике данных

Сегодня наблюдается постоянный рост объема информации и повышение требований к скорости ее передачи и разработки. Динамизм процессов цифровизации всех видов деятельности и использование большого объема информации диктуют необходимость радикального преобразования способов и технологий управления производством и потреблением на основе цифровых технологий и данных. Группа ученых МТУСИ проанализировала проблему и определила причины и факторы перехода к цифровой трансформации государства и экономике данных.


Читать: https://habr.com/ru/companies/mtuci/articles/849912/

#ru

@big_data_analysis | Другие наши каналы
Data Ocean Nova. Next-gen платформа данных класса Lakehouse

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке


Читать: https://habr.com/ru/companies/glowbyte/articles/850034/

#ru

@big_data_analysis | Другие наши каналы
Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир.

Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.


Читать: https://habr.com/ru/companies/data_light/articles/850068/

#ru

@big_data_analysis | Другие наши каналы
Как устроен бенчмарк LLM? Знакомство с оценкой моделей

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые крупные языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.


Читать: https://habr.com/ru/articles/850218/

#ru

@big_data_analysis | Другие наши каналы
5 лучших инструментов для разметки данных в 2024 году

Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но сам процесс разметки может быть трудоёмким и занимать много времени.

Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее. В этом руководстве мы разберем самые популярные решения для разметки данных, поделимся опытом команды Data Light и разберём, какой стоит выбрать именно вам.


Читать: https://habr.com/ru/companies/data_light/articles/850770/

#ru

@big_data_analysis | Другие наши каналы
2
Эффективное использование вложенных типов данных в SQL

Статья посвящена техникам работы с вложенными типами данных в SQL для более эффективного представления отношений в данных. Рассматривается использование STRUCT для один-к-одному связей и ARRAY для агрегирования данных. Автор также делится примерами кода для реализации этих подходов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы