Data Analysis / Big Data
2.82K subscribers
576 photos
4 videos
2 files
2.73K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Data Fusion Contest 2023. Для опыта и не только… Соревнование от ВТБ с призовым фондом в 2 млн рублей

Я, как новичок, наблюдаю за всем происходящим вокруг, и замечаю, что тренд на IT-специальности огромный. Множество курсов заманивают обещаниями о работе с высокой зарплатой, но спустя полгода после окончания курсов вы понимаете, что на "рынке" полно таких же как вы без опыта, а всем нужны профессионалы. Знакомо?

Я вынужден был изменить свой путь к работе мечты, и я выбрал участие в соревнованиях, чемпионатах и хакатонах, которые приносят не только опыт и знакомства, но и денежные призы и другие бонусы.

В настоящее время проходят два соревнования по машинному обучению с крупным призовым фондом, однако на одном из них такая высокая конкуренция, что для достижения чего-либо нужно тратить на это 24 часа в сутки. Второе же соревнование, Data Fusion Contest 2023, не получило достаточного внимания, хотя формат соревнования непривычный. Это турнир по Adversarial ML между командами атакующих и защищающих ML-моделей на транзакционных данных и содержит две задачи:

🗡 В задаче Атака участники будут создавать атаки на нейросеть, обученную на данных транзакций.


Читать: https://habr.com/ru/post/721174/
dc263cfd-b08c-461a-a299-dc1b28fd17af_1600x500.jpg
23.8 KB
Unlocking data stream processing [Part 2] - realtime server logs monitoring with a sliding window

Read: https://www.dataengineeringweekly.com/p/unlocking-data-stream-processing
Локализация и рывок вперед: как мы разработали новый подход к облачному хранению данных для Hoff

Всем привет! Я Слава Жуков, CDO в eCommerce-агентстве Aero. Сегодня я расскажу, как мы сделали облачное хранилище понятным и структурированным источником информации для Hoff: про единые принципы хранения данных, разработка масштабируемой архитектуры, правильная система алертинга для регулярного контроля качества данных и не только.
Читать полностью

Читать: https://habr.com/ru/post/721230/
Инструменты для MLOps: выбираем между вендорскими и Open Source-решениями

MLOps использует проверенные методы DevOps для автоматизации создания, развертывания и мониторинга конвейеров ML в производственной среде. По мере развития MLOps-инструментов для работы с ним становится больше — как проприетарных, так и Open Source. Из этого разнообразия часто сложно выбрать стек для своего проекта.

Меня зовут Александр Волынский, я технический менеджер Cloud ML Platform в VK Cloud. В этой статье я сравню подходы к работе с MLOps на основе Open Source и проприетарного ПО и расскажу, какие инструменты и почему мы выбрали для Cloud ML Platform.


Читать: https://habr.com/ru/post/720654/
«Топ 10» популярных мужских профессий в столице и регионах в 2023 году

Мир не стоит на месте. На смену многим мужским профессиям, что были актуальны полвека назад, приходят новые и более современные. Если раньше нас сковывали рамки малоразвитых технологий и выбор будущей профессии был невероятно мал, то сейчас есть где разгуляться. В преддверии праздника всех мужчин я задумался, а какие профессии, мы мужчины 2023 года, выбираем. Как известно, столица всегда отличалась от периферии и уровнем развития, и доходом, и мне стало интересно, чем наш выбор в данных городах отличается. Отслеживать резюме я решил на сервисе по поиску работы, из столичных городов взял Москву и Санкт-Петербург, в регионе Тверь и Иваново.  Анализ я провел в программе по аналитике данных своей компании, загрузив туда данные из резюме. На первом этапе я выделил самые популярные профессии в Москве и Санкт-Петербурге, ими стали водитель, менеджер, инженер, специалист, кладовщик, юрист, администратор, шеф-повар, управляющий и замыкает десятку профессия начальник участка.


Читать: https://habr.com/ru/post/721400/
👍1
Real-World Performance Testing for Oracle Analytics Cloud with Apache JMeter

Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.

Read: https://blogs.oracle.com/analytics/post/real-world-performance-testing-for-oracle-analytics-cloud-with-apache-jmeter
👍1
Using a JavaScript Object Notation Web Token with Oracle Fusion Analytics

This post describes using a JavaScript Object Notation (JSON) Web Token, or JWT, with Oracle Fusion Analytics.

Read: https://blogs.oracle.com/analytics/post/using-jwt-token-with-faw
Классификация изображений в облачной системе Google Colab

Нейронку можно обучить не только понимать, где на картинке собака, а где кошка. Можно шагнуть дальше, чтобы обучить ее распознавать данные графиков зрачковых реакций на свет и выдавать результат: норма или отклонение.

Эта статья про сверточные нейронные сети, классификацию изображений с помощью моделей глубокого обучения, а также применение Google Colab для написания кода на Python.


Читать: https://habr.com/ru/post/721940/
Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault

Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля».

Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали.
Узнать всё!

Читать: https://habr.com/ru/post/721950/
Откуда есть пошла аналитика и что отличает DS, DA, BA и SA

Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.


Читать: https://habr.com/ru/post/721338/
Какие профессии выбирают женщины в столице и регионе

Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.

В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.

Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.

В тексте резюме с помощью алгоритмов обработки данных на естественном языке NLP анализировались общие сведения о соискателе, такие как возраст, опыт работы, образование и интересующая должность. Также устанавливались связи между навыками, представленными для каждой должности, и самими должностями.

В результате анализа получилось «топ-10» ведущих вакансий среди женщин.

В Москве и Санкт-Петербурге ими стали: менеджер, администратор, бухгалтер, помощник руководителя, специалист, юрист, делопроизводитель, продавец-консультант, секретарь, графический дизайнер.


Читать: https://habr.com/ru/post/722056/
🔥1
Медицинские датасеты для машинного обучения: цели, типы и способы применения

Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.

В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.


Читать: https://habr.com/ru/post/718438/
Процесс ELT: основные компоненты, преимущества и инструменты создания

Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.

Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).

В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.


Читать: https://habr.com/ru/post/719594/
Генерация DAG в Apache Airflow

Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.

Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.


Читать: https://habr.com/ru/post/722688/
👍2
Синтетические данные для машинного обучения: их природа, типы и способы генерации

Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные.


Читать: https://habr.com/ru/post/721170/
👍1
Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas

Собрали дайджест из лучших статей и новостей о Python с 1 по 15 марта. Дайджест включает статьи и видео на русском и английском языках.

Читать: «Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas»
👍1
Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику

Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.

Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.


Читать: https://habr.com/ru/post/722612/