Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.84K subscribers

573 photos

4 videos

2 files

2.76K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.84K subscribers

Data Analysis / Big Data

Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода

Собрали дайджест из лучших статей и новостей о Python с 14 по 28 февраля. Дайджест включает статьи и видео на русском и английском языках.

Читать: «Дайджест Python #4: версия 3.12 и свой GPT за 60 строк кода»

👍1

701 views13:31

Data Analysis / Big Data

Practical issues in observational studies

Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/practical-issues-in-observational-studies.html

👍1

689 views17:10

Data Analysis / Big Data

Большие данные мертвы. Это нужно принять

Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую-нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по-прежнему возникают проблемы с пониманием своих данных.

В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.

Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.

А дальше будет и того интереснее.

Читать: https://habr.com/ru/post/720058/

👍1

780 views14:09

Data Analysis / Big Data

Почему буксует трансформация процессов эксплуатации российских телеком-сетей к data-driven network operations

Сегодня у всех без исключения российских телеком-провайдеров в штате находится солидный отдел, или даже целый департамент, посвященный исключительно "(Биг) Дате". В пресс-релизах наши операторы соревнуются за звание самой дата-дривен компании. Но работники сетевой эксплуатации тех же операторов утверждают, что ничего и не слышали о дата-дривен решениях для них. Автор задается вопросом почему - резюмируя свои беседы с работниками сетевой эксплуатации разных операторов.

Читать: https://habr.com/ru/post/720064/

669 views14:50

Data Analysis / Big Data

Тысяча и один справочник в Master Data Management Ростелекома Импортозамещение

Всем привет! В предыдущей статье мы рассказали об использовании коробочного продукта Master Data Management и обещали рассказать о дальнейшем развитии подходов управления справочниками в компании. Сегодня мы сдержим свое обещание.

Система MDM - специализированное программное решение, которое помогает унифицировать нормативно-справочную информацию (НСИ) во всех информационных системах предприятия и организовать управление НСИ

Коробочный продукт мы использовали в течение пяти лет. И спустя эти пять лет наша история создания и развития MDM получила логическое продолжение – мы создали свой программный продукт Master Data Management, о котором сегодня и расскажем вам.

Наступило новое время импортозамещения, поменялись платформы в компании, мы активно включились в процесс и разработали концепцию импортозамещенного MDM.

Нам повезло, что за годы использования существующего решения у нас сложилась успешная методика построения MDM в компании. Поэтому методический подход к организации справочников и взаимодействию с системами источниками и подписчиками остался прежним.

С чего начинался продукт

Разработку мы начали традиционно: с функциональных требования, выбора стека и архитектуры будущего продукта.

Был выбран актуальный на сегодняшний день стек:

·         Java-платформа для разработки - Spring Boot.

·         Фреймворк для фронтэнда MVM - Vue.JS.

·         Для реализации базы данных PostgreSQL.

Почему именно он. Spring Boot предоставляет большую гибкость во внутренней архитектуре приложения и его настройке, базовый проект включает в себя "из коробки" многие вещи, такие как маршрутизацию, соединение с БД, профили, транзакции и многое другое. А почему Vue - из всех наших популярных SPA-фреймворков (AngularJS, Vue.JS и ReactJS) Vue – один из самых простых с лаконичным синтаксисом кода.

Читать: https://habr.com/ru/post/720054/

👍1

660 views11:03

Data Analysis / Big Data

Как спрогнозировать спрос на самокаты и не захламить город, версия Whoosh

Нельзя просто так взять и расставить электросамокаты в городе. Надо, чтобы они находились в нужное время, в нужном месте и в нужном количестве, чтобы выполнять свою транспортную задачу. Спрос на поездки в разных локациях неодинаковый, поэтому если поставить самокаты ровным слоем на улицах города – будет неэффективно. Нельзя также расставить их только в местах сильного пользовательского притяжения, забыв при этом про периферию.

Нужен хоббит алгоритм, который бы рассчитал, какое количество поездок можно ожидать на определенной парковке в определенный временной промежуток.

Меня зовут Никита Зеленский, я руковожу отделом по работе с данными в Whoosh, разработчике технологических решений и операторе микромобильности. Эту статью мы написали вместе с Иваном Маричевым, дата-сайнтистом Whoosh. Он же и автор алгоритма, о котором пойдет речь.

Здесь мы расскажем, как мы реализовывали модель прогнозирования спроса на самокаты, с чем сталкивались при прототипировании, какие модели были протестированы, чем наш случай отличается от прогнозирования спроса в каршеринге, спроса для пополнения запасов в дарксторе и т.п. (Самокат, самокаты Whoosh передают привет!)

История получилась про наши подходы и грабли, которые мы в итоге собрали. Чуть-чуть про технику, чуть-чуть про бизнес – нескучно и с ветерком (как на самокате).

Whoosh!

Читать: https://habr.com/ru/post/720194/

👍4

780 views12:03

Data Analysis / Big Data

Data Engineering Weekly #121

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-121

653 views01:07

Data Analysis / Big Data

Особенности автоматического дифференцирования в PyTorch. Часть 2

Привет! На связи команда «БАРС Груп», и мы продолжаем разговор о фреймворке PyTorch. Это фреймворк ML для Python с открытым исходным кодом, широко применяемый для решения прикладных задач, связанных с нейросетями. Как правило, фреймворки машинного обучения часто заточены либо на удобство использования, либо на скорость. PyTorch же отличается тем, что сочетает в себе оба преимущества. Он поддерживает код как модель, упрощает отладку и согласуется с другими популярными библиотеками научных вычислений, оставаясь при этом эффективным и поддерживая аппаратные ускорители, такие как графические процессоры. При этом каждый аспект PyTorch — это обычная программа Python, находящаяся под полным контролем пользователя.

Это вторая часть статьи-перевода от команды разработчиков PyTorch (Адама Пашке, Сэма Гросса и их единомышленников).
, узнать более

Читать: https://habr.com/ru/post/720676/

723 views08:55

Data Analysis / Big Data

Как устроен виртуальный помощник для data-сервисов в «Магните»

Привет! Меня зовут Александр, я главный системный аналитик в департаменте по работе с данными «Магнита». В этой статье рассказываю про виртуального помощника (чат‑бота), который помогает пользователям корпоративного хранилища данных (КХД) ориентироваться в данных и сервисах департамента и других подразделений, развивающих инструменты для аналитики.

Читать: https://habr.com/ru/post/720730/

❤1

727 views11:46

Data Analysis / Big Data

Who's the richest person in the world right now?

Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/03/whos-the-richest-person-in-the-world-right-now.html

662 views16:07

Data Analysis / Big Data

Data Mesh: что это такое и для чего он нужен инженерам

Команда VK Cloud перевела статью о новом подходе к построению архитектуры данных Data Mesh с помощью lakeFS — системы управления версиями данных с открытым исходным кодом, которая преобразует хранилище объектов в Git-подобные репозитории. Разбираем, что такое Data Mesh, суть этого подхода и как с его помощью повысить эффективность работы с данными.

Читать: https://habr.com/ru/post/720652/

735 views09:01

Data Analysis / Big Data

They call me the boomerang kid

How Oracle has shaped my career and why I wanted to return.

Read: https://blogs.oracle.com/analytics/post/they-call-me-the-boomerang-kid

632 views19:36

Data Analysis / Big Data

Data Fusion Contest 2023. Для опыта и не только… Соревнование от ВТБ с призовым фондом в 2 млн рублей

Я, как новичок, наблюдаю за всем происходящим вокруг, и замечаю, что тренд на IT-специальности огромный. Множество курсов заманивают обещаниями о работе с высокой зарплатой, но спустя полгода после окончания курсов вы понимаете, что на "рынке" полно таких же как вы без опыта, а всем нужны профессионалы. Знакомо?

Я вынужден был изменить свой путь к работе мечты, и я выбрал участие в соревнованиях, чемпионатах и хакатонах, которые приносят не только опыт и знакомства, но и денежные призы и другие бонусы.

В настоящее время проходят два соревнования по машинному обучению с крупным призовым фондом, однако на одном из них такая высокая конкуренция, что для достижения чего-либо нужно тратить на это 24 часа в сутки. Второе же соревнование, Data Fusion Contest 2023, не получило достаточного внимания, хотя формат соревнования непривычный. Это турнир по Adversarial ML между командами атакующих и защищающих ML-моделей на транзакционных данных и содержит две задачи:

🗡 В задаче Атака участники будут создавать атаки на нейросеть, обученную на данных транзакций.

Читать: https://habr.com/ru/post/721174/

695 views20:36

Data Analysis / Big Data

dc263cfd-b08c-461a-a299-dc1b28fd17af_1600x500.jpg

Unlocking data stream processing [Part 2] - realtime server logs monitoring with a sliding window

Read: https://www.dataengineeringweekly.com/p/unlocking-data-stream-processing

614 views03:04

Data Analysis / Big Data

Локализация и рывок вперед: как мы разработали новый подход к облачному хранению данных для Hoff

Всем привет! Я Слава Жуков, CDO в eCommerce-агентстве Aero. Сегодня я расскажу, как мы сделали облачное хранилище понятным и структурированным источником информации для Hoff: про единые принципы хранения данных, разработка масштабируемой архитектуры, правильная система алертинга для регулярного контроля качества данных и не только.
Читать полностью

Читать: https://habr.com/ru/post/721230/

663 views08:32

Data Analysis / Big Data

Инструменты для MLOps: выбираем между вендорскими и Open Source-решениями

MLOps использует проверенные методы DevOps для автоматизации создания, развертывания и мониторинга конвейеров ML в производственной среде. По мере развития MLOps-инструментов для работы с ним становится больше — как проприетарных, так и Open Source. Из этого разнообразия часто сложно выбрать стек для своего проекта.

Меня зовут Александр Волынский, я технический менеджер Cloud ML Platform в VK Cloud. В этой статье я сравню подходы к работе с MLOps на основе Open Source и проприетарного ПО и расскажу, какие инструменты и почему мы выбрали для Cloud ML Platform.

Читать: https://habr.com/ru/post/720654/

692 views08:57

Data Analysis / Big Data

Change Data Capture, with Debezium

Read: https://www.startdataengineering.com/post/change-data-capture-using-debezium-kafka-and-pg/

640 views11:23

Data Analysis / Big Data

«Топ 10» популярных мужских профессий в столице и регионах в 2023 году

Мир не стоит на месте. На смену многим мужским профессиям, что были актуальны полвека назад, приходят новые и более современные. Если раньше нас сковывали рамки малоразвитых технологий и выбор будущей профессии был невероятно мал, то сейчас есть где разгуляться. В преддверии праздника всех мужчин я задумался, а какие профессии, мы мужчины 2023 года, выбираем. Как известно, столица всегда отличалась от периферии и уровнем развития, и доходом, и мне стало интересно, чем наш выбор в данных городах отличается. Отслеживать резюме я решил на сервисе по поиску работы, из столичных городов взял Москву и Санкт-Петербург, в регионе Тверь и Иваново. Анализ я провел в программе по аналитике данных своей компании, загрузив туда данные из резюме. На первом этапе я выделил самые популярные профессии в Москве и Санкт-Петербурге, ими стали водитель, менеджер, инженер, специалист, кладовщик, юрист, администратор, шеф-повар, управляющий и замыкает десятку профессия начальник участка.

Читать: https://habr.com/ru/post/721400/

👍1

690 views17:51

Data Analysis / Big Data

Real-World Performance Testing for Oracle Analytics Cloud with Apache JMeter

Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.

Read: https://blogs.oracle.com/analytics/post/real-world-performance-testing-for-oracle-analytics-cloud-with-apache-jmeter

Real-World Performance Testing for Oracle Analytics Cloud with Apache JMeter

Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.

👍1

708 views01:40

Data Analysis / Big Data

Using a JavaScript Object Notation Web Token with Oracle Fusion Analytics

This post describes using a JavaScript Object Notation (JSON) Web Token, or JWT, with Oracle Fusion Analytics.

Read: https://blogs.oracle.com/analytics/post/using-jwt-token-with-faw

Configuring a JavaScript Object Notation Web Token for Oracle Fusion Analytics

This post guides you through configuring a JavaScript Object Notation (JSON) Web Token for Oracle Fusion Analytics.

695 views09:11