Data Analysis / Big Data
2.82K subscribers
573 photos
4 videos
2 files
2.71K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Дата-аналитик и ML-инженер: разбираем обязанности специалистов

Рассказываем, чем занимается ML-инженер на примере задач в Дзене и разбираемся, как с этим связан дата-аналитик.

Читать: «Дата-аналитик и ML-инженер: разбираем обязанности специалистов»
Дата-аналитик и ML-инженер: разбираем обязанности специалистов

Рассказываем, чем занимается ML-инженер на примере задач в Дзене и разбираемся, как с этим связан дата-аналитик.

Читать: «Дата-аналитик и ML-инженер: разбираем обязанности специалистов»
Массивный курс по управлению данными и обзор новинок от NVIDIA. Дайджест полезных текстов про ML и дата-аналитику

Привет, Хабр! Делюсь новым уловом текстов, которые помогут вам лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. В этой подборке — смесь фундаментальных трудов и более «популярных» статей. Начнем с красочного лонгрида, а закончим — сводом знаний по управлению данными в 10 главах (не пугайтесь).

Еще больше полезных подборок по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь». Там обсуждаем проблемы и лучшие практики организации production ML-сервисов, а также обмениваемся опытом. Присоединяйтесь к более 1 000 специалистов, развивающим ML- и Data-направления в российских и зарубежных компаниях.


Читать: https://habr.com/ru/companies/selectel/articles/730664/
Мы развиваемся и нам в команду требуются новые люди! Сейчас мы ищем двух человек

Если вы разбираетесь в темах Python / Data Science / AI и хотите рассказывать об этом другим разработчикам, создавая целое сообщество единомышленников то, возможно, вас заинтересует эта вакансия: https://tprg.ru/GEZL

А если вам хочется вместе с нами развивать наши каналы в Telegram и делиться с подписчиками только самыми лучшими материалами, то обратите внимание на эту вакансию (особенно если интересуетесь мобильной разработкой): https://tprg.ru/bqed

#вакансии #работа
DataHub: организовываем доступ к публичным данным через Predefined Queries

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу, каким образом можно организовать доступ для внешних пользователей к репозиториям данных через Predefined Queries.


Читать: https://habr.com/ru/articles/730858/
The Next Big Things for Oracle Cloud Platform

Recap of The Next Big Things session at Oracle Openworld 2018. Five exciting demos including: content experience, digital assistants, blockchain applications, data science development platform, and visual development.

Read: https://blogs.oracle.com/bigdata/post/the-next-big-things-for-oracle-cloud-platform
👍1
DataHub: веб-песочница для тех, кто изучает SQL

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу на что способен веб-редактор MySQL хранилища и почему это отличный инструмент для работы тем, кто изучает SQL.


Читать: https://habr.com/ru/articles/731158/
Как рассчитать скидку за первый и последний этаж почти без формул в Excel

В продолжение рассказов о Big Data для простых смертных предлагаем попробовать себя в решении жилищного вопроса: как отличаются цены за квадратный метр на разных этажах. Житейская польза от этой заметки заключается в получении без особых усилий и без специальных навыков достоверных знаний об ожиданиях на рынке недвижимости. Государство скрывает цены реальных сделок, но иметь адекватное представление о настроениях продавцов можно и без знакомого опытного риелтора, сына маминой подруги.

Статья представляет собой простую иллюстрированную инструкцию по решению задачи анализа этажности городской застройки, в т.ч. расчет скидок за первый и последний этажи. В качестве модельного города принят Брянск. Расчетный файл прилагается и его листы пронумерованы в последовательности выполненных операций. Шаблон расчета легко адаптировать для другого города и вида недвижимости.

Изложенный подход призван аргументировать представление о том, что Big Data не является прерогативой дата сатанистов, но в известной степени доступен неспециалистам. Материал может быть интересен всем, кроме работающих с данными профессионально. Приведенные приемы будут востребованы в работе с данными для риелторов и оценщиков без навыков программирования. Технохардкор в данном случае заключается не в инсайтах применения фреймворков типа MapReduce, а в реализации всего пайплайна средствами общеизвестного офисного приложения.

Инструкция состоит из двух частей. В первой части изложен порядок подготовки, первичного ознакомления с данными и уточнения цели исследования. Во второй части дается расчет скидки за этаж.


Читать: https://habr.com/ru/articles/731100/
🔥1
Как мы делали скоринг на микросервисной архитектуре руками не-программистов

2023 год — год противоречивых сигналов для будущего IT-отрасли и, в частности, занятости айтишников.

С одной стороны, с поголовной цифровизацией всех сфер и процессов экономики растёт спрос на разработчиков — что, безусловно, плюс для айтишников.

С другой — необходимость участия программистов во многих прежде «аналоговых» процессах как таковая стала превращаться в препятствие для цифровизации. Естественным образом, со стороны заказчиков и работодателей возник спрос на решения, которые позволят оцифровывать и автоматизировать процессы без необходимости заменять весь прежний штат программистами. Компании ищут выходы где угодно, включая надежды на то, что программистов заменят нейросети.

В реальности все, кто хоть немного разбираются в вопросе, понимают, что до этого далеко: во многих чувствительных областях нейросети, возможно, никогда не заменят человека — потому что с человека можно спросить за ошибки, а с нейросети взятки гладки. Реальным ответом на запрос рынка видятся сегодня low-code и no-code — то есть, технологии создания ПО с помощью визуального редактора с минимальным написанием кода или без написания кода вообще.

С другой стороны, стандартом становится постепенный переход к микросервисной архитектуре. Это подход, при котором единое приложение строится как набор небольших сервисов, каждый из которых работает в собственном процессе и коммуницирует с остальными используя легковесные механизмы, как правило HTTP. Эти сервисы построены вокруг бизнес-потребностей и развертываются независимо с использованием полностью автоматизированной среды. Существует абсолютный минимум централизованного управления этими сервисами. Сами по себе эти сервисы могут быть написаны на разных языках и использовать разные технологии хранения данных.


Читать: https://habr.com/ru/articles/731596/
Putting a face to data stories with AI avatars: Oracle Analytics & Synthesia

Find out how the Oracle Analytics team helps you break down barriers between data and consumers.

Read: https://blogs.oracle.com/analytics/post/putting-a-face-to-data-stories-with-ai-avatars-oracle-analytics-synthesia
Проблемы приземления данных из Kafka и их решения на Apache Flink

Меня зовут Вадим Опольский и я работаю data-инженером и участвую в проведении онлайн-тренингов. В статье есть ссылки на воркшопы, чтобы повторить практические вещи из Apache Flink, о которых я расскажу. А обсудим мы следующие проблемы:

➜ Неравномерный поток данных;

➜ Потери данных при передаче их из Kafka в storage;

➜ Масштабирование и скейлинг;

➜ Backpressure;

➜ Мелкие файлы на HDFS;

➜ Стриминговый процессинг.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/728520/
Новые горизонты в оценке рисков: как источники данных помогают создать точные модели

На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» — Андрей Бояренков, Владимир Иванов и Иван Луговский. В этой статье мы расскажем про наш опыт улучшения показателей ранжирования моделей оценки вероятности дефолта заемщика/скоринговых моделей за счет использования различных источников данных и объединения их в отдельные модули.


Читать: https://habr.com/ru/companies/otkritie/articles/732216/
Семантический слой для Аналитики ключевых метрик – dbt Metrics vs. Cube

Привет! Сегодня речь пойдет о семантическом слое метрик. В публикации рассмотрим на практике грани интересной темы:

— Что такое семантический слой, и в чем разница между Метрикой и Витриной данных

— Пути формирования метрик: SQL (ad-hoc), UI, dbt Metrics, Cube

— Примеры декларативной конфигурации в YAML и использования метрик

— На что обращать внимание при выборе решения: Стек технологий, Доступность vs. Выразительнось, Гибкость vs. Скорость


Читать: https://habr.com/ru/companies/otus/articles/732066/
Мнение об интенсивах Академии Яндекса + выпускной проект

Всем привет! Я выпускник данной Академии и победитель в конкурсе проектов. Я получил уникальный опыт, который будет полезен начинающим специалистам

Этот обзор будет полезен тем, кто еще учится в вузе или школе, а также тем у кого есть дети или знакомые данного возраста - Академия рассчитана на молодых людей 8 класса - 2 курса

Предвкушаю вопросы, поэтому я сразу говорю - обзор не реклама, ссылок не будет. В статье будут и минусы. Я хочу поделиться мнением, попробовать себя в написании статей, а также рассказать о своем проекте, но об этом лишь в конце статьи - проект покажет реальный уровень выпускников академии

Все что будет дальше является сугубо личным мнением. Приступим!


Читать: https://habr.com/ru/articles/732454/