Data Analysis / Big Data
2.84K subscribers
566 photos
4 videos
2 files
2.77K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Greenplum Backup в Ceph: история миграции

Привет, Хабр! У этой статьи два автора – Василий Меньшаков и Алексей Кузнецов. Мы системные архитекторы развития платформы больших данных в X5 Tech. Решили поделиться своим опытом построения нового хранилища резервных копий для Greenplum. Какие были проблемы у предыдущего решения? Почему мы выбрали Ceph? Какой способ интеграции лучше? С какими проблемами мы сталкивались при внедрении этого инструмента? Что мы настраивали? Читайте подробности в нашей статье.


Читать: https://habr.com/ru/post/705048/
Реидентификация 2.0: как сделать камеры умнее

Реидентификация 2.0: как сделать камеры умнее

Специалисты компании «Криптонит» разработали эффективный подход к обработке видеоданных с помощью искусственных нейронных сетей.


Читать: https://habr.com/ru/post/704914/
Подборка актуальных вакансий

Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта

Системный аналитик
Где: Москва
Опыт: от 1 года

Системный аналитик
Где: Москва
Опыт: от 1 года

Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года

Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

#вакансии #работа
Поиск данных в инструментах Data Governance: вызовы и решения

Добрый день!

Меня зовут Никита, я работаю ведущим системным аналитиком в Департаменте управления данными компании Ростелеком.

В данной статье я опишу наш опыт использования Реестра отчетов и Бизнес-глоссария, подводные камни, с которыми мы столкнулись, а также планы по оптимизации рабочих процессов в инструментах Data Governance (далее – DG).

Три года назад ИТ-команда Ростелекома разработала Реестр отчетов и Бизнес-глоссарий на базе Open-Source технологий, и данные модули впоследствии получили широкое распространение в периметре компании. Также была создана Единая точка входа, позволяющая сотрудникам получать быстрый доступ ко всем отчетам и бизнес-терминам, существующим в компании. За два года количество постоянных пользователей Единой точки входа увеличилось с 200 до 2300 человек, при этом количество уникальных посетителей Единой точки входа составляет порядка 400 пользователей еженедельно, и данная цифра постоянно растет.

Инструментарий для работы с данными покрывает значительный объем запросов Ростелекома в разрезе таких сегментов как B2B, B2C, БТИ и т.д. Подробнее можно прочитать здесь и здесь.

Департамент по управлению данными заинтересован не только в оптимизации процессов работы с данными во всей компании, но и в улучшении показателей пользовательского опыта в разрезе DG продуктов. Для этого необходимо модернизировать функционал существующих систем путем поиска точек роста и выпуска обновлений по их устранению. Искать точки роста мы решили при помощи интервьюирования пользователей и сбора обратной связи от них. По результатам были отрисованы карты пользовательских путей (cjm – "customer journey map") в разрезе DG инструментов, а также сформирован бэклог, описывающий основные зоны роста в части систем по управлению данными. В связи с этим, в скором времени планируется ряд обновлений с целью внедрения доработок и увеличения эффективности продуктов.


Читать: https://habr.com/ru/post/704870/
👍1
ChatGPT пройдёт собеседование по Data Science вместо вас



Привет, чемпион!

Возможно, ты сейчас готовишься к собеседованию в какую-нибудь IT-компанию. Скорее всего, тебе будут задавать технические вопросы, поэтому тебе приходится готовиться. Но, возможно, ты всё равно не сможешь ответить на все вопросы правильно. Как быть?!

А слышал ли ты про новую умную chatGPT? А что, если я тебе скажу, что больше готовиться к собеседованиям так усердно не нужно! Что?! Задаваемые тебе вопросы можно делегировать chatGPT.

В общем, нет времени объяснять, давай устроим собес для chatGPT по Data Scienceи узнаем, сможет ли сетка его пройти?! Всё по классике — спрашиваем вопросы по 4 секциям:
* программирование — Python и алгоритмы,
* написание SQL-запросов,
* Data Science и статистика,
* ML System Design.


Читать: https://habr.com/ru/post/705094/
Классика, визуализация и GNN: три решения для ML-модели с графовыми данными

Большинство современных нейросетей построены на основе графовых данных. Однако чтобы спроектировать на их основе сложную систему, ML-модель должна уметь эти данные векторизировать, а это далеко не тривиальная задача.

Мы задали ее командам-участникам хакатона «Цифровой прорыв в ЦФО», который прошел в сентябре в московском офисе VK. И сейчас покажем три, на наш взгляд, лучших решения и подхода к созданию моделей на основе графов.


Читать: https://habr.com/ru/post/703484/
Создаем интерпретатор Python на основе ChatGPT

Вдохновившись постом Building A Virtual Machine inside ChatGPT , я решил попробовать что-то подобное, но на этот раз вместо инструмента командной строки Linux давайте попробуем превратить ChatGPT в интерпретатор Python!


Читать: https://habr.com/ru/post/705252/
Практической опыт проектирования систем графового анализа

Наши коллеги из группы компаний Глоубайт не так давно публиковали достаточно развернутый материал по графовой аналитике в котором содержится базовая теория и приведены области практического применения. В этой статье мы бы хотели поделиться опытом проектирования данного класса систем, какие специализированные движки используем, какую типовую архитектуру применяем и как к ней пришли.


Читать: https://habr.com/ru/post/705802/
Семь прогнозов: что ждет data-инжиниринг в 2023 году

Команда VK Cloud перевела статью о том, что ждет дата-инжиниринг в новом 2023 году. Предсказания на грядущий год редко претендуют на серьезность, но и у них есть своя цель. Они помогают нам отвлечься от повседневности и задуматься о том, на что стоит ставить в долгосрочной перспективе.


Читать: https://habr.com/ru/post/704928/
Миллион записей для змеи

Загрузить миллион записей в питон за секунду?
Нет. Получилось еще быстрее!

У меня есть небольшое хобби - я экспериментирую с машинным обучением применительно к торговле на бирже, в частности, с криптовалютами. После различных наколенных экспериментов я захотел создать удобный инструмент - базу торговых котировок. В процессе работы необходима быстрая загрузка достаточно большого количества данных. Это необходимо для расчетов, генерации данных для обучения, бэк-тестинга и других задач. Количество записей, которые нужно загрузить в питон довольно велико - речь может идти о миллионах и более записей.


Читать: https://habr.com/ru/post/706074/
Генерируем музыку с помощью Stable Diffusion

Многие уже слышали, а может и пробовали модель Stable Diffusion для генерации картинок из текста. Но знаете ли вы, как с помощью той же модели можно генерировать аудио?


Читать: https://habr.com/ru/post/706168/
Генератор эмбеддингов: как провести качественный анализ метрик сотрудников без прямого доступа к персональным данным

Привет, Хабр! Меня зовут Роман, я работаю в Сбере в блоке HR исследователем данных. Мне и моим коллегам часто приходится иметь дело с персональными данными сотрудников (далее ПДн). А получить допуск к использованию этих данных в различных контурах банка очень непросто: в Сбере серьёзно относятся к безопасности ПДн. Ситуация усложняется тем, что для решения разных задач требуются разные наборы данных. Каждый раз запрашивать допуск — можно, но это долго. Поэтому для упрощения и ускорения работы с использованием ПДн мы решили разработать пайплайн, который анонимизирует данные сотрудников, позволяя проверять их влияние на разные метрики без доступа к чувствительной информации. Результатом работы этого механизма является эмбеддинг.

В статье я показываю особенности работы одной из частей утилиты «Генератор эмбеддингов» в конкретной задаче — поиск похожего сотрудника внутри компании. Подобная задача имеет массу прикладных направлений в бизнесе: поиск преемника, оперативный поиск сотрудника на место уволившегося, профилирование должностей и др. Без использования ПДн здесь, к сожалению, не обойтись. Так, например, для многих сотрудников важную роль играет удалённость офиса банка. И для того чтобы предложить оптимальный вариант работы, нужно учитывать место проживания человека, что уже является ПДн. «Генератор эмбеддингов» помогает оптимизировать этот процесс.
Узнать больше о нашем решении

Читать: https://habr.com/ru/post/706354/
👍1
Подборка актуальных вакансий

Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта

Младший инженер-аналитик SOC
Где: Краснодар
Опыт: от 1 года

Системный аналитик
Где: Москва
Опыт: от 1 года

Системный аналитик
Где: Москва
Опыт: от 1 года

Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет

Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет

Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет

#вакансии #работа
👍1
Как стать аналитиком? (и зачем)

Они носят множество имен: Data Analyst, Data Scientist, Business Analyst и т. д., но всех их объединяет одна основная черта — эти люди занимаются анализом данных. Итак, начнем с главного. Сколько получают аналитики?


Читать: https://habr.com/ru/post/706856/
Ещё одна подборка не только книг по Deep Learning

Большая книга по теории, большая книга не только по теории, подкасты и курс — под катом 6 рекомендаций для изучения от наших DS-инженеров.
К рекомендациям

Читать: https://habr.com/ru/post/706816/
👍1