Greenplum Backup в Ceph: история миграции
Привет, Хабр! У этой статьи два автора – Василий Меньшаков и Алексей Кузнецов. Мы системные архитекторы развития платформы больших данных в X5 Tech. Решили поделиться своим опытом построения нового хранилища резервных копий для Greenplum. Какие были проблемы у предыдущего решения? Почему мы выбрали Ceph? Какой способ интеграции лучше? С какими проблемами мы сталкивались при внедрении этого инструмента? Что мы настраивали? Читайте подробности в нашей статье.
Читать: https://habr.com/ru/post/705048/
Привет, Хабр! У этой статьи два автора – Василий Меньшаков и Алексей Кузнецов. Мы системные архитекторы развития платформы больших данных в X5 Tech. Решили поделиться своим опытом построения нового хранилища резервных копий для Greenplum. Какие были проблемы у предыдущего решения? Почему мы выбрали Ceph? Какой способ интеграции лучше? С какими проблемами мы сталкивались при внедрении этого инструмента? Что мы настраивали? Читайте подробности в нашей статье.
Читать: https://habr.com/ru/post/705048/
Реидентификация 2.0: как сделать камеры умнее
Реидентификация 2.0: как сделать камеры умнее
Специалисты компании «Криптонит» разработали эффективный подход к обработке видеоданных с помощью искусственных нейронных сетей.
Читать: https://habr.com/ru/post/704914/
Реидентификация 2.0: как сделать камеры умнее
Специалисты компании «Криптонит» разработали эффективный подход к обработке видеоданных с помощью искусственных нейронных сетей.
Читать: https://habr.com/ru/post/704914/
Подборка актуальных вакансий
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
#вакансии #работа
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
#вакансии #работа
Поиск данных в инструментах Data Governance: вызовы и решения
Добрый день!
Меня зовут Никита, я работаю ведущим системным аналитиком в Департаменте управления данными компании Ростелеком.
В данной статье я опишу наш опыт использования Реестра отчетов и Бизнес-глоссария, подводные камни, с которыми мы столкнулись, а также планы по оптимизации рабочих процессов в инструментах Data Governance (далее – DG).
Три года назад ИТ-команда Ростелекома разработала Реестр отчетов и Бизнес-глоссарий на базе Open-Source технологий, и данные модули впоследствии получили широкое распространение в периметре компании. Также была создана Единая точка входа, позволяющая сотрудникам получать быстрый доступ ко всем отчетам и бизнес-терминам, существующим в компании. За два года количество постоянных пользователей Единой точки входа увеличилось с 200 до 2300 человек, при этом количество уникальных посетителей Единой точки входа составляет порядка 400 пользователей еженедельно, и данная цифра постоянно растет.
Инструментарий для работы с данными покрывает значительный объем запросов Ростелекома в разрезе таких сегментов как B2B, B2C, БТИ и т.д. Подробнее можно прочитать здесь и здесь.
Департамент по управлению данными заинтересован не только в оптимизации процессов работы с данными во всей компании, но и в улучшении показателей пользовательского опыта в разрезе DG продуктов. Для этого необходимо модернизировать функционал существующих систем путем поиска точек роста и выпуска обновлений по их устранению. Искать точки роста мы решили при помощи интервьюирования пользователей и сбора обратной связи от них. По результатам были отрисованы карты пользовательских путей (cjm – "customer journey map") в разрезе DG инструментов, а также сформирован бэклог, описывающий основные зоны роста в части систем по управлению данными. В связи с этим, в скором времени планируется ряд обновлений с целью внедрения доработок и увеличения эффективности продуктов.
Читать: https://habr.com/ru/post/704870/
Добрый день!
Меня зовут Никита, я работаю ведущим системным аналитиком в Департаменте управления данными компании Ростелеком.
В данной статье я опишу наш опыт использования Реестра отчетов и Бизнес-глоссария, подводные камни, с которыми мы столкнулись, а также планы по оптимизации рабочих процессов в инструментах Data Governance (далее – DG).
Три года назад ИТ-команда Ростелекома разработала Реестр отчетов и Бизнес-глоссарий на базе Open-Source технологий, и данные модули впоследствии получили широкое распространение в периметре компании. Также была создана Единая точка входа, позволяющая сотрудникам получать быстрый доступ ко всем отчетам и бизнес-терминам, существующим в компании. За два года количество постоянных пользователей Единой точки входа увеличилось с 200 до 2300 человек, при этом количество уникальных посетителей Единой точки входа составляет порядка 400 пользователей еженедельно, и данная цифра постоянно растет.
Инструментарий для работы с данными покрывает значительный объем запросов Ростелекома в разрезе таких сегментов как B2B, B2C, БТИ и т.д. Подробнее можно прочитать здесь и здесь.
Департамент по управлению данными заинтересован не только в оптимизации процессов работы с данными во всей компании, но и в улучшении показателей пользовательского опыта в разрезе DG продуктов. Для этого необходимо модернизировать функционал существующих систем путем поиска точек роста и выпуска обновлений по их устранению. Искать точки роста мы решили при помощи интервьюирования пользователей и сбора обратной связи от них. По результатам были отрисованы карты пользовательских путей (cjm – "customer journey map") в разрезе DG инструментов, а также сформирован бэклог, описывающий основные зоны роста в части систем по управлению данными. В связи с этим, в скором времени планируется ряд обновлений с целью внедрения доработок и увеличения эффективности продуктов.
Читать: https://habr.com/ru/post/704870/
👍1
ChatGPT пройдёт собеседование по Data Science вместо вас
Привет, чемпион!
Возможно, ты сейчас готовишься к собеседованию в какую-нибудь IT-компанию. Скорее всего, тебе будут задавать технические вопросы, поэтому тебе приходится готовиться. Но, возможно, ты всё равно не сможешь ответить на все вопросы правильно. Как быть?!
А слышал ли ты про новую умную chatGPT? А что, если я тебе скажу, что больше готовиться к собеседованиям так усердно не нужно! Что?! Задаваемые тебе вопросы можно делегировать chatGPT.
В общем, нет времени объяснять, давай устроим собес для chatGPT по Data Scienceи узнаем, сможет ли сетка его пройти?! Всё по классике — спрашиваем вопросы по 4 секциям:
* программирование — Python и алгоритмы,
* написание SQL-запросов,
* Data Science и статистика,
* ML System Design.
Читать: https://habr.com/ru/post/705094/
Привет, чемпион!
Возможно, ты сейчас готовишься к собеседованию в какую-нибудь IT-компанию. Скорее всего, тебе будут задавать технические вопросы, поэтому тебе приходится готовиться. Но, возможно, ты всё равно не сможешь ответить на все вопросы правильно. Как быть?!
А слышал ли ты про новую умную chatGPT? А что, если я тебе скажу, что больше готовиться к собеседованиям так усердно не нужно! Что?! Задаваемые тебе вопросы можно делегировать chatGPT.
В общем, нет времени объяснять, давай устроим собес для chatGPT по Data Scienceи узнаем, сможет ли сетка его пройти?! Всё по классике — спрашиваем вопросы по 4 секциям:
* программирование — Python и алгоритмы,
* написание SQL-запросов,
* Data Science и статистика,
* ML System Design.
Читать: https://habr.com/ru/post/705094/
Классика, визуализация и GNN: три решения для ML-модели с графовыми данными
Большинство современных нейросетей построены на основе графовых данных. Однако чтобы спроектировать на их основе сложную систему, ML-модель должна уметь эти данные векторизировать, а это далеко не тривиальная задача.
Мы задали ее командам-участникам хакатона «Цифровой прорыв в ЦФО», который прошел в сентябре в московском офисе VK. И сейчас покажем три, на наш взгляд, лучших решения и подхода к созданию моделей на основе графов.
Читать: https://habr.com/ru/post/703484/
Большинство современных нейросетей построены на основе графовых данных. Однако чтобы спроектировать на их основе сложную систему, ML-модель должна уметь эти данные векторизировать, а это далеко не тривиальная задача.
Мы задали ее командам-участникам хакатона «Цифровой прорыв в ЦФО», который прошел в сентябре в московском офисе VK. И сейчас покажем три, на наш взгляд, лучших решения и подхода к созданию моделей на основе графов.
Читать: https://habr.com/ru/post/703484/
Создаем интерпретатор Python на основе ChatGPT
Вдохновившись постом Building A Virtual Machine inside ChatGPT , я решил попробовать что-то подобное, но на этот раз вместо инструмента командной строки Linux давайте попробуем превратить ChatGPT в интерпретатор Python!
Читать: https://habr.com/ru/post/705252/
Вдохновившись постом Building A Virtual Machine inside ChatGPT , я решил попробовать что-то подобное, но на этот раз вместо инструмента командной строки Linux давайте попробуем превратить ChatGPT в интерпретатор Python!
Читать: https://habr.com/ru/post/705252/
The Taylor Swift ticketing fiasco: causes
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/12/the-taylor-swift-ticketing-fiasco-causes.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/12/the-taylor-swift-ticketing-fiasco-causes.html
Практической опыт проектирования систем графового анализа
Наши коллеги из группы компаний Глоубайт не так давно публиковали достаточно развернутый материал по графовой аналитике в котором содержится базовая теория и приведены области практического применения. В этой статье мы бы хотели поделиться опытом проектирования данного класса систем, какие специализированные движки используем, какую типовую архитектуру применяем и как к ней пришли.
Читать: https://habr.com/ru/post/705802/
Наши коллеги из группы компаний Глоубайт не так давно публиковали достаточно развернутый материал по графовой аналитике в котором содержится базовая теория и приведены области практического применения. В этой статье мы бы хотели поделиться опытом проектирования данного класса систем, какие специализированные движки используем, какую типовую архитектуру применяем и как к ней пришли.
Читать: https://habr.com/ru/post/705802/
Семь прогнозов: что ждет data-инжиниринг в 2023 году
Команда VK Cloud перевела статью о том, что ждет дата-инжиниринг в новом 2023 году. Предсказания на грядущий год редко претендуют на серьезность, но и у них есть своя цель. Они помогают нам отвлечься от повседневности и задуматься о том, на что стоит ставить в долгосрочной перспективе.
Читать: https://habr.com/ru/post/704928/
Команда VK Cloud перевела статью о том, что ждет дата-инжиниринг в новом 2023 году. Предсказания на грядущий год редко претендуют на серьезность, но и у них есть своя цель. Они помогают нам отвлечься от повседневности и задуматься о том, на что стоит ставить в долгосрочной перспективе.
Читать: https://habr.com/ru/post/704928/
Quick and powerful ways to create or improve join keys in your Oracle Analytics datasets
This article describes powerful ways to create or improve join keys in your datasets with the power of the Oracle Analytics Dataset editor and augmented data preparation capabilities.
Read: https://blogs.oracle.com/analytics/post/quick-powerful-ways-to-create-or-improve-join-keys-in-your-oracle-analytics-datasets
This article describes powerful ways to create or improve join keys in your datasets with the power of the Oracle Analytics Dataset editor and augmented data preparation capabilities.
Read: https://blogs.oracle.com/analytics/post/quick-powerful-ways-to-create-or-improve-join-keys-in-your-oracle-analytics-datasets
Oracle
Quick powerful ways to create or improve join keys in your Oracle Analytics datasets
In this post I will show you some powerful ways to create or improve join keys in your datasets with the power of the Oracle Analytics dataset editor and augmented data preparation capabilities.
Миллион записей для змеи
Загрузить миллион записей в питон за секунду?
Нет. Получилось еще быстрее!
У меня есть небольшое хобби - я экспериментирую с машинным обучением применительно к торговле на бирже, в частности, с криптовалютами. После различных наколенных экспериментов я захотел создать удобный инструмент - базу торговых котировок. В процессе работы необходима быстрая загрузка достаточно большого количества данных. Это необходимо для расчетов, генерации данных для обучения, бэк-тестинга и других задач. Количество записей, которые нужно загрузить в питон довольно велико - речь может идти о миллионах и более записей.
Читать: https://habr.com/ru/post/706074/
Загрузить миллион записей в питон за секунду?
Нет. Получилось еще быстрее!
У меня есть небольшое хобби - я экспериментирую с машинным обучением применительно к торговле на бирже, в частности, с криптовалютами. После различных наколенных экспериментов я захотел создать удобный инструмент - базу торговых котировок. В процессе работы необходима быстрая загрузка достаточно большого количества данных. Это необходимо для расчетов, генерации данных для обучения, бэк-тестинга и других задач. Количество записей, которые нужно загрузить в питон довольно велико - речь может идти о миллионах и более записей.
Читать: https://habr.com/ru/post/706074/
Генерируем музыку с помощью Stable Diffusion
Многие уже слышали, а может и пробовали модель Stable Diffusion для генерации картинок из текста. Но знаете ли вы, как с помощью той же модели можно генерировать аудио?
Читать: https://habr.com/ru/post/706168/
Многие уже слышали, а может и пробовали модель Stable Diffusion для генерации картинок из текста. Но знаете ли вы, как с помощью той же модели можно генерировать аудио?
Читать: https://habr.com/ru/post/706168/
Data Engineering Weekly #112
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-112
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-112
Генератор эмбеддингов: как провести качественный анализ метрик сотрудников без прямого доступа к персональным данным
Привет, Хабр! Меня зовут Роман, я работаю в Сбере в блоке HR исследователем данных. Мне и моим коллегам часто приходится иметь дело с персональными данными сотрудников (далее ПДн). А получить допуск к использованию этих данных в различных контурах банка очень непросто: в Сбере серьёзно относятся к безопасности ПДн. Ситуация усложняется тем, что для решения разных задач требуются разные наборы данных. Каждый раз запрашивать допуск — можно, но это долго. Поэтому для упрощения и ускорения работы с использованием ПДн мы решили разработать пайплайн, который анонимизирует данные сотрудников, позволяя проверять их влияние на разные метрики без доступа к чувствительной информации. Результатом работы этого механизма является эмбеддинг.
В статье я показываю особенности работы одной из частей утилиты «Генератор эмбеддингов» в конкретной задаче — поиск похожего сотрудника внутри компании. Подобная задача имеет массу прикладных направлений в бизнесе: поиск преемника, оперативный поиск сотрудника на место уволившегося, профилирование должностей и др. Без использования ПДн здесь, к сожалению, не обойтись. Так, например, для многих сотрудников важную роль играет удалённость офиса банка. И для того чтобы предложить оптимальный вариант работы, нужно учитывать место проживания человека, что уже является ПДн. «Генератор эмбеддингов» помогает оптимизировать этот процесс.
Узнать больше о нашем решении
Читать: https://habr.com/ru/post/706354/
Привет, Хабр! Меня зовут Роман, я работаю в Сбере в блоке HR исследователем данных. Мне и моим коллегам часто приходится иметь дело с персональными данными сотрудников (далее ПДн). А получить допуск к использованию этих данных в различных контурах банка очень непросто: в Сбере серьёзно относятся к безопасности ПДн. Ситуация усложняется тем, что для решения разных задач требуются разные наборы данных. Каждый раз запрашивать допуск — можно, но это долго. Поэтому для упрощения и ускорения работы с использованием ПДн мы решили разработать пайплайн, который анонимизирует данные сотрудников, позволяя проверять их влияние на разные метрики без доступа к чувствительной информации. Результатом работы этого механизма является эмбеддинг.
В статье я показываю особенности работы одной из частей утилиты «Генератор эмбеддингов» в конкретной задаче — поиск похожего сотрудника внутри компании. Подобная задача имеет массу прикладных направлений в бизнесе: поиск преемника, оперативный поиск сотрудника на место уволившегося, профилирование должностей и др. Без использования ПДн здесь, к сожалению, не обойтись. Так, например, для многих сотрудников важную роль играет удалённость офиса банка. И для того чтобы предложить оптимальный вариант работы, нужно учитывать место проживания человека, что уже является ПДн. «Генератор эмбеддингов» помогает оптимизировать этот процесс.
Узнать больше о нашем решении
Читать: https://habr.com/ru/post/706354/
👍1
Подборка актуальных вакансий
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Младший инженер-аналитик SOC
Где: Краснодар
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
#вакансии #работа
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Младший инженер-аналитик SOC
Где: Краснодар
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 2 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
#вакансии #работа
👍1
Как стать аналитиком? (и зачем)
Они носят множество имен: Data Analyst, Data Scientist, Business Analyst и т. д., но всех их объединяет одна основная черта — эти люди занимаются анализом данных. Итак, начнем с главного. Сколько получают аналитики?
Читать: https://habr.com/ru/post/706856/
Они носят множество имен: Data Analyst, Data Scientist, Business Analyst и т. д., но всех их объединяет одна основная черта — эти люди занимаются анализом данных. Итак, начнем с главного. Сколько получают аналитики?
Читать: https://habr.com/ru/post/706856/
Ещё одна подборка не только книг по Deep Learning
Большая книга по теории, большая книга не только по теории, подкасты и курс — под катом 6 рекомендаций для изучения от наших DS-инженеров.
К рекомендациям
Читать: https://habr.com/ru/post/706816/
Большая книга по теории, большая книга не только по теории, подкасты и курс — под катом 6 рекомендаций для изучения от наших DS-инженеров.
К рекомендациям
Читать: https://habr.com/ru/post/706816/
👍1
Functional Data Engineering - A Blueprint
Read: https://www.dataengineeringweekly.com/p/functional-data-engineering-a-blueprint
Read: https://www.dataengineeringweekly.com/p/functional-data-engineering-a-blueprint
Restaurant Industry Salary Analysis by Role using Oracle Analytics Cloud
Find out how you can create informative and exciting dashboards using Oracle Analytics capabilities.
Read: https://blogs.oracle.com/analytics/post/restaurant-industry-salary-analysis-by-role-using-oracle-analytics
Find out how you can create informative and exciting dashboards using Oracle Analytics capabilities.
Read: https://blogs.oracle.com/analytics/post/restaurant-industry-salary-analysis-by-role-using-oracle-analytics
Oracle
Restaurant Industry Salary Analysis by Role using Oracle Analytics
Find out how you can create exciting dashboards using Oracle Analytics capabilities.