Polars: библиотека для работы с данными
Автор статьи сравнивает популярную библиотеку pandas, применяемую в data мире для работы с данными в структуре dataframe, с библиотекой Polars, которая показывает себя лучше при работе с более тяжелыми по объему датасетами
Ссылка на статью
Автор статьи сравнивает популярную библиотеку pandas, применяемую в data мире для работы с данными в структуре dataframe, с библиотекой Polars, которая показывает себя лучше при работе с более тяжелыми по объему датасетами
Ссылка на статью
Хабр
Polars: библиотека для работы с данными, написанная на RUST
Введение Настоящий хреновый программист всегда находится на гребне волны новых технологий. Зачем ему это? Чтобы при случае можно было повыделываться багажом своих знаний, и заработать немного очков...
👍6
После проведения множества консультаций и проработки планов развития в сфере аналитики решил собрать общую дорожную карту аналитика данных с перечисленными компетенциями и полезными ссылками на бесплатные учебные ресурсы.
Каждому на личных консультациях я готовлю дорожные карты каждому отдельно в зависимости от запроса и входных данных ученика (его навыках, опыта работы в сфере).
Сейчас выцепил общий вектор и собрал направления обучения в одном месте.
В зависимости от ваших целей развития вы можете брать из нее отдельные блоки, а можете идти поэтапно, закрывая прописанные навыки в каждом блоке.
Дорожная карта аналитика данных
Каждому на личных консультациях я готовлю дорожные карты каждому отдельно в зависимости от запроса и входных данных ученика (его навыках, опыта работы в сфере).
Сейчас выцепил общий вектор и собрал направления обучения в одном месте.
В зависимости от ваших целей развития вы можете брать из нее отдельные блоки, а можете идти поэтапно, закрывая прописанные навыки в каждом блоке.
Дорожная карта аналитика данных
viridian-math-76c on Notion
Дорожная карта аналитика данных | Notion
Created by Daniil Dzheparov - @data_study
❤47👍14🔥10
Давно в голове сидит идея собрать проект, в котором можно проанализировать навыки, которые требуют и указывают в вакансиях работодатели для аналитиков данных.
В свободное время (которого не так много) начал реализовывать свою идею. Поставил на поток получение данных по новым опубликованным вакансиям каждый день. Правда поставил сначала регион загрузки Питер, поэтому на скрине можете увидеть, что кол-во вакансий там больше чем в Москве. Нужно подсобрать базу вакансий по разным городам/регионам, чтобы было интересней анализировать и была более широкая выборка.
Большая работа будет заключаться в стандартизации названий навыков, хотя первоначально думал что навыки в headhunter более менее уже стандартизированы, но нет(
Хочется сделать рабочий открытый инструмент для вас, чтобы вы могли зайти в него посмотреть актуальные вакансии, оценить какие навыки в них требуются, посмотреть вакансии в вашем регионе под ваш опыт и желаемую ЗП.
Ставьте 🔥 если вам нравится идея и вы хотели бы получить доступ к инструменту после окончания работы над ним
В свободное время (которого не так много) начал реализовывать свою идею. Поставил на поток получение данных по новым опубликованным вакансиям каждый день. Правда поставил сначала регион загрузки Питер, поэтому на скрине можете увидеть, что кол-во вакансий там больше чем в Москве. Нужно подсобрать базу вакансий по разным городам/регионам, чтобы было интересней анализировать и была более широкая выборка.
Большая работа будет заключаться в стандартизации названий навыков, хотя первоначально думал что навыки в headhunter более менее уже стандартизированы, но нет(
Хочется сделать рабочий открытый инструмент для вас, чтобы вы могли зайти в него посмотреть актуальные вакансии, оценить какие навыки в них требуются, посмотреть вакансии в вашем регионе под ваш опыт и желаемую ЗП.
Ставьте 🔥 если вам нравится идея и вы хотели бы получить доступ к инструменту после окончания работы над ним
🔥189❤5👍2
Apache Kafka
Apache Kafka - open-source система, которая выполняет роль брокера сообщений по передаче потоков данных на data проектах.
Смотреть видео про основы Kafka
Apache Kafka - open-source система, которая выполняет роль брокера сообщений по передаче потоков данных на data проектах.
Смотреть видео про основы Kafka
YouTube
Про Kafka (основы)
Apache Kafka - популярный распределенный отказоустойчивый брокер сообщений, используемый в высоконагруженных системах и BigData проектах.
На видео мой рассказ про основы Kafka: что, зачем, как и где.
На видео мой рассказ про основы Kafka: что, зачем, как и где.
👍5🔥2
На работе бывают дни когда срочные ad-hoc задачи отнимают большую часть времени и на плановую работу остается меньше ресурсов. Скорее всего вы тоже сталкиваетесь с таким.
Увы, но однозначного подхода нет что с этим можно сделать и как оптимизировать свой рабочий процесс. Если понимаете, что вы просто закапываетесь в таких внезапных и внеочередных задачах, можно попробовать следующие методы:
1. начать работать только с таск-трекером. т.е. просить каждый такой запрос оформлять в виде задачи на вас. это поможет структурировать работу, но в итоге от запроса до решения будет проходить больше времени, т.к. запросы придется выстраивать в порядке приоритета и решать и по порядку, тем. самым запросы становятся на ряду с запланированными задачами (что как мне кажется самое верное и продуктивное решение)
2. сохранять себе шаблоны ad-hoc запросов и их решений, чтобы в дальнейшем тратить на них меньше времени или вообще автоматизировать решение. например, если вас часто просят выгрузить какие-то данные по одному и тому же фильтру: напишите скрипт, который будет достаточно запустить одной кнопкой, либо вообще поставить его на автоматическую выгрузку с определенным расписанием.
3. игнорировать те обсуждения, в которых вы знаете, что все решится без вас. либо стараться делегировать запрос на других коллег, если есть такая возможность. да, тоже вариант бывает рабочим
я все таки склоняюсь больше к 1-му варианту, когда любая задача, которая требует внимания и погружения в тему, должна оформляться как отдельная задачка и ставится в бэклог работы. а сам бэклог уже сортировать по приоритету этих задач.
Увы, но однозначного подхода нет что с этим можно сделать и как оптимизировать свой рабочий процесс. Если понимаете, что вы просто закапываетесь в таких внезапных и внеочередных задачах, можно попробовать следующие методы:
1. начать работать только с таск-трекером. т.е. просить каждый такой запрос оформлять в виде задачи на вас. это поможет структурировать работу, но в итоге от запроса до решения будет проходить больше времени, т.к. запросы придется выстраивать в порядке приоритета и решать и по порядку, тем. самым запросы становятся на ряду с запланированными задачами (что как мне кажется самое верное и продуктивное решение)
2. сохранять себе шаблоны ad-hoc запросов и их решений, чтобы в дальнейшем тратить на них меньше времени или вообще автоматизировать решение. например, если вас часто просят выгрузить какие-то данные по одному и тому же фильтру: напишите скрипт, который будет достаточно запустить одной кнопкой, либо вообще поставить его на автоматическую выгрузку с определенным расписанием.
3. игнорировать те обсуждения, в которых вы знаете, что все решится без вас. либо стараться делегировать запрос на других коллег, если есть такая возможность. да, тоже вариант бывает рабочим
я все таки склоняюсь больше к 1-му варианту, когда любая задача, которая требует внимания и погружения в тему, должна оформляться как отдельная задачка и ставится в бэклог работы. а сам бэклог уже сортировать по приоритету этих задач.
👍16❤2
Многие в личку спрашивают "а на каком проекте ты сейчас работаешь?", поэтому решил поделиться видео с выступления нашего PO Сергея Фолимонова про продукт CDI, над которым мы сейчас работаем с командой: развиваем, подключаем новые источники данных, прописываем метрики, внедряем полученные данные в продукты компании.
CDI (Customer Data Integration) - мастер-система для идентификации "золотой записи" клиента. Когда у компании есть множество продуктов и в каждой из них есть кусочки данных о клиентах возникает потребность собрать в одном месте единый портрет клиента, который взаимодействует с продуктами компании.
Более подробно рассказано в видео (презентация доклада есть в описании к видео)
CDI (Customer Data Integration) - мастер-система для идентификации "золотой записи" клиента. Когда у компании есть множество продуктов и в каждой из них есть кусочки данных о клиентах возникает потребность собрать в одном месте единый портрет клиента, который взаимодействует с продуктами компании.
Более подробно рассказано в видео (презентация доклада есть в описании к видео)
YouTube
DWH без CDI — деньги на ветер: что Сравни узнали о DWH при внедрении CDI
Честный и откровенный доклад Сергея Фолимонова, Product Owner проекта «Золотая запись клиента», в котором он делится сложностями, возникшими при внедрении системы класса CDI (Customer Data Integration).
Финансовый маркетплейс Сравни внедрил CDI «Единый…
Финансовый маркетплейс Сравни внедрил CDI «Единый…
👍10
Сегодня половину дня лежал в постели и смотрел всякий легкий контент на YouTube, например про сафари в Африке, или кто сколько километров проедет по Москве на 20 литрах бензина. В общем отдыхал от рабочих задач)
Но потом в момент пришло дикое желание изучить что-то новое для себя в плане кодинга и я решил осуществить давнее желание научиться писать логирование для своего кода. На работе при решении аналитических задач такой потребности не возникало, но чем больше беру самостоятельно направление в data engineering и реализацию потоков данных для собственных проектов, тем больше чувствую в этом потребность.
Думал сначала научиться пользоваться встроенной в питон библиотекой logging, но на глаза попалась другая библиотека - loguru
Все оказалось максимально просто) Теперь каждый скрипт буду логами оборачивать
В итоге, могу сказать, что новая информация дает очень сильный всплеск энергии для мозга, а из-за этого как правило приходят новые идеи 😉 Поэтому учитесь всегда новому, иначе это как идти по эскалатору в другую сторону - чуть остановился и сразу поехал назад
Но потом в момент пришло дикое желание изучить что-то новое для себя в плане кодинга и я решил осуществить давнее желание научиться писать логирование для своего кода. На работе при решении аналитических задач такой потребности не возникало, но чем больше беру самостоятельно направление в data engineering и реализацию потоков данных для собственных проектов, тем больше чувствую в этом потребность.
Думал сначала научиться пользоваться встроенной в питон библиотекой logging, но на глаза попалась другая библиотека - loguru
Все оказалось максимально просто) Теперь каждый скрипт буду логами оборачивать
В итоге, могу сказать, что новая информация дает очень сильный всплеск энергии для мозга, а из-за этого как правило приходят новые идеи 😉 Поэтому учитесь всегда новому, иначе это как идти по эскалатору в другую сторону - чуть остановился и сразу поехал назад
👍40❤8
Сегодня с учениками на курсе "Основы анализа данных" начали модуль по Python с основ библиотеки pandas. В ближайший месяц ученики уже самостоятельно смогут
📍извлекать данные из разных источников (базы данных, API, файлы) с помощью питона
📍проводить исследовательский анализ данных (EDA), RFM-анализ
📍чистить и преобразовывать данные из разных форматов в вид очищенного датафрейма
📍загружать данные в базу данных и автоматизировать ETL процессы
📍строить визуализацию при решении аналитических задач
На прошлом, например, потоке в процессе обучения ученик смог автоматизировать на своей работе процесс сбора и рассылки отчетов на ежедневной основе, и благодаря этому получил новые задачи и возможность повышения 💰🔥
Python пригодится каждому в разной степени, но знание основных библиотек для работы с данными вам точно развяжет сильно руки и упростит жизнь 😉
📍извлекать данные из разных источников (базы данных, API, файлы) с помощью питона
📍проводить исследовательский анализ данных (EDA), RFM-анализ
📍чистить и преобразовывать данные из разных форматов в вид очищенного датафрейма
📍загружать данные в базу данных и автоматизировать ETL процессы
📍строить визуализацию при решении аналитических задач
На прошлом, например, потоке в процессе обучения ученик смог автоматизировать на своей работе процесс сбора и рассылки отчетов на ежедневной основе, и благодаря этому получил новые задачи и возможность повышения 💰🔥
Python пригодится каждому в разной степени, но знание основных библиотек для работы с данными вам точно развяжет сильно руки и упростит жизнь 😉
🔥26👍9❤1
Уже третий день с женой выбираем место, где можно провести предстоящие 3 выходных. Пока результата особо нет 😅, понравившееся отели и домики все забронированы, уже, на остальное либо ценник 🔝, либо само по себе место не очень.
Подумал уже бросить поиски и засесть дома с ноутбуком работать... но после осуждающего взгляда жены быстро передумал 😂
Интересно, сколько у нас здесь трудоголиков собралось) Поделитесь своими планами в виде опроса ниже ⤵️
Подумал уже бросить поиски и засесть дома с ноутбуком работать... но после осуждающего взгляда жены быстро передумал 😂
Интересно, сколько у нас здесь трудоголиков собралось) Поделитесь своими планами в виде опроса ниже ⤵️
👍5
Чем займетесь на выходных?
Anonymous Poll
44%
буду работать, учиться
42%
проведу время дома в кругу семьи
13%
активный отдых
18%
буду гулять по городу, ходит в музеи, на концерты, выставки
👍9
Оказывается есть интересная штука в Postgres для работы с http запросами. Можно выполнять запросы и получать на них ответ прямо в базе данных.
Вот здесь прочитал как это делать
Вот здесь прочитал как это делать
Хабр
Отправка и обработка HTTP запросов в PostgreSQL
В этой статье я хочу поделиться некоторыми наработками, которые мы используем в своих проектах, в частности, тем, как отправлять и обрабатывать HTTP-запросы непосредственно из/в PostgreSQL. Сразу...
👍7
Еще когда я был подростком, мне запомнились слова одного важного для меня человека. Он сказал, что цели перед собой нужно завышать, делать их чуть более амбициозными, тогда настоящий желаемый результат будет более досягаем. На пути к такой цели ты можешь достигнуть большего результата, чем ты мог ожидать от себя, поставив как кажется оптимальную перед собой цель.
Например, когда ты хочешь зарабатывать 150к в месяц - это твое желание, исходя из которого можно поставить созвучную цель. Добившись ее, ты крутой - зарабатываешь желаемую сумму. Но если ты исходя из желания зарабатывать 150к поставишь более амбициозную - цель зарабатывать 200к, твое планирование и выполнение шагов по достижению этой цели может привести тебя к 200к. Получается, хотел 150к, поставил цель выше, реализовал ее и получаешь 200к 😃
Такое завышение цели еще объясняет выигрыш в том, что даже если ты не смог достичь амбициозной вершины и дошел до нее только частично, скажем 170к ⬅️ это все равно больше чем ты хотел изначально, а значит метод постановки более амбициозной цели сработал).
Привожу пример в заработке, но на самом деле это можно применять в любой сфере жизни: в спорте, личном развитии, финансовом благополучии и т.д.
Я пользуюсь таким подходом и он действительно много раз срабатывал) иногда завышаю прям сильно планку, недооценивая доступные ресурсы и выходит обратная ситуация, когда сильно завышенная цель может быть достигнута на 10-15% и в такие моменты думаешь что с этим делать...
Надеюсь мысль вам понятна 😃
Например, когда ты хочешь зарабатывать 150к в месяц - это твое желание, исходя из которого можно поставить созвучную цель. Добившись ее, ты крутой - зарабатываешь желаемую сумму. Но если ты исходя из желания зарабатывать 150к поставишь более амбициозную - цель зарабатывать 200к, твое планирование и выполнение шагов по достижению этой цели может привести тебя к 200к. Получается, хотел 150к, поставил цель выше, реализовал ее и получаешь 200к 😃
Такое завышение цели еще объясняет выигрыш в том, что даже если ты не смог достичь амбициозной вершины и дошел до нее только частично, скажем 170к ⬅️ это все равно больше чем ты хотел изначально, а значит метод постановки более амбициозной цели сработал).
Привожу пример в заработке, но на самом деле это можно применять в любой сфере жизни: в спорте, личном развитии, финансовом благополучии и т.д.
Я пользуюсь таким подходом и он действительно много раз срабатывал) иногда завышаю прям сильно планку, недооценивая доступные ресурсы и выходит обратная ситуация, когда сильно завышенная цель может быть достигнута на 10-15% и в такие моменты думаешь что с этим делать...
Надеюсь мысль вам понятна 😃
👍26🔥7❤3😁1
На работе все больше беру на себя data engineering задач по написанию потоков данных.
Раньше было достаточно написать SQL-запрос и документацию, которые передавались инженеру и уже он оборачивал их в python-код или другой ETL-инструмент. Сейчас цель такая, чтобы наша команда стала максимально независима от команды инженеров DWH, тогда все наши решения сможем реализовывать самостоятельно с понятными приоритетами, сроками выполнения задач и будущей поддержкой и развитием.
P.S.: Самое сложное с чем пока сталкиваюсь - это интеграция своего кода в текущий репозиторий. Иногда кажется, что проще написать свою маленькую функцию, чем переиспользовать уже написанные части кода с множеством ненужных тебе аргументов.
Подумываю взять какие-нибудь курсы именно backend python-разработчика или менторство у крутого специалиста, чтобы лучше понимать структуру кода и перенимать лучшие практики
Раньше было достаточно написать SQL-запрос и документацию, которые передавались инженеру и уже он оборачивал их в python-код или другой ETL-инструмент. Сейчас цель такая, чтобы наша команда стала максимально независима от команды инженеров DWH, тогда все наши решения сможем реализовывать самостоятельно с понятными приоритетами, сроками выполнения задач и будущей поддержкой и развитием.
P.S.: Самое сложное с чем пока сталкиваюсь - это интеграция своего кода в текущий репозиторий. Иногда кажется, что проще написать свою маленькую функцию, чем переиспользовать уже написанные части кода с множеством ненужных тебе аргументов.
Подумываю взять какие-нибудь курсы именно backend python-разработчика или менторство у крутого специалиста, чтобы лучше понимать структуру кода и перенимать лучшие практики
🔥34👍7❤1
Кто работает с базой данных PostgreSQL, вам думаю может быть интересна данная статья
Автор рассказывает про устроенную в PostgreSQL подсистему сбора статистики работы сервера. С помощью него можно с легкостью найти ответы на следующие вопросы:
- какие запросы и сколько по времени отрабатывают
- определение нагруженных таблиц
- кол-во транзакций на чтение/запись в базе
- статистика по выполнению функций, использованию индексов
В общем, классный материал, вчера сам на работе сидел копал статистику с целью понимания скорости операций по чтению данных с дисков
Автор рассказывает про устроенную в PostgreSQL подсистему сбора статистики работы сервера. С помощью него можно с легкостью найти ответы на следующие вопросы:
- какие запросы и сколько по времени отрабатывают
- определение нагруженных таблиц
- кол-во транзакций на чтение/запись в базе
- статистика по выполнению функций, использованию индексов
В общем, классный материал, вчера сам на работе сидел копал статистику с целью понимания скорости операций по чтению данных с дисков
👍21🔥5
Часто смотрю разные доклады по IT-тематике на YouTube, в том числе и лекции от экспертов компаний в разных ВУЗах.
У Сравни.ру есть целый курс лекций совместно с НГУ по теме «Практическая сторона современной IT-разработки». Будет полезно посмотреть как новичкам и студентам, так и специалистам с опытом, чтобы подчеркнуть для себя новые подходы в инженерии.
Лекция по основам работы с базами данных
Оставлю ссылку на плей-лист лекций здесь
У Сравни.ру есть целый курс лекций совместно с НГУ по теме «Практическая сторона современной IT-разработки». Будет полезно посмотреть как новичкам и студентам, так и специалистам с опытом, чтобы подчеркнуть для себя новые подходы в инженерии.
Лекция по основам работы с базами данных
Оставлю ссылку на плей-лист лекций здесь
YouTube
Лекции 8 в НГУ: основы работы с базами данных
Внутри лекции:
- Популярные базы данных: MongoDB, PostgreSQL, Redis, Elasticserach, Clickhouse
- Как выбрать базу данных
- Столпы: Индекс, Нормализация, Транзакция
- Object-Relational Mapping
- CAP-теорема
===
Ссылки по теме лекции – ищите в телеграм-канале…
- Популярные базы данных: MongoDB, PostgreSQL, Redis, Elasticserach, Clickhouse
- Как выбрать базу данных
- Столпы: Индекс, Нормализация, Транзакция
- Object-Relational Mapping
- CAP-теорема
===
Ссылки по теме лекции – ищите в телеграм-канале…
👍10🔥7
Еще одна статья про наблюдение за метриками и работой сервера PostgreSQL. Будет полезно DBA, DE, аналитикам, кто сталкивается с задачами оптимизации ресурсов базы.
Топ полезных SQL-запросов для PostgreSQL
Топ полезных SQL-запросов для PostgreSQL
Хабр
Топ полезных SQL-запросов для PostgreSQL
Статей о работе с PostgreSQL и её преимуществах достаточно много, но не всегда из них понятно, как следить за состоянием базы и метриками, влияющими на её оптимальную работу. В статье подробно...
👍5❤1🔥1