Аналитика данных / Data Study – Telegram

Аналитика данных / Data Study

8.46K subscribers

404 photos

38 videos

24 files

329 links

Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books

Download Telegram

About

Blog

Apps

Platform

Аналитика данных / Data Study

8.46K subscribers

Аналитика данных / Data Study

Отвечу на вопрос про 9 поток - он будет зимой

Я беру перерыв в плане набора группы, чтобы создать другой продукт 🤓🧑‍💻

Поэтому кто желает уже сейчас идти учиться и иметь доступ к материалам - пользуйтесь скидкой на онлайн-тариф

👍5😁2

3.58K views13:00

Аналитика данных / Data Study

Нереляционные базы данных (NoSQL = Not Only SQL)

Мы привыкли в рамках аналитики над данными обсуждать традиционные (реляционные) базы данных или хранилища, в которых данные хранятся в привычной нам формы таблиц.

Однако в информационных системах большую роль играют другие виды баз данных - нереляционные, которые позволяют хранить данные в более эффективном виде в зависимости от задач.

✏️ Ключ-значение
Структура данных такой базы очень простая и состоит из пар "ключ - значение". Такие базы широко используются для задач кеширования, а также они дают возможно быстро получать нужные данные по ключу и упрощают масштабируемость приложений при быстро нарастающей нагрузки.
➡️ Пример базы: Redis
🔗 Key-value базы данных
🔗 Что такое база данных ключ-значение и про Redis

✏️ Документоориентированные БД
Данные хранятся в виде документов (обычно JSON формат), т.е. наборы пар ключ-значение, что позволяет хранить разнородные по структуре данные. Также это позволяет работать с иерархическими (вложенными) структурами. Широко используются в веб-приложениях.
➡️ Пример базы: MongoDB
🔗 Документоориентированные базы
🔗 Про MongoDB

✏️ Колоночные БД
Предназначены для обработки огромного количества данных, распределенных по разным узлам. Структура данных подобна табличной, но благодаря другому подходу к физическому хранению данных в формате "колонок и колоночных семейств" эти базы данных отлично работают с аналитическими запросами на больших объемах данных. Эффективно используются при работе с Big Data и аналитическими приложениями.
➡️ Пример базы: Clickhouse
🔗 Колоночные СУБД
🔗 Про Clickhouse и сравнение с традиционными СУБД

✏️ Графовые БД
Оптимизированы для работы с разветвленными данными и сложными связями. Идеальный выбор для социальных сетей, рекомендательных систем, а также для решения задач, связанных с анализом связей и путей.
➡️ Пример базы: Neo4j
🔗 Графовые базы данных
🔗 Практическая статья про работу с Neo4j

Обращу ваше внимание еще на то, что каждая NoSQL база данных имеет свой язык запросов и взаимодействия с ней. Здесь нет стандартизированного языка запроса, как SQL для реляционных баз, поэтому каждый инструмент NoSQL СУБД необходимо изучать отдельно.

🔥 за полезный пост, а май вообще объявляю месяцем полезного и разнообразного контента)

🔥40❤8

3.37K views08:47

Аналитика данных / Data Study

🚀 Ускорьте анализ данных с Polars!

⚙️ Если вы работаете с большими объемами данных и вам нужна высокая производительность, то библиотека Polars может быть вашим выбором для операций с данными. Polars предлагает невероятную скорость и эффективность обработки за счет использования многопоточности и ленивых вычислений.

📊 В отличие от pandas, которая является стандартом де-факто в анализе данных на Python, Polars разработана так, чтобы быть более производительной при работе с большими наборами данных. Вот несколько случаев, когда Polars может превзойти pandas:

1️⃣ Многопоточная обработка: Polars эффективно использует все ядра процессора для выполнения операций, таких как группировки, объединения и сортировки, что позволяет обрабатывать данные быстрее.

2️⃣ Ленивые вычисления: Polars применяет концепцию ленивых вычислений, откладывая исполнение до момента, когда это действительно необходимо. Это означает, что вы можете создавать сложные цепочки операций, без непосредственного вычисления промежуточных результатов, что сокращает время исполнения и потребление памяти.

3️⃣ Масштабируемость: При работе с очень большими датасетами Polars демонстрирует лучшую масштабируемость, так как её производительность лишь незначительно уменьшается с ростом объема данных.

🔍 Если вы ищете способ оптимизации вашей работы с данными и готовы освоить новый инструмент, то Polars может стать отличным дополнением к вашим навыкам в data science. Испытайте ее на своих проектах и убедитесь в ее эффективности самостоятельно!

🔗 Полезные ссылки
▪️Официальный сайт Polars с документацией
▪️Сравнение Polars и Pandas
▪️Видео-туториал по функционалу и синтаксису Polars

Что используете вы?
🔥 - pandas
❤️ - polars

🔥23❤2👍2

3.91K views11:57

Аналитика данных / Data Study

Много у нас здесь будущих абитуриентов ВУЗов или выпускников бакалавриата, кто собирается в магистратуру? Есть желание упростить вам жизнь в поиске хорошей программы обучения. Посмотрим по опросу сколько вас здесь 😉. Проголосуйте ниже

Anonymous Poll

выпускник 11 класса

выпускник бакалавриата и планирую поступать в магистратуру

я не выпускник, но мне тоже интересно узнать про программы ВУЗов по IT направлениям

214 voters3.23K views12:34

Аналитика данных / Data Study

Проголосовало уже 137 человек, поэтому давайте сделаем для всех вас общий файл со сборником программ по IT специализациям.

📍С вас: список программ с ссылками на официальные страницы ВУЗов с набором абитуриентов в 2024

📍С меня: Структуризация этого списка в течение мая и публикация его повторно вам в открытый доступ

Почему мне кажется это важным
На своем опыте знаю на сколько сложно бывает искать место, в котором хотелось бы получить высшее образование, которое будет полезным и применимым в работе. Я будучи выпускником 11 класса, на 99% был уверен, что пойду поступать в Бауманку (МГТУ им. Н.Э. Баумана), а о Вышке (НИУ ВШЭ) я узнал случайно за 2 недели до подачи документов.

Подавал документы в итоге в 3 Московских ВУЗа: МФТИ, Бауманка, Вышка
и 2 ВУЗа для подстраховки: Казанский Университет и Пермский Политех

Если бы не тот случайный разговор, я мог бы вообще не узнать о Вышке и ее сильных учебных программах с подтверждением диплома на международном уровне.

Поэтому общим файлом мы явно поможем друг другу узнать о разных ВУЗах, специализациях и крутых возможностях! 😉

Ссылка на файл (доступ редактирования есть у всех) ⤵️
🔗 Бакалавриат/Специалитет (на отдельном листе Магистратура)

Программы ВУЗов по IT специализациям

🔥10👍1

4.05K views09:43

Аналитика данных / Data Study

Пока все в Москве наслаждаются снегопадом, мы наслаждаемся солнышком 😁

Реализовал свою детскую мечту - приобрел кроссовый мотоцикл. Эмоции от покупки и покатушек просто 🔥

🔥23❤11🎉6

3.18K views15:43

Аналитика данных / Data Study

🔐 Укрепляем безопасность наших данных: Практики по обеспечению безопасности баз данных

Привет! Сегодня поговорим о том, как обезопасить то, без чего современный цифровой мир не сможет функционировать адекватно – наши базы данных. 🌐

Возьмем за основу простую истину: данные – это ценность, а значит, они должны быть защищены так же, как и любые другие ценные вещи. Это означает применение комплекса мер:

1️⃣ Регулярное обновление и патчинг. Софт без последних обновлений – подарок для хакеров. Убедитесь, что у вас установлены все последние патчи безопасности.

2️⃣ Шифрование данных. Шифруйте данные во время хранения и передачи. Это создает дополнительный слой защиты, даже если кто-то получит физический доступ к вашим хранилищам.

3️⃣ Аутентификация и контроль доступа. Используйте сильную аутентификацию и минимальные привилегии для доступа к БД. Каждый пользователь должен иметь только те права, которые ему действительно необходимы для работы.

4️⃣ Резервное копирование. Регулярно создавайте резервные копии ваших баз данных. В случае сбоя или атаки вы всегда сможете восстановиться.

5️⃣ Мониторинг и аудит. Отслеживайте и анализируйте активность в БД. Это позволит выявить необычные паттерны, которые могут указывать на попытку вторжения.

Внедряя эти практики в свою работу, вы не только повышаете безопасность данных, но и демонстрируете ответственный подход к управлению информационными активами. Ваша чуткость к вопросам безопасности - это залог доверия клиентов и партнеров. 👥

И помните, в мире данных – ваша осторожность и предусмотрительность это не паранойя, а профессионализм! 💼

🔥10👍1

3.23K views16:16

Аналитика данных / Data Study

Стажировка в Сравни

Привет! Рабочую неделю предлагаю начать с отличной новости - Сравни.ру запускает набор на летнюю стажировку 🔥

Я знаю изнутри про подготовку команд к стажировке и поверьте, что для будущих стажеров будут реализованы супер крутые условия для обучения, практики, решения реальных проектных задач и работы внутри команды специалистов.

Стажировка отлично подойдет для тех, кто хочет развиваться в области аналитики и инжиниринга данных, работать с SQL, Python, BI и визуализацией, выдвигать гипотезы и проверять их с помощью анализа данных.

📍Старт: ~~10 июня~~ 1 июля (успеете закрыть сессию и диплом к этому времени)
💸 Оплачиваемая стажировки и при успешном прохождении - получение оффера в команду Сравни

Успей подать заявку в числе первых 😃

P.S. возможно с некоторыми из вас будем работать совместно в одной команде и развивать клиентскую аналитику уже во время стажировки 😉

📞 Пишите Дарье, если у вас будут вопросы по процессу (не забудьте сказать, что вы от меня) - https://t.iss.one/begishevad

🔥21

3.67K viewsedited 08:12

Подать заявку

Аналитика данных / Data Study

Книги для саморазвития

Поделюсь подборкой книг не по теме IT, которые я прочитал и подчеркнул для себя ценные мысли.

📖 Принцип 80/20 (Ричард Джон Кох)
Основная мысль книги: 20% усилий приносят 80% результата и наоборот. Также описаны примеры и подходы как применять это правило в жизни и бизнесе

📖 45 татуировок продавана (Максим Батырев)
Книга про правила продаж, переговоров с клиентами, небольшие хитрости и тонкости от автора. Каждый описанный случай из профессиональной деятельности описан в виде татуировки, т.е. уроке, который стоит запомнить на всю жизнь и придерживаться его.

📖 Пиши, сокращай (Максим Ильяхов, Людмила Сарычева)
Авторы показывают как создавать сильные тексты, заинтересовывающие читателей в разных форматах: статьи, посты, книги, интервью и т.д.

📖 Думай и богатей (Наполеон Хилл)
Книга про силу мысли, веры, постановки целей и желания, которые приводят людей к успеху. Рассказаны очень много историй известных и успешных людей, например Генри Форда, Стивена Спилберга, Билла Гейтса, про их мышление в момент становления их как личности, которые стремились воплотить свои мечты и цели в реальность

👍11❤2😁2

3.62K views06:54

Аналитика данных / Data Study

Недавно писал пост про методы обеспечения безопасности баз данных.

Еще одним методом обезопасить данные является их маскирование (masking).

Подробнее про это можно почитать в статьях ⬇️

📍Маскирование баз данных
📍Маскировка как надежный способ защиты информации

Аналитика данных / Data Study

🔐 Укрепляем безопасность наших данных: Практики по обеспечению безопасности баз данных

Привет! Сегодня поговорим о том, как обезопасить то, без чего современный цифровой мир не сможет функционировать адекватно – наши базы данных. 🌐

Возьмем за основу простую…

👍8

3.71K viewsedited 06:22

Аналитика данных / Data Study

Хожу в зал с февраля месяца, стал ощутимо видеть прогресс в самочувствии и росте силовых.

До этого 4 года вообще игнорировал спорт, как итог за все это время набралось +15 кг, а они явно лишние 😕

После первых тренировок мышцы прям не могли понять что с ними происходит, все ныло и болело. Сейчас уже пришло все в норму и боль после тренировок есть, но не столь ощутимая.

Сейчас на весах -4 кг учитывая шашлыки на майских 😁

Двигаюсь дальше, еще много нужно сбросить лишнего, а мышц наоборот нарастить. Обещаю не скидывать сюда фотки с голым торсом когда буду выглядеть как Зак Эфрон в фильме «Спасетели Малибу» 😅

Всем здоровья и спорта! 💪

🔥50❤7👍4🎉2

3.41K views16:52

Аналитика данных / Data Study

Совместное использование Python и SQL для анализа данных

SQL остается непревзойденным стандартом для взаимодействия с реляционными БД, предоставляя обширные операции DML и DDL для эффективного манипулирования данными внутри структурированных хранилищ и баз данных.

В отличие от SQL, Python является программным языком общего назначения, что даёт возможность извлечения данных из множества источников, например API-интерфейсы, файловые системы, внешние сервисы или даже документы и изображения.

Python поддерживает разнообразие форматов данных, от JSON и XML до CSV и бинарных форматов, обеспечивая гибкость и универсальность в аналитических задачах.

Объединение SQL и Python в данном контексте предполагает использование SQL для прямого доступа к реляционным базам данных и последующее применение Python для комплексной обработки и анализа результата.

Существует библиотека sqlalchemy (и другие), позволяющая подключаться к базам данных и вызывать SQL запросы внутри Python кода. Результат запросов можно удобно и быстро записывать в структуру Pandas DataFrame для дальнейшего анализа.

Таким образом, владение Python в дополнение к SQL значительно расширяет арсенал инструментов аналитика данных, давая простор для машинного обучения, статистической обработки и создания продвинутых аналитических отчётов.

Что в итоге
🔎 SQL - для работы с данными внутри реляционный базы данных и структурированного хранилища данных.
🐍 Python - возможность работы с данными из разных источников в разных форматах для решения широкого спектра задач.

Развивайте глубокие знания обеих технологий, чтобы эффективно управлять данными и извлекать из них максимальную ценность 🚀

❤20👍12🔥2

3.45K views14:01

Аналитика данных / Data Study

🔍 ETL с помощью SQL: Полная перегрузка данных (Full Reload)

Привет! В сегодняшней публикации рассмотрим процесс полной перегрузки данных между двумя таблицами: исходной (source) и целевой (target) с помощью SQL. Full reload (полная перезагрузка данных в таблице) является одним из способов пакетной (batch) передачи данных. Существуют другие способы инкрементальной загрузки, о которых напишу в следующих постах.

🔄 Первый шаг: Очистка целевой таблицы (target)
Перед началом перегрузки важно убедиться, что целевая таблица пуста, чтобы избежать дублирования данных.

TRUNCATE TABLE target;

📊 Второй шаг: Вставка данных в целевую таблицу (target)
Затем осуществляем перенос данных с помощью простого SQL запроса, который считывает все данных из source таблицы и делает вставку в target

INSERT INTO target SELECT * FROM source;

✅ Третий шаг: Проверка успешности перегрузки
После выполнения перегрузки проверяем, что количество записей совпадает в обеих таблицах. Это самый простой способ убедиться, что данные в source и target таблицах совпадают (по объему). При необходимости можно написать и другие проверки из этого поста, например на контрольные суммы.

SELECT COUNT(*) FROM source;
SELECT COUNT(*) FROM target;

Следуя этим 3 простым шагам, вы сможете эффективно осуществить полную перегрузку данных, что является важной частью ETL-процессов.
Full reload применяется обычно при существовании одного из следующих факторов:
✏️ при первой загрузке данных
✏️ внесены существенные изменения в структуру таблицы или в сами значения данных
✏️ специфика данных в source такая, что при каждой загрузке следует загружать либо бОльшую часть данных, либо всю таблицу целиком
✏️ структура данных такая сложная или наоборот сильно простая, что невозможно корректно определить инкремент для частичной загрузки, поэтому стоит перегружать все целиком

🔥 если пост понравился

🔥38👍2

3.55K views15:01

Аналитика данных / Data Study

🚀 Автоматическое распределение задач ETL в Python с Celery

🔹 Что такое Celery?
Celery - это мощная система распределенных очередей задач, разработанная для асинхронной работы и обработки данных.

🔹 Почему Celery используется в ETL?
ETL задачи иногда требуют значительных ресурсов и времени. Celery позволяет распределить эти задачи между несколькими воркерами, оптимизируя время обработки и увеличивая эффективность системы.

✅ Преимущества Celery:
- ✔ Распределенные задачи: Celery с легкостью распределяет задания по воркерам, что уменьшает время обработки.
- ✔ Асинхронность: Нет необходимости дожидаться завершения предыдущей задачи, что ускоряет ETL процесс.
- ✔ Масштабируемость: В вашей системе может работать столько воркеров, сколько необходимо – просто добавляйте их по мере роста вашего проекта.
- ✔ Устойчивость: Если один из воркеров выйдет из строя, Celery перенаправит задание другому, обеспечивая бесперебойную работу.
- ✔ Персистентность результатов: С Celery вы можете сохранять результаты ваших задач в базу данных или кэш, что упрощает мониторинг их выполнения.

💡 Как это работает?
Вы определяете задачи ETL, а Celery принимает на себя распределение их по рабочим узлам, работающим параллельно. Вы получаете результаты быстрее и можете лучше управлять ресурсами.

🔗 Статья про ETL с помощью Django и Celery
🔗 Работа Celery Worker в Apache Airflow
🔗 Еще немного теории и практики с кодом про Celery

🔥4👍1

3.63K views14:00

Аналитика данных / Data Study

Что может быть лучше чем записаться на Тех. Обслуживание в воскресенье на 8:00 😅

Пытаюсь активировать мозг с помощью кофе и просмотра «Декларации» (👍 кто тоже смотрит)

👍9❤3

3.61K views06:03

Аналитика данных / Data Study

Радуюсь за каждого своего ученика больше чем за себя 🔥🎉💪

Давайте накидаем 🔥 Дарье за её успех и пожелаем профессионального развития 👩‍💻

#кейс

🔥65🎉9👍3

3.56K viewsedited 11:41