Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🧹 Как почистить данные, не удаляя лишние знаки

➡️ Читать дальше

@data_analysis_ml
👍7🔥21
🔍 Ищем выбросы. Критерий Шовене

Обнаружение выбросов и аномалий всегда актуально для исследователя. Если решаются задачи прогнозирования, то удаление нетипичных значений, как правило, повышает точность предсказаний, поскольку данные без аномалий представляют собой нормальный (типичный) объект. Кроме того, статистические характеристики чувствительны к наличию выбросов.

Перед поиском выбросов следует помнить, что не существует формального определения выброса, и тот или иной алгоритм в силу своей жесткости или мягкости может удалять вместе с выбросами и часть нормальных данных или, наоборот, оставлять часть выбросов в данных.

Существуют различные подходы к решению этой проблемы. Разберем один из них — критерий Шовене.

➡️ Читать дальше

@data_analysis_ml
🔥9👍52👎1
🖥 Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

За последние годы у меня накопился довольно обширный опыт работы с данными и тем, что сейчас называют Big Data.

Не так давно также разгорелся интерес к сфере интернет-маркетинга и Сквозной Аналитики, и не на пустом месте. Мой друг из действующего агентства снабдил меня данными и кейсами реальных клиентов, и тут понеслось.
Получается довольно интересно: Azure SQL + dbt + Github Actions + Metabase.

↪️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥21
🖥 Подробный Гайд по визуализации данных. Часть I

Информация окружает нас повсюду: сообщения в мессенджерах, посты в социальных сетях, видеоролики на YouTube, фотографии на телефоне, музыка по дороге на работу, ценники в магазинах и т.д.

В свое время журнал Science (журнал Американской ассоциации содействия развитию науки) подсчитал, что в период с 1986 по 2007 год в мире было накоплено 295 эксабайт (295 миллиардов гигабайт) информации. Если все это распечатать в книгах, то ими можно полностью покрыть территории США и Китая в 13 слоев. Каждый день современный среднестатистический человек получает столько же информации, сколько житель средневековья за всю свою жизнь.

Скорость обмена и доступ к информации значительно изменились. Научные открытии, технологические прорывы в различных отраслях, повышение уровня образованности населения – все это положительно сказывается на развитии общества в целом.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍152🔥2
🏓 Ошибки визуализации данных. Откуда слон на диаграмме Фонда социального страхования?

Бывает так, что важные вещи не воспринимаются всерьез лишь потому, что были не очень доступно объяснены или просто не отложились в памяти.

В данной статье, которая является первой из трех в цикле разбора диаграмм через яркие ассоциации, рассмотрим вот такую диаграмму c 3D эффектом.

Как у вас с воображением? Когда я смотрю на эту диаграмму, я не могу ничего с собой поделать – я дорисовываю мысленно сверху этих столбиков тушку слона… И получается слон с 8 конечностями, пасущийся на салатовом поле с эффектом деграде, огражденный с одной стороны забором..

Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥53
🔥 Полезнейшая Подборка каналов

🖥 Machine learning
@ai_machinelearning_big_data – все о машинном обучении
@data_analysis_ml – все о анализе данных.
@machinelearning_ru – машинное обучении на русском от новичка до профессионала.
@machinelearning_interview – подготовка к собеседования Data Science
@datascienceiot – бесплатные книги Machine learning
@ArtificialIntelligencedl – канал о искусственном интеллекте
@neural – все о нейронных сетях
@machinee_learning – чат о машинном обучении
@datascienceml_jobs - работа ds, ml
@Machinelearning_Jobs

🖥 Python

@pythonl - python
@pro_python_code – погружение в python
@python_job_interview – подготовка к Python собеседованию
@python_testit тесты на python
@pythonlbooks - книги Python
@Django_pythonl django
@python_djangojobs - работа Python
@python_django_work

🖥 Java
@javatg - Java для програмистов
@javachats Java чат
@java_library - книги Java
@android_its Android разработка
@java_quizes - тесты Java
@Java_workit - работа Java
@progersit - шпаргалки ит

🖥 Javascript / front
@javascriptv - javascript изучение
@about_javascript - javascript продвинутый
@JavaScript_testit -тесты JS
@htmlcssjavas - web
@hashdev - web разработка

👣 Golang
@golang_interview - вопросы и ответы с собеседований по Go. Для всех уровней разработчиков.
@Golang_google - go для разработчиков
@golangtests - тесты и задачи GO
@golangl - чат Golang
@GolangJobsit - вакансии и работа GO
@golang_jobsgo - чат вакансий
@golang_books - книги Golang
@golang_speak - обсуждение задач Go

🖥 Linux
@linux_kal - чат kali linux
@linuxkalii - linux kali
@linux_read - книги linux

👷‍♂️ IT работа

@hr_itwork - ит-ваканнсии

🖥 SQL
@sqlhub - базы данных
@chat_sql - базы данных чат

🤡It memes
@memes_prog - ит-мемы

⚙️ Rust
@rust_code - язык программирования rust
@rust_chats - чат rust

#️⃣ c# c++
@csharp_ci - c# c++кодинг
@csharp_cplus чат

📓 Книги

@programming_books_it
@datascienceiot
@pythonlbooks
@golang_books
@frontendbooksit
@progersit
@linux_read
@java_library
@frontendbooksit

📢 English for coders

@english_forprogrammers - Английский для программистов

🖥 Github
@github_code
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍9🔥3
👣 Сократить объем кода при помощи библиотеки PyTorch-Ignite

PyTorch — среда глубокого обучения, которая была принята такими технологическими гигантами, как Tesla, OpenAI и Microsoft для ключевых исследовательских и производственных рабочих нагрузок.

PyTorch-Ignite — это библиотека высокого уровня, помогающая гибко и прозрачно обучать и оценивать нейронные сети в PyTorch. Основная проблема с реализацией глубокого обучения заключается в том, что коды могут быстро расти, становиться повторяющимися и слишком длинными. Рассматривать данную библиотеку буду, решая задачу оценки вероятности отнесения изображения к определенному классу на примере датасета CIFAR10. Чуть позже расскажу о нем подробнее. А сейчас начнем подготовку с установки и импорта необходимых библиотек.

↪️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍122🔥1🌚1
🖥 UDF-функции Spark для обработки данных

Пользовательские функции (User Defined Functions, UDF) – это функции, которые не являются встроенными (уже имеющимися) и создаются самим пользователем во время работы с данными при необходимости получить желаемый результат. UDF-функции обычно создаются для дополнительной обработки и могут содержать в себе несколько встроенных функций одновременно. Например, следующий код отвечает за определение функции, которая возводит все указанные числа в квадрат и возвращает результат в виде списка:

↪️ Читать дальше
➡️ Учебник по spark


@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥1
Управляйте данными: освойте профессию аналитика

Поменяйте профессию, прогнозируйте свое карьерное будущее.

В программе курса:

машинные методы в обработке данныханализ больших данныхпрограммирование на Pythonработа с SQL, Git, Jupyter, PySpark.

Университет Иннополис приглашает вас на курс «Аналитика: искусство управлять данными». Начинаем 21.11.2022, вы можете пройти обучение со скидкой от 50% до 100%.


Оставляйте заявку сегодня, чтобы начать обучение.
👍13🔥21
🖥 Parquet что это такое и зачем пригодился в работе с данными?

Недавно мне потребовалось сделать большую выборку данных (несколько млн. записей) возник вопрос, как сохранить полученный результат для последующей обработки, т.к. на Hive выгрузить такой объем не представлялось возможным. Задача была решена с помощью DS-машины(DatalabAI), c использованием формата хранения данных — Parquet.

↪️ Читать дальше
🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥21👎1
📈 Тесты статистической проверки принадлежности нормальному распределению

Нормальное распределение — это тип распределения, который, вероятно, наиболее часто упоминается и используется статистиками. Вероятно, это первое распределение, которое вы будете изучать на уроках статистики. Что это за раздача, собственно? Его также называют распределением Гаусса, и оно представляет собой распределение случайно сгенерированных переменных, напоминающее колоколообразную кривую. Он характеризуется средним значением и стандартным отклонением. Эти два значения определяют конкретную форму распределения, хотя общая колоколообразная форма не изменится так сильно. Например, небольшое стандартное отклонение относительно среднего дает крутой график, а большое стандартное отклонение дает плоский график.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14👎42🔥1
🏓 30 лучших инструментов больших данных для анализа данных

Возможность поиска и очистки больших данных имеет важное значение в 21 веке. Правильные инструменты являются обязательным условием для конкуренции с конкурентами и добавления преимуществ для вашего бизнеса. Я делаю список из 30 лучших инструментов для больших данных для вас.

➡️ Читать дальше


@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥41
🖥 Как изучить математику для машинного обучения и анализа данных? Подборка книг для любого уровня

Если вы хотите всерьез заняться машинным обучением и анализом данных, без математики вам точно не обойтись. Но какие именно разделы вам понадобятся и как подступиться к ним, не имея опыта? Мы попросили Леонида Иосипоя, академического руководителя Центра непрерывного образования ФКН ВШЭ, составить список книг, которые помогут изучить математику с любым уровнем подготовки.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍125🥰1
🔥 Эффективные SQL-запросы. 12 способов переписать запросы SQL для улучшения их производительности.

Я часто работаю в условиях, когда при настройке производительности нет возможности менять индексы или параметры сервера. Я обычно сталкиваюсь с подобными сценариями, когда имею дело с:

- Базами данных поставщиков.
- “Хрупкими” системами.
- Недостаточным местом на диске.
- Ограниченным инструментарием/непосредственным анализом.
- Возможностями, ограниченными системой безопасности.

Хотя всегда предпочтительней решать проблему производительности в корне, иногда единственным способом, которым я могу воспользоваться для решения проблемы в подобных условиях, является переписывание запросов.

Я решил написать этот краткий пост, потому что хотел бы изначально иметь такой ресурс. Иногда, возможно, в попытках найти способ переписать SQL-запрос данный пост даст толчок вашим творческим идеям.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124🔥1
📱 Как я решил сделать систему коллаборативной фильтрации постов из пабликов «Телеграма» на основе машинного обучения

Идея
В мире наступает революция ИИ, и в какой то момент мне стало казаться, что без меня она наступить не сможет. Поэтому я нашел курс по программированию нейросетей на Питоне Fast.AI, и решил придумать себе небольшой проект, чтобы поучиться на практике.

Я люблю Телеграм. И люблю иногда потупить в какую-нибудь ленту «информационного корма». В разное время я любил поразлагаться на Лепре, Дёти, Пикабу, но в итоге всеми этими источниками сладкого яда я остался недоволен.

И тогда я подумал: в Телеграме ведь куча источников, но Телеграм их не агрегирует по типу Фейсбука. Телеграм не собирает с нас лайки. Да, лайки это чистое зло и гореть им в аду, но иногда так хочется лайкнуть жопу фотомодели, нет?

А рекомендательные сервисы — это одно из направлений ML. А Телеграм — открытая система. Должно быть не сложно, подумал я. Оказалось чуть сложнее чем я думал, но получилось.

Стоит заметить, что я не профессиональный программист, и опыта в программировании у меня не было примерно с 2004 года. Так что, помимо собственно нейросетей, мне пришлось еще и быстренько расчухать основы Питона, вспомнить SQL, погрузиться в Докер и практику CI/CD. Это было потрясающе.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163🔥1
🖥 SQL: 45 бесплатных курсов, тренажеров, тестов

Всем привет! Данная подборка может быть местами с уклоном в аналитику, однако основная часть материалов для специалистов любой сферы!

Все материалы бесплатны, кроме книг, если вы захотите их приобрести.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥32
🖥 PostgreSQL. Основы языка SQL

В пособии рассматриваются следующие темы:

- Введение в базы данных и SQL
- Создание рабочей среды
- Основные операции с таблицами
- Типы данных СУБД PostgreSQL
- Основы языка определения данных
- Запросы
- Изменение данных
- Индексы
- Транзакции
- Повышение производительности


📓 Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Интерактивная визуализация данных

В этой статье я познакомлю вас с некоторыми из наиболее часто используемых библиотек визуализации Python, используя практические примеры и причудливые методы визуализации / виджеты. Весь код, который я использовал для этой статьи, доступен в этом GitHub репозитории.

Читать дальше
🔩 Код из статьи

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥187👍5🕊1
💻 Наука о данных: структура проекта

Когда-то предпочтение было отдано структуре, но, в конце концов, все, что имеет значение, это то, что вам должно быть удобно перемещаться и писать код.
Когда мы думаем о науке/анализе данных, мы часто думаем, что речь идет только о результатах, диаграммах, цифрах, идеях или визуализации. Хотя эти конечные продукты, как правило, являются главным событием, легко сосредоточиться на том, чтобы продукт выглядел красиво, и забыть о качестве кода, возможности повторного использования и возможности сотрудничать с другими, и для этого важна структура проекта.

При этом нет правильного метода структурирования вашего проекта, но у вас должна быть хотя бы некоторая структура, которой мы можем следовать для всего нашего проекта для стандартизации. Вы можете подумать, почему нужно использовать структуру проекта!

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍133🔥1
В чем преимущество контрактов о передаче данных

В последнее время в социальных сетях активно обсуждались контракты о передаче данных. Некоторые дата-саентисты делились мнениями о плюсах и минусах этого новшества и о том, что это вообще такое.

Это малоизученная тема, но я хотел бы поделиться своим опытом и конструктивными советами о том, как начать работу в этом направлении. Контракты о передаче данных — это нечто реальное и ценное, что можно использовать уже сегодня, прилагая меньше усилий, чем кажется.

Что особенного в контрактах о передаче данных
Если вы работаете с данными, скорее всего, вам не раз придется столкнуться с такой ситуацией: данные неверны, и вы не можете установить причину. Кажется, что на начальном этапе сбора данных есть проблема, но никто из коллег не знает, почему она возникла. Что же делать и к кому обратиться?

Поскольку качество предоставляемых данных не всегда безупречно, команды дата-саентистов начинают анализировать существующую инфраструктуру, которая служит другим первоначальным целям. Они “подключают” конвейеры к актуальной оперативной базе данных, выгружают данные в хранилище и выполняют дальнейшие действия.

▶️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥21