Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🖥 Наиболее полный гайд по работе с SQL в Data Science

Думаете, SQL не нужен в Data Science? Ошибаетесь. Расскажем об основах SQL и на примерах покажем, как использовать этот инструмент при работе с большими наборами данных.

SQL правят в стране Корпоративных Данных. До развития NoSQL это был основной язык запросов для извлечения данных из реляционных БД.

Реляционные базы данных представляют собой коллекции двумерных таблиц наподобие Excel или датасетов. В каждой такой таблице есть фиксированное количество столбцов и любое возможное число строк.

В качестве примера рассмотрим производителей автомобилей. У каждого изготовителя будет база данных, которая состоит из множества таблиц (например, по одной для каждой выпущенной модели автомобиля). В каждой из этих таблиц будут храниться всевозможные показатели продаж конкретной модели автомобиля в разных странах.

High Scalability опросили ИТ-лидеров на DeveloperWeek о тенденциях использования баз данных в 2021 году и обнаружили, что SQL по-прежнему используется в более чем 60% времени. Стратегия разнородных баз данных (SQL + NoSQL) применяется в 75% случаев. Это неудивительно. Отличающиеся типы баз данных предназначаются для неодинаковых целей.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥21
Изменение формы данных с помощью Python: широкие и длинные

Существует два фундаментальных подхода к хранению данных: широкие и длинные данные. Узнайте, что это значит и как работать с этими данными.

В этой статье мы рассмотрим:

- что такое широкие и длинные данные

- почему существует необходимость в двух разных форматах данных

- как преобразовать данные из одного типа в другой


➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍191🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Расширения и инструменты Jupiter, облегчающие жизнь

Если вы работаете с данными, вы вероятно слышали о блокнотах Jupyter. Jupiter - это интерактивная вычислительная платформа на базе интернета, поддерживающая более 40 языков программирования включая Python. Я лично использую записные книжки Jupyter для создания прототипов и выполнения специальных задач на Python. В этой статье будут озвучены некоторые расширения Jupyter, которые используются ежедневно, чтобы сделать жизнь проще и эффективнее.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7👎32
📖 Теоретический минимум по Big Data. Все что нужно знать о больших данных

Хотите узнать о больших данных и механизмах работы с ними? Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data.

➡️ Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5👎32
🖥 Github теперь в телеграм!

➡️ Для вас собраны актуальные проекты , которые реально помогут в разработке.

➡️ С уже готовой кодовой базой очень легко работать, код весьма понятен, в нём просто ориентироваться

➡️ Лучшие обучающие репозитории разбитых по языкам программирования

➡️ Перейти
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71👎1🔥1
🖥 Продвинутая спортивная визуализация с Python, Matplotlib и Seaborn

Вы видели все это в новостях: средства массовой информации в восторге от эпохи появления спортивной аналитики, коммерческие рекламные объявления с изображением инструментов больших данных, таких как карманный калькулятор, умелое использование многомерных камер для сбора информации о каждом поте спортивных игроков * введите имена героев вашего детства: Л. Месси, Леброн Джеймс, Том Брэди и т. д. * и увеличьте их производительность в 10 раз.

Хотя очевидно, что мы еще не достигли этого, спортивная аналитика прошла долгий путь, помогая командам в отношении принятия решений, которые традиционно делались из-за «интуитивного» чувства или приверженности прошлым традициям относительно того, какие игроки должны составлять, торговать, развивать, тренировать и какую систему играть.

В этом посте я не буду разрабатывать алгоритм прогнозирования насколько вероятно (маловероятно), что Тоттенхэм попадет в топ-4 премьер-лиги или как создать идеальную команду Jets для 2018 года. Вместо этого я представлю некоторые методы визуализации, которые помогут нам подготовить привлекательные и проницательные графики, которые понравятся вашим любителям спорта.

➡️ Читать дальше
🔩 Код из статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥42
О важности датасета и о том, как сделать его лучше. Наш опыт

Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.

Краеугольный камень любого проекта, связанного с компьютерным зрением - датасет. Это не просто набор изображений, который передается нейросети. Датасет - это базовый блок, который определит качество и точность определения объектов в рамках вашего проекта.

Нельзя просто собрать набор изображений из гугла и успокоиться - полученная куча изображений не будет нести гордое название «датасет» и испортит проект, вынуждая разработчика и компьютерное железо тренировать модель снова и снова.

Часто работа над датасетом занимает самое большое количество времени, чем над каким-либо еще этапом разработки системы компьютерного зрения, и это неспроста. Чем лучше будет подготовлен датасет, тем меньше времени потребуется на отладку модели, ее тренировки, поиск и устранение неточностей распознавания, а также в целом сделает модель «умнее».

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍121🔥1
🖥 Машинное обучение. Паттерны проектирования

Приводимые в книге паттерны проектирования отражают лучшие практические подходы к решению типичных задач машинного обучения. Указанные паттерны, реализованные в программном коде, сконцентрировали опыт сотен экспертов в простые и легкодоступные советы. Книга содержит подробный разбор 30 паттернов, служащих для представления данных и задач, тренировки моделей, отказоустойчивого обслуживания, обеспечения воспроизводимо-сти и искусственного интеллекта. Каждый паттерн включает в себя постановку задачи, ряд потенциальных решений и рекомендации по выбору технического приема, наилучшим образом подходящего к данной ситуации.

📓 Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥1
🖥 Как устроена виртуальная машина SQLite

SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет её и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, всё-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91🔥1
Учимся применять ИИ для автоматизации процессов

Университет Иннополис приглашает 2 ноября в 14:00 на открытое занятие. Разберем кейс по обработке данных с помощью Python. Встречу проведет эксперт с 20-летним опытом в IT, архитектор данных Азат Якупов.

Что вас ждет на вебинаре:

— Проведем обзор сферы BigData и трендов

— Рассмотрим, как и где применяется искусственный интеллект

— Разберем кейс по обработке данных с помощью Python

— Познакомимся с инструментами работы с большими данными

Регистрация на вебинар 2 ноября: https://stc.innopolis.university/dataanalyst_webinar?utm_source=telegram&utm_medium=birzha&utm_campaign=data_analysis_ml
👍102🔥2
🖥 Большие данные: 70 невероятных бесплатных источников данных.

Вся отличная визуализация данных начинается с хороших, чистых данных. Большинство считают, что сбор больших данных будет трудной работой, но это неправда. На сайте доступны тысячи бесплатных наборов данных, готовых для анализа и просмотра любым пользователем.

Здесь мы собрали 70 источников свободных данных на правительство, преступности, здравоохранения, финансовых и экономических данных, маркетинга и социальных сетей, журналистики и средств массовой информации, недвижимости, каталог, обзор бизнеса и многое другое.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍72
🏓 Что ждет data-инжиниринг в будущем

Что такое data-инжиниринг

Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍132🔥1
🖥 Нейронные сети для начинающих. Работа с изображениями в OpenCV. Алгоритм Canny Edge Detector

Вот небольшой список задач, которые будут разобраны ниже:

- Преобразование изображения в оттенки серого.
- Уменьшение размерности изображения (в пикселях) в 4 раза.
- Нахождение и выделение (рамкой) самого тёмного объекта на изображении.

➡️ Читать дальше
🔩 Код из статьи
➡️ 2 часть
➡️ 1 часть

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥31
👣 Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделения документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.

А также сравню по точности два подхода: Fine-Tune Bert и получение предобученных эмбеддингов и их классификация с использованием полносвязной нейронной сети.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍141🔥1
⭐️ 9 продуктов для создания дашбордов

Семь Open Source и два low-code-продукта для визуализации BI-аналитики.

Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍231🔥1
🖥 Mito: быстрый анализ данных на Python

Представьте, что вам нужно изучить данные и преобразовать их, но времени не хватает. Вы владеете методами Pandas, которые нужно использовать для построения столбца, его сортировки, изменения имени и создания визуализации, но написание кода для получения всего этого займет больше времени, чем вы можете себе позволить.

Что же делать? Можно быстро написать код и довести дело до конца (что может привести к глупым ошибкам) или же использовать библиотеку Mito, чтобы исследовать и преобразовать данные за несколько минут. Mito — это библиотека Python, которая позволяет проводить анализ данных так же быстро, как если бы вы работали с электронными таблицами в Microsoft Excel.

Чтобы разобраться в том, как она работает, для начала скачайте набор данных и установите библиотеку. В этом руководстве будет использоваться набор данных игроков FIFA 22. Его можно загрузить здесь. Мы будем исследовать этот набор данных с помощью библиотеки Mito. Чтобы ее установить, скачайте либо Jupyter Notebook, либо Jupyter Lab. Затем выполните приведенную ниже команду в терминале или командной строке.

▶️ Читать дальше
▶️ Датасет
▶️ Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥51
Как увеличить скорость Pandas и обрабатывать 10 млн необработанных наборов данных за миллисекунды

За последние годы использование Pandas выросло в бесчисленное количество раз. Покажу вам, как использовать Pandas максимально быстрым способом. Потому что вы не можете ускорить то, что и так быстро работает.

Было бы странным использовать функции, которые в документации Pandas четко указаны как медленные, а не как самые быстрые методы.

В этой статье покажем вам лучшие практики некоторых наиболее распространенных операций с данными в Pandas. Вы даже можете рассматривать эти рекомендации как «здравый смысл», потому что именно так создатель Pandas намеревался использовать свою библиотеку.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥31👎1
🖥 Карта развития дата-сайентиста: с чего начать, к чему идти и сколько времени потребуется

Каждый, кто заинтересовался наукой о данных, задаётся вопросом: а сколько времени понадобится, чтобы её изучить? Мы составили примерный график профессионального развития дата-сайентиста по трём уровням — базовый, средний и продвинутый. Чтобы было проще сравнивать с требованиями вакансий, привели их к принятым в IT терминам: стажёр (intern), джун (junior, младший), мидл (middle, средний) и сеньор (senior, старший).

Уровни для дата-сайентиста рассмотрим на примере языка Python. Но вообще в Data Science используют и другие языки и платформы — R, Julia, SAS, MATLAB.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21👎162🔥2🌚1
📈 23 сайта с дата сетами: для усиления портфолио аналитика

Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время.

Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍267🔥6
🌃 Big Data - действительно полезный блог для всех, кто работает с данными.

- огромный набор бесплатных датасетов
- инструменты для работы с данными
- обучающие материалы для датасаентистов
- перевод книг и статей

🔥 Смотреть
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍31