Думаете, SQL не нужен в Data Science? Ошибаетесь. Расскажем об основах SQL и на примерах покажем, как использовать этот инструмент при работе с большими наборами данных.
SQL правят в стране Корпоративных Данных. До развития NoSQL это был основной язык запросов для извлечения данных из реляционных БД.
Реляционные базы данных представляют собой коллекции двумерных таблиц наподобие Excel или датасетов. В каждой такой таблице есть фиксированное количество столбцов и любое возможное число строк.
В качестве примера рассмотрим производителей автомобилей. У каждого изготовителя будет база данных, которая состоит из множества таблиц (например, по одной для каждой выпущенной модели автомобиля). В каждой из этих таблиц будут храниться всевозможные показатели продаж конкретной модели автомобиля в разных странах.
High Scalability опросили ИТ-лидеров на DeveloperWeek о тенденциях использования баз данных в 2021 году и обнаружили, что SQL по-прежнему используется в более чем 60% времени. Стратегия разнородных баз данных (SQL + NoSQL) применяется в 75% случаев. Это неудивительно. Отличающиеся типы баз данных предназначаются для неодинаковых целей.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥2❤1
Существует два фундаментальных подхода к хранению данных: широкие и длинные данные. Узнайте, что это значит и как работать с этими данными.
В этой статье мы рассмотрим:
- что такое широкие и длинные данные
- почему существует необходимость в двух разных форматах данных
- как преобразовать данные из одного типа в другой
➡️ Читать дальше
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Если вы работаете с данными, вы вероятно слышали о блокнотах Jupyter. Jupiter - это интерактивная вычислительная платформа на базе интернета, поддерживающая более 40 языков программирования включая Python. Я лично использую записные книжки Jupyter для создания прототипов и выполнения специальных задач на Python. В этой статье будут озвучены некоторые расширения Jupyter, которые используются ежедневно, чтобы сделать жизнь проще и эффективнее.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7👎3❤2
📖 Теоретический минимум по Big Data. Все что нужно знать о больших данных
Хотите узнать о больших данных и механизмах работы с ними? Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data.
➡️ Книга
@data_analysis_ml
Хотите узнать о больших данных и механизмах работы с ними? Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5👎3❤2
Вы видели все это в новостях: средства массовой информации в восторге от эпохи появления спортивной аналитики, коммерческие рекламные объявления с изображением инструментов больших данных, таких как карманный калькулятор, умелое использование многомерных камер для сбора информации о каждом поте спортивных игроков * введите имена героев вашего детства: Л. Месси, Леброн Джеймс, Том Брэди и т. д. * и увеличьте их производительность в 10 раз.
Хотя очевидно, что мы еще не достигли этого, спортивная аналитика прошла долгий путь, помогая командам в отношении принятия решений, которые традиционно делались из-за «интуитивного» чувства или приверженности прошлым традициям относительно того, какие игроки должны составлять, торговать, развивать, тренировать и какую систему играть.
В этом посте я не буду разрабатывать алгоритм прогнозирования насколько вероятно (маловероятно), что Тоттенхэм попадет в топ-4 премьер-лиги или как создать идеальную команду Jets для 2018 года. Вместо этого я представлю некоторые методы визуализации, которые помогут нам подготовить привлекательные и проницательные графики, которые понравятся вашим любителям спорта.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥4❤2
Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.
Краеугольный камень любого проекта, связанного с компьютерным зрением - датасет. Это не просто набор изображений, который передается нейросети. Датасет - это базовый блок, который определит качество и точность определения объектов в рамках вашего проекта.
Нельзя просто собрать набор изображений из гугла и успокоиться - полученная куча изображений не будет нести гордое название «датасет» и испортит проект, вынуждая разработчика и компьютерное железо тренировать модель снова и снова.
Часто работа над датасетом занимает самое большое количество времени, чем над каким-либо еще этапом разработки системы компьютерного зрения, и это неспроста. Чем лучше будет подготовлен датасет, тем меньше времени потребуется на отладку модели, ее тренировки, поиск и устранение неточностей распознавания, а также в целом сделает модель «умнее».
➡️ Читать дальше
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤1🔥1
Приводимые в книге паттерны проектирования отражают лучшие практические подходы к решению типичных задач машинного обучения. Указанные паттерны, реализованные в программном коде, сконцентрировали опыт сотен экспертов в простые и легкодоступные советы. Книга содержит подробный разбор 30 паттернов, служащих для представления данных и задач, тренировки моделей, отказоустойчивого обслуживания, обеспечения воспроизводимо-сти и искусственного интеллекта. Каждый паттерн включает в себя постановку задачи, ряд потенциальных решений и рекомендации по выбору технического приема, наилучшим образом подходящего к данной ситуации.
📓 Книга
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥1
SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет её и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, всё-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤1🔥1
Учимся применять ИИ для автоматизации процессов
Университет Иннополис приглашает 2 ноября в 14:00 на открытое занятие. Разберем кейс по обработке данных с помощью Python. Встречу проведет эксперт с 20-летним опытом в IT, архитектор данных Азат Якупов.
Что вас ждет на вебинаре:
— Проведем обзор сферы BigData и трендов
— Рассмотрим, как и где применяется искусственный интеллект
— Разберем кейс по обработке данных с помощью Python
— Познакомимся с инструментами работы с большими данными
Регистрация на вебинар 2 ноября: https://stc.innopolis.university/dataanalyst_webinar?utm_source=telegram&utm_medium=birzha&utm_campaign=data_analysis_ml
Университет Иннополис приглашает 2 ноября в 14:00 на открытое занятие. Разберем кейс по обработке данных с помощью Python. Встречу проведет эксперт с 20-летним опытом в IT, архитектор данных Азат Якупов.
Что вас ждет на вебинаре:
— Проведем обзор сферы BigData и трендов
— Рассмотрим, как и где применяется искусственный интеллект
— Разберем кейс по обработке данных с помощью Python
— Познакомимся с инструментами работы с большими данными
Регистрация на вебинар 2 ноября: https://stc.innopolis.university/dataanalyst_webinar?utm_source=telegram&utm_medium=birzha&utm_campaign=data_analysis_ml
👍10❤2🔥2
Вся отличная визуализация данных начинается с хороших, чистых данных. Большинство считают, что сбор больших данных будет трудной работой, но это неправда. На сайте доступны тысячи бесплатных наборов данных, готовых для анализа и просмотра любым пользователем.
Здесь мы собрали 70 источников свободных данных на правительство, преступности, здравоохранения, финансовых и экономических данных, маркетинга и социальных сетей, журналистики и средств массовой информации, недвижимости, каталог, обзор бизнеса и многое другое.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍7❤2
Что такое data-инжиниринг
Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤2🔥1
Вот небольшой список задач, которые будут разобраны ниже:
- Преобразование изображения в оттенки серого.
- Уменьшение размерности изображения (в пикселях) в 4 раза.
- Нахождение и выделение (рамкой) самого тёмного объекта на изображении.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3❤1
Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделения документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.
А также сравню по точности два подхода: Fine-Tune Bert и получение предобученных эмбеддингов и их классификация с использованием полносвязной нейронной сети.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤1🔥1
Семь Open Source и два low-code-продукта для визуализации BI-аналитики.
Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤1🔥1
Представьте, что вам нужно изучить данные и преобразовать их, но времени не хватает. Вы владеете методами Pandas, которые нужно использовать для построения столбца, его сортировки, изменения имени и создания визуализации, но написание кода для получения всего этого займет больше времени, чем вы можете себе позволить.
Что же делать? Можно быстро написать код и довести дело до конца (что может привести к глупым ошибкам) или же использовать библиотеку Mito, чтобы исследовать и преобразовать данные за несколько минут. Mito — это библиотека Python, которая позволяет проводить анализ данных так же быстро, как если бы вы работали с электронными таблицами в Microsoft Excel.
Чтобы разобраться в том, как она работает, для начала скачайте набор данных и установите библиотеку. В этом руководстве будет использоваться набор данных игроков FIFA 22. Его можно загрузить здесь. Мы будем исследовать этот набор данных с помощью библиотеки Mito. Чтобы ее установить, скачайте либо Jupyter Notebook, либо Jupyter Lab. Затем выполните приведенную ниже команду в терминале или командной строке.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥5❤1
За последние годы использование Pandas выросло в бесчисленное количество раз. Покажу вам, как использовать Pandas максимально быстрым способом. Потому что вы не можете ускорить то, что и так быстро работает.
Было бы странным использовать функции, которые в документации Pandas четко указаны как медленные, а не как самые быстрые методы.
В этой статье покажем вам лучшие практики некоторых наиболее распространенных операций с данными в Pandas. Вы даже можете рассматривать эти рекомендации как «здравый смысл», потому что именно так создатель Pandas намеревался использовать свою библиотеку.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥3❤1👎1
Каждый, кто заинтересовался наукой о данных, задаётся вопросом: а сколько времени понадобится, чтобы её изучить? Мы составили примерный график профессионального развития дата-сайентиста по трём уровням — базовый, средний и продвинутый. Чтобы было проще сравнивать с требованиями вакансий, привели их к принятым в IT терминам: стажёр (intern), джун (junior, младший), мидл (middle, средний) и сеньор (senior, старший).
Уровни для дата-сайентиста рассмотрим на примере языка Python. Но вообще в Data Science используют и другие языки и платформы — R, Julia, SAS, MATLAB.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21👎16❤2🔥2🌚1
Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время.
Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤7🔥6