📖 Теоретический минимум по Big Data. Все что нужно знать о больших данных
Хотите узнать о больших данных и механизмах работы с ними? Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data.
➡️ Книга
@data_analysis_ml
Хотите узнать о больших данных и механизмах работы с ними? Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5👎3❤2
Вы видели все это в новостях: средства массовой информации в восторге от эпохи появления спортивной аналитики, коммерческие рекламные объявления с изображением инструментов больших данных, таких как карманный калькулятор, умелое использование многомерных камер для сбора информации о каждом поте спортивных игроков * введите имена героев вашего детства: Л. Месси, Леброн Джеймс, Том Брэди и т. д. * и увеличьте их производительность в 10 раз.
Хотя очевидно, что мы еще не достигли этого, спортивная аналитика прошла долгий путь, помогая командам в отношении принятия решений, которые традиционно делались из-за «интуитивного» чувства или приверженности прошлым традициям относительно того, какие игроки должны составлять, торговать, развивать, тренировать и какую систему играть.
В этом посте я не буду разрабатывать алгоритм прогнозирования насколько вероятно (маловероятно), что Тоттенхэм попадет в топ-4 премьер-лиги или как создать идеальную команду Jets для 2018 года. Вместо этого я представлю некоторые методы визуализации, которые помогут нам подготовить привлекательные и проницательные графики, которые понравятся вашим любителям спорта.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥4❤2
Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.
Краеугольный камень любого проекта, связанного с компьютерным зрением - датасет. Это не просто набор изображений, который передается нейросети. Датасет - это базовый блок, который определит качество и точность определения объектов в рамках вашего проекта.
Нельзя просто собрать набор изображений из гугла и успокоиться - полученная куча изображений не будет нести гордое название «датасет» и испортит проект, вынуждая разработчика и компьютерное железо тренировать модель снова и снова.
Часто работа над датасетом занимает самое большое количество времени, чем над каким-либо еще этапом разработки системы компьютерного зрения, и это неспроста. Чем лучше будет подготовлен датасет, тем меньше времени потребуется на отладку модели, ее тренировки, поиск и устранение неточностей распознавания, а также в целом сделает модель «умнее».
➡️ Читать дальше
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤1🔥1
Приводимые в книге паттерны проектирования отражают лучшие практические подходы к решению типичных задач машинного обучения. Указанные паттерны, реализованные в программном коде, сконцентрировали опыт сотен экспертов в простые и легкодоступные советы. Книга содержит подробный разбор 30 паттернов, служащих для представления данных и задач, тренировки моделей, отказоустойчивого обслуживания, обеспечения воспроизводимо-сти и искусственного интеллекта. Каждый паттерн включает в себя постановку задачи, ряд потенциальных решений и рекомендации по выбору технического приема, наилучшим образом подходящего к данной ситуации.
📓 Книга
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥1
SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет её и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, всё-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤1🔥1
Учимся применять ИИ для автоматизации процессов
Университет Иннополис приглашает 2 ноября в 14:00 на открытое занятие. Разберем кейс по обработке данных с помощью Python. Встречу проведет эксперт с 20-летним опытом в IT, архитектор данных Азат Якупов.
Что вас ждет на вебинаре:
— Проведем обзор сферы BigData и трендов
— Рассмотрим, как и где применяется искусственный интеллект
— Разберем кейс по обработке данных с помощью Python
— Познакомимся с инструментами работы с большими данными
Регистрация на вебинар 2 ноября: https://stc.innopolis.university/dataanalyst_webinar?utm_source=telegram&utm_medium=birzha&utm_campaign=data_analysis_ml
Университет Иннополис приглашает 2 ноября в 14:00 на открытое занятие. Разберем кейс по обработке данных с помощью Python. Встречу проведет эксперт с 20-летним опытом в IT, архитектор данных Азат Якупов.
Что вас ждет на вебинаре:
— Проведем обзор сферы BigData и трендов
— Рассмотрим, как и где применяется искусственный интеллект
— Разберем кейс по обработке данных с помощью Python
— Познакомимся с инструментами работы с большими данными
Регистрация на вебинар 2 ноября: https://stc.innopolis.university/dataanalyst_webinar?utm_source=telegram&utm_medium=birzha&utm_campaign=data_analysis_ml
👍10❤2🔥2
Вся отличная визуализация данных начинается с хороших, чистых данных. Большинство считают, что сбор больших данных будет трудной работой, но это неправда. На сайте доступны тысячи бесплатных наборов данных, готовых для анализа и просмотра любым пользователем.
Здесь мы собрали 70 источников свободных данных на правительство, преступности, здравоохранения, финансовых и экономических данных, маркетинга и социальных сетей, журналистики и средств массовой информации, недвижимости, каталог, обзор бизнеса и многое другое.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍7❤2
Что такое data-инжиниринг
Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤2🔥1
Вот небольшой список задач, которые будут разобраны ниже:
- Преобразование изображения в оттенки серого.
- Уменьшение размерности изображения (в пикселях) в 4 раза.
- Нахождение и выделение (рамкой) самого тёмного объекта на изображении.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3❤1
Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделения документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.
А также сравню по точности два подхода: Fine-Tune Bert и получение предобученных эмбеддингов и их классификация с использованием полносвязной нейронной сети.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤1🔥1
Семь Open Source и два low-code-продукта для визуализации BI-аналитики.
Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤1🔥1
Представьте, что вам нужно изучить данные и преобразовать их, но времени не хватает. Вы владеете методами Pandas, которые нужно использовать для построения столбца, его сортировки, изменения имени и создания визуализации, но написание кода для получения всего этого займет больше времени, чем вы можете себе позволить.
Что же делать? Можно быстро написать код и довести дело до конца (что может привести к глупым ошибкам) или же использовать библиотеку Mito, чтобы исследовать и преобразовать данные за несколько минут. Mito — это библиотека Python, которая позволяет проводить анализ данных так же быстро, как если бы вы работали с электронными таблицами в Microsoft Excel.
Чтобы разобраться в том, как она работает, для начала скачайте набор данных и установите библиотеку. В этом руководстве будет использоваться набор данных игроков FIFA 22. Его можно загрузить здесь. Мы будем исследовать этот набор данных с помощью библиотеки Mito. Чтобы ее установить, скачайте либо Jupyter Notebook, либо Jupyter Lab. Затем выполните приведенную ниже команду в терминале или командной строке.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥5❤1
За последние годы использование Pandas выросло в бесчисленное количество раз. Покажу вам, как использовать Pandas максимально быстрым способом. Потому что вы не можете ускорить то, что и так быстро работает.
Было бы странным использовать функции, которые в документации Pandas четко указаны как медленные, а не как самые быстрые методы.
В этой статье покажем вам лучшие практики некоторых наиболее распространенных операций с данными в Pandas. Вы даже можете рассматривать эти рекомендации как «здравый смысл», потому что именно так создатель Pandas намеревался использовать свою библиотеку.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥3❤1👎1
Каждый, кто заинтересовался наукой о данных, задаётся вопросом: а сколько времени понадобится, чтобы её изучить? Мы составили примерный график профессионального развития дата-сайентиста по трём уровням — базовый, средний и продвинутый. Чтобы было проще сравнивать с требованиями вакансий, привели их к принятым в IT терминам: стажёр (intern), джун (junior, младший), мидл (middle, средний) и сеньор (senior, старший).
Уровни для дата-сайентиста рассмотрим на примере языка Python. Но вообще в Data Science используют и другие языки и платформы — R, Julia, SAS, MATLAB.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21👎16❤2🔥2🌚1
Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время.
Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤7🔥6
🔥 Более 100 бесплатных курсов и ресурсов по аналитике
Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать!
Все материалы бесплатны!
Подборка составлена по областям знаний, которые нужны аналитику, чтобы быть востребованным на рынке.
Обязательно сохраняйте и пересылайте друзьям!
➡️ Читать дальше
@data_analysis_ml
Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать!
Все материалы бесплатны!
Подборка составлена по областям знаний, которые нужны аналитику, чтобы быть востребованным на рынке.
Обязательно сохраняйте и пересылайте друзьям!
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥8❤2❤🔥2🤨1
🚀 Parser2GIS - парсер сайта 2GIS с помощью браузера Google Chrome.
Полезный инструмент для сбора данных.
Установка из PyPI
Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России , Казахстана , Украины , Беларуси , Азербайджана , Киргизии , Узбекистана , Чехии , Египта , Италии , Саудовской Аравии , Кипра , Объединенных Арабских Эмиратов , Чили , Катара , Омана , Бахрейна , Кувейта .
🖥 Github
📝 Документация
@data_analysis_ml
Полезный инструмент для сбора данных.
Установка из PyPI
# CLI
pip install parser-2gis
# CLI + GUI
pip install parser-2gis[gui]
Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России , Казахстана , Украины , Беларуси , Азербайджана , Киргизии , Узбекистана , Чехии , Египта , Италии , Саудовской Аравии , Кипра , Объединенных Арабских Эмиратов , Чили , Катара , Омана , Бахрейна , Кувейта .
📝 Документация
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤3🔥2