Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🖥 Parquet что это такое и зачем пригодился в работе с данными?

Недавно мне потребовалось сделать большую выборку данных (несколько млн. записей) возник вопрос, как сохранить полученный результат для последующей обработки, т.к. на Hive выгрузить такой объем не представлялось возможным. Задача была решена с помощью DS-машины(DatalabAI), c использованием формата хранения данных — Parquet.

↪️ Читать дальше
🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥21👎1
📈 Тесты статистической проверки принадлежности нормальному распределению

Нормальное распределение — это тип распределения, который, вероятно, наиболее часто упоминается и используется статистиками. Вероятно, это первое распределение, которое вы будете изучать на уроках статистики. Что это за раздача, собственно? Его также называют распределением Гаусса, и оно представляет собой распределение случайно сгенерированных переменных, напоминающее колоколообразную кривую. Он характеризуется средним значением и стандартным отклонением. Эти два значения определяют конкретную форму распределения, хотя общая колоколообразная форма не изменится так сильно. Например, небольшое стандартное отклонение относительно среднего дает крутой график, а большое стандартное отклонение дает плоский график.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14👎42🔥1
🏓 30 лучших инструментов больших данных для анализа данных

Возможность поиска и очистки больших данных имеет важное значение в 21 веке. Правильные инструменты являются обязательным условием для конкуренции с конкурентами и добавления преимуществ для вашего бизнеса. Я делаю список из 30 лучших инструментов для больших данных для вас.

➡️ Читать дальше


@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥41
🖥 Как изучить математику для машинного обучения и анализа данных? Подборка книг для любого уровня

Если вы хотите всерьез заняться машинным обучением и анализом данных, без математики вам точно не обойтись. Но какие именно разделы вам понадобятся и как подступиться к ним, не имея опыта? Мы попросили Леонида Иосипоя, академического руководителя Центра непрерывного образования ФКН ВШЭ, составить список книг, которые помогут изучить математику с любым уровнем подготовки.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍125🥰1
🔥 Эффективные SQL-запросы. 12 способов переписать запросы SQL для улучшения их производительности.

Я часто работаю в условиях, когда при настройке производительности нет возможности менять индексы или параметры сервера. Я обычно сталкиваюсь с подобными сценариями, когда имею дело с:

- Базами данных поставщиков.
- “Хрупкими” системами.
- Недостаточным местом на диске.
- Ограниченным инструментарием/непосредственным анализом.
- Возможностями, ограниченными системой безопасности.

Хотя всегда предпочтительней решать проблему производительности в корне, иногда единственным способом, которым я могу воспользоваться для решения проблемы в подобных условиях, является переписывание запросов.

Я решил написать этот краткий пост, потому что хотел бы изначально иметь такой ресурс. Иногда, возможно, в попытках найти способ переписать SQL-запрос данный пост даст толчок вашим творческим идеям.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124🔥1
📱 Как я решил сделать систему коллаборативной фильтрации постов из пабликов «Телеграма» на основе машинного обучения

Идея
В мире наступает революция ИИ, и в какой то момент мне стало казаться, что без меня она наступить не сможет. Поэтому я нашел курс по программированию нейросетей на Питоне Fast.AI, и решил придумать себе небольшой проект, чтобы поучиться на практике.

Я люблю Телеграм. И люблю иногда потупить в какую-нибудь ленту «информационного корма». В разное время я любил поразлагаться на Лепре, Дёти, Пикабу, но в итоге всеми этими источниками сладкого яда я остался недоволен.

И тогда я подумал: в Телеграме ведь куча источников, но Телеграм их не агрегирует по типу Фейсбука. Телеграм не собирает с нас лайки. Да, лайки это чистое зло и гореть им в аду, но иногда так хочется лайкнуть жопу фотомодели, нет?

А рекомендательные сервисы — это одно из направлений ML. А Телеграм — открытая система. Должно быть не сложно, подумал я. Оказалось чуть сложнее чем я думал, но получилось.

Стоит заметить, что я не профессиональный программист, и опыта в программировании у меня не было примерно с 2004 года. Так что, помимо собственно нейросетей, мне пришлось еще и быстренько расчухать основы Питона, вспомнить SQL, погрузиться в Докер и практику CI/CD. Это было потрясающе.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163🔥1
🖥 SQL: 45 бесплатных курсов, тренажеров, тестов

Всем привет! Данная подборка может быть местами с уклоном в аналитику, однако основная часть материалов для специалистов любой сферы!

Все материалы бесплатны, кроме книг, если вы захотите их приобрести.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥32
🖥 PostgreSQL. Основы языка SQL

В пособии рассматриваются следующие темы:

- Введение в базы данных и SQL
- Создание рабочей среды
- Основные операции с таблицами
- Типы данных СУБД PostgreSQL
- Основы языка определения данных
- Запросы
- Изменение данных
- Индексы
- Транзакции
- Повышение производительности


📓 Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Интерактивная визуализация данных

В этой статье я познакомлю вас с некоторыми из наиболее часто используемых библиотек визуализации Python, используя практические примеры и причудливые методы визуализации / виджеты. Весь код, который я использовал для этой статьи, доступен в этом GitHub репозитории.

Читать дальше
🔩 Код из статьи

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥187👍5🕊1
💻 Наука о данных: структура проекта

Когда-то предпочтение было отдано структуре, но, в конце концов, все, что имеет значение, это то, что вам должно быть удобно перемещаться и писать код.
Когда мы думаем о науке/анализе данных, мы часто думаем, что речь идет только о результатах, диаграммах, цифрах, идеях или визуализации. Хотя эти конечные продукты, как правило, являются главным событием, легко сосредоточиться на том, чтобы продукт выглядел красиво, и забыть о качестве кода, возможности повторного использования и возможности сотрудничать с другими, и для этого важна структура проекта.

При этом нет правильного метода структурирования вашего проекта, но у вас должна быть хотя бы некоторая структура, которой мы можем следовать для всего нашего проекта для стандартизации. Вы можете подумать, почему нужно использовать структуру проекта!

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍133🔥1
В чем преимущество контрактов о передаче данных

В последнее время в социальных сетях активно обсуждались контракты о передаче данных. Некоторые дата-саентисты делились мнениями о плюсах и минусах этого новшества и о том, что это вообще такое.

Это малоизученная тема, но я хотел бы поделиться своим опытом и конструктивными советами о том, как начать работу в этом направлении. Контракты о передаче данных — это нечто реальное и ценное, что можно использовать уже сегодня, прилагая меньше усилий, чем кажется.

Что особенного в контрактах о передаче данных
Если вы работаете с данными, скорее всего, вам не раз придется столкнуться с такой ситуацией: данные неверны, и вы не можете установить причину. Кажется, что на начальном этапе сбора данных есть проблема, но никто из коллег не знает, почему она возникла. Что же делать и к кому обратиться?

Поскольку качество предоставляемых данных не всегда безупречно, команды дата-саентистов начинают анализировать существующую инфраструктуру, которая служит другим первоначальным целям. Они “подключают” конвейеры к актуальной оперативной базе данных, выгружают данные в хранилище и выполняют дальнейшие действия.

▶️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥21
🖥 Наиболее полный гайд по работе с SQL в Data Science

Думаете, SQL не нужен в Data Science? Ошибаетесь. Расскажем об основах SQL и на примерах покажем, как использовать этот инструмент при работе с большими наборами данных.

SQL правят в стране Корпоративных Данных. До развития NoSQL это был основной язык запросов для извлечения данных из реляционных БД.

Реляционные базы данных представляют собой коллекции двумерных таблиц наподобие Excel или датасетов. В каждой такой таблице есть фиксированное количество столбцов и любое возможное число строк.

В качестве примера рассмотрим производителей автомобилей. У каждого изготовителя будет база данных, которая состоит из множества таблиц (например, по одной для каждой выпущенной модели автомобиля). В каждой из этих таблиц будут храниться всевозможные показатели продаж конкретной модели автомобиля в разных странах.

High Scalability опросили ИТ-лидеров на DeveloperWeek о тенденциях использования баз данных в 2021 году и обнаружили, что SQL по-прежнему используется в более чем 60% времени. Стратегия разнородных баз данных (SQL + NoSQL) применяется в 75% случаев. Это неудивительно. Отличающиеся типы баз данных предназначаются для неодинаковых целей.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥21
Изменение формы данных с помощью Python: широкие и длинные

Существует два фундаментальных подхода к хранению данных: широкие и длинные данные. Узнайте, что это значит и как работать с этими данными.

В этой статье мы рассмотрим:

- что такое широкие и длинные данные

- почему существует необходимость в двух разных форматах данных

- как преобразовать данные из одного типа в другой


➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍191🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Расширения и инструменты Jupiter, облегчающие жизнь

Если вы работаете с данными, вы вероятно слышали о блокнотах Jupyter. Jupiter - это интерактивная вычислительная платформа на базе интернета, поддерживающая более 40 языков программирования включая Python. Я лично использую записные книжки Jupyter для создания прототипов и выполнения специальных задач на Python. В этой статье будут озвучены некоторые расширения Jupyter, которые используются ежедневно, чтобы сделать жизнь проще и эффективнее.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7👎32
📖 Теоретический минимум по Big Data. Все что нужно знать о больших данных

Хотите узнать о больших данных и механизмах работы с ними? Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data.

➡️ Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5👎32
🖥 Github теперь в телеграм!

➡️ Для вас собраны актуальные проекты , которые реально помогут в разработке.

➡️ С уже готовой кодовой базой очень легко работать, код весьма понятен, в нём просто ориентироваться

➡️ Лучшие обучающие репозитории разбитых по языкам программирования

➡️ Перейти
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71👎1🔥1
🖥 Продвинутая спортивная визуализация с Python, Matplotlib и Seaborn

Вы видели все это в новостях: средства массовой информации в восторге от эпохи появления спортивной аналитики, коммерческие рекламные объявления с изображением инструментов больших данных, таких как карманный калькулятор, умелое использование многомерных камер для сбора информации о каждом поте спортивных игроков * введите имена героев вашего детства: Л. Месси, Леброн Джеймс, Том Брэди и т. д. * и увеличьте их производительность в 10 раз.

Хотя очевидно, что мы еще не достигли этого, спортивная аналитика прошла долгий путь, помогая командам в отношении принятия решений, которые традиционно делались из-за «интуитивного» чувства или приверженности прошлым традициям относительно того, какие игроки должны составлять, торговать, развивать, тренировать и какую систему играть.

В этом посте я не буду разрабатывать алгоритм прогнозирования насколько вероятно (маловероятно), что Тоттенхэм попадет в топ-4 премьер-лиги или как создать идеальную команду Jets для 2018 года. Вместо этого я представлю некоторые методы визуализации, которые помогут нам подготовить привлекательные и проницательные графики, которые понравятся вашим любителям спорта.

➡️ Читать дальше
🔩 Код из статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥42
О важности датасета и о том, как сделать его лучше. Наш опыт

Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.

Краеугольный камень любого проекта, связанного с компьютерным зрением - датасет. Это не просто набор изображений, который передается нейросети. Датасет - это базовый блок, который определит качество и точность определения объектов в рамках вашего проекта.

Нельзя просто собрать набор изображений из гугла и успокоиться - полученная куча изображений не будет нести гордое название «датасет» и испортит проект, вынуждая разработчика и компьютерное железо тренировать модель снова и снова.

Часто работа над датасетом занимает самое большое количество времени, чем над каким-либо еще этапом разработки системы компьютерного зрения, и это неспроста. Чем лучше будет подготовлен датасет, тем меньше времени потребуется на отладку модели, ее тренировки, поиск и устранение неточностей распознавания, а также в целом сделает модель «умнее».

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍121🔥1
🖥 Машинное обучение. Паттерны проектирования

Приводимые в книге паттерны проектирования отражают лучшие практические подходы к решению типичных задач машинного обучения. Указанные паттерны, реализованные в программном коде, сконцентрировали опыт сотен экспертов в простые и легкодоступные советы. Книга содержит подробный разбор 30 паттернов, служащих для представления данных и задач, тренировки моделей, отказоустойчивого обслуживания, обеспечения воспроизводимо-сти и искусственного интеллекта. Каждый паттерн включает в себя постановку задачи, ряд потенциальных решений и рекомендации по выбору технического приема, наилучшим образом подходящего к данной ситуации.

📓 Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥1
🖥 Как устроена виртуальная машина SQLite

SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет её и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, всё-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91🔥1
Учимся применять ИИ для автоматизации процессов

Университет Иннополис приглашает 2 ноября в 14:00 на открытое занятие. Разберем кейс по обработке данных с помощью Python. Встречу проведет эксперт с 20-летним опытом в IT, архитектор данных Азат Якупов.

Что вас ждет на вебинаре:

— Проведем обзор сферы BigData и трендов

— Рассмотрим, как и где применяется искусственный интеллект

— Разберем кейс по обработке данных с помощью Python

— Познакомимся с инструментами работы с большими данными

Регистрация на вебинар 2 ноября: https://stc.innopolis.university/dataanalyst_webinar?utm_source=telegram&utm_medium=birzha&utm_campaign=data_analysis_ml
👍102🔥2