Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🖥 Как изучить математику для машинного обучения и анализа данных? Подборка книг для любого уровня

Если вы хотите всерьез заняться машинным обучением и анализом данных, без математики вам точно не обойтись. Но какие именно разделы вам понадобятся и как подступиться к ним, не имея опыта? Мы попросили Леонида Иосипоя, академического руководителя Центра непрерывного образования ФКН ВШЭ, составить список книг, которые помогут изучить математику с любым уровнем подготовки.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍125🥰1
🔥 Эффективные SQL-запросы. 12 способов переписать запросы SQL для улучшения их производительности.

Я часто работаю в условиях, когда при настройке производительности нет возможности менять индексы или параметры сервера. Я обычно сталкиваюсь с подобными сценариями, когда имею дело с:

- Базами данных поставщиков.
- “Хрупкими” системами.
- Недостаточным местом на диске.
- Ограниченным инструментарием/непосредственным анализом.
- Возможностями, ограниченными системой безопасности.

Хотя всегда предпочтительней решать проблему производительности в корне, иногда единственным способом, которым я могу воспользоваться для решения проблемы в подобных условиях, является переписывание запросов.

Я решил написать этот краткий пост, потому что хотел бы изначально иметь такой ресурс. Иногда, возможно, в попытках найти способ переписать SQL-запрос данный пост даст толчок вашим творческим идеям.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124🔥1
📱 Как я решил сделать систему коллаборативной фильтрации постов из пабликов «Телеграма» на основе машинного обучения

Идея
В мире наступает революция ИИ, и в какой то момент мне стало казаться, что без меня она наступить не сможет. Поэтому я нашел курс по программированию нейросетей на Питоне Fast.AI, и решил придумать себе небольшой проект, чтобы поучиться на практике.

Я люблю Телеграм. И люблю иногда потупить в какую-нибудь ленту «информационного корма». В разное время я любил поразлагаться на Лепре, Дёти, Пикабу, но в итоге всеми этими источниками сладкого яда я остался недоволен.

И тогда я подумал: в Телеграме ведь куча источников, но Телеграм их не агрегирует по типу Фейсбука. Телеграм не собирает с нас лайки. Да, лайки это чистое зло и гореть им в аду, но иногда так хочется лайкнуть жопу фотомодели, нет?

А рекомендательные сервисы — это одно из направлений ML. А Телеграм — открытая система. Должно быть не сложно, подумал я. Оказалось чуть сложнее чем я думал, но получилось.

Стоит заметить, что я не профессиональный программист, и опыта в программировании у меня не было примерно с 2004 года. Так что, помимо собственно нейросетей, мне пришлось еще и быстренько расчухать основы Питона, вспомнить SQL, погрузиться в Докер и практику CI/CD. Это было потрясающе.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163🔥1
🖥 SQL: 45 бесплатных курсов, тренажеров, тестов

Всем привет! Данная подборка может быть местами с уклоном в аналитику, однако основная часть материалов для специалистов любой сферы!

Все материалы бесплатны, кроме книг, если вы захотите их приобрести.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥32
🖥 PostgreSQL. Основы языка SQL

В пособии рассматриваются следующие темы:

- Введение в базы данных и SQL
- Создание рабочей среды
- Основные операции с таблицами
- Типы данных СУБД PostgreSQL
- Основы языка определения данных
- Запросы
- Изменение данных
- Индексы
- Транзакции
- Повышение производительности


📓 Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Интерактивная визуализация данных

В этой статье я познакомлю вас с некоторыми из наиболее часто используемых библиотек визуализации Python, используя практические примеры и причудливые методы визуализации / виджеты. Весь код, который я использовал для этой статьи, доступен в этом GitHub репозитории.

Читать дальше
🔩 Код из статьи

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥187👍5🕊1
💻 Наука о данных: структура проекта

Когда-то предпочтение было отдано структуре, но, в конце концов, все, что имеет значение, это то, что вам должно быть удобно перемещаться и писать код.
Когда мы думаем о науке/анализе данных, мы часто думаем, что речь идет только о результатах, диаграммах, цифрах, идеях или визуализации. Хотя эти конечные продукты, как правило, являются главным событием, легко сосредоточиться на том, чтобы продукт выглядел красиво, и забыть о качестве кода, возможности повторного использования и возможности сотрудничать с другими, и для этого важна структура проекта.

При этом нет правильного метода структурирования вашего проекта, но у вас должна быть хотя бы некоторая структура, которой мы можем следовать для всего нашего проекта для стандартизации. Вы можете подумать, почему нужно использовать структуру проекта!

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍133🔥1
В чем преимущество контрактов о передаче данных

В последнее время в социальных сетях активно обсуждались контракты о передаче данных. Некоторые дата-саентисты делились мнениями о плюсах и минусах этого новшества и о том, что это вообще такое.

Это малоизученная тема, но я хотел бы поделиться своим опытом и конструктивными советами о том, как начать работу в этом направлении. Контракты о передаче данных — это нечто реальное и ценное, что можно использовать уже сегодня, прилагая меньше усилий, чем кажется.

Что особенного в контрактах о передаче данных
Если вы работаете с данными, скорее всего, вам не раз придется столкнуться с такой ситуацией: данные неверны, и вы не можете установить причину. Кажется, что на начальном этапе сбора данных есть проблема, но никто из коллег не знает, почему она возникла. Что же делать и к кому обратиться?

Поскольку качество предоставляемых данных не всегда безупречно, команды дата-саентистов начинают анализировать существующую инфраструктуру, которая служит другим первоначальным целям. Они “подключают” конвейеры к актуальной оперативной базе данных, выгружают данные в хранилище и выполняют дальнейшие действия.

▶️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥21
🖥 Наиболее полный гайд по работе с SQL в Data Science

Думаете, SQL не нужен в Data Science? Ошибаетесь. Расскажем об основах SQL и на примерах покажем, как использовать этот инструмент при работе с большими наборами данных.

SQL правят в стране Корпоративных Данных. До развития NoSQL это был основной язык запросов для извлечения данных из реляционных БД.

Реляционные базы данных представляют собой коллекции двумерных таблиц наподобие Excel или датасетов. В каждой такой таблице есть фиксированное количество столбцов и любое возможное число строк.

В качестве примера рассмотрим производителей автомобилей. У каждого изготовителя будет база данных, которая состоит из множества таблиц (например, по одной для каждой выпущенной модели автомобиля). В каждой из этих таблиц будут храниться всевозможные показатели продаж конкретной модели автомобиля в разных странах.

High Scalability опросили ИТ-лидеров на DeveloperWeek о тенденциях использования баз данных в 2021 году и обнаружили, что SQL по-прежнему используется в более чем 60% времени. Стратегия разнородных баз данных (SQL + NoSQL) применяется в 75% случаев. Это неудивительно. Отличающиеся типы баз данных предназначаются для неодинаковых целей.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥21
Изменение формы данных с помощью Python: широкие и длинные

Существует два фундаментальных подхода к хранению данных: широкие и длинные данные. Узнайте, что это значит и как работать с этими данными.

В этой статье мы рассмотрим:

- что такое широкие и длинные данные

- почему существует необходимость в двух разных форматах данных

- как преобразовать данные из одного типа в другой


➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍191🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Расширения и инструменты Jupiter, облегчающие жизнь

Если вы работаете с данными, вы вероятно слышали о блокнотах Jupyter. Jupiter - это интерактивная вычислительная платформа на базе интернета, поддерживающая более 40 языков программирования включая Python. Я лично использую записные книжки Jupyter для создания прототипов и выполнения специальных задач на Python. В этой статье будут озвучены некоторые расширения Jupyter, которые используются ежедневно, чтобы сделать жизнь проще и эффективнее.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7👎32
📖 Теоретический минимум по Big Data. Все что нужно знать о больших данных

Хотите узнать о больших данных и механизмах работы с ними? Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data.

➡️ Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5👎32
🖥 Github теперь в телеграм!

➡️ Для вас собраны актуальные проекты , которые реально помогут в разработке.

➡️ С уже готовой кодовой базой очень легко работать, код весьма понятен, в нём просто ориентироваться

➡️ Лучшие обучающие репозитории разбитых по языкам программирования

➡️ Перейти
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71👎1🔥1
🖥 Продвинутая спортивная визуализация с Python, Matplotlib и Seaborn

Вы видели все это в новостях: средства массовой информации в восторге от эпохи появления спортивной аналитики, коммерческие рекламные объявления с изображением инструментов больших данных, таких как карманный калькулятор, умелое использование многомерных камер для сбора информации о каждом поте спортивных игроков * введите имена героев вашего детства: Л. Месси, Леброн Джеймс, Том Брэди и т. д. * и увеличьте их производительность в 10 раз.

Хотя очевидно, что мы еще не достигли этого, спортивная аналитика прошла долгий путь, помогая командам в отношении принятия решений, которые традиционно делались из-за «интуитивного» чувства или приверженности прошлым традициям относительно того, какие игроки должны составлять, торговать, развивать, тренировать и какую систему играть.

В этом посте я не буду разрабатывать алгоритм прогнозирования насколько вероятно (маловероятно), что Тоттенхэм попадет в топ-4 премьер-лиги или как создать идеальную команду Jets для 2018 года. Вместо этого я представлю некоторые методы визуализации, которые помогут нам подготовить привлекательные и проницательные графики, которые понравятся вашим любителям спорта.

➡️ Читать дальше
🔩 Код из статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥42
О важности датасета и о том, как сделать его лучше. Наш опыт

Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.

Краеугольный камень любого проекта, связанного с компьютерным зрением - датасет. Это не просто набор изображений, который передается нейросети. Датасет - это базовый блок, который определит качество и точность определения объектов в рамках вашего проекта.

Нельзя просто собрать набор изображений из гугла и успокоиться - полученная куча изображений не будет нести гордое название «датасет» и испортит проект, вынуждая разработчика и компьютерное железо тренировать модель снова и снова.

Часто работа над датасетом занимает самое большое количество времени, чем над каким-либо еще этапом разработки системы компьютерного зрения, и это неспроста. Чем лучше будет подготовлен датасет, тем меньше времени потребуется на отладку модели, ее тренировки, поиск и устранение неточностей распознавания, а также в целом сделает модель «умнее».

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍121🔥1
🖥 Машинное обучение. Паттерны проектирования

Приводимые в книге паттерны проектирования отражают лучшие практические подходы к решению типичных задач машинного обучения. Указанные паттерны, реализованные в программном коде, сконцентрировали опыт сотен экспертов в простые и легкодоступные советы. Книга содержит подробный разбор 30 паттернов, служащих для представления данных и задач, тренировки моделей, отказоустойчивого обслуживания, обеспечения воспроизводимо-сти и искусственного интеллекта. Каждый паттерн включает в себя постановку задачи, ряд потенциальных решений и рекомендации по выбору технического приема, наилучшим образом подходящего к данной ситуации.

📓 Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥1
🖥 Как устроена виртуальная машина SQLite

SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет её и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, всё-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91🔥1
Учимся применять ИИ для автоматизации процессов

Университет Иннополис приглашает 2 ноября в 14:00 на открытое занятие. Разберем кейс по обработке данных с помощью Python. Встречу проведет эксперт с 20-летним опытом в IT, архитектор данных Азат Якупов.

Что вас ждет на вебинаре:

— Проведем обзор сферы BigData и трендов

— Рассмотрим, как и где применяется искусственный интеллект

— Разберем кейс по обработке данных с помощью Python

— Познакомимся с инструментами работы с большими данными

Регистрация на вебинар 2 ноября: https://stc.innopolis.university/dataanalyst_webinar?utm_source=telegram&utm_medium=birzha&utm_campaign=data_analysis_ml
👍102🔥2
🖥 Большие данные: 70 невероятных бесплатных источников данных.

Вся отличная визуализация данных начинается с хороших, чистых данных. Большинство считают, что сбор больших данных будет трудной работой, но это неправда. На сайте доступны тысячи бесплатных наборов данных, готовых для анализа и просмотра любым пользователем.

Здесь мы собрали 70 источников свободных данных на правительство, преступности, здравоохранения, финансовых и экономических данных, маркетинга и социальных сетей, журналистики и средств массовой информации, недвижимости, каталог, обзор бизнеса и многое другое.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍72
🏓 Что ждет data-инжиниринг в будущем

Что такое data-инжиниринг

Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍132🔥1
🖥 Нейронные сети для начинающих. Работа с изображениями в OpenCV. Алгоритм Canny Edge Detector

Вот небольшой список задач, которые будут разобраны ниже:

- Преобразование изображения в оттенки серого.
- Уменьшение размерности изображения (в пикселях) в 4 раза.
- Нахождение и выделение (рамкой) самого тёмного объекта на изображении.

➡️ Читать дальше
🔩 Код из статьи
➡️ 2 часть
➡️ 1 часть

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥31