Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📱 Как я решил сделать систему коллаборативной фильтрации постов из пабликов «Телеграма» на основе машинного обучения

Идея
В мире наступает революция ИИ, и в какой то момент мне стало казаться, что без меня она наступить не сможет. Поэтому я нашел курс по программированию нейросетей на Питоне Fast.AI, и решил придумать себе небольшой проект, чтобы поучиться на практике.

Я люблю Телеграм. И люблю иногда потупить в какую-нибудь ленту «информационного корма». В разное время я любил поразлагаться на Лепре, Дёти, Пикабу, но в итоге всеми этими источниками сладкого яда я остался недоволен.

И тогда я подумал: в Телеграме ведь куча источников, но Телеграм их не агрегирует по типу Фейсбука. Телеграм не собирает с нас лайки. Да, лайки это чистое зло и гореть им в аду, но иногда так хочется лайкнуть жопу фотомодели, нет?

А рекомендательные сервисы — это одно из направлений ML. А Телеграм — открытая система. Должно быть не сложно, подумал я. Оказалось чуть сложнее чем я думал, но получилось.

Стоит заметить, что я не профессиональный программист, и опыта в программировании у меня не было примерно с 2004 года. Так что, помимо собственно нейросетей, мне пришлось еще и быстренько расчухать основы Питона, вспомнить SQL, погрузиться в Докер и практику CI/CD. Это было потрясающе.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163🔥1
🖥 SQL: 45 бесплатных курсов, тренажеров, тестов

Всем привет! Данная подборка может быть местами с уклоном в аналитику, однако основная часть материалов для специалистов любой сферы!

Все материалы бесплатны, кроме книг, если вы захотите их приобрести.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥32
🖥 PostgreSQL. Основы языка SQL

В пособии рассматриваются следующие темы:

- Введение в базы данных и SQL
- Создание рабочей среды
- Основные операции с таблицами
- Типы данных СУБД PostgreSQL
- Основы языка определения данных
- Запросы
- Изменение данных
- Индексы
- Транзакции
- Повышение производительности


📓 Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Интерактивная визуализация данных

В этой статье я познакомлю вас с некоторыми из наиболее часто используемых библиотек визуализации Python, используя практические примеры и причудливые методы визуализации / виджеты. Весь код, который я использовал для этой статьи, доступен в этом GitHub репозитории.

Читать дальше
🔩 Код из статьи

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥187👍5🕊1
💻 Наука о данных: структура проекта

Когда-то предпочтение было отдано структуре, но, в конце концов, все, что имеет значение, это то, что вам должно быть удобно перемещаться и писать код.
Когда мы думаем о науке/анализе данных, мы часто думаем, что речь идет только о результатах, диаграммах, цифрах, идеях или визуализации. Хотя эти конечные продукты, как правило, являются главным событием, легко сосредоточиться на том, чтобы продукт выглядел красиво, и забыть о качестве кода, возможности повторного использования и возможности сотрудничать с другими, и для этого важна структура проекта.

При этом нет правильного метода структурирования вашего проекта, но у вас должна быть хотя бы некоторая структура, которой мы можем следовать для всего нашего проекта для стандартизации. Вы можете подумать, почему нужно использовать структуру проекта!

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍133🔥1
В чем преимущество контрактов о передаче данных

В последнее время в социальных сетях активно обсуждались контракты о передаче данных. Некоторые дата-саентисты делились мнениями о плюсах и минусах этого новшества и о том, что это вообще такое.

Это малоизученная тема, но я хотел бы поделиться своим опытом и конструктивными советами о том, как начать работу в этом направлении. Контракты о передаче данных — это нечто реальное и ценное, что можно использовать уже сегодня, прилагая меньше усилий, чем кажется.

Что особенного в контрактах о передаче данных
Если вы работаете с данными, скорее всего, вам не раз придется столкнуться с такой ситуацией: данные неверны, и вы не можете установить причину. Кажется, что на начальном этапе сбора данных есть проблема, но никто из коллег не знает, почему она возникла. Что же делать и к кому обратиться?

Поскольку качество предоставляемых данных не всегда безупречно, команды дата-саентистов начинают анализировать существующую инфраструктуру, которая служит другим первоначальным целям. Они “подключают” конвейеры к актуальной оперативной базе данных, выгружают данные в хранилище и выполняют дальнейшие действия.

▶️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥21
🖥 Наиболее полный гайд по работе с SQL в Data Science

Думаете, SQL не нужен в Data Science? Ошибаетесь. Расскажем об основах SQL и на примерах покажем, как использовать этот инструмент при работе с большими наборами данных.

SQL правят в стране Корпоративных Данных. До развития NoSQL это был основной язык запросов для извлечения данных из реляционных БД.

Реляционные базы данных представляют собой коллекции двумерных таблиц наподобие Excel или датасетов. В каждой такой таблице есть фиксированное количество столбцов и любое возможное число строк.

В качестве примера рассмотрим производителей автомобилей. У каждого изготовителя будет база данных, которая состоит из множества таблиц (например, по одной для каждой выпущенной модели автомобиля). В каждой из этих таблиц будут храниться всевозможные показатели продаж конкретной модели автомобиля в разных странах.

High Scalability опросили ИТ-лидеров на DeveloperWeek о тенденциях использования баз данных в 2021 году и обнаружили, что SQL по-прежнему используется в более чем 60% времени. Стратегия разнородных баз данных (SQL + NoSQL) применяется в 75% случаев. Это неудивительно. Отличающиеся типы баз данных предназначаются для неодинаковых целей.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥21
Изменение формы данных с помощью Python: широкие и длинные

Существует два фундаментальных подхода к хранению данных: широкие и длинные данные. Узнайте, что это значит и как работать с этими данными.

В этой статье мы рассмотрим:

- что такое широкие и длинные данные

- почему существует необходимость в двух разных форматах данных

- как преобразовать данные из одного типа в другой


➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍191🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Расширения и инструменты Jupiter, облегчающие жизнь

Если вы работаете с данными, вы вероятно слышали о блокнотах Jupyter. Jupiter - это интерактивная вычислительная платформа на базе интернета, поддерживающая более 40 языков программирования включая Python. Я лично использую записные книжки Jupyter для создания прототипов и выполнения специальных задач на Python. В этой статье будут озвучены некоторые расширения Jupyter, которые используются ежедневно, чтобы сделать жизнь проще и эффективнее.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7👎32
📖 Теоретический минимум по Big Data. Все что нужно знать о больших данных

Хотите узнать о больших данных и механизмах работы с ними? Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data.

➡️ Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5👎32
🖥 Github теперь в телеграм!

➡️ Для вас собраны актуальные проекты , которые реально помогут в разработке.

➡️ С уже готовой кодовой базой очень легко работать, код весьма понятен, в нём просто ориентироваться

➡️ Лучшие обучающие репозитории разбитых по языкам программирования

➡️ Перейти
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71👎1🔥1
🖥 Продвинутая спортивная визуализация с Python, Matplotlib и Seaborn

Вы видели все это в новостях: средства массовой информации в восторге от эпохи появления спортивной аналитики, коммерческие рекламные объявления с изображением инструментов больших данных, таких как карманный калькулятор, умелое использование многомерных камер для сбора информации о каждом поте спортивных игроков * введите имена героев вашего детства: Л. Месси, Леброн Джеймс, Том Брэди и т. д. * и увеличьте их производительность в 10 раз.

Хотя очевидно, что мы еще не достигли этого, спортивная аналитика прошла долгий путь, помогая командам в отношении принятия решений, которые традиционно делались из-за «интуитивного» чувства или приверженности прошлым традициям относительно того, какие игроки должны составлять, торговать, развивать, тренировать и какую систему играть.

В этом посте я не буду разрабатывать алгоритм прогнозирования насколько вероятно (маловероятно), что Тоттенхэм попадет в топ-4 премьер-лиги или как создать идеальную команду Jets для 2018 года. Вместо этого я представлю некоторые методы визуализации, которые помогут нам подготовить привлекательные и проницательные графики, которые понравятся вашим любителям спорта.

➡️ Читать дальше
🔩 Код из статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥42
О важности датасета и о том, как сделать его лучше. Наш опыт

Мы подготовили 7 основных шагов, которые превратят набор картинок из гугла не просто в мощный базовый блок системы компьютерного зрения, но и основной инструмент по выявлению и устранению ошибок распознавания.

Краеугольный камень любого проекта, связанного с компьютерным зрением - датасет. Это не просто набор изображений, который передается нейросети. Датасет - это базовый блок, который определит качество и точность определения объектов в рамках вашего проекта.

Нельзя просто собрать набор изображений из гугла и успокоиться - полученная куча изображений не будет нести гордое название «датасет» и испортит проект, вынуждая разработчика и компьютерное железо тренировать модель снова и снова.

Часто работа над датасетом занимает самое большое количество времени, чем над каким-либо еще этапом разработки системы компьютерного зрения, и это неспроста. Чем лучше будет подготовлен датасет, тем меньше времени потребуется на отладку модели, ее тренировки, поиск и устранение неточностей распознавания, а также в целом сделает модель «умнее».

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍121🔥1
🖥 Машинное обучение. Паттерны проектирования

Приводимые в книге паттерны проектирования отражают лучшие практические подходы к решению типичных задач машинного обучения. Указанные паттерны, реализованные в программном коде, сконцентрировали опыт сотен экспертов в простые и легкодоступные советы. Книга содержит подробный разбор 30 паттернов, служащих для представления данных и задач, тренировки моделей, отказоустойчивого обслуживания, обеспечения воспроизводимо-сти и искусственного интеллекта. Каждый паттерн включает в себя постановку задачи, ряд потенциальных решений и рекомендации по выбору технического приема, наилучшим образом подходящего к данной ситуации.

📓 Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥1
🖥 Как устроена виртуальная машина SQLite

SQL – концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке – SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет её и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, всё-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91🔥1
Учимся применять ИИ для автоматизации процессов

Университет Иннополис приглашает 2 ноября в 14:00 на открытое занятие. Разберем кейс по обработке данных с помощью Python. Встречу проведет эксперт с 20-летним опытом в IT, архитектор данных Азат Якупов.

Что вас ждет на вебинаре:

— Проведем обзор сферы BigData и трендов

— Рассмотрим, как и где применяется искусственный интеллект

— Разберем кейс по обработке данных с помощью Python

— Познакомимся с инструментами работы с большими данными

Регистрация на вебинар 2 ноября: https://stc.innopolis.university/dataanalyst_webinar?utm_source=telegram&utm_medium=birzha&utm_campaign=data_analysis_ml
👍102🔥2
🖥 Большие данные: 70 невероятных бесплатных источников данных.

Вся отличная визуализация данных начинается с хороших, чистых данных. Большинство считают, что сбор больших данных будет трудной работой, но это неправда. На сайте доступны тысячи бесплатных наборов данных, готовых для анализа и просмотра любым пользователем.

Здесь мы собрали 70 источников свободных данных на правительство, преступности, здравоохранения, финансовых и экономических данных, маркетинга и социальных сетей, журналистики и средств массовой информации, недвижимости, каталог, обзор бизнеса и многое другое.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍72
🏓 Что ждет data-инжиниринг в будущем

Что такое data-инжиниринг

Давно ли работающие с данными компании открыли новую профессиональную область и мы услышали термин «data-инжиниринг»? Лет десять назад. Когда бизнес осознал, насколько полезными могут быть данные, спрос на data-инженеров резко вырос. По данным Google, отмечается экспоненциальный рост интереса к термину «data-инженер», который достиг пика примерно в 2020 году.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍132🔥1
🖥 Нейронные сети для начинающих. Работа с изображениями в OpenCV. Алгоритм Canny Edge Detector

Вот небольшой список задач, которые будут разобраны ниже:

- Преобразование изображения в оттенки серого.
- Уменьшение размерности изображения (в пикселях) в 4 раза.
- Нахождение и выделение (рамкой) самого тёмного объекта на изображении.

➡️ Читать дальше
🔩 Код из статьи
➡️ 2 часть
➡️ 1 часть

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥31
👣 Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделения документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.

А также сравню по точности два подхода: Fine-Tune Bert и получение предобученных эмбеддингов и их классификация с использованием полносвязной нейронной сети.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍141🔥1