Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.08K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
💻 Моделирование данных в мире современного стека данных 2.0

Представьте, что вам нужно проанализировать данные об элементах, которые клиенты видят в списке веб-приложения. Это могут быть результаты поиска, товары для продажи, наиболее релевантные сообщения в ленте новостей и список новых звонков в службу поддержки клиентов — для аналитиков они все одинаковы.

Такие данные могут быть использованы аналитиками для оценки CTR (показателя кликабельности) при разработке тех или иных рекомендательных алгоритмов, позволяющих определить наблюдаемость различных позиций в списке (например, 1-я по сравнению с 10-й).

➡️ Читать дальше
➡️ Моделирование данных: зачем нужно и как реализовать

@data_analysis_ml
👍9🔥1
🌏 Использование Redis для работы с геоданными

Работа с геопространственными данными заведомо сложная задача, хотя бы потому что широта и долгота это числа с плавающей запятой и они должны быть очень высокоточными. К тому же, казалось бы, широта и долгота могут быть представлены в виде сетки, но на самом деле нет, не могут, просто потому что Земля не плоская, а математика - это сложная наука.

➡️ Читать дальше
↪️ Redis for Geospatial Data whitepaper
⚙️ Запуск Redis в Google Colab Python

@data_analysis_ml
👍9🔥2👎1
📡 Простая обработка возобновляющихся данных или как создать легко воспроизводимый DS проект.

Аналитику или исследователю данных приходится разрабатывать множество алгоритмов по обработке и анализу различных данных. Большинство алгоритмов разрабатываются для многоразового использования, а значит, код либо запускается разработчиком с определенной периодичностью, либо код передается другим пользователям для обработки своих данных. При этом алгоритмы имеют множество параметров и зависимостей, которые необходимо индивидуально настраивать под определенные данные.

Для того чтобы сделать процесс развертывания, использования и доработки алгоритма интуитивно понятным воспользуемся инструментом Kedro. Основная концепция kedro заключается в модульной структуре, где весь цикл работы с данными формируется из отдельных блоков в единый рабочий процесс

➡️ Читать дальше
⚙️ Код
⚙️ Kedro

@data_analysis_ml
🔥10👍5
📖 Краткое руководство по созданию наборов данных с помощью Python

Если вам когда-нибудь приходилось собирать данные о своих пользователях, вы знаете, насколько это сложно. Так почему бы не попытаться создать свой собственный набор данных?

В этой статье я опишу простой процесс сбора пользовательских данных, который можно реализовать менее чем за час. Это позволит вам легко собирать и хранить пользовательские данные.

Сначала мы будем использовать Streamlit, чтобы создать веб-страницу для размещения пользовательского интерфейса сбора данных, а затем — Google Sheets API вместе с одним классным пакетом Python для хранения введенных пользователями данных.

➡️ Читать дальше

@data_analysis_ml
👍9🔥4
💬 Основы обработки естественного языка за 10 минут

В этой статье будут рассмотрены следующие процессы:

1. Токенизация.

2. Стоп-слова.

3. Выделение основы слова.

4. Лемматизация.

5. Создание базы слов.

6. Маркировка частей речи.

7. Построение цепочек слов.

Но прежде всего разберёмся, что же такое NLP.

Естественный язык (NL) обозначает явление, благодаря которому люди общаются друг с другом, а его обработка означает лишь передачу данных в понятной форме. Таким образом, можно сказать, что NLP — это способ, который помогает компьютерам общаться с людьми на их языке.

➡️ Читать дальше

@data_analysis_ml
👍8🔥2
📖Практическая статистика для специалистов Data SciencePDF

50+ важнейших понятий с использованием R и Python

⚙️ Книга

@data_analysis_ml
👍21🔥6👎1🥰1
Как создать хранилище данных за 5 шагов

Будучи участником многочисленных проектов по преобразованию сложных типов данных, могу подтвердить статистику, согласно которой 85% проектов по обработке данных терпят неудачу.

Вот основные причины этих неудач.

Трансформирование стеков данных.
Недостаточная подготовленность данных.
Некомпетентность команды.
Нетерпеливость заинтересованных сторон.
Чрезмерное усердие руководства.
Отсутствие инвестиций, необходимых для изменения организационной культуры.

➡️ Читать дальше

@data_analysis_ml
👍10🔥1
8 показателей эффективности классификации

Классификация — это тип контролируемой задачи машинного обучения. Цель классификации — предсказание признаков одного или нескольких наблюдаемых объектов или класса, к которому они принадлежат.

Важным элементом любого рабочего процесса машинного обучения является оценка эффективности модели. Это процесс, при котором обученную модель используют для прогнозирования на материале ранее не отображенных, помеченных данных. При классификации оценивают количество правильных прогнозов, сделанных моделью.

В реальных задачах классификации обычно невозможно достичь 100% верных прогнозов, поэтому при оценке модели полезно знать не только то, насколько она была неверна, но в чем.

➡️ Читать дальше

@data_analysis_ml
🔥8👍4
💫 4 пакета Python для причинно-следственного анализа данных

Причинно-следственный анализ — это область экспериментальной статистики, направленная на установление и обоснование причинно-следственных связей. Использование статистических алгоритмов для доказательства причинно-следственных связей в наборе данных при строгом допущении называется эксплораторным причинно-следственным анализом (ЭПСА).

ЭПСА — это способ доказать причинно-следственные связи с помощью более контролируемых экспериментов, а не только на основе корреляции. Часто требуется испытать контрфактическое состояние  — иное состояние при других обстоятельствах. Проблема в том, что корреляционный анализ позволяет приблизительно установить только причинно-следственные связи, но не контрфактические.

Анализ причинно-следственных связей — это совершенно другая область исследований в науке о данных, поскольку он отличается от предсказаний, полученных в результате моделирования с помощью машинного обучения. Можно всегда предсказать результат МО на основе имеющихся данных, но не то, что выходит за рамки этих данных.

Чтобы узнать больше о причинно-следственном анализе, познакомимся с 4 пакетами Python, которые можно использовать для исследования данных.

➡️ Читать дальше

@data_analysis_ml
🔥18👍62
✒️ Распознавание чисел в прописном виде.

Суть задачи

Есть большой объём данных отсканированных через Adobe File reader документов в виде txt файлов, разного формата. Нам нужно распарсить эти документы по некоторым параметрам и достать из них число, записанное прописью. Для того чтобы вытаскивать параметры мы используем Natasha, но из-за «мусорных» данных, вызванных либо качеством сканов, либо не идеальности самого сканера, она не всегда справляется со своей задачей. Тут нам и приходит на помощь алгоритм, о котором далее пойдёт речь.

➡️ Читать дальше
⚙️ Код на Python

@data_analysis_ml
👍8
📁 Автоматизированная загрузка массива CSV в БД

Потребность в подобной разработке возникла в связи с необходимостью перемещения больших объемов данных из одной системы управления базами данных в другую. Из-за большого размера выгрузки её пришлось разбивать на множество мелких CSV. Загрузка каждого файла вручную заняла бы много времени. Это и стало причиной создания программы, о которой пойдет речь. Разработанный ноутбук Python будет сам определять типы данных внутри CSV и автоматически загружать их в таблицу БД. В каталоге с ноутбуком должны быть созданы две папки: in (куда нужно сложить загружаемые CSV) и out (куда будут перемещены уже загруженные файлы). После создания папок можно приступить к написанию кода.

➡️ Читать дальше
⚙️ Код

@data_analysis_ml
👍12🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ 10 простых хаков, которые ускорят анализ данных Python

Сделать анализ данных Python быстрее и лучше – мечта каждого разработчика. Вот наглядные примеры: узнайте, как добавить чуточку магии в код.

В этой статье собраны лучшие советы и приёмы. Некоторые из них распространённые, а некоторые новые, но обязательно пригодятся в будущем.

➡️ Читать дальше

@data_analysis_ml
👍33🔥53
📊 ТОП-10 инструментов для Data Science

Хотите сделать свою работу в области науки о данных продуктивнее? Подбирайте удобные и эффективные инструменты. Рассмотрим десять лучших, получивших наибольшее распространение среди специалистов по Data Science во всем мире.

➡️ Часть 1
➡️ Часть 2

@data_analysis_ml
👍13🔥4
🪐 Визуализация архитектуры и отдельных блоков нейросети с помощью Netron

Netron поддерживает как наиболее популярные фреймворки глубокого обучения – Keras и PyTorch – так и менее известные, и даже scikit-learn.

Установка в виде сервера для python производится стандартным образом через pip. Также можно установить netron в виде отдельной программы командой.

winget install -s winget netron
(для Windows) или
snap install netron
(для Linux).


➡️ Читать дальше
⚙️ Github

@data_analysis_ml
👍7🔥2
🌍 Kepler.gl — инструмент для визуализации геоданных.

Если вы когда-либо работали с геоданными, то знаете, насколько нецелесообразно просматривать их в формате CSV, таблицы или JSON. Геоданные необходимо нанести на карту для последующего изучения и выявления закономерностей. Процесс сбора информации не ограничивается только этими действиями и обязательно требует выполнения качественного анализа или/и запуска моделей МО.

➡️ Читать дальше
⚙️ Github

@data_analysis_ml
👍12🔥4👎1
machinelearning_interview - канал подготовит к собеседованию по машинному обучению, статисике ,алгоритмам и науке о данных.

golang_interview - Вопросы с настоящих Golang собеседований, помогут Вам получить успешно пройти интервью.

python_job_interview - здесь собраны все возможные вопросы и ответы с собеседований по Python.

ai_machinelearning_big_data - Мл, Наука о данных.
🔥7👍1
🤖🎨 ИИ для рисования: раскрываем секреты нейронного переноса стиля

Раскладываем по полочками, как «думает» нейронная сеть VGG-19, когда ей прилетает задача скопировать стиль художника из вида Homo sapiens.

➡️ Читать дальше
⚙️ Ноутбук на Kaggle
⚙️ Код
🧠 Нейронный алгоритм переноса стиля

@data_analysis_ml
👍10🔥2🤩1
📖 От 0 до 300 SQL-запросов в месяц: практические советы для аналитика данных.

До текущей работы бизнес-аналитиком, на которую я устроилась в августе 2021 года, я написала всего несколько SQL-запросов. Меня наняли не из-за знания SQL (Structured Query Language, язык структурированных запросов). Однако в ноябре в нашей компании внедрялась новая база данных. Я, как единственный человек в команде, который когда-либо писал на языке программирования, стала самым подходящим кандидатом в специалисты по извлечению данных из новой БД.

Сегодня я делаю запросы к базе данных по 7-10 раз в день. В следующем месяце получу доступ ко второй БД, а позже еще к нескольким за счет привлечения в компанию других бизнес-направлений.

Помимо базовых правил использования операторов, я полагаюсь на несколько лайфхаков, помогающих упростить запросы и загрузить данные в дашборд более эффективно.

➡️ Читать дальше

@data_analysis_ml
👍17🔥5
🎲 Байесовская статистика для специалистов по данным c примерами на Python.

Возможно, вы помните теорему Байеса как громоздкое уравнение из курса статистики, которое вам нужно было заучить. Но за ним кроется нечто большее. Эта теорема лежит в основе альтернативного взгляда на статистику и вероятность, противостоящего мнению сторонников частотного подхода (или фреквентистов), и доброй половины величайших (или нуднейших) священных войн в академической среде.

➡️ Читать дальше

@data_analysis_ml
👍121🔥1
🌅 GAN-модели для генерации набора данных из изображений

Для работы с данными в специфических областях очень остро стоит проблема нехватки данных для обучения. Давайте рассмотрим один из способов генерировать изображения.

➡️ Читать дальше
⚙️ Полный код

@data_analysis_ml
👍12🔥2