Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

47.1K subscribers

2.65K photos

304 videos

1 file

2.3K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

47.1K subscribers

Анализ данных (Data analysis)

🐼 Пакетная обработка 22 ГБ данных о транзакциях с помощью Pandas

С большими наборами данных работать сложно, особенно при отсутствии необходимых ресурсов. У большинства из нас нет доступа к распределенному кластеру, GPU-установкам или более 8 ГБ оперативной памяти. Это не значит, что мы не можем работать с большими данными. Просто нужно обрабатывать их по одному фрагменту за раз, то есть при итерации полного набора данных работать с отдельно с каждым подмножеством.

➡️

Читать дальше

🖥

Датасет

⭐️

Код

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥8❤1

6.64K views13:00

Анализ данных (Data analysis)

⭐️

Собеседование на вашу первую работу Data Scientist'ом: чего ожидать и к чему готовиться

Виды собеседований на должность Data Scientist'а, их течение и советы для успеха.

Если вы ошеломлены подготовкой к собеседованию на должность Data Scientist'а, вы не одиноки. Поиск "собеседование в Data Science" вернет вам бесконечное количество ссылок, включая статьи о Python, R, статистике, A/B тестированию, машинному обучению, Big Data. Вам посоветуют прочитать бесконечное количество книг. К сожалению, мы и сами давали такие же обширные рекомендации другим.

В реальности вам не нужно готовиться ко всему, чтобы получить свою первую работу Data Scientist'ом.

В этой статье мы расскажем вам о четырех ключевым вещах:

- Виды должностей Data Scientist'ов.
- Виды собеседований, к которым вы должны приготовиться.
- Чего ожидать в процессе собеседования.
- Что оценивают собеседующие.
Давайте погрузимся в эти темы.

➡️

Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥6👎3❤2🥱1

6.25K views09:00

Анализ данных (Data analysis)

🆕 Новые организации присоединились к Кодексу этики ИИ

Кодекс этики искусственного интеллекта разработал Альянс в сфере ИИ. Ранее к нему присоединились такие компании, как Сбер, Яндекс, VK и другие. Теперь же список участников пополнился новыми именами: Datanа, Factory 5, ГК «GlobalTruck», ГеомирАгро, Цифровая платформа КАМАЗ, ГК Медси, Самолет, Сибур, Северсталь Менеджмент, РЖД, Русагро Технологии, Уралхим. Всего присоединилось 12 новых организаций.

Мероприятие по присоединению к Кодексу было проведено во время конференции AI Journey — на нем присутствовали зампред правительства РФ Дмитрий Чернышенко, а также зампред правления Сбера Александр Ведяхин.

@data_analysis_ml

👍7❤1🔥1😁1🥱1

5.24K views09:28

Анализ данных (Data analysis)

🛠

Ансамбли моделей для распознавания рукописных цифр

Применение нескольких моделей машинного обучения для решения задачи является частой практикой и данная технология преимущественно выигрывает по качеству по сравнению с одной моделью. Однако, для успешного результата такой технологии необходимо разбираться в ее модификациях.

В данном посте будет рассказано об алгоритмах ансамблирования. Ансамблевые методы применяются, чтобы объединить в себе несколько моделей машинного обучения. Такая композиция может привести к увеличению качества решаемой задачи за счет использования сразу нескольких моделей вместо одной. Логику алгоритма можно объяснить поговоркой – “одна голова хорошо, а две лучше”. Далее будет объяснено с математической точки зрения, почему же это так.

Например, есть некоторый метод обучения - линейная регрессия. У этого алгоритма существует ошибка. Ошибку метода обучения можно разложить на 3 компоненты: шум, смещение и разброс. Шум показывает, насколько ошибается построенная модель, и он не зависит от модели. Он характеризует насколько репрезентативна была выборка данных, на которой мы обучали модель. Смещение (bias) показывает, насколько отличается средняя модель по всем возможным обучающим выборкам от истинной зависимости. Разброс (variance) - как сильно меняется модель в зависимости от выборки, на которой обучается модель. Подытожив, шум – это показатель данных, смещение характеризует приближенность к реальной зависимости модели, разброс говорит о чувствительности к обучающей выборке. Такое разложение называется bias-variance decomposition.

➡️ Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤1🔥1

5.3K viewsedited 11:28

Анализ данных (Data analysis)

🐘 Как найти «слона» в песочнице на Hadoop

В процессе работы часто требуется создать базу данных (командное пространство, песочница и т.п.), которую необходимо использовать для временного хранения данных.

Как у любого «помещения» в «песочнице» есть ограничение по объёму выделенного места для хранения данных. Иногда это ограничение забывается и заканчивается объём выделенной памяти.

В этом случае можно применить маленький «лайфхак», который позволит оперативно просмотреть, какая таблица занимает больше всего места, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, можно оперативно почистить место в песочнице, предварительно согласовав эти действия с владельцем данных, без нанесения вреда данным другим пользователям. Кроме того, данный инструмент позволит периодически проводить мониторинг наполняемости общей песочницы.

➡️

Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥2❤1

5.54K views12:39

Анализ данных (Data analysis)

🖥

Парсинг Яндекс Карт или как собрать целевую аудиторию

Перед тем как перейти к парсингу Яндекс Карт, расскажу, какую задачу я хотел решить.

Я решил узнать, кто является целевой аудиторией для сервисов мультиссылок, например Taplink. Если зайти на сайт Taplink'a[ссылка удалена модератором], то они там показывают сценарии использования сервиса и пишут о категориях клиентов, на которые они ориентируются. Это “популярные люди”, “бизнес”, “интернет-магазин” и “каждый”. На лендинге немало примеров работ для оффлайн бизнеса, поэтому появилась идея проверить, используют ли вообще эти категории бизнеса сервисы мультиссылок. И для этого пригодится информация с Яндекс Карт.

➡️

Читать дальше

🖥

Код парсера

🖥

Ноутбук для анализа сайтов организаций

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤2🔥1

6.1K viewsedited 10:16

Анализ данных (Data analysis)

❇️

Почему при разработке ИИ главное — это данные

Системы машинного обучения рождаются от союза кода и данных. Код сообщает, как машина должна учиться, а данные обучения включают в себя то, чему нужно учиться. Научные круги в основном занимаются способами улучшения алгоритмов обучения. Однако когда дело доходит до создания практических систем ИИ, набор данных, на котором выполняется обучение, по крайней мере столь же важен для точности, как и выбор алгоритма.

Существует множество инструментов для улучшения моделей машинного обучения, однако чрезвычайно мало способов улучшения набора данных. Наша компания много размышляет над тем, как можно систематически улучшать наборы данных для машинного обучения.

➡️

Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤2🔥1

5.48K views09:21

Анализ данных (Data analysis)

⭐️

CRISP-DM: проверенная методология для Data Scientist-ов

Постановка задач машинного обучения математически очень проста. Любая задача классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

➡️

Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥3❤2

5.77K views08:24

Анализ данных (Data analysis)

⭐️

Awesome data science

Вероятно, лучший кураторский список программного обеспечения для обработки данных на Python.

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥4🥰1

5.99K views13:12

Анализ данных (Data analysis)

💨

Предобработка изображений с OpenCV

Огромную долю в восприятии информации человеком занимает визуальная информация. Практически всё в мире можно представить в виде изображения. Изображения и видео могут содержать в себе очень много данных — именно поэтому задачи по обработке изображений человек отдает машине.

➡️

Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤1🔥1

5.24K views14:02

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🔎

Разведочный анализ данных в одной строке кода

Разведочный анализ данных (Exploratory Data Analysis, EDA) — это выявление скрытой информации в наборе данных.

sweetviz — библиотека, которая предоставляет важную информацию о наборе данных без написания большого количества кода.

pip install sweetviz

➡️

Читать дальше

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍10❤3🤔1

7.78K views09:01

Анализ данных (Data analysis)

⭐️

Почему точные модели не всегда полезны

Для начала позволю себе заметить, что в интернете есть много качественного технического контента, посвященного оцениванию моделей. Такие метрики, как F1-score (гармоническое среднее), MSE (средняя квадратическая ошибка), MAE (среднее абсолютное отклонение), Huber Loss (функция потерь Хьюбера), precision (точность), recall (полнота), cross-entropy loss (потери перекрестной энтропии) и многие другие, детально описаны на различных платформах. Однако эти метрики обычно фокусируются на подгонке модели к данным, а не на оптимизации ее для конкретного бизнеса.

Чего зачастую не хватает, так это инструментов экономического анализа для оптимизации полезности модели. Полезность определяется просто как удовольствие или ценность, которые клиент может получить от услуги — в данном случае от модели МО.

Хотя эта концепция не преподается будущим специалистам МО, я уверен: экономический анализ и оценка полезности имеют большое значение для создания практичных и долговечных моделей в реальном мире. Пока все заинтересованные стороны (технические и нетехнические работники) совместно не создадут экономический слой МО-модели, бизнес-ценность и предельную полезность машинного обучения можно считать неопределенными.

Примечание. Эта публикация предназначена для технических МО-специалистов, а также для менеджеров по продуктам и менее технически подготовленных заинтересованных лиц, работающих с ИИ-продуктами. Здесь будет немного математики, но в заключительный раздел включены высокоэффективные концептуальные шаги.

➡️

Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤2🔥2

5.74K views10:02

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

20 Бесплатных курсов, чтобы научиться делать дашборды

➡️

Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15👍13❤2

7.79K views09:02

Анализ данных (Data analysis)

🖥

Математическая модель предсказала лидера ЧМ по футболу в 2022 году

Математическая модель учитывает данные прошлых лет и показатели сборных.

Дисклеймер: не используйте модель для ставок на спорт, ради бога! Это всего лишь математика, развлечение для гиков, а не оракул, которому можно безусловно доверять. Реальность куда более непредсказуема, поэтому поберегите свои деньги.

❤️

Читать

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

😁14👍12👎3🔥3❤1

6.6K views08:01

Анализ данных (Data analysis)

🏓

PYTHON CHARTS - энциклопедия визуализации данных.

Проект поможет вам научиться или прокачать навыки визуализации данных с помощью графиков, созданных в matplotlib, seaborn, plotly и других инструментах. Вы также найдете готовые инструкции по созданию конкретных примеров графиков и диаграмм.

✅️

Python charts

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28🔥5❤2

8.74K viewsedited 08:00

Анализ данных (Data analysis)

✔️

readysetdata: набор скриптов для очистки определенных наборов данных.

git clone https://github.com/saulpw/readysetdata.git
cd readysetdata

🖥

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥3❤2

6.1K views13:31

Анализ данных (Data analysis)

✔️

Список 50 бесплатных курсов по Data Science и аналитике данных

Сохраняйте себе и делитесь, чтобы не потерять.

➡️

Список

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤5👎3🔥3

7.27K views10:01

Анализ данных (Data analysis)

🖥

Pandas и Python: Советы и рекомендации по науке о данных и анализу данных

Здесь мы приведем все приемы и советы Pandas и Python, которые вы можете использовать в дальнейшем в своих проектах.

Содержание разделено на два основных раздела:

- Трюки и советы Pandas относятся только к Pandas.
- Трюки и советы на Python, связанные с Python.
Также предоставляются видео с канала YouTube. Каждое видео охватывает примерно два или три трюка одновременно.

➡️

Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16🔥4🥰1

5.53K views09:00

Анализ данных (Data analysis)

⭐️

Как предсказывать загрязнение воздуха с помощью нейросетей

Кратко о данных. Специальное оборудование производило замеры содержания в воздухе различных газов и взвешенных частиц, температуры воздуха, скорости ветра, атмосферного давления, даты и времени. Измерения производились каждые 20 минут в течении полутора лет. Следовательно, датасет содержит около 34 тыс. строк.

После осмотра файлов выяснилось, что в данных присутствуют сбойные измерения, от этих строк необходимо избавиться.

➡️

Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤2🔥1

5.06K views17:47

Анализ данных (Data analysis)

📌

12 бесплатных материалов по статистике – разберется каждый

Многие из ошибок, совершаемые аналитиками, да и не только аналитиками, но и продактами, предпринимателями, маркетологами вызваны непониманием концепций статистики, что приводит к запуску неправильного теста или неправильной интерпретации результатов.

Поэтому тут подборка материалов, которые помогут разобраться (бесплатно все, кроме книг – их возможно придется приобрести).

➡️

Читать дальше

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍6❤5

5.73K views09:01