Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

47.1K subscribers

2.65K photos

303 videos

1 file

2.3K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

47.1K subscribers

Анализ данных (Data analysis)

Увеличь это! Современное увеличение разрешения в 2023

Почти 4 года назад вашим покорным слугой была опубликована статья Увеличь это! Современное увеличение разрешения, которая набрала +376 хабролайков и 176 тысяч просмотров. Но прогресс на месте не стоит! Новые нейросетевые методы жгут! Их результаты прекрасны и великолепны. 1,5 года назад на хабре была неплохая статья Апскейл, который смог (+160), в которой были показаны плюсы новых алгоритмов.

Но всегда ли все прекрасно? Конечно нет!

Мой любимый пример фантастических способностей нейросетевых алгоритмов выше. В шарике отражается наша лаборатория. Бюст Зевса был взят в датасет, чтобы оценить работу нейросетей с полутенями, но результат «обработки полутеней» сильно превзошел ожидания. Во-первых, мудрые голубые глаза и покрасневшие губы! Во-вторых, Зевс теперь причесан! В-третьих, его борода стала короче и тоже аккуратно подстрижена! Наконец, Зевс теперь выглядит ощутимо моложе и… человечнее! О, жители Олимпа, согласитесь, это просто божественно!

Почему нам таки есть что сказать по теме? За последние годы мы создали 3 бенчмарка Video Super-Resolution под разные кейсы использования, которые на данный момент занимают первые 3 (из 14) места в соответствующем разделе на сайте paperswithcode.com.

Подобная деятельность безмерно актуальна, поскольку если 4 года назад на GitHub было меньше 200 репозиториев Super-Resolution, то сейчас их там больше 900 и разобраться в этом море исходников стало совсем непросто.

▪Читать дальше

@data_analysis_ml

👍11🔥3❤1🤔1

4.72K views17:16

Анализ данных (Data analysis)

📈 Yahoo Webscope

Программа Yahoo Webscope — это справочная библиотека интересных и полезных с научной точки зрения финансовых наборов данных для некоммерческого использования академиками, дата саентистами и другими учеными.

➡️

Сайт

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥2❤1

5.52K views09:02

Анализ данных (Data analysis)

Как организовать работу над ML-экспериментами с помощью MLflow

MLOps помогает стандартизировать и повысить эффективность процессов работы с ML. В статье ребята из VK Cloud и Karpov.Courses показали последовательность действий по выстраиванию MLOps-подхода c применением MLflow (компонент Cloud ML Platform) в проектах.

▪️ Читать дальше

@data_analysis_ml

👍7🔥3❤2

5.12K views12:52

Анализ данных (Data analysis)

👺

Маскируем данные с Python

Каким же образом можно свободно передавать, в некоторых случаях даже хранить данные, не переживая о потенциальных утечках? Именно здесь в игру вступает анонимизация данных путём маскирования.

Проще говоря, анонимизация данных – это процесс перестановки данных таким образом, после которого будет невозможно понять, кому принадлежат данные. В зависимости от цели может так же возникнуть потребность в том, чтобы сохранить смысл и такие свойства как однородность, целостность, взаимозависимость и вариативность исходных данных. Чтобы решить возможную проблему, необходимо понять, как и какие данные необходимо маскировать, а какие нужно сохранить.

Anonympy – простая, но богатая своим функционалом библиотека, обладающая набором инструментов и функций для анонимизации и маскировки данных. На текущий момент проходит бета-тестирование функционала по анонимизации изображений и цензурированию текста в PDF-документах, но об этом в другой раз.

pip install anonympy

- Читать дальше
- Зеркало
- Anonympy

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤4🔥4

4.71K views09:32

Анализ данных (Data analysis)

🖥

Bokeh

Интерактивная визуализация данных в браузере на Python. Экспресс введение в библиотеку Bokeh.

pip install bokeh

🖥

Github
📑Документация

@pythonl

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥5❤3

5.73K views14:02

Анализ данных (Data analysis)

🗺 Визуализация интерактивных карт

Часто возникает проблема визуализации данных за несколько периодов времени. Те, кто уже пытался создавать карты знают, что эту проблему можно решить с помощью разных слоёв на карте.

Для визуализации интерактивных карт рассмотрим библиотеку - Folium.

Folium — это мощная библиотека визуализации данных в Python, которая была создана в первую очередь для того, чтобы помочь людям визуализировать гео-пространственные данные.

С помощью Folium можно создать карту любого местоположения в мире, если вы знаете его значения широты и долготы.

Также можете создать карту и наложить маркеры, а также кластеры маркеров поверх карты для крутых и очень интересных визуализаций.

Для интерактивной визуальной аналитики - библиотеку Folium сначала нужно установить. В терминале прописываем:

pip install folium

📌 Читать дальше

@data_analysis_ml

👍11🔥3❤1

5.34K viewsedited 10:02

Анализ данных (Data analysis)

🌲 Заглянем «под капот» алгоритмов, использующих в своей основе деревья решений

Один из самых мощных алгоритмов контролируемого машинного обучения на сегодня – градиентный бустинг (Catboost, XBGR), построен на столь казалось легком и базовом элементе, как бинарное дерево, или же дерево решений.

Оно является строительным блоком данного алгоритма, в данном случае можно привести притчу про веник и его части, но в этом случае, иногда даже одно дерево решений способно выдать неплохой результат в решениях задач классификации и регрессии. Сегодня я рассмотрю его подробнее, на примере Decision Tree и Random Forest из библиотеки sklearn, а также визуализирую работу.

В практике всегда возникает проблема верного выявления гипотез, в моей работе с этим помогают модели машинного обучения, но и их необходимо контролировать. Визуализация весов - один из способов это сделать.

▪Читать
▪Датасет

@data_analysis_ml

👍17❤5🔥1👏1

5.74K views14:31

Анализ данных (Data analysis)

🔍

Как собрать качественный датасет для задач машинного обучения.

Данные — это душа каждой модели машинного обучения. В этой статье мы расскажем о том, почему лучшие команды мира, занимающиеся машинным обучением, тратят больше 80% своего времени на улучшение тренировочных данных.

Точность ИИ-модели напрямую зависит от качества данных для обучения. Современные глубокие нейронные сети во время обучения оптимизируют миллиарды параметров.

Но если ваши данные плохо размечены, это выльется в миллиарды ошибочно обученных признаков и многие часы потраченного впустую времени.
Мы не хотим, чтобы такое случилось с вами. В своей статье мы представим лучшие советы и хитрости для улучшения качества вашего датасета.

▪Читать

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥4❤1😐1

5.82K views11:25

Анализ данных (Data analysis)

19 Датасетов для анализа данных, о которых вы скорее всего не слышали.

Работа с представленными датасетами сделает ваше портфолио в области науки о данных более привлекательным и разнообразным для работодателей.

Эти необычные датасеты могут стать идеальным способом найти вдохновение в мире Data Science.

▪Смотреть

@data_analysis_ml

👍13🔥6❤3❤‍🔥1

5.83K views09:30

Анализ данных (Data analysis)

🖥

SQL запросы c датафреймом Pandas

Если вы хотите отфильтровать свои данные, чтобы найти релевантную информацию с помощь SQL запросов, используя датафрейм Pandas, вы можете воспользоваться встроенной функции 𝗾𝘂𝗲𝗿𝘆() .

Функция выполняет запросы на основе логических выражений, как если бы вы писали запрос на естественном языке!

В этой статье мы расскажем, как с помощью Pandas добиться на Python такого же результата, как в SQL-запросах.

▪ Статья

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤3🔥3

5.76K views12:46

Анализ данных (Data analysis)

🐼 О Pandas: малоизвестные функции и ошибки, которые следует избегать

В этой статье мне бы хотелось поговорит о библиотеке для обработки и анализа данных на Python – Pandas.

А если быть конкретнее, то о малоизвестных функциях, которые смогут расширить ваш кругозор, и об ошибках, которые следует избегать во время работы с этой библиотекой!

▪Читать

@data_analysis_ml

👍11❤4🔥4

5.5K views09:01

Анализ данных (Data analysis)

🎉 32 библиотеки с открытым исходным кодом к 32-летию Python

Гвидо Ван Россум создал Python 20 февраля, в 1991 году. За последние 32 года Python стал одним из самых популярных языков программирования в мире с более чем 15 миллионами разработчиков!

Сегодня существует более 137 тысяч библиотек с открытым исходным кодом! Давайте посмотрим на 32 полезные библиотеки для Датасаентистов с открытым исходным кодом в честь 32-го дня рождения Python.

▪ Читать

@data_analysis_ml

❤16👍4🎉4🔥2👏1

6.18K views16:00

Анализ данных (Data analysis)

5️⃣ Шагов для разработки уникальных Data Science проектов

Возможно, самая сложная часть любого проекта - это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи.

Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.

▪ Читать

@data_analysis_ml

👍11🔥4❤2👎1

5.81K viewsedited 09:41

Анализ данных (Data analysis)

🖥

Bamboolib — Анализ данных с помощью Python без программирования

Bamboolib – это библиотека Python, которая предоставляет компонент пользовательского интерфейса для анализа данных без написания кода.

Одним из вариантов её использования является импортирование готовых функций для анализа данных, создание которых занимает много времени. Bamboolib предназначена для автоматизации рутинных задач обработки данных, исследования и визуализации и может использоваться как начинающими, так и опытными аналитиками данных.

💨

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤2🔥2🥰1

5.23K views10:02

Анализ данных (Data analysis)

↪️

7 Простых советов, которые сделают вас профессионалом в использовании Pandas

Pandas – одна из самых популярных и широко используемых библиотек для анализа данных на Python. Её мощь и универсальность делают её незаменимым инструментом для всех, кто работает с данными.

Независимо от того, являетесь ли вы новичком или опытным пользователем, всегда есть возможности для совершенствования ваших навыков работы с Pandas. Вот несколько советов, которые помогут вам поднять свои навыки владения Pandas на новый уровень.

▪ Читать

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥2❤1

4.91K views10:00

Анализ данных (Data analysis)

“Анализ тональности текста” в Google Colab с использованием ChatGPT

Иногда люди используют слова или язык тела, чтобы показать, что они чувствуют. Анализ тональности текста (sentiment Analysis) – это своего рода компьютерный способ понять, что чувствуют люди, когда они что-то пишут, например, по электронной почте или в социальных сетях. Компьютер просматривает слова и пытается определить, несет ли написанное слово положительный, отрицательный оттенок или вовсе не несёт в себе эмоций.

Это может быть полезно в различных приложениях, таких как понимание отзывов клиентов, мониторинг общественного мнения в социальных сетях или анализ отзывов о продуктах, особенно если у вас есть большое количество датасетов.

▪ Читать

@data_analysis_ml

👍14❤4🔥3👎1

5.02K views09:02

Анализ данных (Data analysis)

📊

Руководство по работе с Matplotlib

Качественный образовательный материал, объясняющий простым языком принципы построения самых разнообразных диаграмм (в том числе комбинированных, например, scatterplot + line plot).

- Про различные типы графиков
- Подробный разбор компонентов и функций matplotlib - Про то, как управлять подписями на осях, размерами и расположением визуализаций
- Разбор функций для построения продвинутых визуализаций

▪Руководство
▪Книга Matplotlib

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤2🔥2

5.53K viewsedited 08:53

Анализ данных (Data analysis)

Гайд по работе с изображениями Python Pillow для Датасаентиста

В этом уроке вы узнаете, как:

▪Читать изображения с помощью Pillow
▪Выполнять основные операции с изображениями
▪Использовать Pilow для обработки изображений
▪Используйте NumPy с Pillow для дальнейшей обработки
▪Создавать анимации с помощью Pillow

В этом руководстве представлен обзор возможностей библиотеки Python Pillow с помощью распространенных методов. Как только вы освоитесь в использовании этих методов, вы сможете использовать документацию Pillow для изучения остальных методов в библиотеке.

Если вы никогда раньше не работали с изображениями в Python, это отличная возможность сразу приступить!

▪ Читать

@data_analysis_ml

👍8❤2🔥2

4.69K views09:37

Анализ данных (Data analysis)

📝 Предобработка текста для обучения модели классификации

Перед обучением модели классификации необходимо провести предварительную обработку текста, используя следующие методы:

▪Лемматизация / стемминг
▪Приведение слов в нижний регистр
▪Исключение стоп-слов из текста
▪Удаление пунктуации, союзов, предлогов, частиц
▪Очистка текстов от часто встречающихся слов
▪Токенизация

Порядок шагов обязателен. Поясню: если вы предварительно не привели слова в нижний регистр, то "Документ" и "документ" будут в вашем словаре разными токенами. То же самое и для других шагов

Хотите подробный разбор каждого из методов обработки текста? Тогда ставьте свои - 🔥 и уже совсем скоро подробно разберём каждый пункт

▪ Классификация текста с использованием моделей трансформеров

@data_analysis_ml

🔥29👍7❤2

4.6K views09:10

Анализ данных (Data analysis)

27 февраля стартовал финал совместного профиля «Искусственный интеллект» НТО и Академии искусственного интеллекта для школьников БФ Сбербанка «Вклад в будущее»

📌 3 дня продлится командная работа над финальной задачей.

Sber AI подготовил задание по разработке алгоритма, который анализирует видео и отвечает на вопросы по его содержанию. Такое решение позволит ускорить анализ видеоинформации, а также проводить эффективный поиск по видеопоследовательностям.

📌Подробности по ссылке: https://www.ng.ru/news/760842.html

По итогам командам-победителям вручат приглашения на оплачиваемую стажировку в Сбер и компании-партнеры по направлению «Машинное обучение». Призовой фонд превышает 4 млн рублей

👍8❤2🔥1

19.7K views12:07