Увеличь это! Современное увеличение разрешения в 2023
Почти 4 года назад вашим покорным слугой была опубликована статья Увеличь это! Современное увеличение разрешения, которая набрала +376 хабролайков и 176 тысяч просмотров. Но прогресс на месте не стоит! Новые нейросетевые методы жгут! Их результаты прекрасны и великолепны. 1,5 года назад на хабре была неплохая статья Апскейл, который смог (+160), в которой были показаны плюсы новых алгоритмов.
Но всегда ли все прекрасно? Конечно нет!
Мой любимый пример фантастических способностей нейросетевых алгоритмов выше. В шарике отражается наша лаборатория. Бюст Зевса был взят в датасет, чтобы оценить работу нейросетей с полутенями, но результат «обработки полутеней» сильно превзошел ожидания. Во-первых, мудрые голубые глаза и покрасневшие губы! Во-вторых, Зевс теперь причесан! В-третьих, его борода стала короче и тоже аккуратно подстрижена! Наконец, Зевс теперь выглядит ощутимо моложе и… человечнее! О, жители Олимпа, согласитесь, это просто божественно!
Почему нам таки есть что сказать по теме? За последние годы мы создали 3 бенчмарка Video Super-Resolution под разные кейсы использования, которые на данный момент занимают первые 3 (из 14) места в соответствующем разделе на сайте paperswithcode.com.
Подобная деятельность безмерно актуальна, поскольку если 4 года назад на GitHub было меньше 200 репозиториев Super-Resolution, то сейчас их там больше 900 и разобраться в этом море исходников стало совсем непросто.
▪Читать дальше
@data_analysis_ml
Почти 4 года назад вашим покорным слугой была опубликована статья Увеличь это! Современное увеличение разрешения, которая набрала +376 хабролайков и 176 тысяч просмотров. Но прогресс на месте не стоит! Новые нейросетевые методы жгут! Их результаты прекрасны и великолепны. 1,5 года назад на хабре была неплохая статья Апскейл, который смог (+160), в которой были показаны плюсы новых алгоритмов.
Но всегда ли все прекрасно? Конечно нет!
Мой любимый пример фантастических способностей нейросетевых алгоритмов выше. В шарике отражается наша лаборатория. Бюст Зевса был взят в датасет, чтобы оценить работу нейросетей с полутенями, но результат «обработки полутеней» сильно превзошел ожидания. Во-первых, мудрые голубые глаза и покрасневшие губы! Во-вторых, Зевс теперь причесан! В-третьих, его борода стала короче и тоже аккуратно подстрижена! Наконец, Зевс теперь выглядит ощутимо моложе и… человечнее! О, жители Олимпа, согласитесь, это просто божественно!
Почему нам таки есть что сказать по теме? За последние годы мы создали 3 бенчмарка Video Super-Resolution под разные кейсы использования, которые на данный момент занимают первые 3 (из 14) места в соответствующем разделе на сайте paperswithcode.com.
Подобная деятельность безмерно актуальна, поскольку если 4 года назад на GitHub было меньше 200 репозиториев Super-Resolution, то сейчас их там больше 900 и разобраться в этом море исходников стало совсем непросто.
▪Читать дальше
@data_analysis_ml
👍11🔥3❤1🤔1
📈 Yahoo Webscope
Программа Yahoo Webscope — это справочная библиотека интересных и полезных с научной точки зрения финансовых наборов данных для некоммерческого использования академиками, дата саентистами и другими учеными.
➡️ Сайт
@data_analysis_ml
Программа Yahoo Webscope — это справочная библиотека интересных и полезных с научной точки зрения финансовых наборов данных для некоммерческого использования академиками, дата саентистами и другими учеными.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥2❤1
Как организовать работу над ML-экспериментами с помощью MLflow
MLOps помогает стандартизировать и повысить эффективность процессов работы с ML. В статье ребята из VK Cloud и Karpov.Courses показали последовательность действий по выстраиванию MLOps-подхода c применением MLflow (компонент Cloud ML Platform) в проектах.
▪️ Читать дальше
@data_analysis_ml
MLOps помогает стандартизировать и повысить эффективность процессов работы с ML. В статье ребята из VK Cloud и Karpov.Courses показали последовательность действий по выстраиванию MLOps-подхода c применением MLflow (компонент Cloud ML Platform) в проектах.
▪️ Читать дальше
@data_analysis_ml
👍7🔥3❤2
Каким же образом можно свободно передавать, в некоторых случаях даже хранить данные, не переживая о потенциальных утечках? Именно здесь в игру вступает анонимизация данных путём маскирования.
Проще говоря, анонимизация данных – это процесс перестановки данных таким образом, после которого будет невозможно понять, кому принадлежат данные. В зависимости от цели может так же возникнуть потребность в том, чтобы сохранить смысл и такие свойства как однородность, целостность, взаимозависимость и вариативность исходных данных. Чтобы решить возможную проблему, необходимо понять, как и какие данные необходимо маскировать, а какие нужно сохранить.
Anonympy – простая, но богатая своим функционалом библиотека, обладающая набором инструментов и функций для анонимизации и маскировки данных. На текущий момент проходит бета-тестирование функционала по анонимизации изображений и цензурированию текста в PDF-документах, но об этом в другой раз.
pip install anonympy
- Читать дальше
- Зеркало
- Anonympy
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤4🔥4
Интерактивная визуализация данных в браузере на Python. Экспресс введение в библиотеку Bokeh.
pip install bokeh
📑Документация
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥5❤3
🗺 Визуализация интерактивных карт
Часто возникает проблема визуализации данных за несколько периодов времени. Те, кто уже пытался создавать карты знают, что эту проблему можно решить с помощью разных слоёв на карте.
Для визуализации интерактивных карт рассмотрим библиотеку - Folium.
Folium — это мощная библиотека визуализации данных в Python, которая была создана в первую очередь для того, чтобы помочь людям визуализировать гео-пространственные данные.
С помощью Folium можно создать карту любого местоположения в мире, если вы знаете его значения широты и долготы.
Также можете создать карту и наложить маркеры, а также кластеры маркеров поверх карты для крутых и очень интересных визуализаций.
Для интерактивной визуальной аналитики - библиотеку Folium сначала нужно установить. В терминале прописываем:
📌 Читать дальше
@data_analysis_ml
Часто возникает проблема визуализации данных за несколько периодов времени. Те, кто уже пытался создавать карты знают, что эту проблему можно решить с помощью разных слоёв на карте.
Для визуализации интерактивных карт рассмотрим библиотеку - Folium.
Folium — это мощная библиотека визуализации данных в Python, которая была создана в первую очередь для того, чтобы помочь людям визуализировать гео-пространственные данные.
С помощью Folium можно создать карту любого местоположения в мире, если вы знаете его значения широты и долготы.
Также можете создать карту и наложить маркеры, а также кластеры маркеров поверх карты для крутых и очень интересных визуализаций.
Для интерактивной визуальной аналитики - библиотеку Folium сначала нужно установить. В терминале прописываем:
pip install folium
📌 Читать дальше
@data_analysis_ml
👍11🔥3❤1
🌲 Заглянем «под капот» алгоритмов, использующих в своей основе деревья решений
Один из самых мощных алгоритмов контролируемого машинного обучения на сегодня – градиентный бустинг (Catboost, XBGR), построен на столь казалось легком и базовом элементе, как бинарное дерево, или же дерево решений.
Оно является строительным блоком данного алгоритма, в данном случае можно привести притчу про веник и его части, но в этом случае, иногда даже одно дерево решений способно выдать неплохой результат в решениях задач классификации и регрессии. Сегодня я рассмотрю его подробнее, на примере Decision Tree и Random Forest из библиотеки sklearn, а также визуализирую работу.
В практике всегда возникает проблема верного выявления гипотез, в моей работе с этим помогают модели машинного обучения, но и их необходимо контролировать. Визуализация весов - один из способов это сделать.
▪Читать
▪Датасет
@data_analysis_ml
Один из самых мощных алгоритмов контролируемого машинного обучения на сегодня – градиентный бустинг (Catboost, XBGR), построен на столь казалось легком и базовом элементе, как бинарное дерево, или же дерево решений.
Оно является строительным блоком данного алгоритма, в данном случае можно привести притчу про веник и его части, но в этом случае, иногда даже одно дерево решений способно выдать неплохой результат в решениях задач классификации и регрессии. Сегодня я рассмотрю его подробнее, на примере Decision Tree и Random Forest из библиотеки sklearn, а также визуализирую работу.
В практике всегда возникает проблема верного выявления гипотез, в моей работе с этим помогают модели машинного обучения, но и их необходимо контролировать. Визуализация весов - один из способов это сделать.
▪Читать
▪Датасет
@data_analysis_ml
👍17❤5🔥1👏1
Данные — это душа каждой модели машинного обучения. В этой статье мы расскажем о том, почему лучшие команды мира, занимающиеся машинным обучением, тратят больше 80% своего времени на улучшение тренировочных данных.
Точность ИИ-модели напрямую зависит от качества данных для обучения. Современные глубокие нейронные сети во время обучения оптимизируют миллиарды параметров.
Но если ваши данные плохо размечены, это выльется в миллиарды ошибочно обученных признаков и многие часы потраченного впустую времени.
Мы не хотим, чтобы такое случилось с вами. В своей статье мы представим лучшие советы и хитрости для улучшения качества вашего датасета.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4❤1😐1
19 Датасетов для анализа данных, о которых вы скорее всего не слышали.
Работа с представленными датасетами сделает ваше портфолио в области науки о данных более привлекательным и разнообразным для работодателей.
Эти необычные датасеты могут стать идеальным способом найти вдохновение в мире Data Science.
▪Смотреть
@data_analysis_ml
Работа с представленными датасетами сделает ваше портфолио в области науки о данных более привлекательным и разнообразным для работодателей.
Эти необычные датасеты могут стать идеальным способом найти вдохновение в мире Data Science.
▪Смотреть
@data_analysis_ml
👍13🔥6❤3❤🔥1
Если вы хотите отфильтровать свои данные, чтобы найти релевантную информацию с помощь SQL запросов, используя датафрейм Pandas, вы можете воспользоваться встроенной функции 𝗾𝘂𝗲𝗿𝘆() .
Функция выполняет запросы на основе логических выражений, как если бы вы писали запрос на естественном языке!
В этой статье мы расскажем, как с помощью Pandas добиться на Python такого же результата, как в SQL-запросах.
▪ Статья
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤3🔥3
🐼 О Pandas: малоизвестные функции и ошибки, которые следует избегать
В этой статье мне бы хотелось поговорит о библиотеке для обработки и анализа данных на Python – Pandas.
А если быть конкретнее, то о малоизвестных функциях, которые смогут расширить ваш кругозор, и об ошибках, которые следует избегать во время работы с этой библиотекой!
▪Читать
@data_analysis_ml
В этой статье мне бы хотелось поговорит о библиотеке для обработки и анализа данных на Python – Pandas.
А если быть конкретнее, то о малоизвестных функциях, которые смогут расширить ваш кругозор, и об ошибках, которые следует избегать во время работы с этой библиотекой!
▪Читать
@data_analysis_ml
👍11❤4🔥4
🎉 32 библиотеки с открытым исходным кодом к 32-летию Python
Гвидо Ван Россум создал Python 20 февраля, в 1991 году. За последние 32 года Python стал одним из самых популярных языков программирования в мире с более чем 15 миллионами разработчиков!
Сегодня существует более 137 тысяч библиотек с открытым исходным кодом! Давайте посмотрим на 32 полезные библиотеки для Датасаентистов с открытым исходным кодом в честь 32-го дня рождения Python.
▪ Читать
@data_analysis_ml
Гвидо Ван Россум создал Python 20 февраля, в 1991 году. За последние 32 года Python стал одним из самых популярных языков программирования в мире с более чем 15 миллионами разработчиков!
Сегодня существует более 137 тысяч библиотек с открытым исходным кодом! Давайте посмотрим на 32 полезные библиотеки для Датасаентистов с открытым исходным кодом в честь 32-го дня рождения Python.
▪ Читать
@data_analysis_ml
❤16👍4🎉4🔥2👏1
5️⃣ Шагов для разработки уникальных Data Science проектов
Возможно, самая сложная часть любого проекта - это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи.
Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.
▪ Читать
@data_analysis_ml
Возможно, самая сложная часть любого проекта - это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи.
Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.
▪ Читать
@data_analysis_ml
👍11🔥4❤2👎1
Bamboolib – это библиотека Python, которая предоставляет компонент пользовательского интерфейса для анализа данных без написания кода.
Одним из вариантов её использования является импортирование готовых функций для анализа данных, создание которых занимает много времени. Bamboolib предназначена для автоматизации рутинных задач обработки данных, исследования и визуализации и может использоваться как начинающими, так и опытными аналитиками данных.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤2🔥2🥰1
Pandas – одна из самых популярных и широко используемых библиотек для анализа данных на Python. Её мощь и универсальность делают её незаменимым инструментом для всех, кто работает с данными.
Независимо от того, являетесь ли вы новичком или опытным пользователем, всегда есть возможности для совершенствования ваших навыков работы с Pandas. Вот несколько советов, которые помогут вам поднять свои навыки владения Pandas на новый уровень.
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥2❤1
“Анализ тональности текста” в Google Colab с использованием ChatGPT
Иногда люди используют слова или язык тела, чтобы показать, что они чувствуют. Анализ тональности текста (sentiment Analysis) – это своего рода компьютерный способ понять, что чувствуют люди, когда они что-то пишут, например, по электронной почте или в социальных сетях. Компьютер просматривает слова и пытается определить, несет ли написанное слово положительный, отрицательный оттенок или вовсе не несёт в себе эмоций.
Это может быть полезно в различных приложениях, таких как понимание отзывов клиентов, мониторинг общественного мнения в социальных сетях или анализ отзывов о продуктах, особенно если у вас есть большое количество датасетов.
▪ Читать
@data_analysis_ml
Иногда люди используют слова или язык тела, чтобы показать, что они чувствуют. Анализ тональности текста (sentiment Analysis) – это своего рода компьютерный способ понять, что чувствуют люди, когда они что-то пишут, например, по электронной почте или в социальных сетях. Компьютер просматривает слова и пытается определить, несет ли написанное слово положительный, отрицательный оттенок или вовсе не несёт в себе эмоций.
Это может быть полезно в различных приложениях, таких как понимание отзывов клиентов, мониторинг общественного мнения в социальных сетях или анализ отзывов о продуктах, особенно если у вас есть большое количество датасетов.
▪ Читать
@data_analysis_ml
👍14❤4🔥3👎1
Качественный образовательный материал, объясняющий простым языком принципы построения самых разнообразных диаграмм (в том числе комбинированных, например, scatterplot + line plot).
- Про различные типы графиков
- Подробный разбор компонентов и функций matplotlib - Про то, как управлять подписями на осях, размерами и расположением визуализаций
- Разбор функций для построения продвинутых визуализаций
▪Руководство
▪Книга Matplotlib
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤2🔥2
Гайд по работе с изображениями Python Pillow для Датасаентиста
В этом уроке вы узнаете, как:
▪Читать изображения с помощью Pillow
▪Выполнять основные операции с изображениями
▪Использовать Pilow для обработки изображений
▪Используйте NumPy с Pillow для дальнейшей обработки
▪Создавать анимации с помощью Pillow
В этом руководстве представлен обзор возможностей библиотеки Python Pillow с помощью распространенных методов. Как только вы освоитесь в использовании этих методов, вы сможете использовать документацию Pillow для изучения остальных методов в библиотеке.
Если вы никогда раньше не работали с изображениями в Python, это отличная возможность сразу приступить!
▪ Читать
@data_analysis_ml
В этом уроке вы узнаете, как:
▪Читать изображения с помощью Pillow
▪Выполнять основные операции с изображениями
▪Использовать Pilow для обработки изображений
▪Используйте NumPy с Pillow для дальнейшей обработки
▪Создавать анимации с помощью Pillow
В этом руководстве представлен обзор возможностей библиотеки Python Pillow с помощью распространенных методов. Как только вы освоитесь в использовании этих методов, вы сможете использовать документацию Pillow для изучения остальных методов в библиотеке.
Если вы никогда раньше не работали с изображениями в Python, это отличная возможность сразу приступить!
▪ Читать
@data_analysis_ml
👍8❤2🔥2
📝 Предобработка текста для обучения модели классификации
Перед обучением модели классификации необходимо провести предварительную обработку текста, используя следующие методы:
▪Лемматизация / стемминг
▪Приведение слов в нижний регистр
▪Исключение стоп-слов из текста
▪Удаление пунктуации, союзов, предлогов, частиц
▪Очистка текстов от часто встречающихся слов
▪Токенизация
Порядок шагов обязателен. Поясню: если вы предварительно не привели слова в нижний регистр, то "Документ" и "документ" будут в вашем словаре разными токенами. То же самое и для других шагов
Хотите подробный разбор каждого из методов обработки текста? Тогда ставьте свои - 🔥 и уже совсем скоро подробно разберём каждый пункт
▪ Классификация текста с использованием моделей трансформеров
@data_analysis_ml
Перед обучением модели классификации необходимо провести предварительную обработку текста, используя следующие методы:
▪Лемматизация / стемминг
▪Приведение слов в нижний регистр
▪Исключение стоп-слов из текста
▪Удаление пунктуации, союзов, предлогов, частиц
▪Очистка текстов от часто встречающихся слов
▪Токенизация
Порядок шагов обязателен. Поясню: если вы предварительно не привели слова в нижний регистр, то "Документ" и "документ" будут в вашем словаре разными токенами. То же самое и для других шагов
Хотите подробный разбор каждого из методов обработки текста? Тогда ставьте свои - 🔥 и уже совсем скоро подробно разберём каждый пункт
▪ Классификация текста с использованием моделей трансформеров
@data_analysis_ml
🔥29👍7❤2
27 февраля стартовал финал совместного профиля «Искусственный интеллект» НТО и Академии искусственного интеллекта для школьников БФ Сбербанка «Вклад в будущее»
📌 3 дня продлится командная работа над финальной задачей.
Sber AI подготовил задание по разработке алгоритма, который анализирует видео и отвечает на вопросы по его содержанию. Такое решение позволит ускорить анализ видеоинформации, а также проводить эффективный поиск по видеопоследовательностям.
📌Подробности по ссылке: https://www.ng.ru/news/760842.html
По итогам командам-победителям вручат приглашения на оплачиваемую стажировку в Сбер и компании-партнеры по направлению «Машинное обучение». Призовой фонд превышает 4 млн рублей
📌 3 дня продлится командная работа над финальной задачей.
Sber AI подготовил задание по разработке алгоритма, который анализирует видео и отвечает на вопросы по его содержанию. Такое решение позволит ускорить анализ видеоинформации, а также проводить эффективный поиск по видеопоследовательностям.
📌Подробности по ссылке: https://www.ng.ru/news/760842.html
По итогам командам-победителям вручат приглашения на оплачиваемую стажировку в Сбер и компании-партнеры по направлению «Машинное обучение». Призовой фонд превышает 4 млн рублей
👍8❤2🔥1