evidently- интерактивные отчеты для анализа моделей машинного обучения во время проверки или мониторинга в продакшене
Evidently, помогает анализировать модели машинного обучения во время проверки или мониторинга продакшена. Инструмент генерирует интерактивные визуальные отчеты и профили JSON из файлов pandas DataFrame или csv. На данный момент доступно 6 отчетов:
- Data Drift - обнаруживает изменения в распределении фичей
- Numerical Target Drift - обнаруживает изменения числового таргета и поведение фичей
- Categorical Target Drift - обнаруживает изменения в категориального таргета и поведение фичей
- Regression Model Performance - анализирует производительность регрессионной модели и ошибки модели
- Classification Model Performance - анализирует производительность и ошибки модели классификации. Работает как для бинарных, так и для мультиклассовых моделей.
- Probabilistic Classification Model Performance - анализирует производительность модели вероятностной классификации, качество калибровки модели и ошибки модели. Работает как для бинарных, так и для мультиклассовых моделей.
🖥 Github
📝 Документация
@bigdatai
Evidently, помогает анализировать модели машинного обучения во время проверки или мониторинга продакшена. Инструмент генерирует интерактивные визуальные отчеты и профили JSON из файлов pandas DataFrame или csv. На данный момент доступно 6 отчетов:
- Data Drift - обнаруживает изменения в распределении фичей
- Numerical Target Drift - обнаруживает изменения числового таргета и поведение фичей
- Categorical Target Drift - обнаруживает изменения в категориального таргета и поведение фичей
- Regression Model Performance - анализирует производительность регрессионной модели и ошибки модели
- Classification Model Performance - анализирует производительность и ошибки модели классификации. Работает как для бинарных, так и для мультиклассовых моделей.
- Probabilistic Classification Model Performance - анализирует производительность модели вероятностной классификации, качество калибровки модели и ошибки модели. Работает как для бинарных, так и для мультиклассовых моделей.
$ pip install evidently
📝 Документация
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1🔥1
Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos
Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/
People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt
github.com/BathVisArtData/PhotoArt50
Набор из 13 тысяч размеченных изображений лиц людей
https://vis-www.cs.umass.edu/lfw/
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1🔥1
Data analytic (middle/senior)
📍в классном офисе в Москве
📍от 250-350 К руб., белая ЗП или ИП
📍большой датасет, интересные задачи, возможность влиять на продукт
Ищем аналитиков данных в команду PREDICTO.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.
✅Что нужно делать:
• сегментация пользователей и анализ пользовательских данных;
• проведение ad-hoc исследований и создание аналитических решений для включения в продукт;
• работа с визуализацией данных;
✅ Требования
• знание методов сбора и подготовки данных;
• практический опыт развития продуктов на данных;
• SQL (оконные функции, вложенные запросы, регулярные выражения)
• владение инструментами визуализации данных;
✅ Опционально:
• знание принципов экономико-математических методов прогнозирования, а также методов статического анализа;
• опыт работы с Python или R (как плюс), опыт работы с etl/elt
Присылайте CV в :telegram:@fedosovaAS
#вакансия
@datascienceml_jobs
📍в классном офисе в Москве
📍от 250-350 К руб., белая ЗП или ИП
📍большой датасет, интересные задачи, возможность влиять на продукт
Ищем аналитиков данных в команду PREDICTO.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.
✅Что нужно делать:
• сегментация пользователей и анализ пользовательских данных;
• проведение ad-hoc исследований и создание аналитических решений для включения в продукт;
• работа с визуализацией данных;
✅ Требования
• знание методов сбора и подготовки данных;
• практический опыт развития продуктов на данных;
• SQL (оконные функции, вложенные запросы, регулярные выражения)
• владение инструментами визуализации данных;
✅ Опционально:
• знание принципов экономико-математических методов прогнозирования, а также методов статического анализа;
• опыт работы с Python или R (как плюс), опыт работы с etl/elt
Присылайте CV в :telegram:@fedosovaAS
#вакансия
@datascienceml_jobs
🔥8👍2❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3❤1
7 000 000 русских комментов из Инстаграмма
Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.
Московские хештеги с гео привязкой
MADAR SHARED TASK
Московские пользователи Tinder
Московские пользователи Telegram
2 500 000 приватных юзеров инстаграмма
1 000 000 картинок Инстаграмма
Sensortower: аналитика мобильных приложений
Все товары Wildberries (декабрь 2020)
Все товары Ozon (декабрь 2020)
14 000 юзеров Producthunt
Ссылки на все публикации Techcrunch (200k+)
Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus
Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:
Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset
InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/
Каталог пользователей ВКонтакте
https://vk.com/catalog.php
2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom
Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data
Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info
Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity
Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews
Датасет ответов сайта Ответы mail.ru
https://www.kaggle.com/datasets/atleast6characterss/otvetmailru-solved-questions
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3❤1
📌 Шпаргалка по pandas, библиотеке на языке Python для обработки и анализа данных
#cheatsheet #pandas
@bigdatai
#cheatsheet #pandas
@bigdatai
🔥9👍7❤3
Датасеты от Росреестра
Данные о размере арендной платы за объекты недвижимости в разрезе территориальной принадлежности (в отношении договоров аренды, подлежащих государственной регистрации в соответствии с действующим законодательством) в разрезе территориальной принадлежности
Данные о кадастровой стоимости объектов недвижимости в разрезе территориальной принадлежности
Данные о ценах регистрируемых сделок (по отчуждению) с объектами недвижимости в разрезе территориальной принадлежности
Реформа ЖКХ.
Демография в России: объединенные панельные данные за 1990-2019 годы
Крупные города России: объединенные данные по основным социально-экономическим показателям за 1985-2019 гг.
Список кадастровых кварталов России на конец 2021 года
Публичная кадастровая карта России
Около 11 миллионов объявлений недвижимости в России за 2021 год
Около 540 тысяч объявлений недвижимости в России за 2018 - 2021 года.
API для доступа к объявлениям с avito.ru
Парсер объявлений недвижимости России
Данные от NextGis
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤3🔥3
Forwarded from Анализ данных (Data analysis)
🔥 Бесплатный курс Машинное обучение с подкреплением от МФТИ
Курс посвящен одному из центральных в искусственном интеллекте направлений: обучению агента взаимодействовать со средой, максимизируя свою целевую функцию. Вы кзнаете как классические подходы на основе функции полезности и градиента стратегии, так и современные темы по повышению эффективности исследования среды, взаимодействия с планированием, использованием памяти и иерархических подходов.
Курс состоит из:
- Теоретических и практических материалов для начинающих и продвинутых разработчиков.
- Полезных лекций и статей .
- Лучших лекций Дэвида Сильвера, книги Саттона и Барто из OpenAI, и статей DeepMind за 2019-2022 гг.
Материалы:
- Слайды в формате PDF и видеолекции по каждой теме, мастер-классы Colab и видеолекции на русском языке.
👍 Сохраняйте себе, чтобы не потерять
➡️ Курс
@data_analysis_ml
Курс посвящен одному из центральных в искусственном интеллекте направлений: обучению агента взаимодействовать со средой, максимизируя свою целевую функцию. Вы кзнаете как классические подходы на основе функции полезности и градиента стратегии, так и современные темы по повышению эффективности исследования среды, взаимодействия с планированием, использованием памяти и иерархических подходов.
Курс состоит из:
- Теоретических и практических материалов для начинающих и продвинутых разработчиков.
- Полезных лекций и статей .
- Лучших лекций Дэвида Сильвера, книги Саттона и Барто из OpenAI, и статей DeepMind за 2019-2022 гг.
Материалы:
- Слайды в формате PDF и видеолекции по каждой теме, мастер-классы Colab и видеолекции на русском языке.
👍 Сохраняйте себе, чтобы не потерять
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3❤2
Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos
Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/
People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt
github.com/BathVisArtData/PhotoArt50
Набор из 13 тысяч размеченных изображений лиц людей
https://vis-www.cs.umass.edu/lfw/
Human3.6M Трехмерные человеческие позы и соответствующие изображения
https://drive.google.com/drive/folders/1kgVH-GugrLoc9XyvP6nRoaFpw3TmM5xK
https://www.stubbornhuang.com/511/
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥2
📌 Шпаргалки по matplotlib и bokeh
Одни из самых популярных библиотек для визуализации данных на Python.
#cheatsheet #python
Одни из самых популярных библиотек для визуализации данных на Python.
#cheatsheet #python
👍9❤4🔥4
Шпаргалка по науке о данных
Python for Data Science— это одностраничная шпаргалка по Python для изучения основ науки о данных. Она охватывает типы данных и преобразования, переменные и вычисления, строки и методы операций, списки, алгоритмы машинного обучения и другое.
📌 Смотреть шпаргалку
@bigdatai
Python for Data Science— это одностраничная шпаргалка по Python для изучения основ науки о данных. Она охватывает типы данных и преобразования, переменные и вычисления, строки и методы операций, списки, алгоритмы машинного обучения и другое.
📌 Смотреть шпаргалку
@bigdatai
👍9🔥3❤2💩1
Forwarded from Machinelearning
Датасет наблюдение за Землей и преобученнная модель из 251 079 мест по всему миру.
📝 Paper: https://arxiv.org/abs/2211.07044v1
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3🔥1