Decision Intelligence: искусственный интеллект с человеческим лицом
https://www.it-world.ru/cionews/business/182334.html
@bigdatai
https://www.it-world.ru/cionews/business/182334.html
@bigdatai
ИТ Медиа | Управление ИТ
Decision Intelligence: искусственный интеллект с человеческим лицом
О чем следует знать предприятиям, решившим внедрить технологию в ближайшем будущем.
👍3🔥1
Новости из мира аналитики:
Building Modern Data Teams - собрали много материала по этой теме в одном месте.
Airflow's Problem - популярный пост про судьбу Airflow и его туманное будущее
Databricks usage and cost analysis - пример анализа стоимости Databricks
The Evolution of Transformation Layer Architecture in 99 Group (DBT, Airflow and Kubernetes) - обзор аналитического решения в компании 99 Group
4 Must-Have Tests for Your Apache Kafka CI/CD with GitHub Actions - будет полезно, если вы используете Kafka
A Framework to Understand How Low-Quality Data Hurts Business Performance -
Reporting Data at Criteo: How to Measure at Scale - архитектура аналитического решения в Criteo
Harvard Data Science CS109A materials.
Spark Data Lineage - задачи lineage до сих пор актуальны, а если у вас Spark, то там все еще сложней.
Snowflake query optimiser: unoptimised - хороший пример про использования dbt и их подхода CTE, который в итоге оборачивается в огромной стоимости решения.
The next generation of Data Platforms is the Data Mesh - а может быть очередной buzz word.
Building Modern Data Teams - собрали много материала по этой теме в одном месте.
Airflow's Problem - популярный пост про судьбу Airflow и его туманное будущее
Databricks usage and cost analysis - пример анализа стоимости Databricks
The Evolution of Transformation Layer Architecture in 99 Group (DBT, Airflow and Kubernetes) - обзор аналитического решения в компании 99 Group
4 Must-Have Tests for Your Apache Kafka CI/CD with GitHub Actions - будет полезно, если вы используете Kafka
A Framework to Understand How Low-Quality Data Hurts Business Performance -
Reporting Data at Criteo: How to Measure at Scale - архитектура аналитического решения в Criteo
Harvard Data Science CS109A materials.
Spark Data Lineage - задачи lineage до сих пор актуальны, а если у вас Spark, то там все еще сложней.
Snowflake query optimiser: unoptimised - хороший пример про использования dbt и их подхода CTE, который в итоге оборачивается в огромной стоимости решения.
The next generation of Data Platforms is the Data Mesh - а может быть очередной buzz word.
👍3❤1🔥1
Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDW
Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.
Читать...
Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.
Читать...
👍5❤1🔥1
Интересная статья от Yandex Research, в которой исследователи разбирают историю обучаемых алгоритмов, объясняют проблему «черного ящика» и рассказывают, как улучшают интерпретируемость работы ML-моделей.
О том, что уже известно о «внутренностях» ИИ и почему работу нейросетей нельзя измерять только их эффективностью, читайте по ссылке.
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
nplus1.ru
Внимание, черный ящик
Как и зачем исследовать логику нейросетей
👍7❤1🔥1
JSON Editor Online — веб-инструмент для просмотра, редактирования и форматирования JSON
С его помощью вы можете просматривать ваши же данные рядом друг с другом в чётком, редактируемом древовидном виде и в редакторе кода
Для большего удобства разработчики позволяют частично изменять внешний вид платформы. Никакой практической пользы — просто приятное дополнение
Стоимость: #бесплатно
#json #web
@bigdatai
С его помощью вы можете просматривать ваши же данные рядом друг с другом в чётком, редактируемом древовидном виде и в редакторе кода
Для большего удобства разработчики позволяют частично изменять внешний вид платформы. Никакой практической пользы — просто приятное дополнение
Стоимость: #бесплатно
#json #web
@bigdatai
👍6❤1🔥1
Национальный корпус русского языка — представительная коллекция текстов на русском языке общим объемом около 1,5 млрд слов
Russian Open Text To Speech (TTS) Dataset
Большой открытый корпус устной русской речи
Corus — коллекция русскоязычных NLP-датасетов
Golos dataset
Разметка аудиокниги Николая Старикова "Шерше ля нефть" в озвучке Эндшпиля
Набор данных по русской речи - Zpoken Dataset [RU]
Набор данных русской речи
Наборы данных для русского языка жестов
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2❤1
Набор данных ADE20K
sceneparsing.csail.mit.edu
Набор данных Places. Содержит более 10 миллионов изображений, содержащих более 400 уникальных категорий сцен
places2.csail.mit.edu
LSUN: Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных
yf.io/p/lsun
Датасет статьи "Оценка стоимости недвижимости на основе видения" 9 Гб
omidpoursaeed.github.io/publication/vision-based-real-estate-price-estimation
House Rooms Image Dataset. Содержит 5000 фото 5 типов (ванная, спальня, обеденная, кухня, гостиная) комнат в квартире
kaggle.com/robinreni/house-rooms-image-dataset
Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
web.mit.edu/torralba/www/indoor.html
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥2❤1
evidently- интерактивные отчеты для анализа моделей машинного обучения во время проверки или мониторинга в продакшене
Evidently, помогает анализировать модели машинного обучения во время проверки или мониторинга продакшена. Инструмент генерирует интерактивные визуальные отчеты и профили JSON из файлов pandas DataFrame или csv. На данный момент доступно 6 отчетов:
- Data Drift - обнаруживает изменения в распределении фичей
- Numerical Target Drift - обнаруживает изменения числового таргета и поведение фичей
- Categorical Target Drift - обнаруживает изменения в категориального таргета и поведение фичей
- Regression Model Performance - анализирует производительность регрессионной модели и ошибки модели
- Classification Model Performance - анализирует производительность и ошибки модели классификации. Работает как для бинарных, так и для мультиклассовых моделей.
- Probabilistic Classification Model Performance - анализирует производительность модели вероятностной классификации, качество калибровки модели и ошибки модели. Работает как для бинарных, так и для мультиклассовых моделей.
🖥 Github
📝 Документация
@bigdatai
Evidently, помогает анализировать модели машинного обучения во время проверки или мониторинга продакшена. Инструмент генерирует интерактивные визуальные отчеты и профили JSON из файлов pandas DataFrame или csv. На данный момент доступно 6 отчетов:
- Data Drift - обнаруживает изменения в распределении фичей
- Numerical Target Drift - обнаруживает изменения числового таргета и поведение фичей
- Categorical Target Drift - обнаруживает изменения в категориального таргета и поведение фичей
- Regression Model Performance - анализирует производительность регрессионной модели и ошибки модели
- Classification Model Performance - анализирует производительность и ошибки модели классификации. Работает как для бинарных, так и для мультиклассовых моделей.
- Probabilistic Classification Model Performance - анализирует производительность модели вероятностной классификации, качество калибровки модели и ошибки модели. Работает как для бинарных, так и для мультиклассовых моделей.
$ pip install evidently
📝 Документация
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1🔥1
Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos
Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/
People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt
github.com/BathVisArtData/PhotoArt50
Набор из 13 тысяч размеченных изображений лиц людей
https://vis-www.cs.umass.edu/lfw/
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1🔥1
Data analytic (middle/senior)
📍в классном офисе в Москве
📍от 250-350 К руб., белая ЗП или ИП
📍большой датасет, интересные задачи, возможность влиять на продукт
Ищем аналитиков данных в команду PREDICTO.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.
✅Что нужно делать:
• сегментация пользователей и анализ пользовательских данных;
• проведение ad-hoc исследований и создание аналитических решений для включения в продукт;
• работа с визуализацией данных;
✅ Требования
• знание методов сбора и подготовки данных;
• практический опыт развития продуктов на данных;
• SQL (оконные функции, вложенные запросы, регулярные выражения)
• владение инструментами визуализации данных;
✅ Опционально:
• знание принципов экономико-математических методов прогнозирования, а также методов статического анализа;
• опыт работы с Python или R (как плюс), опыт работы с etl/elt
Присылайте CV в :telegram:@fedosovaAS
#вакансия
@datascienceml_jobs
📍в классном офисе в Москве
📍от 250-350 К руб., белая ЗП или ИП
📍большой датасет, интересные задачи, возможность влиять на продукт
Ищем аналитиков данных в команду PREDICTO.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.
✅Что нужно делать:
• сегментация пользователей и анализ пользовательских данных;
• проведение ad-hoc исследований и создание аналитических решений для включения в продукт;
• работа с визуализацией данных;
✅ Требования
• знание методов сбора и подготовки данных;
• практический опыт развития продуктов на данных;
• SQL (оконные функции, вложенные запросы, регулярные выражения)
• владение инструментами визуализации данных;
✅ Опционально:
• знание принципов экономико-математических методов прогнозирования, а также методов статического анализа;
• опыт работы с Python или R (как плюс), опыт работы с etl/elt
Присылайте CV в :telegram:@fedosovaAS
#вакансия
@datascienceml_jobs
🔥8👍2❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3❤1
7 000 000 русских комментов из Инстаграмма
Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.
Московские хештеги с гео привязкой
MADAR SHARED TASK
Московские пользователи Tinder
Московские пользователи Telegram
2 500 000 приватных юзеров инстаграмма
1 000 000 картинок Инстаграмма
Sensortower: аналитика мобильных приложений
Все товары Wildberries (декабрь 2020)
Все товары Ozon (декабрь 2020)
14 000 юзеров Producthunt
Ссылки на все публикации Techcrunch (200k+)
Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus
Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:
Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset
InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/
Каталог пользователей ВКонтакте
https://vk.com/catalog.php
2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom
Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data
Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info
Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity
Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews
Датасет ответов сайта Ответы mail.ru
https://www.kaggle.com/datasets/atleast6characterss/otvetmailru-solved-questions
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3❤1