Big Data AI
16.8K subscribers
820 photos
98 videos
19 files
824 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
Новости из мира аналитики:

Building Modern Data Teams - собрали много материала по этой теме в одном месте.

Airflow's Problem - популярный пост про судьбу Airflow и его туманное будущее

Databricks usage and cost analysis - пример анализа стоимости Databricks


The Evolution of Transformation Layer Architecture in 99 Group (DBT, Airflow and Kubernetes) - обзор аналитического решения в компании 99 Group

4 Must-Have Tests for Your Apache Kafka CI/CD with GitHub Actions - будет полезно, если вы используете Kafka

A Framework to Understand How Low-Quality Data Hurts Business Performance -

Reporting Data at Criteo: How to Measure at Scale - архитектура аналитического решения в Criteo

Harvard Data Science CS109A materials.

Spark Data Lineage - задачи lineage до сих пор актуальны, а если у вас Spark, то там все еще сложней.

Snowflake query optimiser: unoptimised - хороший пример про использования dbt и их подхода CTE, который в итоге оборачивается в огромной стоимости решения.

The next generation of Data Platforms is the Data Mesh - а может быть очередной buzz word.
👍31🔥1
​​Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDW

Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.

Читать...
👍51🔥1
🖥 От перцептронов до AlexNet и OpenAI. Эволюция и проблемы ML

Интересная статья от Yandex Research, в которой исследователи разбирают историю обучаемых алгоритмов, объясняют проблему «черного ящика» и рассказывают, как улучшают интерпретируемость работы ML-моделей.

О том, что уже известно о «внутренностях» ИИ и почему работу нейросетей нельзя измерять только их эффективностью, читайте по ссылке.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥1
​​Где брать данные инженеру-исследователю?

Статья предназначена для молодых инженеров-исследователей, не знающих – где взять данные для проведения исследований в области машинного обучения. 

Читать...

@bigdatai
👍7
JSON Editor Online — веб-инструмент для просмотра, редактирования и форматирования JSON

С его помощью вы можете просматривать ваши же данные рядом друг с другом в чётком, редактируемом древовидном виде и в редакторе кода

Для большего удобства разработчики позволяют частично изменять внешний вид платформы. Никакой практической пользы — просто приятное дополнение

Стоимость: #бесплатно

#json #web

@bigdatai
👍61🔥1
✔️ Анализ сцен по фото

Набор данных ADE20K
sceneparsing.csail.mit.edu

Набор данных Places. Содержит более 10 миллионов изображений, содержащих более 400 уникальных категорий сцен
places2.csail.mit.edu

LSUN: Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных
yf.io/p/lsun

Датасет статьи "Оценка стоимости недвижимости на основе видения" 9 Гб
omidpoursaeed.github.io/publication/vision-based-real-estate-price-estimation

House Rooms Image Dataset. Содержит 5000 фото 5 типов (ванная, спальня, обеденная, кухня, гостиная) комнат в квартире
kaggle.com/robinreni/house-rooms-image-dataset

Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
web.mit.edu/torralba/www/indoor.html

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍31
18 Общедоступных источников бесплатных наборов данных

Список

@bigdatai
👍62🔥1
📌 Подборка шпаргалок по matplotlib от простых до высокого уровня

#cheatsheet #python

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥21
🚛 Data pipeline: наглядная иллюстрация от бразильский компании Semantixai.

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍42🤡1
evidently- интерактивные отчеты для анализа моделей машинного обучения во время проверки или мониторинга в продакшене

Evidently, помогает анализировать модели машинного обучения во время проверки или мониторинга продакшена. Инструмент генерирует интерактивные визуальные отчеты и профили JSON из файлов pandas DataFrame или csv. На данный момент доступно 6 отчетов:
- Data Drift - обнаруживает изменения в распределении фичей
- Numerical Target Drift - обнаруживает изменения числового таргета и поведение фичей
- Categorical Target Drift - обнаруживает изменения в категориального таргета и поведение фичей
- Regression Model Performance - анализирует производительность регрессионной модели и ошибки модели
- Classification Model Performance - анализирует производительность и ошибки модели классификации. Работает как для бинарных, так и для мультиклассовых моделей.
- Probabilistic Classification Model Performance - анализирует производительность модели вероятностной классификации, качество калибровки модели и ошибки модели. Работает как для бинарных, так и для мультиклассовых моделей.

$ pip install evidently

🖥 Github
📝 Документация

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥1
⭐️ Фотографии людей наборы данных

Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos

Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/

People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt

github.com/BathVisArtData/PhotoArt50

Набор из 13 тысяч размеченных изображений лиц людей
https://vis-www.cs.umass.edu/lfw/

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥1
Data analytic (middle/senior)

📍в классном офисе в Москве
📍от 250-350 К руб., белая ЗП или ИП
📍большой датасет, интересные задачи, возможность влиять на продукт

Ищем аналитиков данных в команду PREDICTO.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.

Что нужно делать:
• сегментация пользователей и анализ пользовательских данных;
• проведение ad-hoc исследований и создание аналитических решений для включения в продукт;
• работа с визуализацией данных;
Требования
• знание методов сбора и подготовки данных;
• практический опыт развития продуктов на данных;
• SQL (оконные функции, вложенные запросы, регулярные выражения)
• владение инструментами визуализации данных;
Опционально:
• знание принципов экономико-математических методов прогнозирования, а также методов статического анализа;
• опыт работы с Python или R (как плюс), опыт работы с etl/elt

Присылайте CV в :telegram:@fedosovaAS

#вакансия

@datascienceml_jobs
🔥8👍21
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Awesome Data Journalism Awesome

Открытые данные и просто открытый репозиторий журналистики данных, чтобы изучить и понять практическую журналистику данных.

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Инструмент, который поможет вам разобраться со сверточными нейросетями. Там можно поиграться, позакидывать свои картинки и посмотреть как сеть их предсказывает, а так же почитать теорию:

➡️ Попробовать

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥31