Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
♻️ Мета выпустила переводчик на 200 языков.

В открытом доступе теперь лежит модель No language left behind (Ни один язык не останется за бортом), которая переводит с 200+ различных языков.

Модель уже применняется для улучшения переводов на Facebook, Instagram и Wikipedia.

Код
Статья
Demo
Blog

#AI #ML #NLP

@data_analysis_ml
👍15🔥7
🔍 Как обнаружить выбросы в проекте по исследованию данных

Выброс — это данные, которые имеют слишком высокое или слишком низкое значение по отношению к другим исследуемым данным. Конечно, в наборе данных может быть несколько выбросов, поэтому приходится неоднократно исключать их из набора данных. В противном случае выбросы способны вызывать статистические проблемы в анализе данных.

Но каковы критерии исключения выбросов? Чтобы ответить на этот вопрос, рассмотрим три метода обнаружения выбросов.

Читать дальше

@data_analysis_ml
16👍10🔥1
Копируем голос за 5 секунд, для генерации речи в реальном времени

⚙️ GitHub/Инструкция

📹 Видео

@data_analysis_ml
👍8
📎 Крутые наборы данных для машинного обучения

Более 50 открытых наборов для ваших исследований

Хорошее исследование в машинном обучении начинается с подходящего набора данных. Нет необходимости тратить целый вечер на создание собственного набора в MySQL или, что еще хуже, в Excel. В принципе, все что угодно — от статистики COVID-19 до заклинаний Гарри Поттера — можно найти в виде базы данных.

Читать дальше

@data_analysis_ml
👍20🔥10🥰1🤔1
🎓 Stanford CS25 новый бесплатный курс по Трансформерам

https://web.stanford.edu/class/cs25/

https://www.youtube.com/playlist?list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM

@data_analysis_ml
👍7
🦾 Как создать свой датасет с Киркоровым и Фейсом на Яндекс.Толоке

Где найти данные?

1. Смотрим публичные датасеты, такие как ImageNet, COCO, openimages.

2. Если нужных размеченных данных в популярных публичных датасетах нет, то гуглим, открываем на arxiv.org статьи по этим темам в надежде, что где-нибудь там будет ссылка на нужный нам датасет.

3. Если первые два пункта провалились, значит нужного датасета нет, и его надо создать!

Очевидно, что никто раньше не занимался задачей классификации Киркорова и Фейса. Поэтому придется самим создать такой датасет.

Читать дальше

@data_analysis_ml
🔥10👍3💩31😱1
📉 ROC и AUC простыми словами.

Площадь под ROC-кривой – один из самых популярных функционалов качества в задачах бинарной классификации. На мой взгляд, простых и полных источников информации «что же это такое» нет. Как правило, объяснение начинают с введения разных терминов (FPR, TPR), которые нормальный человек тут же забывает. Также нет разборов каких-то конкретных задач по AUC ROC. В этом посте описано, как я объясняю эту тему студентам и своим сотрудникам…

Допустим, решается задача классификации с двумя классами {0, 1}. Алгоритм выдаёт некоторую оценку (может, но не обязательно, вероятность) принадлежности объекта к классу 1. Можно считать, что оценка принадлежит отрезку [0, 1].

Часто результат работы алгоритма на фиксированной тестовой выборке визуализируют с помощью ROC-кривой (ROC = receiver operating characteristic, иногда говорят «кривая ошибок»), а качество оценивают как площадь под этой кривой – AUC (AUC = area under the curve). Покажем на конкретном примере, как строится кривая.

 Читать Дальше

@data_analysis_ml
👍17🔥9👎2
Кручу, верчу логи при помощи SQL — облегчаем анализ данных

Бывает такая ситуация, что необходимо проанализировать большой объём данных системы логирования событий на предмет аномалий или инцидентов. Просматривать такой массив данных трудно и нецелесообразно. Для этих целей можно обратиться к специализированному программному обеспечению, но нужно знать к какому. Не всегда есть время на изучение. И хорошо, если под конкретные задачи на примете есть несколько вариантов. А если их нет, тогда как быть?

Выход есть всегда, было бы желание. Поговорим о том, как можно довольно быстро загрузить некий массив таких данных куда-то и заняться его анализом.


Читать дальше

@data_analysis_ml
👍121🔥1
Needl – генератор случайного интернет-трафика

Позволяет скрыть ваш истинный трафик, что, по сути, делает ваши данные «иглой в стоге сена» и, следовательно, их труднее найти.

Цель проекта состоит в том, чтобы вашему интернет-провайдеру, правительству и т. д. было сложнее отслеживать вашу историю просмотров и привычки.

#GitHub | #Python #Privacy

@data_analysis_ml
🔥16💩7👍2
📊 В Data Science не нужна математика (Почти)

Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.

В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.

Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!

 Читать дальше

@data_analysis_ml
🔥29👍11😁4
♠️ Продвинутый покерный ИИ был обучен за 20 часов

Конечно когда появляется новая технология, кто-то хочет заработать на ней денег с минимальным вовлечением в процесс. Поэтому неудивительно, что появляются покер-боты с искусственным интеллектом. Покер с точки зрения ИИ является задачей с неполной информацией в отличие, например, от шахмат, поэтому исследователю подобное решать интереснее (но о своих доходах с этого бота они не отчитались, зато статья есть). Бот реализован на решающих деревьях.У ИИ есть большое преимущество перед людьми-игроками — лучший покер-фейс.


Смотреть
Сатья

@data_analysis_ml
👍7
9 способов защититься от утечки данныхных

Начнем с определения. Нарушение данных — это нарушение безопасности, при котором конфиденциальные, защищенные или конфиденциальные данные копируются, передаются, просматриваются, крадутся или используются лицом, не уполномоченным на это. Здесь все довольно понятно, а вот кто и как давайте разберем.

Существует много разных факторов утечки персональных данных. Основные из них:

от безалаберности сотрудников/разработчиков: открытые БД, открытые порты и т.п.;
слив данных самими сотрудниками;
дыры безопасности сайтов.
Давайте чуть более подробно расскажем про каждый пункт.

К нам приходил запрос от крупной сети АЗС, у которых злоумышленники воровали бонусные баллы клиентов. Для того чтобы понять в чем дело компания предоставила нам исходный код для анализа. Решение разрабатывала одна из топовых Российских IT команд, код был качественным, но без самой базовой проработки безопасности.

 Читать дальше

@data_analysis_ml
👍9👎1
Visual Genome: датасет размеченных изображений

https://neurohive.io/ru/datasety/visual-genome-dataset-razmechennyh-izobrazhenij/

@data_analysis_ml
👍4🤮3
🔎 Обзор методологий, принципов и концепций разных типов хранилищ данных

Data Warehouse Design

Подход Kimball
Модель данных Kimball — это восходящий подход к проектированию архитектуры хранилища данных (DWH или DW), в котором витрины данных сначала формируются на основе бизнес-требований.

Данные из источников данных с помощью ETL извлекаются и загружаются в промежуточную область сервера реляционной базы данных.

После того, как данные загружены в промежуточную область хранилища данных, следующий этап включает загрузку данных в многомерную модель хранилища данных, денормализованную по своей природе (схема звезда).

Эта модель разделяется на таблицу фактов, которая представляет собой числовые данные транзакций, и таблицы измерений, которые являются справочной информацией, которая является контекстом для данных в таблице фактов.

Читать дальше

@data_analysis_ml
👍13🔥4
🔥 Matplotlib cheat sheets

Github

@data_analysis_ml
👍14
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 Создание приложения Flask на Python для визуализации мест путешествий

В данной статье мы покажем, как создавать пользовательскую карту, на которую можно прикрепить фотографии достопримечательностей, посещенных во время отпуска. Помимо этого, у вас будет возможность добавлять текст для более полного описания впечатлений о поездках.

В конце вы узнаете, как развернуть приложение на Heroku, чтобы друзья тоже смогли увидеть ваше творение.

Читать дальше

@data_analysis_ml
👍17
FAST-VQA: эффективная сквозная оценка качества видео с выборкой фрагментов

Github: https://github.com/timothyhtimothy/fast-vqa

Paper: https://arxiv.org/abs/2207.02595v1

Dataset: https://paperswithcode.com/dataset/kinetics

@data_analysis_ml
👍7👎3
🌠 Что такое Apache Superset? Установка Docker. Примеры дашбордов

Apache Superset — Open-Source инструмент для визуализации данных, входящий в портфолио продуктов Apache Foundation. Зародился Apache Superset в компании Airbnb, там же где появился Airflow. Эта система является очень популярной и хорошо развивается за счет привлечения новых контрибьютеров.

Количество комитов авторов на Github неуклонно растет.

В настоящее время Superset широко используется во многих компаниях по всему миру (полный перечень компаний, использующих Apache Superset). Например, Superset запускается в производственной среде Airbnb внутри Kubernetes и ежедневно обслуживает более 600 активных пользователей, просматривающих более 100 000 диаграмм в день.

Также Apache Superset приобретает популярность в России, в том числе после ухода западных вендоров.

Ознакомиться с полным функционалом и настройками Superset можно в официальной документации https://superset.apache.org/docs/intro.

Читать дальше

@data_analysis_ml
👍202🔥2👎1
Делимся отличной новостью: Минцифры внесло Газпромбанк в реестр аккредитованных IT-компаний!

Банк не первый год активно развивает цифровые продукты, над которыми сегодня работают тысячи крутых диджитал-специалистов. И теперь айтишники смогут получить дополнительные государственные льготы.

Вы тоже можете стать частью команды Газпромбанка! Вакансии в IT и других направлениях — по ссылке > https://vk.cc/cf61ir
👍5🔥2👎1