В Data Science нужно хорошо ориентироваться в статистике и теории вероятностей. Как у вас с этим?
Хотите взорвать себе мозг?
Не проблема, сейчас всё будет
Вы выбрали любую дверь.
Ведущий открывает другую дверь (не вашу), за которой приза нет (ведущий знает об этом).
Дальше вы можете либо не менять свою дверь, либо выбрать другую дверь.
Изменится ли вероятность победы, если поменять дверь?
Подумайте очень хорошо;
Когда мы выбираем дверь в самом начале, вероятность выиграть 1/3 — очевидно, потому что из приз только за 1 из 3 дверей.
После того, как ведущий открывает дверь, где приза нет, приз может быть либо за нашей выбранной дверью, либо за другой.
2 двери: наша и оставшаяся, приз может быть за любой из них. Вроде с равной вероятностью 1/3.
Или нет?
Для большей уверенности можно смоделировать это в Python
Что?!
Это реально контринтуитивно, но численный эксперимент на Python это подтверждает.
Вообще, можете написать своё решение, чтобы 100% удостовериться
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15👍9❤🔥3🕊1
Держите мощное практическое видео по работе с Pandas, Matplotlib, NumPy, Seaborn, Scikit-learn, Plotly
Ключевые моменты в видео:
01:28:00 — Pandas
02:54:02 — NumPy
03:05:26 — Визуализация данных с помощью Matplotlib
03:26:22 — Визуализация данных с помощью Seaborn
04:39:40 — Анализ данных
05:03:12 — Элементы ML, использование Scikit-learn
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39❤3🥰3
И вспомним про некоторые алгоритмы
Где применять — там, где требуется несложная классификация малого числа объектов на малое число классов.
Может сгруппировать объекты по степени похожести.
Где применять — поиск закономерностей, классификация объектов по нескольким параметрам. Работа с объектами, которые можно описывать набором переменных.
Пытается построить такую линию, чтобы самым точным образом разделить между собой разные типы объектов.
Где применять — классификация объектов.
Определяет класс, к которому принадлежит объект. В основе — расчет вероятности, с которой объект относится к тому или иному типу данных.
Где применять — в задачах классификации, конечно же. Например, классическая задача — сказать, относится ли письмо к спаму или нет.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤29👍12🔥3
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🥰5❤4❤🔥1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤5😱2🥰1
💼 Quantstats
Полезная библиотека QuantStats на Python, которая выполняет анализ финансового портфеля, позволяя инвесторам и аналитикам данных лучше понимать свою работу.
QuantStats предоставляет функции для углубленной аналитики, визуализации данных и генерации метрик риска.
Чтобы визуализировать и анализировать эффективность роста цен конкретных акций в вашем портфеле, используя всего несколько строк на #Python, попробуйте Quantitated.
▪Github
@data_analysis_ml
Полезная библиотека QuantStats на Python, которая выполняет анализ финансового портфеля, позволяя инвесторам и аналитикам данных лучше понимать свою работу.
QuantStats предоставляет функции для углубленной аналитики, визуализации данных и генерации метрик риска.
Чтобы визуализировать и анализировать эффективность роста цен конкретных акций в вашем портфеле, используя всего несколько строк на #Python, попробуйте Quantitated.
▪Github
@data_analysis_ml
👍33❤4🥰1
Проект DSGW призван упростить разворот полноценного рабочего места на сервере с GPU для Data Science разработки
DSGW базируется на:
— Ubuntu 22.04
— Nvidia CUDA 12.3.2
— Nvidia cuDNN 9
— Python 3.12
— VsCode Server
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤4🔥2
💡 Во время работы с таблицами в Spark возникают ситуации, когда для обработки данных набора встроенных функций оказывается недостаточно.
В этом случае можно выгрузить таблицу в
UDF (User Defined Functions) – это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.
Использование
В приведенном примере кода мы определяем
📌 Подробнее о UDF
@data_analysis_ml
В этом случае можно выгрузить таблицу в
Pandas DataFrame
и обрабатывать данные на Python привычными функциями. Однако, есть способ сделать это быстрее – UDF-функции в Spark.UDF (User Defined Functions) – это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.
Использование
UDFS
в PySpark может помочь упростить выполнение сложных запросов #SQL, за счет запуска сложных операций в одном вызове функции.В приведенном примере кода мы определяем
UDF
с именем modify_name
, эта функция приводит все имена в нашей таблице к верхнему регистру.📌 Подробнее о UDF
@data_analysis_ml
👍15❤5❤🔥2🔥2🥰1
Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции
Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.
И вы понимаете почему.
Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз :
Если ты очень-очень глуп, как ты можешь осознать, что ты очень-очень глуп?
Разумеется, психологи очень осмотрительны, что бы убеждаться, что доказательства воспроизводимы. Но, конечно же, каждый раз, когда вы их ищете, из данных выскакивает сам эффект Даннинга-Крюгера. Таким образом кажется, что все стоит на прочной основе.
Вот только есть проблема.
Эффект Даннинга-Крюгера также возникает из данных, в которых его не должно быть. Например, если вы тщательно обработаете случайные данные так, чтобы они не содержали эффекта Даннинга-Крюгера, вы все равно обнаружите этот эффект . Причина оказывается до неприличия простой: эффект Даннинга-Крюгера не имеет ничего общего с человеческой психологией. Это статистический артефакт — потрясающий пример автокорреляции.
💥 Читать дальше
@data_analysis_ml
Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.
И вы понимаете почему.
Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз :
Если ты очень-очень глуп, как ты можешь осознать, что ты очень-очень глуп?
Разумеется, психологи очень осмотрительны, что бы убеждаться, что доказательства воспроизводимы. Но, конечно же, каждый раз, когда вы их ищете, из данных выскакивает сам эффект Даннинга-Крюгера. Таким образом кажется, что все стоит на прочной основе.
Вот только есть проблема.
Эффект Даннинга-Крюгера также возникает из данных, в которых его не должно быть. Например, если вы тщательно обработаете случайные данные так, чтобы они не содержали эффекта Даннинга-Крюгера, вы все равно обнаружите этот эффект . Причина оказывается до неприличия простой: эффект Даннинга-Крюгера не имеет ничего общего с человеческой психологией. Это статистический артефакт — потрясающий пример автокорреляции.
💥 Читать дальше
@data_analysis_ml
❤15👍11❤🔥4🔥2
✨ Знакомьтесь, #Moirai: Библиотека, которая революционизирует прогнозирование временных рядов с помощью универсальных моделей!
Целью этой библиотеки является предоставление унифицированного решения для работы с временными рядами.
Uni2TS также предоставляет инструменты для точной настройки, оценки и прогнозирования временных рядов.
▪Github
▪Hf
▪Blog
@data_analysis_ml
Целью этой библиотеки является предоставление унифицированного решения для работы с временными рядами.
Uni2TS также предоставляет инструменты для точной настройки, оценки и прогнозирования временных рядов.
▪Github
▪Hf
▪Blog
@data_analysis_ml
👍17❤7🥰1
🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜
Датасеты содержитат миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )
PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds
@data_analysis_ml
Датасеты содержитат миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )
PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds
@data_analysis_ml
👍16❤🔥4🥰2
Хотите учиться у экспертов в области IT? Школа анализа данных Яндекса принимает заявки
до 12 мая, успейте зарегистрироваться.
ШАД для вас, если вы:
· интересуетесь Machine Learning
· имеете хорошую математическую подготовку
· уверенно владеете каким-либо языком программирования
Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data
Science, инфраструктура больших данных, разработка машинного обучения или анализ
данных и ИИ в прикладных науках.
Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых
дверей. Узнать даты и зарегистрироваться можно по ссылке.
до 12 мая, успейте зарегистрироваться.
ШАД для вас, если вы:
· интересуетесь Machine Learning
· имеете хорошую математическую подготовку
· уверенно владеете каким-либо языком программирования
Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data
Science, инфраструктура больших данных, разработка машинного обучения или анализ
данных и ИИ в прикладных науках.
Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых
дверей. Узнать даты и зарегистрироваться можно по ссылке.
👍6❤5🔥3
Держите, здесь ссылки на шпаргалки, полезные статьи, курсы на Stepik и ещё много всего
Enjoy)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤24👍4🥰1