Держите полезную статью)
LDA — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую.
Некоторые мысли из статьи:
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🥰3❤2❤🔥1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥5🙏3❤2👎2🤔2
В иерархических БД каждая запись имеет одного «родителя». Это создаёт древовидную структуру, в которой записи классифицируются по их отношениям с цепочкой родительских записей.
Сетевые БД расширяют функциональность иерархических: записи могут иметь более одного родителя. А значит, можно моделировать сложные отношения.
Реляционные БД – старейший тип до сих пор широко используемых БД общего назначения. Данные и связи между данными организованы с помощью таблиц. Каждый столбец в таблице имеет имя и тип. Каждая строка представляет отдельную запись или элемент данных в таблице, который содержит значения для каждого из столбцов.
В БД «ключ-значение» для хранения информации вы предоставляте ключ и объект данных, который нужно сохранить. Например, JSON-объект, изображение или текст. Чтобы запросить данные, отправляете ключ и получаете blob-объект.
Документные БД совместно используют базовую семантику доступа и поиска хранилищ ключей и значений. Такие БД также используют ключ для уникальной идентификации данных. Разница между хранилищами «ключ-значение» и документными БД заключается в том, что вместо хранения blob-объектов, документоориентированные базы хранят данные в структурированных форматах – JSON, BSON или XML.
Вместо сопоставления связей с таблицами и внешними ключами, графовые БД устанавливают связи, используя узлы, рёбра и свойства.
Колоночные БД принадлежат к семейству NoSQL БД, но внешне похож на реляционные БД. Как и реляционные, колоночные БД хранят данные, используя строки и столбцы, но с иной связью между элементами.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤7🥰2🔥1
В Data Science нужно хорошо ориентироваться в статистике и теории вероятностей. Как у вас с этим?
Хотите взорвать себе мозг?
Не проблема, сейчас всё будет
Вы выбрали любую дверь.
Ведущий открывает другую дверь (не вашу), за которой приза нет (ведущий знает об этом).
Дальше вы можете либо не менять свою дверь, либо выбрать другую дверь.
Изменится ли вероятность победы, если поменять дверь?
Подумайте очень хорошо;
Когда мы выбираем дверь в самом начале, вероятность выиграть 1/3 — очевидно, потому что из приз только за 1 из 3 дверей.
После того, как ведущий открывает дверь, где приза нет, приз может быть либо за нашей выбранной дверью, либо за другой.
2 двери: наша и оставшаяся, приз может быть за любой из них. Вроде с равной вероятностью 1/3.
Или нет?
Для большей уверенности можно смоделировать это в Python
Что?!
Это реально контринтуитивно, но численный эксперимент на Python это подтверждает.
Вообще, можете написать своё решение, чтобы 100% удостовериться
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15👍9❤🔥3🕊1
Держите мощное практическое видео по работе с Pandas, Matplotlib, NumPy, Seaborn, Scikit-learn, Plotly
Ключевые моменты в видео:
01:28:00 — Pandas
02:54:02 — NumPy
03:05:26 — Визуализация данных с помощью Matplotlib
03:26:22 — Визуализация данных с помощью Seaborn
04:39:40 — Анализ данных
05:03:12 — Элементы ML, использование Scikit-learn
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39❤3🥰3
И вспомним про некоторые алгоритмы
Где применять — там, где требуется несложная классификация малого числа объектов на малое число классов.
Может сгруппировать объекты по степени похожести.
Где применять — поиск закономерностей, классификация объектов по нескольким параметрам. Работа с объектами, которые можно описывать набором переменных.
Пытается построить такую линию, чтобы самым точным образом разделить между собой разные типы объектов.
Где применять — классификация объектов.
Определяет класс, к которому принадлежит объект. В основе — расчет вероятности, с которой объект относится к тому или иному типу данных.
Где применять — в задачах классификации, конечно же. Например, классическая задача — сказать, относится ли письмо к спаму или нет.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤29👍12🔥3
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🥰5❤4❤🔥1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤5😱2🥰1
💼 Quantstats
Полезная библиотека QuantStats на Python, которая выполняет анализ финансового портфеля, позволяя инвесторам и аналитикам данных лучше понимать свою работу.
QuantStats предоставляет функции для углубленной аналитики, визуализации данных и генерации метрик риска.
Чтобы визуализировать и анализировать эффективность роста цен конкретных акций в вашем портфеле, используя всего несколько строк на #Python, попробуйте Quantitated.
▪Github
@data_analysis_ml
Полезная библиотека QuantStats на Python, которая выполняет анализ финансового портфеля, позволяя инвесторам и аналитикам данных лучше понимать свою работу.
QuantStats предоставляет функции для углубленной аналитики, визуализации данных и генерации метрик риска.
Чтобы визуализировать и анализировать эффективность роста цен конкретных акций в вашем портфеле, используя всего несколько строк на #Python, попробуйте Quantitated.
▪Github
@data_analysis_ml
👍33❤4🥰1
Проект DSGW призван упростить разворот полноценного рабочего места на сервере с GPU для Data Science разработки
DSGW базируется на:
— Ubuntu 22.04
— Nvidia CUDA 12.3.2
— Nvidia cuDNN 9
— Python 3.12
— VsCode Server
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤4🔥2