Анализ данных (Data analysis)

🚀 AnyV2V: новый фреймворк Plug-and-Play для любых задач редактирования видео.

- Сайт: https://tiger-ai-lab.github.io/AnyV2V/
- Код: https://github.com/TIGER-AI-Lab/AnyV2V
- arXiv: https://arxiv.org/abs/2403.14468
- Huggingface: https://huggingface.co/papers/2403.14468

@data_analysis_ml

👍11❤3🔥2🥰2

8.08K views14:20

Анализ данных (Data analysis)

🛠 Dataverse

Простое, стандартизированное и удобное в использовании решение для обработки данных и управления ими, для специалистов по обработке данных, аналитиков и разработчиков в эпоху LLM.

Даже если вы мало что знаете о Spark, вы можете легко использовать его через dataverse.

▪с Dataverse вы получаете возможность
использовать множество функций предварительной обработки данных без необходимости установки различных библиотек.
▪позволяет генерировать данные для анализа и обучения больших языковых моделей (LM).
▪ вы можете с легкостью использовать Spark, независимо от вашего уровня знаний.
▪ инструмент упрощает совместную работу пользователей с различным уровнем владения Spark.

pip install dataverse

⚙️ Github

@data_analysis_ml

👍10❤4🥰1

6.93K views07:54

Анализ данных (Data analysis)

📌Немного о lifecycle в DS

Жизненный цикл модели в Data Science — это многоэтапный процесс, в течении которого исследователи, инженеры и разработчики обучают, разрабатывают и обслуживают модель машинного обучения.

Разработка модели принципиально отличается от традиционной разработки и требует своего собственного уникального способа разработки. Скажем, модель машинного обучения — это приложение искусственного интеллекта (ИИ), которое дает возможность автоматически учиться и совершенствоваться на основе собственного опыта без явного участия человека.

Основная цель модели заключается в том, чтобы компания смогла использовать преимущества алгоритмов искусственного интеллекта и машинного обучения для получения дополнительных конкурентных преимуществ.

Основные этапы:

⏩

Анализ данных. Задача этого шага – понять слабые и сильные стороны в имеющихся данных, определить их достаточность, предложить идеи, как их использовать, и лучше понять бизнес-процессы заказчика.

⏩

Сбор данных. Сбор данных — это процесс сбора информации по интересующим переменным в установленной систематической форме, которая позволяет отвечать на поставленные вопросы исследования, проверять гипотезы и оценивать результаты.

⏩

Нормализация данных. Этот шаг в процессе подготовки — это место, где аналитики и инженеры данных обычно проводят большую часть своего времени: очистка и нормализация "грязных" данных.

⏩

Моделирование данных. Моделирование данных — это сложный процесс создания логического представления структуры данных.

⏩

Конструирование признаков. Конструирование признаков состоит из учета, статистической обработки и преобразования данных для выбора признаков, используемых в модели.

📎

Читать подробнее

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🥰4❤2⚡2

6.95K views07:54

Анализ данных (Data analysis)

🕐Pendulum

Хотя встроенный пакет datetime достаточно хорош для простых случаев работы с датами, он не подходит для комплексных задач.

Pendulum предлагает более интуитивно понятный и удобный для пользователя API для работы с датами и временем, это делает его удобной заменой стандартного класса datetime.

▪ Github

@data_analysis_ml

❤17👍8🥰5

6.17K viewsedited 10:16

Анализ данных (Data analysis)

🖥

Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python

Держите полезную статью)
LDA — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую.

Некоторые мысли из статьи:
⏩LDA может быть предпочтительнее логистической регрессии в ряде случаев.

⏩Алгоритм LDA включает расчет априорных вероятностей и средних значений признаков, а также нахождение собственных векторов и значений.

⏩Существуют другие подходы к решению задач через нахождение собственных векторов, такие как сингулярное разложение и метод наименьших квадратов.

⏩Модификации LDA, такие как квадратичный дискриминантный анализ (QDA), гибкий дискриминантный анализ (FDA) и ядерный дискриминантный анализ (KDA), улучшают качество модели и увеличивают количество задач, в которых его можно применить.

⏩Регуляризация поддерживается в LDA и его модификациях через степень сжатия ковариационной матрицы.

📎

Статья

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🥰3❤2❤‍🔥1

6.87K views17:44

Анализ данных (Data analysis)

⚡️

Яндекс показал третье поколение языковых моделей YandexGPT

⏩YandexGPT 3 Pro — первая нейросеть, которая вошла в линейку YandexGPT 3. В дальнейшем их станет больше: каждая будет ориентирована на решение задач определённого типа.

⏩Бизнес сможет дообучать обновленную модель под реальные задачи компании самостоятельно в сервисе ML-разработки Yandex DataSphere. Чтобы запустить процесс дообучения, нужно загрузить в DataSphere файл с примерами запросов и эталонными ответами на них. Такая нейросеть будет доступна только дообучившей её компании.

⏩Качество нейросети YandexGPT 3 Pro можно оценить в демо-режиме. Зарегистрированным пользователям доступно 100 бесплатных запросов в час. Плюс компания снизила стоимость на языковую модель почти в два раза.

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥5🙏3❤2👎2🤔2

6.59K viewsedited 11:03

Анализ данных (Data analysis)

▶️

7 типов баз данных, понимание которых пригодится специалисту Data Science

⏩

Иерархические БД — DNS, LDAP
В иерархических БД каждая запись имеет одного «родителя». Это создаёт древовидную структуру, в которой записи классифицируются по их отношениям с цепочкой родительских записей.

⏩

Сетевые БД — IDMS
Сетевые БД расширяют функциональность иерархических: записи могут иметь более одного родителя. А значит, можно моделировать сложные отношения.

⏩

Реляционные БД — PostgreSQL, MariaDB, SQLite, MySQL
Реляционные БД – старейший тип до сих пор широко используемых БД общего назначения. Данные и связи между данными организованы с помощью таблиц. Каждый столбец в таблице имеет имя и тип. Каждая строка представляет отдельную запись или элемент данных в таблице, который содержит значения для каждого из столбцов.

⏩

Базы данных «ключ-значение» — Redis, Memcached
В БД «ключ-значение» для хранения информации вы предоставляте ключ и объект данных, который нужно сохранить. Например, JSON-объект, изображение или текст. Чтобы запросить данные, отправляете ключ и получаете blob-объект.

⏩

Документная база данных — MongoDB, RethinkDB
Документные БД совместно используют базовую семантику доступа и поиска хранилищ ключей и значений. Такие БД также используют ключ для уникальной идентификации данных. Разница между хранилищами «ключ-значение» и документными БД заключается в том, что вместо хранения blob-объектов, документоориентированные базы хранят данные в структурированных форматах – JSON, BSON или XML.

⏩

Графовая база данных — Neo4j, JanusGraph, Dgraph
Вместо сопоставления связей с таблицами и внешними ключами, графовые БД устанавливают связи, используя узлы, рёбра и свойства.

⏩

Колоночные БД — Cassandra, HBase
Колоночные БД принадлежат к семейству NoSQL БД, но внешне похож на реляционные БД. Как и реляционные, колоночные БД хранят данные, используя строки и столбцы, но с иной связью между элементами.

📎

Читать подробнее

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31❤7🥰2🔥1

6.86K views17:19

Анализ данных (Data analysis)

✨

Парадокс Монти-Холла из теории вероятностей

В Data Science нужно хорошо ориентироваться в статистике и теории вероятностей. Как у вас с этим?
Хотите взорвать себе мозг?
Не проблема, сейчас всё будет

⏩Итак, перед вами 3 двери, только за 1 из них приз.
Вы выбрали любую дверь.
Ведущий открывает другую дверь (не вашу), за которой приза нет (ведущий знает об этом).
Дальше вы можете либо не менять свою дверь, либо выбрать другую дверь.
Изменится ли вероятность победы, если поменять дверь?

Подумайте очень хорошо;
Когда мы выбираем дверь в самом начале, вероятность выиграть 1/3 — очевидно, потому что из приз только за 1 из 3 дверей.
После того, как ведущий открывает дверь, где приза нет, приз может быть либо за нашей выбранной дверью, либо за другой.
2 двери: наша и оставшаяся, приз может быть за любой из них. Вроде с равной вероятностью 1/3.
Или нет?

⏩Итак, поменяется ли вероятность выиграть, если вы выберете другую дверь?
Для большей уверенности можно смоделировать это в Python

Да, если поменять дверь, вероятность выиграть будет 2/3, а не 1/3, как было бы, если не менять дверь
Что?!
Это реально контринтуитивно, но численный эксперимент на Python это подтверждает.
Вообще, можете написать своё решение, чтобы 100% удостовериться

📎А вот статья, которая поможет в этом разобраться — «Голуби брутфорсят парадокс Монти-Холла лучше людей»

📎

Код можно запустить тут

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15👍9❤‍🔥3🕊1

6.43K views09:03

Анализ данных (Data analysis)

📌

Python Data Science Bootcamp

Держите мощное практическое видео по работе с Pandas, Matplotlib, NumPy, Seaborn, Scikit-learn, Plotly

Ключевые моменты в видео:
01:28:00 — Pandas
02:54:02 — NumPy
03:05:26 — Визуализация данных с помощью Matplotlib
03:26:22 — Визуализация данных с помощью Seaborn
04:39:40 — Анализ данных
05:03:12 — Элементы ML, использование Scikit-learn

📎

Видео

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍39❤3🥰3

8.41K views11:02

Анализ данных (Data analysis)

📌

Временная сложность разных ML-алгоритмов

И вспомним про некоторые алгоритмы

⏩

Логистическая регрессия
Где применять — там, где требуется несложная классификация малого числа объектов на малое число классов.

⏩

K-means
Может сгруппировать объекты по степени похожести.
Где применять — поиск закономерностей, классификация объектов по нескольким параметрам. Работа с объектами, которые можно описывать набором переменных.

⏩

Метод опорных векторов (SVM)
Пытается построить такую линию, чтобы самым точным образом разделить между собой разные типы объектов.
Где применять — классификация объектов.

⏩

Байесовский классификатор
Определяет класс, к которому принадлежит объект. В основе — расчет вероятности, с которой объект относится к тому или иному типу данных.
Где применять — в задачах классификации, конечно же. Например, классическая задача — сказать, относится ли письмо к спаму или нет.

📎

А вот подробная статья по самым популярным ML-алгоритмам

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤29👍12🔥3

7.34K views16:03

About

Blog

Apps

Platform