Анализ данных (Data analysis)

⚡ 7 БЕСПЛАТНЫХ курсов по математике для Аналитиков данных.

1. Linear Algebra Refresher Course
Это бесплатный курс для изучения основ линейной алгебры.

2. Intro to Statistics
Курс "Введение в статистику" - это совершенно БЕСПЛАТНЫЙ курс для начинающих. Курс ведет сооснователь Udacity Себастьян Трун. Структура курса интересна и увлекательна для начинающих.

3. Intro to Inferential Statistics
Более продвинутый курс - "Введение в описательную и инференциальную статистику".

4. Intro to Descriptive Statistics
Курс "Введение в описательную статистику" - это объемный курс с уклоном в практику.

5. Eigenvectors and Eigenvalues
Это очень короткий курс, в котором вы изучите линейные преобразования, векторы, метод главных компонентов.

6. Intro to Artificial Intelligence
Курс начинается с основ искусственного интеллекта и его приложений. В рамках этого курса вы познакомитесь с различными алгоритмами поиска, такими как поиск по дереву, поиск по графу, поиск по ширине, поиск по A* и т.д.

7. Differential Equations in Action
В этом курсе 7 уроков. В нем вы научитесь находить решения систем дифференциальных уравнений.

@data_analysis_ml

❤18👍8🔥5🤨2

8.04K viewsedited 16:03

Анализ данных (Data analysis)

⚡Легкий способ получать свежие обновлении и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

Go: t.iss.one/Golang_google
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Машинное обучение: t.iss.one/ai_machinelearning_big_data
Data Science: t.iss.one/machinelearning_ru
C/C++/ t.iss.one/cpluspluc
C#: t.iss.one/csharp_ci
Хакинг: t.iss.one/linuxkalii
Мобильная разработка: t.iss.one/mobdevelop
Docker: t.iss.one/+0WdB4uvOwCY0Mjdi
Python: t.iss.one/python_job_interview
Rust: t.iss.one/rust_code
Javascript: t.iss.one/javascriptv
React: t.iss.one/react_tg
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Linux: t.iss.one/+A8jY79rcyKJlYWY6
Big Data: t.iss.one/bigdatai
Devops: t.iss.one/devOPSitsec
Тестирование:https://t.iss.one/+F9jPLmMFqq1kNTMy
Собеседования: https://t.iss.one/machinelearning_interview

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy

😆ИТ-Мемы: t.iss.one/memes_prog

🇬🇧Английский: t.iss.one/english_forprogrammers

ИИ: t.iss.one/vistehno

📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy

👍13❤2🔥2

6.43K views11:06

Анализ данных (Data analysis)

🎥

7 лучших бесплатных курсов по Feature Engineering, которые вам стоит пройти.

1. Feature Engineering – Coursera
Этот курс предлагается компанией Google Cloud. В этом курсе вы узнаете, что является хорошим признаком и как работать с ним в модели машинного обучения.

2. Feature Engineering for Machine Learning in Python– DataCamp
Это еще один хороший курс по отбору признаков. В этом курсе вы узнаете об основах отбора признаков и о том, как конструировать новые признаки с помощью pandas.

3. Feature Engineering for Machine Learning– Udemy
В этом курсе Udemy вы узнаете о различных методах по работе с данными.

4. Data Processing and Feature Engineering with MATLAB– Coursera
В этом курсе вы будете объединять данные из различных датасетов и работать с примерами, когда часть дынных отсутствует. В начале курса вы изучите различные типы распределений.

5. Feature Engineering in R– Datacamp
В данном курсе используется программирование на языке R для отбора признаков. В этом курсе вы узнаете, как преобразовывать категориальные признаки в числовые представления и техники кодирования данных.

6. Feature Engineering with PySpark– Datacamp
Это еще один курс по работе с признаками от Datacamp. В этом курсе вы узнаете, как подготовить и очистить данные и как создать новые функции для модели машинного обучения. Затем вы узнаете, как построить модель машинного обучения и как оценить ее.

7. Feature Engineering– Kaggle
Этот курс доступен на сайте Kaggle. В этом курсе вы изучите процесс отбора признаков. В ходе курса вы научитесь определять важные признаки из вашего датасета.

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤6🔥4

7.73K viewsedited 13:02

Анализ данных (Data analysis)

12:13

Media is too big

VIEW IN TELEGRAM

🖥

Python анализ данных с Pandas. PandaSQL

▪Видео
▪Код из видео
▪Введение в Pandas

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤6🔥3⚡1

6.99K views11:17

Анализ данных (Data analysis)

📌esProc SPL - это скриптовый язык для обработки данных, с хорошо продуманными богатыми функциями и мощным синтаксисом, который может исполняться в Java-программе через интерфейс JDBC и вычисляться независимо.

• Github
• Документация

@data_analysis_ml

👍12❤4🥰2

6.62K views09:42

Анализ данных (Data analysis)

19:24

Media is too big

VIEW IN TELEGRAM

🖥

Python анализ данных с Pandas. Join, merge, concat в Pandas

• Видео
• Код из видео
• Часть 1
• Часть 2

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤2🔥2

7.57K viewsedited 10:05

Анализ данных (Data analysis)

🌝

Крутые data science проекты с исходным кодом

1. Создание чат-ботов:
https://dzone.com/articles/python-chatbot-project-build-your-first-python-pro

2. Обнаружение мошенничества с кредитными картами:
https://kaggle.com/renjithmadhavan/credit-card-fraud-detection-using-python

3. Обнаружение фальшивых новостей
https://data-flair.training/blogs/advanced-python-project-detecting-fake-news/

4. Определение сонливости водителя
https://data-flair.training/blogs/python-project-driver-drowsiness-detection-system/

5. Рекомендательные системы (рекомендация фильмов)
https://data-flair.training/blogs/data-science-r-movie-recommendation/

6. Анализ настроений
https://data-flair.training/blogs/data-science-r-sentiment-analysis-project/

7. Определение пола и прогнозирование возраста
https://pyimagesearch.com/2020/04/13/opencv-age-detection-with-deep-learning/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤26👍14🔥4

7.81K views19:02

Анализ данных (Data analysis)

Yachay AI — открытое сообщество по машинному обучению

Проект предназначен для поддержки разработчиков в создании и обучении собственных моделей геотеггинга.

Представленная здесь архитектура моделей геотаггинга позволяет настраивать и обучать их. Кроме того проект содержит даатсеты, которые хорошо подходят для обучения в различных сценариях определения геолокации.

Из интересного: сообщество также разработало инструмент для определения геолокации

• Github
• Проект
• Датасеты

@data_analysis_ml

👍13❤5🔥4

6.36K views14:11

Анализ данных (Data analysis)

🤖

Как использовать агенты Hugging Face для решения задач NLP

Hugging Face — ИИ-сообщество с открытым исходным кодом для практиков машинного обучения — недавно интегрировало концепцию инструментов и агентов в свою популярную библиотеку Transformers.

Если вы уже использовали Hugging Face для решения задач обработки естественного языка (NLP), компьютерного зрения и работой над аудио/речью, вам будет интересно узнать о дополнительных возможностях Transformers.

Агент Transformers: реализация
В этом разделе я использовал документацию Hugging Face об агентах и реализовал их на собственных примерах.

Шаг 1. Требования
Начнем с импорта нескольких библиотек, которые будем использовать. Обратите внимание: я включил версии этих библиотек в результаты, чтобы вы могли создать идентичную среду.

import transformers, huggingface_hub, diffusers, torch
from platform import python_version
print(f'python: {python_version()}')
print(f'transformers: {transformers.__version__}')
print(f'huggingface_hub: {huggingface_hub.__version__}')
print(f'diffusers: {diffusers.__version__}')
print(f'torch: {torch.__version__}')

Результаты:

📌 Продолжение

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤4🔥2

6.47K views10:02

Анализ данных (Data analysis)

💻

Принципы SOLID в инженерии данных.

Как принципы SOLID трансформируются в функциональном программировании?

▪️Принцип единственной ответственности: у каждой функции должно быть одно назначение, то есть возможно несколько задач, но одна достигаемая цель.
▪️Принцип открытости/закрытости: исходный код каждой функции открыт для расширения, но закрыт для модификации.
▪️Принцип подстановки Лисков: каждая функция заменяется на другую с той же сигнатурой без изменения поведения программы.
▪️Принцип разделения интерфейса: каждая функция не зависит от ненужных ей функций.
▪️Принцип инверсии зависимостей: все функции зависят от входных аргументов, а не жестко заданного в функции поведения.

Интерпретация принципов SOLID: ООП против функционального программирования (в изображении)

Нарушение и соблюдение принципов SOLID на примерах

1. Принцип единственной ответственности
Согласно этому принципу, функция должна меняться только по одной причине. То есть у нее может быть несколько задач, но лишь одна цель в большой единице работы. Именно здесь осуществляется разделение обязанностей, когда каждой частью программы выполняется только одна задача, и выполняется хорошо.

Например, если единственная причина изменений конвейера данных для обслуживания команды — ускорение обработки, занятый улучшением производительности код отделяется от частей программы с другими задачами.

🔘

Примеры

🔘

Часть 1.

🔘

Часть 2.

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🔥3🎉2

6.77K viewsedited 17:15

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира : Data Science за неделю

Почитать:
— Как мы решили вопрос нехватки кадров, обучив соискателей работе с Apache Spark
— Создание приложения для потоковой передачи видео с физическими элементами управления
— Пять подходов к созданию ad-hoc-датафреймов в PySpark
— Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
— 7 аргументов почему UUID лучше, чем автоинкрементные идентификаторы
— Тестирование производительности на Python: Пошаговое руководство с Flask
— Boosting Resiliency with ML-Based Telemetry Analytics Architecture
— Dominando a função WITH: Criando Consultas Temporárias no SQL
— The Secret Sauce of Success: Soft Skills Every data Scientist needs
— What AI-driven analytics tools aid in data-driven decision-making for businesses?
— Unlocking Computational Efficiency in Event Analysis Through Centroids and Blocks: A Conceptual Exploration
— How can AI-driven cybersecurity tools protect businesses from daily threats and breaches?
— SQL Roadmap for Data Analysts[Step-by-Step]
— Dataviz accessibility review: what we can learn from the Norwegian 2023 election graphs
— Data Science Mentorship in Ahmedabad Learning from the Best
— 7-Stage Roadmap for Data Science

Посмотреть:
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 Невероятная нейросеть переводит любое видео на другие языки с сохранением оригинального голоса. (⏱ 00:55)
🌐 Python анализ данных с Pandas. PandaSQL (⏱ 12:13)
🌐 Python анализ данных с Pandas. Join, merge, concat в Pandas (⏱ 19:25)
🌐 Python+SQL часть2 создание таблиц. (⏱ 05:15)
🌐 Управление жестами всегда было в ваших часах, просто его нужно было активировать. (⏱ 00:11)
🌐 Уроки Golang с нуля /#28 - Встраивание типов (⏱ 06:16)
🌐 Уроки Golang с нуля /#27 - Bufio. Чтение и запись (⏱ 10:35)
🌐 Python анализ данных с Pandas. (⏱ 17:04)
🌐 ODSC Webinar | A Path to Insights Starts with Trusted Data (⏱ 23:23)
🌐 Not Just Deep Fakes: Apps of Visual Generative Models in Pharma Manufacturing - Guglielmo Iozzia (⏱ 01:18:40)
🌐 Lightning Interview “Beyond the Code: How AI Is Disrupting the Programmer's Role” (⏱ 58:40)
🌐 AI Reads Minds of 29 Patients! (⏱ 06:01)
🌐 OpenAI’s ChatGPT Nails 150+ Difficult Tasks! (⏱ 05:54)

Хорошего дня!

@data_analysis_ml

👍15🔥3❤1

6.9K viewsedited 11:47

Анализ данных (Data analysis)

🚀 Гарвардский университет предлагает БЕСПЛАТНОЕ образование мирового класса в области Data Science!

Курсы охватывают:
- Python
- Визуализация данных
- Вероятность
- Статистика
- Машинное обучение
- Наука о данных: Capstone

▪Курс

@data_analysis_ml

👍31🔥9❤3

7.15K views09:54

Анализ данных (Data analysis)

🎞

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥41👍19❤4🥰4

8.75K viewsedited 09:38

Анализ данных (Data analysis)

🟥

Как автоматизировать создание контента для YouTube и блога с помощью LangChain и OpenAI

Часть 1. Базовые настройки
Шаг 1. Настройка среды
Прежде чем начать, нужно убедиться, что у нас установлены все необходимые пакеты.

🔴

LangChain: фреймворк, упрощающий использование больших языковых моделей.

🔴

OpenAI: большая языковая модель, которую мы будем использовать.

🔴

Streamlit: фреймворк для создания веб-приложений на Python.

🔴

Python-dotenv: пакет для управления переменными окружения.
Чтобы установить эти пакеты, откройте терминал и запустите:
pip install langchain openai streamlit python-dotenv

Шаг 2. Получение API-ключа OpenAI
Далее вам необходимо получить API-ключ OpenAI. Это уникальный ключ, открывающий доступ к модели GPT-3 (GPT-3.5/ChatGPT, GPT-4). После регистрации учетной записи в OpenAI вы найдете API-ключ на дашборде.

Полученный ключ нужно надежно сохранить в файле .env. В каталоге проекта создайте файл .env и добавьте в него следующую строку:
OPENAI_API_KEY=ваш_ключ_openai

Замените ваш_ключ_openai на свой действительный ключ OpenAI. Этот файл будет использоваться для безопасного хранения API-ключа.

Шаг 3. Настройка файла app.py и импорт библиотек
Создадим главный файл Python, app.py. В нем и будем разрабатывать маркетингового ИИ-помощника.

Начнем с импорта необходимых библиотек и загрузки переменных среды:

from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain, SimpleSequentialChain, SequentialChain
import os
from dotenv import load_dotenv
load_dotenv()

В этих строках кода импортируется класс OpenAI из модуля langchain.llms, который позволяет взаимодействовать с моделью GPT. Кроме того, импортируются классы PromptTemplate и LLMChain, которые будут использоваться для создания промптов и цепочек.

Функция load_dotenv() загружает переменные среды OPENAI_API_KEY из файла .env.

Часть 2. Компоновочные блоки LangChain
Шаг 4. Обзор основных компонентов
Прежде чем приступить к написанию кода, сделаем краткий обзор компонентов, которые будем использовать.

🔵Большая языковая модель (LLM): экземпляр модели GPT-3.
🔵Шаблон промптов (Prompt Template): простая инструкция для LLM. Она принимает входные переменные и использует их в шаблоне.
🔵Цепочка (Chain): комбинация LLM и шаблона промптов. Она является самой малой рабочей единицей в LangChain.

Эти три компонента будут использованы для разработки генератора публикаций в блоге.

Шаг 5. Создание первой LLMChain
Чтобы создать первую цепочку, нужно инициализировать LLM, разработать шаблон промптов, а затем объединить их в цепочку.

Настройте LLM и первый шаблон промптов:

# Пример LLMChain 

# Модель
llm = OpenAI(temperature=0.9)

# Промпт
blog_prompt_template = PromptTemplate(
    input_variables = ['product_description'],
    template = 'Write a blog post on {product_description}'
)

# Цепочка
blog_chain = LLMChain(llm=llm, prompt=blog_prompt_template, verbose=True)

# Запуск
product_description = 'best eco-friendly coffee'
blog_chain.run(product_description)

СОВЕТ: ПАРАМЕТР TEMPERATURE УПРАВЛЯЕТ РАНДОМНОСТЬЮ ВЫХОДНЫХ ДАННЫХ МОДЕЛИ. ОН ПРИНИМАЕТ ЗНАЧЕНИЯ ОТ 0 ДО 1, ГДЕ МЫ УСТАНОВИЛИ ЗНАЧЕНИЕ 0,9, ПОСКОЛЬКУ ХОТИМ ПОЛУЧИТЬ МНОГО НОВЫХ ИДЕЙ, В ТО ВРЕМЯ КАК МЕНЬШЕЕ ЗНАЧЕНИЕ, НАПРИМЕР 0, ДЕЛАЕТ МОДЕЛЬ БОЛЕЕ ДЕТЕРМИНИРОВАННОЙ.

В приведенном выше коде настраивается LLM и создается шаблон промптов, который принимает описание продукта и генерирует в блоге публикацию о нем. Затем эти два шаблона объединяются, чтобы сформировать цепочку. Потом запускается LLMChain с product_description.

Часть 3. Освоение основ цепочек в LangChain
Шаг 6. Создание SimpleSequentialChain

📌Читать

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍7🔥4

6.82K views19:01

Анализ данных (Data analysis)

24:42

Media is too big

VIEW IN TELEGRAM

📊

Python Matplotlib. Визуализация данных на PRO уровне.

📌 Видео
📌 Код и полезные ресурсы

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28🔥4❤3

6.68K viewsedited 10:40

Анализ данных (Data analysis)

🟩

Бесплатные курсы Data Science с сертификатами:

❯ Python
https://freecodecamp.org/learn/scientific-computing-with-python/

❯ SQL
https://openclassrooms.com/courses/2071486-retrieve-data-using-sql

❯ Специализация Python Scripting for DevOps
https://www.coursera.org/specializations/python-scripting-devops

❯ R
https://mygreatlearning.com/academy/learn-for-free/courses/r-for-data-science

❯ Excel
https://simplilearn.com/learn-business-analytics-excel-fundamentals-skillup

❯ PowerBI
https://openclassrooms.com/courses/7434291-create-dashboards-with-powerbi

❯ Tableau
https://openclassrooms.com/courses/5873606-create-dashboards-with-tableau

❯ Mathematics & Statistics
https://matlabacademy.mathworks.com

❯ Probability
https://mygreatlearning.com/academy/learn-for-free/courses/probability-for-data-science

❯ Data Analysis
https://cognitiveclass.ai/courses/data-analysis-python

❯ Data Visualization
https://cognitiveclass.ai/courses/data-visualization-python

❯ Data Cleaning
https://kaggle.com/learn/data-cleaning

❯ Machine Learning
https://simplilearn.com/learn-machine-learning-algorithms-free-course-skillup

❯ Deep Learning
https://kaggle.com/learn/intro-to-deep-learning

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥7❤5🤔1🎉1

8.69K views17:08

Анализ данных (Data analysis)

🚀 𝐄𝐱𝐜𝐢𝐭𝐢𝐧𝐠 𝐀𝐧𝐧𝐨𝐮𝐧𝐜𝐞𝐦𝐞𝐧𝐭: 𝐈𝐧𝐭𝐫𝐨𝐝𝐮𝐜𝐢𝐧𝐠 𝐃𝐞𝐜𝐢𝐃𝐢𝐟𝐟𝐮𝐬𝐢𝐨𝐧 𝟏.𝟎 - 𝐑𝐞𝐯𝐨𝐥𝐮𝐭𝐢𝐨𝐧𝐢𝐳𝐢𝐧𝐠 𝐓𝐞𝐱𝐭-𝐭𝐨-𝐈𝐦𝐚𝐠𝐞 𝐆𝐞𝐧𝐞𝐫𝐚𝐭𝐢𝐨𝐧!✨

DeciDiffusion 1.0, новая модель диффузии текста в изображение.

Имея впечатляющие 820 млн. параметров, она достигает такого же исключительного качества, как и модель Stable Diffusion v1.5 с 860 млн. параметров, но за 40% меньшее количество итераций.

🔹 Высочайшая эффективность вычислений: на 40% меньше итераций и в 3 раза быстрее, чем в Stable Diffusion v1.5, что привело к снижению затрат почти на 66%.

pip install diffusers --upgrade
pip install invisible_watermark transformers accelerate safetensors

▪Colab
▪Model
▪Demo

@data_analysis_ml

👍10❤1🔥1🥰1

6.62K views13:03

Анализ данных (Data analysis)

Выпущен DALL·E 3

https://openai.com/dall-e-3

@data_analysis_ml

Openai

DALL·E 3

DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images.

❤8👍4🔥1

6.22K viewsedited 17:56

Анализ данных (Data analysis)

👆

7 бесплатных онлайн-курсов по дата-инжинирингу.

1. Become a Data Engineer - Udacity

2. Data Engineering, Big Data, and Machine Learning on GCP Specialization - Coursera

3. Become a Data Engineer - Coursera

4. Data Engineer with Python - Datacamp

5. Big Data Specialization - Coursera

6. Data Engineering with Google Cloud Professional Certificate - Coursera

7. Data Warehousing for Business Intelligence Specialization - Coursera

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14❤3🔥2👎1

6.97K views10:16

Анализ данных (Data analysis)

🐼Как устроен Pandas: взгляд изнутри

Структура данных Pandas
Как правило, датафрейм поддерживается каким-нибудь массивом, например NumPy или Pandas ExtensionArray. Эти массивы хранят данные датафрейма. pandas добавляет промежуточный слой Block и BlockManager. Он управляет этими массивами, обеспечивая максимальную эффективность операций. Это одна из причин, почему в Pandas методы, работающие с несколькими столбцами, могут быть очень быстрыми. Далее более подробно рассмотрим упомянутые слои.

Массивы
Фактические данные датафрейма могут храниться в наборе массивов NumPy или Pandas ExtensionArray. Этот слой обычно направляет к базовой реализации, например использует NumPy API при условии хранения данных в массивах NumPy. Pandas хранит в них данные и вызывает свои методы без расширения интерфейса.

Массивы NumPy обычно являются двумерными и дают ряд преимуществ в производительности, о которых речь пойдет далее. На данный момент Pandas ExtensionArray в основном представляют собой одномерные структуры данных, благодаря чему операции становятся предсказуемыми.
Однако не обошлось и без недостатков: в ряде случаев страдает производительность.

ExtensionArray допускает применение датафреймов, которые поддерживаются массивами PyArrow и другими типами данных Pandas.

Block
Датафрейм обычно состоит из столбцов, представленных по крайней мере одним массивом. Как правило, имеется коллекция массивов, так как один массив может хранить только один определенный тип данных. Эти массивы хранят данные, но не владеют информацией о том, какие столбцы они представляют. Каждый массив из датафрейма обернут соответствующим блоком Block.
✔ Block добавляет дополнительную информацию в массивы, например расположение представленных им столбцов.
✔Block служит слоем вокруг фактических массивов с возможностью расширения вспомогательными методами, необходимыми для операций Pandas.
✔ При выполнении фактической операции с датафреймом Block гарантирует, что метод направляется в базовый массив. Например, при вызове astype он убедится, что эта операция вызывается в массиве.

Данный слой не располагает информацией о других столбцах в датафрейме, являясь автономным объектом.

BlockManager
Как следует из названия, BlockManager управляет всеми Block, связанными с одним датафреймом. Он содержит сами Block и информацию об осях датафрейма, например имена столбцов и метки Index.
И самое главное в том, что он направляет большинство операций к фактическим Block:

df.replace(...)

BlockManager гарантирует, что replace выполняется для каждого Block.

Понятие консолидированного датафрейма
Мы исходим из того, что датафреймы поддерживаются типами данных NumPy, например их данные могут храниться в двумерных массивах.

При создании датафрейма Pandas гарантирует, что на каждый тип данных приходится только один Block:

df = pd.DataFrame(
    {
        "a": [1, 2, 3],
        "b": [1.5, 2.5, 3.5],
        "c": [10, 11, 12],
        "d": [10.5, 11.5, 12.5],
    }
)

У этого датафрейма есть 4 столбца, представленные двумя массивами: один из них хранит целочисленный тип данных, а другой — числа с плавающей точкой. Это и есть консолидированный датафрейм.

Добавим новый столбец к этому датафрейму:
df["new"] = 100

У него такой же тип данных, как и у существующих столбцов "a" и "c". Рассмотрим 2 возможных варианта дальнейших действий:

1. Добавление нового столбца в существующий массив, содержащий целочисленные столбцы.
2. Создание нового массива только для хранения нового столбца.

◾️ Первый вариант предусматривает добавление нового столбца в существующий массив. Для этого требуется скопировать данные, поскольку NumPy не поддерживает эту операцию без копирования. В итоге добавление одного столбца оборачивается слишком большими затратами.

◾️ Второй вариант

📌

Читать

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥5❤2

5.95K views18:01

About

Blog

Apps

Platform