Анализ данных (Data analysis)

Большие датафреймы могут потреблять значительные объемы памяти. Если обрабатывать #данные небольшими фрагментами, то можно избежать нехватки памяти и получить доступ к данным быстрее.

В приведенном примере кода используется chunksize=100000, что работает примерно в 5495 раз быстрее, чем без использования chunksize.

#tips #datascience #junior

@data_analysis_ml

👍35🔥9❤6👎2

6.69K views11:13

⚡️ Как только вы перейдете на Parquet...
...вы никогда не вернетесь к CSV.

Parquet — это формат хранения данных, разработанный для эффективного анализа больших объемов данных.

Он обеспечивает высокую производительность чтения и записи, а также поддерживает сжатие данных, что позволяет сэкономить место на диске.

В Python существует несколько библиотек для работы с форматом Parquet, наиболее популярной из них является pyarrow.

pip install pyarrow

mport pyarrow.parquet as pq
# Чтение данных из файла Parquet
table = pq.read_table('example.parquet')
df = table.to_pandas()  # Преобразование таблицы Parquet в объект pandas DataFrame
# Запись данных в файл Parquet
table = pq.Table.from_pandas(df)
pq.write_table(table, 'example.parquet')

https://pypi.org/project/parquet/

#junior #parquet

@data_analysis_ml

🔥41👍16❤4

8.75K views07:50

Анализ данных (Data analysis)

🖥

Обнаружение статистических выбросов в Python

Выбросы — значения или наблюдения, отклоняющиеся от других данных. Всегда нужно сравнивать наблюдение с другими значениями, полученными тем же способом, прежде чем называть их выбросами.

Имеет смысл формально выделять два класса выбросов: экстремальные значения и ошибки. Экстремальные значения интереснее, потому что они возможны, но маловероятны.

В этой статье — несколько подходов к обнаружению выбросов в Python; от простых методов, таких как описательная статистика (включая минимальные, максимальные значения, гистограмму, прямоугольную диаграмму и процентили), до более формальных методов, таких как фильтр Хэмпеля, тесты Граббса, Диксона и Рознера.

📎

Поехали

📎

Кстати, по анализу выбросов в R

#junior

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥6❤4

6.06K views14:03

About

Blog

Apps

Platform