Python4Finance
9.4K subscribers
576 photos
42 videos
154 files
770 links
کانال Python4Finance
آموزش پایتون در اقتصاد و مدیریت مالی
هر روز چند نکته را در خصوص پایتون برای مالی بیاموزیم
***
ارتباط با من
b2n.ir/y72935
***
آپارت:
aparat.com/Python4Finance
کانال چالش ها:
t.iss.one/python4finance_challenge
Download Telegram
کتابخانه pyspan — ابزار پاک‌سازی و پیش‌پردازش داده‌ها با پایتون
قبلا در خصوص نحوه کار با داده ها در کتابخانه پانداس (#pandas) مفصل صحبت کردیم. یکی دیگر از ابزارهایی که برای تحلیل گران داده توصیه می شود ماژول pyspan است.

🛠 ویژگی‌های کلیدی pyspan
شناسایی و پر کردن مقادیر گم‌شده،«ناقص» (NaN)، خطا یا ساختارهای ناهماهنگ
تشخیص نقاط پرت (Outliers) و امکان حذف یا اصلاح آن‌ها.
ثبت لاگ تغییرات: می‌دانیم چه عملیاتی روی داده انجام شده و با چه پارامترهایی.
امکان Undo: اگر تغییری منجر به مسأله شد، می‌توان به عقب برگشت.
پشتیبانی از ساختارهای داده‌ای متفاوت: دیتافریم‌های Pandas، لیست‌ها، دیکشنری‌ها و غیره.
فشرده سازی دیتافریم با هدف کاهش حجم دیتافریم های بزرگ


نکته جالب دیگر این است که این کتابخانه مستقل است و برای کار کردن نیازی به پانداس ندارد.

در پست بعد یک مثال برای این موضوع را با هم بررسی خواهیم کرد.

#pyspan
#pandas
#dataframe


پایتون برای مالی
🆔 t.iss.one/python4finance
🆔 ble.ir/python4finance
12
مثال کتابخانه pyspan — ابزار پاک‌سازی و پیش‌پردازش داده‌ها با پایتون

امکان ثبت لاگ تغییرات و Undo علی الخصوص در پروژه هایی که تغیییرات زیادی روی داده ها متصور است بسیار کمک کننده است. در واقع هر بار که یک عملیات پاک‌سازی انجام می‌دهید (مثل پر کردن مقادیر گم‌شده، حذف outlier، تغییر فرمت‌ها و …)، کتابخانه یک نسخه از وضعیت قبلی داده را ذخیره می‌کند، به همین دلیل اگر اشتباهی یک ستون را پاک کردید یا داده‌ای را به شکل نادرست تغییر دادید، می‌توانید به راحتی دیتافریم را به وضعیت قبلی برگردانید.

چرا Undo در پروژه‌های واقعی مخصوصاً در داده‌های مالی و اقتصادی مهم است؟
ممکن است یک روش پاک‌سازی مناسب نباشد
ممکن است یک روش outlier detection بیش‌ازحد سخت‌گیر باشد
یا بخواهید چند روش مختلف را مقایسه کنید
به جای این‌که دوباره دیتافریم را از اول بخوانید، با Undo فقط یک قدم به عقب می‌روید.
در واقع Undo مرحله‌به‌مرحله کار می‌کند (مانند stack).
تا زمانی که لاگ تغییرات فعال باشد، می‌توانید به عقب برگردید.

مثال
from pyspan import Cleaner
import pandas as pd

df = pd.DataFrame({'x': [1, 2, None, 100]})

cleaner = Cleaner(df)

cleaner.fill_missing(method='mean') # مرحله ۱
cleaner.detect_outliers(column='x') # مرحله ۲

cleaner.undo() # برگشت به مرحله ۱
cleaner.undo() # برگشت به دیتافریم اولیه

print(cleaner.result())



#pyspan
#pandas
#dataframe


پایتون برای مالی
🆔 t.iss.one/python4finance
🆔 ble.ir/python4finance
8