Python3

🔥 پروژه کامل: تشخیص بیماری قلبی با جنگل تصادفی (Random Forest) 🔥

💡 هدف پروژه:
توی این پروژه، قراره یه مدل جنگل تصادفی (Random Forest) رو از صفر پیاده‌سازی کنیم و ازش برای پیش‌بینی بیماری قلبی استفاده کنیم.
ما از یه دیتاست واقعی Heart Disease Dataset استفاده می‌کنیم که شامل اطلاعات بیماران هست و باید تشخیص بدیم که فرد در خطر بیماری قلبی قرار داره یا نه! 🏥❤️

📌 ۱. نصب کتابخانه‌های موردنیاز

📌 اول از همه باید کتابخانه‌های لازم رو نصب کنیم:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.ensemble import RandomForestClassifier

📌 ۲. دریافت دیتاست و بررسی اولیه

🔍 دیتاست ما شامل اطلاعات مختلفی مثل سن، جنسیت، فشار خون، کلسترول و ... هست.
برای شروع، دیتاست رو می‌گیریم و یه نگاهی بهش می‌ندازیم:

# دانلود دیتاست (اگر از Kaggle یا Google Colab استفاده می‌کنید)
url = "https://raw.githubusercontent.com/ahmedbesbes/heart-disease-prediction/master/dataset.csv"
df = pd.read_csv(url)

# نمایش ۵ ردیف اول دیتاست
print(df.head())

# بررسی اطلاعات کلی دیتاست
print(df.info())

# بررسی میزان داده‌های خالی
print(df.isnull().sum())

📌 نکته: اگر دیتای خالی داشتیم، باید قبل از مدل‌سازی اون‌ها رو مدیریت کنیم.

📌 ۳. پردازش داده‌ها (Data Preprocessing)

✔️ تبدیل داده‌های متنی به عددی: بعضی ستون‌ها ممکنه مقدار متنی داشته باشن که باید اون‌ها رو عددی کنیم.
✔️ نرمال‌سازی داده‌ها: داده‌ها باید روی یه مقیاس استاندارد باشن تا مدل بهتر یاد بگیره.
✔️ تقسیم داده‌ها: دیتاست رو به دو بخش Train و Test تقسیم می‌کنیم.

# تبدیل مقادیر متنی به عددی (در صورت وجود)
df = pd.get_dummies(df, drop_first=True)

# جدا کردن ویژگی‌ها و برچسب‌ها
X = df.drop(columns=['target'])  # ویژگی‌ها (Attributes)
y = df['target']  # برچسب (Class Label)

# تقسیم دیتاست به ۸۰٪ آموزش و ۲۰٪ تست
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# نمایش تعداد نمونه‌ها
print("تعداد نمونه‌های آموزش:", X_train.shape[0])
print("تعداد نمونه‌های تست:", X_test.shape[0])

📌 ۴. ساخت و آموزش مدل Random Forest

حالا مدل جنگل تصادفی رو می‌سازیم و آموزش می‌دیم! 🚀🌳

# ساخت مدل جنگل تصادفی
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)

# آموزش مدل
model.fit(X_train, y_train)

# پیش‌بینی روی داده‌های تست
y_pred = model.predict(X_test)

# محاسبه دقت مدل
accuracy = accuracy_score(y_test, y_pred)
print(f"🎯 دقت مدل: {accuracy * 100:.2f}%")

📌 ۵. تحلیل نتایج و ارزیابی مدل

حالا بریم ببینیم مدل ما چقدر دقیق و قابل اعتماد هست:

# نمایش گزارش کامل دسته‌بندی
print(classification_report(y_test, y_pred))

# رسم ماتریس سردرگمی
plt.figure(figsize=(6, 5))
sns.heatmap(pd.crosstab(y_test, y_pred), annot=True, fmt='d', cmap="Blues")
plt.xlabel("پیش‌بینی شده")
plt.ylabel("واقعی")
plt.title("📊 ماتریس سردرگمی")
plt.show()

✅ اگر مدل دقت بالایی داشته باشه، یعنی خوب کار می‌کنه و می‌تونیم ازش برای تشخیص بیماری استفاده کنیم! 🚀

📌 ۶. تست مدل با ورودی جدید

حالا یه نمونه داده جدید می‌سازیم و تست می‌کنیم که مدل بیماری قلبی رو درست پیش‌بینی می‌کنه یا نه:

# یک نمونه بیمار جدید (به جای اعداد، مقادیر مناسب دیتاست رو قرار بدید)
new_patient = np.array([[63, 1, 3, 145, 233, 1, 0, 150, 0, 2.3, 0, 0, 1]])

# پیش‌بینی
prediction = model.predict(new_patient)
print("نتیجه مدل برای بیمار جدید:", "⚠️ بیماری قلبی دارد" if prediction[0] == 1 else "✅ سالم است")

📌 ۷. جمع‌بندی پروژه

✔️ یاد گرفتیم که چطور با داده‌های واقعی پزشکی کار کنیم.
✔️ با استفاده از جنگل تصادفی (Random Forest) یه مدل قوی برای تشخیص بیماری قلبی ساختیم.
✔️ مدل رو ارزیابی کردیم و دقتش رو بررسی کردیم.
✔️ در نهایت، یه نمونه داده جدید رو تست کردیم تا ببینیم مدل چطور کار می‌کنه.

🎯 این یه نمونه کاربردی و واقعی از الگوریتم‌های یادگیری ماشین بود! 🚀