آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

کد جنگل تصادفی از پایه (Scratch)

۱. ساخت درخت تصمیم: در مرحله اول یک کلاس برای هر درخت تصمیم می‌نویسیم. این کلاس مسئولیت یادگیری از داده‌ها و انجام پیش‌بینی‌ها رو داره.

class DecisionTree:
    def __init__(self, max_depth=None):
        self.max_depth = max_depth
        self.left = None
        self.right = None
        self.feature_index = None
        self.threshold = None
        self.label = None
    
    def fit(self, X, y, depth=0):
        # اگه داده‌ها همگی از یک کلاس هستن یا به حداکثر عمق رسیدیم
        if len(set(y)) == 1 or depth == self.max_depth:
            self.label = max(set(y), key=list(y).count)
            return
        
        # پیدا کردن بهترین تقسیم
        best_feature, best_threshold = find_best_split(X, y)
        if best_feature is None or best_threshold is None:
            self.label = max(set(y), key=list(y).count)
            return
        
        self.feature_index = best_feature
        self.threshold = best_threshold
        
        # تقسیم داده‌ها
        left_indices = X[:, best_feature] < best_threshold
        X_left, y_left = X[left_indices], y[left_indices]
        X_right, y_right = X[~left_indices], y[~left_indices]
        
        # ساخت درخت برای زیر مجموعه‌ها
        self.left = DecisionTree(max_depth=self.max_depth)
        self.left.fit(X_left, y_left, depth + 1)
        
        self.right = DecisionTree(max_depth=self.max_depth)
        self.right.fit(X_right, y_right, depth + 1)
    
    def predict(self, X):
        if self.label is not None:
            return self.label
        if X[self.feature_index] < self.threshold:
            return self.left.predict(X)
        else:
            return self.right.predict(X)

در این کد، fit متدیه که برای آموزش درخت تصمیم استفاده می‌شه. این متد به صورت بازگشتی عمل می‌کنه و در هر مرحله بهترین ویژگی و آستانه برای تقسیم داده‌ها رو پیدا می‌کنه. predict متدیه که برای انجام پیش‌بینی‌ها با استفاده از درخت آموزش دیده استفاده می‌شه.

۲. بوت‌استرپینگ داده‌ها: برای بوت‌استرپ کردن داده‌ها، می‌تونیم از تابع زیر استفاده کنیم. این تابع به صورت تصادفی نمونه‌هایی از داده‌ها رو با جایگزینی انتخاب می‌کنه و به عنوان نمونه بوت‌استرپ برمی‌گردونه.

def bootstrap_sample(X, y):
    n_samples = X.shape[0]
    indices = np.random.choice(n_samples, size=n_samples, replace=True)
    return X[indices], y[indices]

۳. انتخاب ویژگی‌ها: این تابع از بین همه ویژگی‌ها، تعداد max_features ویژگی رو به صورت تصادفی انتخاب می‌کنه.

def random_feature_indices(n_features, max_features):
    return np.random.choice(n_features, max_features, replace=False)

۴. ترکیب پیش‌بینی‌های درخت‌ها: این تابع برای ترکیب پیش‌بینی‌ها در مسائل طبقه‌بندی از رای‌گیری اکثریت و در مسائل رگرسیون از میانگین‌گیری استفاده می‌کنه.

from statistics import mode, mean

def aggregate_predictions(predictions):
    # برای طبقه‌بندی
    if isinstance(predictions[0], (int, np.int64)):
        return mode(predictions)
    # برای رگرسیون
    else:
        return mean(predictions)

این مراحل اساسی و اولیه‌ای هستن که برای ساخت یک جنگل تصادفی از Scratch نیاز هست.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4👏2

518 views10:30