آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

کد درخت تصمیم از پایه (Scratch)

برای پیاده سازی یک درخت تصمیم از Scratch در زبان برنامه‌نویسی پایتون، به چند جزء اصلی نیاز داریم:

کلاس Node: این کلاس به عنوان نماینده‌ی هر گره در درخت تصمیم عمل می‌کنه. این گره‌ها شامل اطلاعاتی درباره‌ی شاخص ویژگی‌ها برای تقسیم (feature_index)، آستانه‌ی تقسیم (threshold)، و گره‌های فرزند چپ و راست (left و right) هستن. همچنین، این کلاس میزان افزایش اطلاعات ناشی از هر تقسیم (info_gain) و پیش‌بینی‌های نهایی برای گره‌های برگ (value) رو داراست.

class Node:
    def __init__(self, feature_index=None, threshold=None, 
        left=None, right=None, info_gain=None, value=None):

        self.feature_index = feature_index
        self.threshold = threshold
        self.left = left
        self.right = right
        self.info_gain = info_gain
        self.value = value

کلاس DecisionTreeClassifier: این کلاس هسته‌ی الگوریتم درخت تصمیم رو تشکیل می‌ده. متد سازنده (Constructor) پارامترهایی مثل حداکثر عمق درخت (max_depth) و حداقل تعداد نمونه‌ها برای یک گره (min_samples_split) رو مشخص می‌کنه. تابع build_tree مسئول ساخت درخته و به صورت بازگشتی بهترین تقسیم رو بر اساس افزایش اطلاعات انتخاب می‌کنه. تابع predict برای پیش‌بینی کلاس‌های نمونه‌های جدید استفاده می‌شه.

class DecisionTreeClassifier:
    def __init__(self, min_samples_split=2, max_depth=2):

        self.min_samples_split = min_samples_split
        self.max_depth = max_depth

    def build_tree(self, dataset, curr_depth=0):
        pass

    def train(self, X, Y):
        pass

    def predict(self, X):
        pass

توابع کمکی: تابع entropy برای محاسبه انتروپی استفاده می‌شه که میزان ناخالصی در یک مجموعه داده‌ رو نشون می‌ده. انتروپی بالا به معنای وجود تنوع بیشتر در برچسب‌های داده‌هاست، و انتروپی پایین نشون‌دهنده یکنواختی بیشتر در برچسب‌هاست.

تابع calculate_info_gain برای محاسبه افزایش اطلاعات یک تقسیم مشخص در درخت استفاده می‌شه. افزایش اطلاعات معیاری برای اندازه‌گیری میزان بهبودی هست که یک تقسیم مشخص در پیش‌بینی برچسب‌ها ایجاد می‌کنه.

تابع best_split این تابع کمک می‌کنه تا بهترین نقطه تقسیم برای داده‌ها رو بر اساس معیار افزایش اطلاعات یا شاخص جینی پیدا کنیم. این تابع از بین همه ویژگی‌ها و آستانه‌های ممکن، تقسیمی رو انتخاب می‌کنه که بیشترین افزایش اطلاعات رو به دست بیارن.

def entropy(y):

    class_labels = np.unique(y)
    entropy = 0
    for cls in class_labels:
        p = len(y[y == cls]) / len(y)
        entropy -= p * np.log2(p)
    return entropy

def calculate_info_gain(dataset, feature_index, threshold):
    pass

def best_split(dataset, num_features):
    pass

❗️توجه داشته باشین که کدهای گذاشته شده قطعه کد هستن و فقط به صورت کلی توابع لازم برای پیاده سازی درخت تصمیم رو توضیح دادن و با اجراشون خروجی نخواهید داشت.

#Machine_Learning
#Decision_Tree

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌6👍3❤1👨‍💻1

482 views15:30