آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۵۸: کدوم گزینه بهترین تفسیر رو برای مقایسه به دست اومده توسط شاخص جینی و انتروپی در مورد ناخالصی یک گره در درخت تصمیم ارائه می‌ده؟

Anonymous Quiz

32%

شاخص جینی و انتروپی اطلاعات مشابهی ارائه می‌دن، چون هر دو ناخالصی رو می‌سنجن.

20%

شاخص جینی اطلاعات کمتری نسبت به انتروپی ارائه می‌ده، چون به تغییرات کوچک در توزیع کلاس‌ها حساس‌تره.

36%

انتروپی اطلاعات بیشتری نسبت به شاخص جینی ارائه می‌ده، چون به تغییرات کوچک در توزیع کلاس‌ها حساس‌تره.

12%

شاخص جینی و انتروپی هیچ اطلاعات قابل تفسیری در مورد ناخالصی گره‌ها ارائه نمی‌دن.

😎5👍2❤1

25 voters434 views14:31

آموزش دیتاساینس و ماشین‌لرنینگ

💡چه زمانی باید از شاخص جینی به جای بهره اطلاعاتی (انتروپی) استفاده کنیم؟

از شاخص جینی معمولاً وقتی استفاده می‌شه که سرعت محاسبات بیشتری نیازه، چون محاسبه ناخالصی جینی نسبت به انتروپی کمتر پیچیده و سریع‌تره.

از طرف دیگه، بهره اطلاعاتی (که بر اساس انتروپی محاسبه می‌شه) می‌تونه برای داده‌هایی که دارای توزیع‌های غیرمعمول یا بی‌نظمی‌های خاص هستن، مناسب‌تر باشه. انتروپی معمولاً زمانی کاربرد داره که مدل‌سازی اطلاعات متقارن مهمه و می‌خوایم از همه اطلاعات موجود در توزیع کلاس‌ها استفاده کنیم.

به طور کلی، اگه داده‌ها تعداد مقادیر کلاسی کمی دارن و توزیع نسبتاً متوازنی دارن، ناخالصی جینی می‌تونه مفید باشه. اما اگه داده‌ها دارای توزیع‌های نامتوازن یا نویز بیشتری هستن و یا اگه نیاز به اطلاعات دقیق‌تری از انحراف استاندارد داده‌ها داریم، استفاده از بهره اطلاعاتی بر پایه انتروپی توصیه می‌شه.

#Machine_Learning
#Decision_Tree

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤1🤔1👌1

470 views17:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

کاربردها، مزایا و معایب درخت تصمیم

🔵 کاربردهای درختان تصمیم

🔵

تشخیص بیماری‌: این الگوریتم می‌تونه با تجزیه و تحلیل داده‌های بیماران و شناسایی الگوهای خاص، به تشخیص سریع‌تر و دقیق‌تر بیماری‌ها کمک کنه.

🔵

تجزیه و تحلیل مشتریان: این الگوریتم می‌تونه الگوهای خرید مشتریان رو تشخیص بده و به شرکت‌ها کمک کنه تا محصولات و خدمات‌شون رو به شکلی موثرتر به بازار عرضه کنن. همچنین در تحلیل سگمنت‌های مختلف بازار و تعیین استراتژی‌های بازاریابی موثر به کار می‌ره.

🔵

مدیریت ریسک: این الگوریتم می‌تونه به بانک‌ها و موسسات مالی کمک کنه تا احتمال پرداخت نشدن وام‌ها توسط مشتریان رو پیش‌بینی کنن و بر اساسش تصمیمات اعتباری مناسبی بگیرن.

🔵

تحلیل تجاری و صنعتی: در صنایع تولیدی، این الگوریتم می‌تونه برای بهینه‌سازی فرآیندهای تولید، کاهش هزینه‌ها و افزایش کارایی به کار بره. همچنین، در تحلیل‌های بازار و پیش‌بینی تقاضا نیز می‌شه از درخت تصمیم‌ استفاده کرد.

🔵

مزایای درختان تصمیم

🔵قابلیت تفسیر: درخت تصمیم به دلیل ساختار شفاف و قابل درکش، قابلیت تفسیر آسونی داره. قوانینی که در این الگوریتم‌ اعمال می‌شه رو میشه به صورت نمودارهایی مثل جریان داده‌ها نشون داد.

🔵نیاز کم به پیش‌پردازش داده‌ها: در مقایسه با سایر الگوریتم‌ها، درخت تصمیم نیاز کمتری به پیش‌پردازش داده‌ها داره و نیازی به نرمال‌سازی داده‌ها، ایجاد متغیرهای مجازی برای متغیرهای Categorical، یا حذف مقادیر خالی یا گمشده نیست.

🔵مقیاس‌پذیری: اضافه کردن ویژگی‌های جدید به مجموعه داده‌ها، زمان محاسبه درخت تصمیم رو به صورت لگاریتمی (تدریجی و آهسته) افزایش می‌ده یعنی این الگوریتم می‌تونه با مجموعه داده‌های بزرگ کار کنه و به خوبی با افزایش داده‌ها مقیاس‌پذیره.

🔵کار با داده‌های عددی و دسته‌ای: اکثر الگوریتم‌های یادگیری ماشین تخصصی برای داده‌های عددی یا Categorical هستن، اما درختان تصمیم می‌تونن با هر دو نوع داده کار کنن.

🔵

معایب درختان تصمیم

🔵بیش‌برازش (Overfitting): درخت تصمیم به سرعت دچار overfitting می‌شن مخصوصا اگه بدون مکانیزم توقف یا اصلاح بعد از آموزش رشد کنن.

🔵عدم پایداری در برابر تغییرات داده‌های ورودی: یک تغییر کوچیک در داده‌های ورودی می‌تونه ساختار درخت تصمیم رو به طور قابل توجهی تغییر بده و این موضوع به قابلیت تفسیر درخت تصمیم آسیب می‌رسونه.

🔵حساسیت به نویز: درخت تصمیم به نویز موجود در داده‌ها حساسه. این موضوع باعث تغییر ساختار درخت میشه و قابلیت تفسیر رو کاهش می‌ده.

🔵غیرپیوسته بودن: خروجی‌های درختان تصمیم به صورت قطعات یا بخش‌های جداگانه و مجزا ارائه می‌شن، نه به صورت یک خط یا منحنی مداوم و بدون وقفه. به عبارت دیگه، به جای اینکه نتیجه یک تغییر مداوم و روان داشته باشه، در مقاطع یا نقاط معینی تغییر می‌کنه و بین این نقاط، ثابته. این موضوع منجر به محدودیت‌هایی در عملکرد رگرسیون درختان تصمیم و عدم توانایی‌شون در برون‌یابی میشه.

#Machine_Learning
#Decision_Tree

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌6👍3❤1

508 views08:29

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۵۹: چطور میشه از درخت تصمیم‌ برای کاهش ابعاد داده‌ها و انتخاب ویژگی‌های مهم استفاده کرد؟

Anonymous Quiz

15%

با تجزیه و تحلیل ماتریس همبستگی بین ویژگی‌ها

70%

با استفاده از معیار اهمیت ویژگی‌ها (Feature Importance) محاسبه شده در طی فرایند ساخت درخت

با انجام آزمون‌های آماری روی ویژگی‌ها

با انتخاب تصادفی ویژگی‌ها

👍4😎3❤2

33 voters441 views15:30

آموزش دیتاساینس و ماشین‌لرنینگ

💡الگوریتم CART (درخت‌های تصمیم‌گیری مبتنی بر طبقه‌بندی و رگرسیون) چطور درخت‌های طبقه‌بندی تولید می‌کنه؟

الگوریتم Classification And Regression Trees از یک رویکرد آماری برای تولید درخت‌های تصمیم‌گیری استفاده می‌کنه که هم برای Classification و هم برای Regression قابل اجراست. این الگوریتم از یک روش تقسیم و غلبه (Divide and Conquer) برای تولید درخت استفاده می‌کنه.

۱. تقسیم‌بندی: الگوریتم با بررسی هر یک از ویژگی‌ها (Features) و مقادیر مختلف‌شون به دنبال بهترین نقطه تقسیم (Split Point) هست که باعث کاهش بیشترین میزان ناخالصی (Impurity) می‌شه. برای طبقه‌بندی، ناخالصی معمولاً با استفاده از معیارهایی مثل شاخص Gini یا بهره اطلاعاتی (Information Gain) اندازه‌گیری می‌شه.

۲. رشد درخت: بعد از تعیین بهترین تقسیم، داده‌ها به دو زیرمجموعه تقسیم می‌شن و هر زیرمجموعه به یک شاخه در درخت تصمیم می‌شه. این فرایند به صورت بازگشتی برای هر شاخه جدید تکرار می‌شه تا زمانی که یک شرط توقف مثل عمق ماکزیمم درخت یا حداقل تعداد نمونه‌ها در هر گره رعایت شه.

۳. هرس کردن (Pruning): بعد از ساختن درخت کامل، ممکنه به دلیل Overfitting نیاز به هرس کردن درخت باشه. هرس کردن شامل حذف شاخه‌هایی هست که بهبود کمی در امکان پیش‌بینی مدل ایجاد می‌کنن. این کار می‌تونه به بهبود عملکرد مدل در پیش‌بینی داده‌های جدید کمک کنه.

#Machine_Learning
#Decision_Tree

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7👌2👏1

475 views17:31

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

کد درخت تصمیم از پایه (Scratch)

برای پیاده سازی یک درخت تصمیم از Scratch در زبان برنامه‌نویسی پایتون، به چند جزء اصلی نیاز داریم:

کلاس Node: این کلاس به عنوان نماینده‌ی هر گره در درخت تصمیم عمل می‌کنه. این گره‌ها شامل اطلاعاتی درباره‌ی شاخص ویژگی‌ها برای تقسیم (feature_index)، آستانه‌ی تقسیم (threshold)، و گره‌های فرزند چپ و راست (left و right) هستن. همچنین، این کلاس میزان افزایش اطلاعات ناشی از هر تقسیم (info_gain) و پیش‌بینی‌های نهایی برای گره‌های برگ (value) رو داراست.

class Node:
    def __init__(self, feature_index=None, threshold=None, 
        left=None, right=None, info_gain=None, value=None):

        self.feature_index = feature_index
        self.threshold = threshold
        self.left = left
        self.right = right
        self.info_gain = info_gain
        self.value = value

کلاس DecisionTreeClassifier: این کلاس هسته‌ی الگوریتم درخت تصمیم رو تشکیل می‌ده. متد سازنده (Constructor) پارامترهایی مثل حداکثر عمق درخت (max_depth) و حداقل تعداد نمونه‌ها برای یک گره (min_samples_split) رو مشخص می‌کنه. تابع build_tree مسئول ساخت درخته و به صورت بازگشتی بهترین تقسیم رو بر اساس افزایش اطلاعات انتخاب می‌کنه. تابع predict برای پیش‌بینی کلاس‌های نمونه‌های جدید استفاده می‌شه.

class DecisionTreeClassifier:
    def __init__(self, min_samples_split=2, max_depth=2):

        self.min_samples_split = min_samples_split
        self.max_depth = max_depth

    def build_tree(self, dataset, curr_depth=0):
        pass

    def train(self, X, Y):
        pass

    def predict(self, X):
        pass

توابع کمکی: تابع entropy برای محاسبه انتروپی استفاده می‌شه که میزان ناخالصی در یک مجموعه داده‌ رو نشون می‌ده. انتروپی بالا به معنای وجود تنوع بیشتر در برچسب‌های داده‌هاست، و انتروپی پایین نشون‌دهنده یکنواختی بیشتر در برچسب‌هاست.

تابع calculate_info_gain برای محاسبه افزایش اطلاعات یک تقسیم مشخص در درخت استفاده می‌شه. افزایش اطلاعات معیاری برای اندازه‌گیری میزان بهبودی هست که یک تقسیم مشخص در پیش‌بینی برچسب‌ها ایجاد می‌کنه.

تابع best_split این تابع کمک می‌کنه تا بهترین نقطه تقسیم برای داده‌ها رو بر اساس معیار افزایش اطلاعات یا شاخص جینی پیدا کنیم. این تابع از بین همه ویژگی‌ها و آستانه‌های ممکن، تقسیمی رو انتخاب می‌کنه که بیشترین افزایش اطلاعات رو به دست بیارن.

def entropy(y):

    class_labels = np.unique(y)
    entropy = 0
    for cls in class_labels:
        p = len(y[y == cls]) / len(y)
        entropy -= p * np.log2(p)
    return entropy

def calculate_info_gain(dataset, feature_index, threshold):
    pass

def best_split(dataset, num_features):
    pass

❗️توجه داشته باشین که کدهای گذاشته شده قطعه کد هستن و فقط به صورت کلی توابع لازم برای پیاده سازی درخت تصمیم رو توضیح دادن و با اجراشون خروجی نخواهید داشت.

#Machine_Learning
#Decision_Tree

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌6👍3❤1👨‍💻1

482 views15:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۶۰: مزیت اصلی استفاده از Bagging با درخت‌ تصمیم‌گیری چیه؟

Anonymous Quiz

56%

با میانگین‌گیری پیش‌بینی‌های چندین درخت، از بیش‌برازش جلوگیری می‌کنه

قابلیت تفسیر درخت‌های تصمیم‌گیری رو بهبود می‌ده

28%

پیچیدگی محاسباتی درخت‌های تصمیم‌گیری رو کاهش می‌ده

به درخت‌های تصمیم‌گیری اجازه می‌ده تا با داده‌های گمشده کار کنن

👍4❤2😎2

32 voters450 views17:00

آموزش دیتاساینس و ماشین‌لرنینگ

💡

درخت Bagging چیه؟

درخت بگینگ (Tree Bagging) یک روش یادگیری گروهی (Ensemble learning) که در اون چندین درخت تصمیم‌گیری به صورت مستقل از داده‌های آموزشی که به صورت تصادفی انتخاب شدن (Bootstrap Aggregating)، آموزش داده می‌شن و بعد پیش‌بینی‌هاشون باهم ترکیب می‌شه تا یک مدل نهایی با عملکرد بهتر، کمتر دچار بیش‌برازش شه. این روش با کاهش واریانس پیش‌بینی‌ها، مدلی توانمندتری ایجاد می‌کنه و برای مجموعه‌های داده بزرگ که دارای نویز و ابهام هستن، مفیده.

#Machine_Learning
#Decision_Tree

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6👌2❤1🔥1

451 viewsedited 18:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

درخت تصمیم در Sklearn

درخت تصمیم بر اساس ساختار شاخه‌ای و برگ‌ها کار می‌کنه. هر شاخه نشون‌دهنده یک تصمیم و هر برگ نشون‌دهنده یک دسته‌بندی یا پیش‌بینی مقداره. در ادامه، نحوه پیاده سازی درخت تصمیم در scikit-learn رو بررسی می‌کنیم.

۱. وارد کردن کتابخانه‌ها و داده‌ها: اول کتابخانه‌های مورد نیاز وارد میشه.

import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

۲. آماده‌سازی داده‌ها: داده‌ها برای مدل‌سازی آماده میشه. این مرحله شامل پاک‌سازی داده‌ها، جدا کردن ویژگی‌ها و برچسب‌ها و تقسیم‌بندی داده‌ها به دو مجموعه آموزشی و تسته.

X = data.iloc[:, :-1]
y = data.iloc[:, -1] 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

۳. ایجاد مدل و آموزش: یک شی از کلاس DecisionTreeClassifier ایجاد و با داده‌های آموزشی مدل آموزش داده میشه.

model = DecisionTreeClassifier()

model.fit(X_train, y_train)

۴. پیش‌بینی و ارزیابی مدل: با استفاده از مدل آموزش دیده روی داده‌های تست پیش‌بینی انجام داده و دقت مدل ارزیابی میشه.

predictions = model.predict(X_test)

accuracy = accuracy_score(y_test, predictions)
print(f"دقت مدل: {accuracy}")

🔵 نکات تکمیلی

🔵تنظیم پارامتر‌ها: امکان تنظیم پارامترهای مختلف برای تنظیم مدل درخت تصمیم وجود داره، مثل max_depth برای تعیین حداکثر عمق درخت، min_samples_split برای تعیین حداقل تعداد نمونه‌های مورد نیاز برای شاخه‌بندی بیشتر در یک گره، و criterion برای تعیین معیار کیفیت تقسیم (شاخص Gini و Entropy).

🔵پارامتر splitter: این پارامتر استراتژی تقسیم برای هر گره رو تعیین می‌کنه و دو حالت داره: best که هر گره رو به بهترین شکل ممکن تقسیم می‌کنه و random که تقسیمات رو به صورت تصادفی انتخاب می‌کنه.

🔵پارامتر min_samples_leaf: این پارامتر حداقل تعداد نمونه‌هایی که باید در هر برگ وجود داشته باشه رو تعیین می‌کنه. این مقدار برای کنترل overfitting مفیده.

🔵پارامتر max_features: تعداد ویژگی‌هایی که برای تقسیم در هر گره در نظر گرفته می‌شه رو مشخص می‌کنه. این پارامتر هم برای کنترل overfitting مفیده و سرعت محاسبات رو افزایش ده.

🔵پارامتر min_impurity_decrease: با تنظیم این پارامتر یک گره فقط وقتی تقسیم می‌شه که این تقسیم، ناخالصی رو بیش از حد معینی کاهش بده.

🔵پارامتر class_weight: این پارامتر برای مواردی که کلاس‌ها متعادل نیستن، استفاده می‌شه. مقداردهیش به صورت balanced یا به صورت دیکشنری وزن‌های خاص برای کلاس‌ها تنظیم میشه.

🔵بررسی اهمیت ویژگی‌ها: میشه اهمیت هر ویژگی در تصمیم‌گیری‌های مدل رو با استفاده از پارامتر feature_importances_ بررسی کرد.

🔵استفاده از گراف‌ها: برای درک بهتر ساختار درخت تصمیم، امکان استفاده از کتابخانه‌های مصورسازی مثل graphviz استفاده کرد تا گراف درخت به صورت بصری نمایش داده شه.

#Machine_Learning
#Decision_Tree

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌5❤2👨‍💻1

447 viewsedited 08:45

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۶۱: استفاده از پارامتر splitter= random در مقایسه با splitter= best چه مزایا و معایبی داره؟

Anonymous Quiz

75%

حالت random سریع‌تره اما ممکنه دقت کمتری داشته باشه، در حالی که best دقیق‌تره و زمان بیشتری می‌بره.

15%

هیچ تفاوت عمده‌ای بین این دو وجود نداره.

10%

حالت random برای داده‌های با حجم کم مناسب‌تره.

حالت best همیشه بهترین گزینه است و نباید از random استفاده شه.

😎7❤1👍1

20 voters427 views15:00

آموزش دیتاساینس و ماشین‌لرنینگ

💡

آیا max_depth در Scikit-learn کار هرس درخت تصمیم رو انجام میده؟

نه max_depth حداکثر تعداد گره هاییه که یک درخت تصمیم میتونه داشته باشه. این پارامتر برای جلوگیری از رشد بیش از حد درخت و کاهش پیچیدگی استفاده میشه. هرس، فرآیند حذف گره ها از یک درخت تصمیمه که برای بهبود دقت درخت و کاهش احتمال بیش برازش انجام شه.

برای هرس درخت تصمیم در Scikit-learn، میشه از تابع ().prune استفاده کرد. این تابع دو پارامتر ورودی criterion و max_depth رو میگیره. برای مثال برای هرس یک درخت تصمیم با استفاده از شاخص Gini و عمق حداکثر 5، میشه از کد زیر استفاده کرد:

from sklearn.tree import DecisionTreeClassifier

classifier = DecisionTreeClassifier()
classifier.fit(X_train, y_train)

pruned_classifier = classifier.prune(criterion="gini", max_depth=5)

#Machine_Learning
#Decision_Tree

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6👌1👨‍💻1

497 views17:30

آموزش دیتاساینس و ماشین‌لرنینگ

⏰

پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺

آموزشی

🔵تعریف درخت تصمیم

👉

🔗 https://t.iss.one/data_ml/198

🔵اصول و مفاهیم Information Gain

👉

🔗 https://t.iss.one/data_ml/201

🔵مقایسه شاخص Gini و Entropy

👉

🔗 https://t.iss.one/data_ml/204

🔵کاربردها، مزایا و معایب درخت تصمیم

👉

🔗 https://t.iss.one/data_ml/207

🔵کد درخت تصمیم از پایه (Scratch)

👉

🔗 https://t.iss.one/data_ml/210

🔵درخت تصمیم در Sklearn

👉

🔗 https://t.iss.one/data_ml/213

🔺

کوئیز

🔵کوئیز شماره ۵۶: انواع هرس کردن

👉

🔗 https://t.iss.one/data_ml/199

🔵کوئیز شماره ۵۷: انتروپی گره‌های فرزندی

👉

🔗 https://t.iss.one/data_ml/202

🔵کوئیز شماره ۵۸: شاخص جینی و انتروپی

👉

🔗 https://t.iss.one/data_ml/205

🔵کوئیز شماره ۵۹: استفاده از درخت تصمیم‌ برای کاهش ابعاد

👉

🔗 https://t.iss.one/data_ml/208

🔵کوئیز شماره ۶۰: مزیت استفاده از Bagging

👉

🔗 https://t.iss.one/data_ml/211

🔵کوئیز شماره ۶۱: پارامتر Splitter

👉

🔗 https://t.iss.one/data_ml/214

🔺

نکته

🔵مفهوم Tree Bagging

👉

🔗 https://t.iss.one/data_ml/200

🔵ارتباط بین Information Gain و Information Gain Ratio

👉

🔗 https://t.iss.one/data_ml/203

🔵شاخص جینی و بهره اطلاعاتی (انتروپی)

👉

🔗 https://t.iss.one/data_ml/206

🔵الگوریتم CART

👉

🔗 https://t.iss.one/data_ml/209

🔵درخت Bagging

👉

🔗 https://t.iss.one/data_ml/212

🔵هرس کردن در Scikit-learn

👉

🔗 https://t.iss.one/data_ml/215

#Weekend
#Machine_Learning
#Decision_Tree

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👏3👍1

563 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

👩‍🎓

برنامه آموزشی هفته: الگوریتم جنگل تصادفی یا Random Forest

🟠شنبه: مفهوم پشت جنگل در جنگل تصادفی

🔵یک‌شنبه: مفهوم پشت تصادفی در جنگل تصادفی

🟢دوشنبه: جنگل تصادفی در رگرسیون و طبقه‌بندی

🔴سه‌شنبه: کاربردها و مزایای جنگل تصادفی

🟠چهارشنبه: کد جنگل تصادفی از پایه (Scratch)

🔵پنج‌شنبه: جنگل تصادفی در Sklearn

🟢جمعه: جمع بندی

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤4🔥1

3.13K views12:30

آموزش دیتاساینس و ماشین‌لرنینگ

Audio

🟡

توضیحات وبینار رایگان یادگیری ماشین لرنینگ و تحلیل داده با ChatGPT

🔺

سرفصل‌ها

🔵نحوه اصولی پرامپت نویسی در ChatGPT
🔵شخصی سازی ChatGPT
🔵یادگیری ماشین لرنینگ با کمک ChatGPT
🔵تحلیل داده با ChatGPT
🔵دریافت برنامه مطالعاتی بلند و کوتاه مدت

📆

یکشنبه، ۸ بهمن ساعت ۱۹

🟢 رایگان ثبت‌نام کنین:‌

👉

📎

https://ctdrs.ir/cr15311

@DSLanders | دی‌اس‌لندرز

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

536 views16:31

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

مفهوم پشت جنگل در الگوریتم جنگل تصادفی

جنگل تصادفی (Random Forest) در گروه الگوریتم‌های باناظر قرار داره و برای حل مسائل طبقه‌بندی و رگرسیون استفاده می‌شه. این الگوریتم بر اساس ترکیب چندین درخت تصمیم کار می‌کنه و به عنوان یک روش یادگیری گروهی (Ensemble Learning) شناخته می‌شه.

هر درخت در "جنگل" سعی می‌کنه به طور مستقل یک پیش‌بینی انجام بده، و نتیجه‌ی نهایی بر اساس میانگین یا اکثریت آراء این درخت‌ها به دست میاد. ایده‌ی اصلی پشت این الگوریتم اینکه با استفاده از چندین درخت تصمیم به جای یک درخت تصمیم، بشه پیش‌بینی‌های دقیق‌تر و معتبرتری انجام داد.

🔵 چند نکته مهم

🔵در جنگل تصادفی، هر درخت به طور مستقل تربیت می‌شه. این درخت‌ها معمولاً با استفاده از یک نمونه‌ی تصادفی و مستقل از داده‌ها آموزش می‌بینن. این رویکرد باعث می‌شه که هر درخت تفاوت‌هایی با سایر درخت‌ها داشته باشه و به این ترتیب تنوع در جنگل افزایش پیدا می‌کنه.

🔵درختان تصمیم مستقل، هر کدوم پیش‌بینی‌هایی رو ارائه می‌دن، و نتیجه‌ی نهایی جنگل تصادفی از ترکیب این پیش‌بینی‌ها (معمولاً با رأی‌گیری اکثریت برای طبقه‌بندی یا میانگین برای رگرسیون) به دست میاد. این ترکیب‌سازی کمک می‌کنه تا اثر Overfitting هر یک از درخت‌ها به حداقل برسه.

🔵با ترکیب پیش‌بینی‌های چندین درخت، جنگل تصادفی معمولاً دقت بیشتری نسبت به یک درخت تصمیم تک داره و بهتر می‌تونه به داده‌های جدید تعمیم داده شه.

🔵عملکرد جنگل تصادفی به تعداد درختان، عمق هر درخت، تعداد ویژگی‌های بررسی شده در هر تقسیم و دیگر پارامترها بستگی داره. تنظیم این هایپرپارامترها برای بهینه‌سازی عملکرد الگوریتم مهمه.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👌2👨‍💻1

554 views14:48

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۶۱: در مورد تأثیر تعداد درختان در یک جنگل تصادفی، کدوم گزینه صحیحه؟

Anonymous Quiz

11%

افزایش تعداد درختان همیشه به بهبود دقت مدل منجر می‌شه

17%

افزایش بی‌رویه تعداد درختان به کاهش سرعت یادگیری و پیش‌بینی بدون بهبود قابل توجه در دقت منجر میشه

14%

کاهش تعداد درختان معمولاً باعث افزایش دقت مدل می‌شه

58%

افزایش درختان تا یک حدی دقت رو بهبود میده اما بعد از اون بهبود دقت ناچیز و هزینه‌ محاسبات بیشتر میشه

👍7❤2😎1

36 voters503 views17:51

آموزش دیتاساینس و ماشین‌لرنینگ

💡

خطای Out-of-Bag چیه؟

خطای Out-of-Bag یک روش ارزیابی عملکرد برای الگوریتم‌های جنگل تصادفیه. در فرایند آموزش یک جنگل تصادفی، برای هر درخت تصمیم، یک نمونه‌گیری بوت‌استرپ از داده‌های آموزشی انجام می‌شه. یعنی بعضی از داده‌ها ممکنه چندین بار در نمونه‌گیری ظاهر شن، در حالی که بعضی دیگه اصلاً انتخاب نمی‌شن. داده‌هایی که در نمونه‌گیری برای یک درخت خاص استفاده نمی‌شن، خارج از کیسه (OOB) نام دارن.

پس از آموزش درخت، داده‌های OOB برای ارزیابی عملکرد اون درخت به کار می‌رن، چون این داده‌ها در آموزش درخت شرکت نداشتن. با استفاده از OOB برای هر درخت، خطای OOB محاسبه می‌شه و بعد خطاهای هر درخت در جنگل تصادفی میانگین‌گیری می‌شه تا خطای OOB کلی محاسبه شه.

مزیت این روش اینکه نیازی به جدا کردن یک مجموعه تست جداگانه نیست و میشه یک تخمین از خطای تعمیم رو بدون استفاده از داده‌های بیشتر به دست آورد. خطای OOB به عنوان یک روش در زمان تنظیم هایپرپارامترها کاربرد داره.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🤔1👌1

565 views18:52

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

مفهوم پشت تصادفی در جنگل تصادفی

در الگوریتم جنگل تصادفی، "تصادفی" به دو مکانیزم اصلی اشاره داره که برای افزایش تنوع در مدل‌های درخت تصمیم و کاهش بیش‌برازش استفاده می‌شه. این دو مکانیزم به این صورت هستن:

🔵تصادفی در انتخاب نمونه‌ها (Bootstrap Aggregating یا Bagging)

در جنگل تصادفی، هر درخت تصمیم بر اساس یک نمونه تصادفی از داده‌ها آموزش می‌بینه. این نمونه‌ها از طریق فرایندی به نام Bagging انتخاب می‌شن. در Bagging، نمونه‌های گوناگون با جایگذاری از مجموعه داده اصلی انتخاب می‌شن، به این معنی که هر نمونه می‌تونه بیشتر از یک بار انتخاب شه. در نتیجه باعث می‌شه که هر درخت تصمیم با توجه به بخشی متفاوت و منحصر به فرد از داده‌ها آموزش ببینه.

🔵تصادفی در انتخاب ویژگی‌ها

زمان ساخت هر گره در درخت‌های تصمیم، به جای بررسی تمام ویژگی‌ها برای انتخاب بهترین تقسیم، یک زیر مجموعه تصادفی از ویژگی‌ها انتخاب می‌شه و بعد بهترین تقسیم از بین این زیرمجموعه ویژگی‌ها انتخاب می‌شه. این فرایند به مدل اجازه می‌ده که برای هر گره، تنوع بیشتری داشته باشه و به این ترتیب، از بیش‌برازش جلوگیری می‌کنه و مقاومت در برابر نویز و تغییرات در داده‌ها رو افزایش می‌ده.

این دو تعریف پشت "تصادفی" در جنگل تصادفی باعث می‌شن که این الگوریتم به عنوان یک مدل قوی و مقاوم در برابر Overfitting شناخته شه. ترکیب پیش‌بینی‌های تمام درخت‌ها، که هر کدوم با توجه به نمونه‌ها و ویژگی‌های متفاوتی آموزش دیدن، منجر به ایجاد یک مدل نهایی می‌شه که هم دقت بالایی داره و هم قابلیت تعمیم خوبی به داده‌های جدید داره.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2👌1👨‍💻1

618 views08:31

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۶۲: کدوم گزینه‌ بهترین توصیف از اثر تصادفی در بهبود کیفیت مدل جنگل تصادفیه؟

Anonymous Quiz

63%

هر درخت به خطاهای مختلف دچار میشه و با ترکیب پیش‌بینی‌ درخت‌ها، خطاها جبران و مدل دقیق‌ حاصل میشه.

26%

تصادفی بودن باعث ساخت درخت‌های تصمیم مشابه می‌شه، که در نتیجه مدل نهایی دارای پایداری بیشتری میشه.

11%

تصادفی بودن در انتخاب نمونه‌ها و ویژگی‌ها تاثیری روی کیفیت مدل نهایی نداره و فقط برای کاهش محاسباته.

😎9👌4❤1🤔1

38 voters517 views18:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 جنگل تصادفی در رگرسیون و طبقه‌بندی

🔵

جنگل تصادفی در طبقه‌بندی (Random Forest in Classification)

🔵جنگل تصادفی مجموعه‌ای از درخت‌های تصمیمه که هر کدوم به صورت مستقل نتایج رو پیش‌بینی می‌کنن. بعد نتیجه نهایی از طریق رأی‌گیری اکثریت (Majority voting) بین نتایج درختان به دست میاد.

🔵در مرحله آموزش، نمونه‌هایی به صورت تصادفی و با جایگذاری از مجموعه داده آموزش انتخاب می‌شن و برای هر نمونه، درخت تصمیم ساخته می‌شه. ویژگی‌ها هم به صورت تصادفی انتخاب می‌شوند، که این امر منجر به کاهش وابستگی بین درختان و افزایش تنوع در مدل می‌گردد.

🔵در مرحله پیش‌بینی، هر درخت تصمیم یک پیش‌بینی انجام می‌ده و کلاسی که بیشترین رأی رو داشته باشه به عنوان پیش‌بینی نهایی انتخاب می‌شه.

🔵

جنگل تصادفی در رگرسیون (Random Forest in Regression)

🔵در جنگل تصادفی برای رگرسیون، درختان تصمیم پیش‌بینی‌های عددی انجام می‌دن. پیش‌بینی نهایی از میانگین (Averaging) پیش‌بینی‌های همه درختان به دست میاد.

🔵مثل طبقه‌بندی، در رگرسیون هم نمونه‌ها و ویژگی‌ها به صورت تصادفی انتخاب می‌شن تا درختان تصمیم مستقلی ساخته شن. هر درخت بر اساس داده‌های آموزشی به صورت جداگانه آموزش داده می‌شه و بعد برای پیش‌بینی، میانگین مقادیر پیش‌بینی‌شده درختان گرفته می‌شه.

🔵در مرحله پیش‌بینی، پیش‌بینی هر درخت محاسبه می‌شه و بعد میانگین این پیش‌بینی‌ها به عنوان پیش‌بینی نهایی مدل ارائه میشه.

🔵

نکات تکمیلی

🔵تعداد درختان در جنگل تصادفی یک پارامتر مهمه. افزایش تعداد درختان می‌تونه به افزایش دقت کمک کنه، اما تا یک حد مشخص. افزایش بیشتر تأثیر ناچیزی داره و فقط زمان آموزش رو افزایش می‌ده.

🔵تنظیم عمق (Depth) درختان برای جلوگیری از overfitting مفیده. درختان عمیق‌تر جزئیات داده‌ها رو بهتر می‌گیرن اما خطر بیش‌برازش رو افزایش می‌دن.

🔵برای مسائل طبقه‌بندی، معمولاً از معیارهای تقسیم (Split Criteria) مثل Gini Impurity یا Entropy استفاده می‌شه و برای رگرسیون از Mean Squared Error یا Mean Absolute Error. انتخاب معیار مناسب روی دقت مدل تأثیر داره.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤4👨‍💻1

582 views08:30

About

Blog

Apps

Platform