آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

مفهوم پشت جنگل در الگوریتم جنگل تصادفی

جنگل تصادفی (Random Forest) در گروه الگوریتم‌های باناظر قرار داره و برای حل مسائل طبقه‌بندی و رگرسیون استفاده می‌شه. این الگوریتم بر اساس ترکیب چندین درخت تصمیم کار می‌کنه و به عنوان یک روش یادگیری گروهی (Ensemble Learning) شناخته می‌شه.

هر درخت در "جنگل" سعی می‌کنه به طور مستقل یک پیش‌بینی انجام بده، و نتیجه‌ی نهایی بر اساس میانگین یا اکثریت آراء این درخت‌ها به دست میاد. ایده‌ی اصلی پشت این الگوریتم اینکه با استفاده از چندین درخت تصمیم به جای یک درخت تصمیم، بشه پیش‌بینی‌های دقیق‌تر و معتبرتری انجام داد.

🔵 چند نکته مهم

🔵در جنگل تصادفی، هر درخت به طور مستقل تربیت می‌شه. این درخت‌ها معمولاً با استفاده از یک نمونه‌ی تصادفی و مستقل از داده‌ها آموزش می‌بینن. این رویکرد باعث می‌شه که هر درخت تفاوت‌هایی با سایر درخت‌ها داشته باشه و به این ترتیب تنوع در جنگل افزایش پیدا می‌کنه.

🔵درختان تصمیم مستقل، هر کدوم پیش‌بینی‌هایی رو ارائه می‌دن، و نتیجه‌ی نهایی جنگل تصادفی از ترکیب این پیش‌بینی‌ها (معمولاً با رأی‌گیری اکثریت برای طبقه‌بندی یا میانگین برای رگرسیون) به دست میاد. این ترکیب‌سازی کمک می‌کنه تا اثر Overfitting هر یک از درخت‌ها به حداقل برسه.

🔵با ترکیب پیش‌بینی‌های چندین درخت، جنگل تصادفی معمولاً دقت بیشتری نسبت به یک درخت تصمیم تک داره و بهتر می‌تونه به داده‌های جدید تعمیم داده شه.

🔵عملکرد جنگل تصادفی به تعداد درختان، عمق هر درخت، تعداد ویژگی‌های بررسی شده در هر تقسیم و دیگر پارامترها بستگی داره. تنظیم این هایپرپارامترها برای بهینه‌سازی عملکرد الگوریتم مهمه.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👌2👨‍💻1

554 views14:48

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۶۱: در مورد تأثیر تعداد درختان در یک جنگل تصادفی، کدوم گزینه صحیحه؟

Anonymous Quiz

افزایش تعداد درختان همیشه به بهبود دقت مدل منجر می‌شه

17%

افزایش بی‌رویه تعداد درختان به کاهش سرعت یادگیری و پیش‌بینی بدون بهبود قابل توجه در دقت منجر میشه

14%

کاهش تعداد درختان معمولاً باعث افزایش دقت مدل می‌شه

60%

افزایش درختان تا یک حدی دقت رو بهبود میده اما بعد از اون بهبود دقت ناچیز و هزینه‌ محاسبات بیشتر میشه

👍7❤2😎1

35 voters503 views17:51

آموزش دیتاساینس و ماشین‌لرنینگ

💡

خطای Out-of-Bag چیه؟

خطای Out-of-Bag یک روش ارزیابی عملکرد برای الگوریتم‌های جنگل تصادفیه. در فرایند آموزش یک جنگل تصادفی، برای هر درخت تصمیم، یک نمونه‌گیری بوت‌استرپ از داده‌های آموزشی انجام می‌شه. یعنی بعضی از داده‌ها ممکنه چندین بار در نمونه‌گیری ظاهر شن، در حالی که بعضی دیگه اصلاً انتخاب نمی‌شن. داده‌هایی که در نمونه‌گیری برای یک درخت خاص استفاده نمی‌شن، خارج از کیسه (OOB) نام دارن.

پس از آموزش درخت، داده‌های OOB برای ارزیابی عملکرد اون درخت به کار می‌رن، چون این داده‌ها در آموزش درخت شرکت نداشتن. با استفاده از OOB برای هر درخت، خطای OOB محاسبه می‌شه و بعد خطاهای هر درخت در جنگل تصادفی میانگین‌گیری می‌شه تا خطای OOB کلی محاسبه شه.

مزیت این روش اینکه نیازی به جدا کردن یک مجموعه تست جداگانه نیست و میشه یک تخمین از خطای تعمیم رو بدون استفاده از داده‌های بیشتر به دست آورد. خطای OOB به عنوان یک روش در زمان تنظیم هایپرپارامترها کاربرد داره.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🤔1👌1

564 views18:52

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

مفهوم پشت تصادفی در جنگل تصادفی

در الگوریتم جنگل تصادفی، "تصادفی" به دو مکانیزم اصلی اشاره داره که برای افزایش تنوع در مدل‌های درخت تصمیم و کاهش بیش‌برازش استفاده می‌شه. این دو مکانیزم به این صورت هستن:

🔵تصادفی در انتخاب نمونه‌ها (Bootstrap Aggregating یا Bagging)

در جنگل تصادفی، هر درخت تصمیم بر اساس یک نمونه تصادفی از داده‌ها آموزش می‌بینه. این نمونه‌ها از طریق فرایندی به نام Bagging انتخاب می‌شن. در Bagging، نمونه‌های گوناگون با جایگذاری از مجموعه داده اصلی انتخاب می‌شن، به این معنی که هر نمونه می‌تونه بیشتر از یک بار انتخاب شه. در نتیجه باعث می‌شه که هر درخت تصمیم با توجه به بخشی متفاوت و منحصر به فرد از داده‌ها آموزش ببینه.

🔵تصادفی در انتخاب ویژگی‌ها

زمان ساخت هر گره در درخت‌های تصمیم، به جای بررسی تمام ویژگی‌ها برای انتخاب بهترین تقسیم، یک زیر مجموعه تصادفی از ویژگی‌ها انتخاب می‌شه و بعد بهترین تقسیم از بین این زیرمجموعه ویژگی‌ها انتخاب می‌شه. این فرایند به مدل اجازه می‌ده که برای هر گره، تنوع بیشتری داشته باشه و به این ترتیب، از بیش‌برازش جلوگیری می‌کنه و مقاومت در برابر نویز و تغییرات در داده‌ها رو افزایش می‌ده.

این دو تعریف پشت "تصادفی" در جنگل تصادفی باعث می‌شن که این الگوریتم به عنوان یک مدل قوی و مقاوم در برابر Overfitting شناخته شه. ترکیب پیش‌بینی‌های تمام درخت‌ها، که هر کدوم با توجه به نمونه‌ها و ویژگی‌های متفاوتی آموزش دیدن، منجر به ایجاد یک مدل نهایی می‌شه که هم دقت بالایی داره و هم قابلیت تعمیم خوبی به داده‌های جدید داره.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2👌1👨‍💻1

617 views08:31

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۶۲: کدوم گزینه‌ بهترین توصیف از اثر تصادفی در بهبود کیفیت مدل جنگل تصادفیه؟

Anonymous Quiz

62%

هر درخت به خطاهای مختلف دچار میشه و با ترکیب پیش‌بینی‌ درخت‌ها، خطاها جبران و مدل دقیق‌ حاصل میشه.

27%

تصادفی بودن باعث ساخت درخت‌های تصمیم مشابه می‌شه، که در نتیجه مدل نهایی دارای پایداری بیشتری میشه.

11%

تصادفی بودن در انتخاب نمونه‌ها و ویژگی‌ها تاثیری روی کیفیت مدل نهایی نداره و فقط برای کاهش محاسباته.

😎9👌4❤1🤔1

37 voters516 views18:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 جنگل تصادفی در رگرسیون و طبقه‌بندی

🔵

جنگل تصادفی در طبقه‌بندی (Random Forest in Classification)

🔵جنگل تصادفی مجموعه‌ای از درخت‌های تصمیمه که هر کدوم به صورت مستقل نتایج رو پیش‌بینی می‌کنن. بعد نتیجه نهایی از طریق رأی‌گیری اکثریت (Majority voting) بین نتایج درختان به دست میاد.

🔵در مرحله آموزش، نمونه‌هایی به صورت تصادفی و با جایگذاری از مجموعه داده آموزش انتخاب می‌شن و برای هر نمونه، درخت تصمیم ساخته می‌شه. ویژگی‌ها هم به صورت تصادفی انتخاب می‌شوند، که این امر منجر به کاهش وابستگی بین درختان و افزایش تنوع در مدل می‌گردد.

🔵در مرحله پیش‌بینی، هر درخت تصمیم یک پیش‌بینی انجام می‌ده و کلاسی که بیشترین رأی رو داشته باشه به عنوان پیش‌بینی نهایی انتخاب می‌شه.

🔵

جنگل تصادفی در رگرسیون (Random Forest in Regression)

🔵در جنگل تصادفی برای رگرسیون، درختان تصمیم پیش‌بینی‌های عددی انجام می‌دن. پیش‌بینی نهایی از میانگین (Averaging) پیش‌بینی‌های همه درختان به دست میاد.

🔵مثل طبقه‌بندی، در رگرسیون هم نمونه‌ها و ویژگی‌ها به صورت تصادفی انتخاب می‌شن تا درختان تصمیم مستقلی ساخته شن. هر درخت بر اساس داده‌های آموزشی به صورت جداگانه آموزش داده می‌شه و بعد برای پیش‌بینی، میانگین مقادیر پیش‌بینی‌شده درختان گرفته می‌شه.

🔵در مرحله پیش‌بینی، پیش‌بینی هر درخت محاسبه می‌شه و بعد میانگین این پیش‌بینی‌ها به عنوان پیش‌بینی نهایی مدل ارائه میشه.

🔵

نکات تکمیلی

🔵تعداد درختان در جنگل تصادفی یک پارامتر مهمه. افزایش تعداد درختان می‌تونه به افزایش دقت کمک کنه، اما تا یک حد مشخص. افزایش بیشتر تأثیر ناچیزی داره و فقط زمان آموزش رو افزایش می‌ده.

🔵تنظیم عمق (Depth) درختان برای جلوگیری از overfitting مفیده. درختان عمیق‌تر جزئیات داده‌ها رو بهتر می‌گیرن اما خطر بیش‌برازش رو افزایش می‌دن.

🔵برای مسائل طبقه‌بندی، معمولاً از معیارهای تقسیم (Split Criteria) مثل Gini Impurity یا Entropy استفاده می‌شه و برای رگرسیون از Mean Squared Error یا Mean Absolute Error. انتخاب معیار مناسب روی دقت مدل تأثیر داره.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤4👨‍💻1

582 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۶۳: در مواجهه با داده‌های نامتعادل در الگوریتم جنگل تصادفی، کدوم استراتژی معمولاً به کار می‌ره؟

Anonymous Quiz

34%

استفاده از تکنیک‌هایی مثل نمونه‌برداری بیشتر (Oversampling) یا نمونه‌برداری کمتر (Undersampling)

20%

حذف ویژگی‌های کم اهمیت

31%

استفاده از معیارهای تقسیم خاص مثل شاخص جینی

14%

افزایش عمق درختان

❤5😎3👍2

35 voters499 views16:01

آموزش دیتاساینس و ماشین‌لرنینگ

💡جنگل تصادفی چطور با مقادیر گمشده رفتار می‌کنه؟

یکی از روش‌های رایج اینکه در هر تقسیم (split)، درخت‌های تصمیم‌گیری از مقادیر داده‌ای که موجود هستن استفاده می‌کنن و مقادیر گمشده رو نادیده می‌گیرن.

یه روش دیگه اینکه مقادیر گمشده رو در زمان تقسیم به زیر گروهی اختصاص میده که بیشترین شمار (یا وزن) رو دارن. این روش به این دلیل مفیده که اجازه می‌ده مدل‌سازی بدون نیاز به حدس زدن یا جایگزینی مقادیر گمشده پیش بره.

به طور کلی، جنگل‌های تصادفی در مقایسه با الگوریتم‌های دیگه نسبت به داده‌های گمشده مقاوم‌تر هستن، چون می‌تونن با استفاده از رای‌گیری اکثریت پیش‌بینی‌های موثری ارائه بدن.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤2👌1👨‍💻1

526 views18:40

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

کاربردها، مزایا و معایب جنگل تصادفی

جنگل تصادفی با ترکیب چند درخت تصمیم‌گیری و استفاده از تکنیکی به نام بوت‌استرپینگ (Bootstrap Aggregation یا Bagging)، به نتایج قابل اطمینانی دست پیدا می‌کنه و کاربردهای زیادی داره.

🔵

کاربردها

🔵تشخیص بیماری‌: این الگوریتم برای تشخیص بیماری‌ (مثلا تشخیص بیماری‌های قلبی یا دیابت) کاربرد داره.

🔵بازاریابی: شرکت‌ها می‌تونن از جنگل تصادفی برای تحلیل رفتار مشتریان و پیش‌بینی نوع محصولات یا خدماتی که مشتریان علاقه‌مند به خریدشون هستن، استفاده کنن.

🔵کشاورزی: برای تحلیل عوامل مختلفی که روی محصولات کشاورزی تأثیر می‌گذارن، میشه از جنگل تصادفی استفاده کرد تا به بهینه‌سازی تولید محصولات کمک شه.

🔵تشخیص تقلب مالی: در صنعت بانکداری، میشه از جنگل تصادفی برای تشخیص تراکنش‌های مشکوک و جلوگیری از تقلب مالی استفاده کرد.

🔵

مزایا

🔵دقت بالا: جنگل تصادفی با ترکیب چندین درخت تصمیم، دقت بالایی در پیش‌بینی‌ها ارائه می‌ده.

🔵جلوگیری از بیش‌برازش: در مقایسه با یک درخت تصمیم‌گیری معمولی، جنگل تصادفی کمتر دچار بیش‌برازش می‌شه.

🔵قابلیت کار با داده‌های بزرگ و پیچیده: جنگل تصادفی می‌تونه با دیتاست‌های بزرگ و دارای ویژگی‌ زیاد (High Dimensionality) به خوبی کار کنه.

🔵درک اهمیت ویژگی‌ها: این الگوریتم قابلیت بررسی اهمیت ویژگی‌های مختلف در پیش‌بینی رو داره، که به فهم داده‌ها و بهبود مدل سازی کمک کننده است.

🔵

معایب

🔵پیچیدگی: جنگل تصادفی می‌تونه بسیار پیچیده شه و تفسیر و تحلیل سختی داشته باشه.

🔵زمان آموزش بالا: به دلیل ساختن چندین درخت، زمان آموزش در جنگل تصادفی ممکنه بیشتر از بقیه الگوریتم‌ها باشه.

🔵نیاز به منابع حافظه‌ای: جنگل تصادفی به دلیل نگهداری چندین درخت در حافظه، نیاز به منابع حافظه‌ای بیشتری داره.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8👌3👨‍💻1

540 views09:00

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۶۴: در کدوم موارد، استفاده از جنگل تصادفی به دلیل قابلیت‌های خاصش، مزیت رقابتی ایجاد می‌کنه؟

Anonymous Quiz

15%

پیش‌بینی نرخ تبدیل کاربر در وب‌سایت‌ها با استفاده به داده‌های رفتاری غیرساختار یافته

ساخت مدل‌های هواشناسی برای پیش‌بینی دمای روزانه

35%

کلاس‌بندی متون بر اساس نوع ژانر

41%

تحلیل علت و معلول در داده‌های پزشکی برای شناسایی ریسک‌های بیماری

❤4😎3👍2

34 voters473 views16:30

آموزش دیتاساینس و ماشین‌لرنینگ

🧑‍🎓

الگوریتم جنگل تصادفی یا Random Forest

جنگل تصادفی یکی از قدرتمندترین و پرکاربردترین الگوریتم‌ها در زمینه یادگیری ماشینه. توی این پست بلاگ، اینکه جنگل تصادفی یا Random Forest چیه، چطور کار می‌کنه و چرا بهتر از درخت‌ تصمیم‌ هست رو بررسی می‌کنیم. همچنین به بعضی از کاربردها، مزایا و معایبش هم پرداختیم.

🟢برای مطالعه کلیک کنین:

👉

🔗

ctdrs.ir/ds0178

#Machine_Learning

@DSLanders | دی‌اس‌لندرز

Please open Telegram to view this post

VIEW IN TELEGRAM

👌6❤3👏1👨‍💻1

481 views18:00

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

کد جنگل تصادفی از پایه (Scratch)

۱. ساخت درخت تصمیم: در مرحله اول یک کلاس برای هر درخت تصمیم می‌نویسیم. این کلاس مسئولیت یادگیری از داده‌ها و انجام پیش‌بینی‌ها رو داره.

class DecisionTree:
    def __init__(self, max_depth=None):
        self.max_depth = max_depth
        self.left = None
        self.right = None
        self.feature_index = None
        self.threshold = None
        self.label = None
    
    def fit(self, X, y, depth=0):
        # اگه داده‌ها همگی از یک کلاس هستن یا به حداکثر عمق رسیدیم
        if len(set(y)) == 1 or depth == self.max_depth:
            self.label = max(set(y), key=list(y).count)
            return
        
        # پیدا کردن بهترین تقسیم
        best_feature, best_threshold = find_best_split(X, y)
        if best_feature is None or best_threshold is None:
            self.label = max(set(y), key=list(y).count)
            return
        
        self.feature_index = best_feature
        self.threshold = best_threshold
        
        # تقسیم داده‌ها
        left_indices = X[:, best_feature] < best_threshold
        X_left, y_left = X[left_indices], y[left_indices]
        X_right, y_right = X[~left_indices], y[~left_indices]
        
        # ساخت درخت برای زیر مجموعه‌ها
        self.left = DecisionTree(max_depth=self.max_depth)
        self.left.fit(X_left, y_left, depth + 1)
        
        self.right = DecisionTree(max_depth=self.max_depth)
        self.right.fit(X_right, y_right, depth + 1)
    
    def predict(self, X):
        if self.label is not None:
            return self.label
        if X[self.feature_index] < self.threshold:
            return self.left.predict(X)
        else:
            return self.right.predict(X)

در این کد، fit متدیه که برای آموزش درخت تصمیم استفاده می‌شه. این متد به صورت بازگشتی عمل می‌کنه و در هر مرحله بهترین ویژگی و آستانه برای تقسیم داده‌ها رو پیدا می‌کنه. predict متدیه که برای انجام پیش‌بینی‌ها با استفاده از درخت آموزش دیده استفاده می‌شه.

۲. بوت‌استرپینگ داده‌ها: برای بوت‌استرپ کردن داده‌ها، می‌تونیم از تابع زیر استفاده کنیم. این تابع به صورت تصادفی نمونه‌هایی از داده‌ها رو با جایگزینی انتخاب می‌کنه و به عنوان نمونه بوت‌استرپ برمی‌گردونه.

def bootstrap_sample(X, y):
    n_samples = X.shape[0]
    indices = np.random.choice(n_samples, size=n_samples, replace=True)
    return X[indices], y[indices]

۳. انتخاب ویژگی‌ها: این تابع از بین همه ویژگی‌ها، تعداد max_features ویژگی رو به صورت تصادفی انتخاب می‌کنه.

def random_feature_indices(n_features, max_features):
    return np.random.choice(n_features, max_features, replace=False)

۴. ترکیب پیش‌بینی‌های درخت‌ها: این تابع برای ترکیب پیش‌بینی‌ها در مسائل طبقه‌بندی از رای‌گیری اکثریت و در مسائل رگرسیون از میانگین‌گیری استفاده می‌کنه.

from statistics import mode, mean

def aggregate_predictions(predictions):
    # برای طبقه‌بندی
    if isinstance(predictions[0], (int, np.int64)):
        return mode(predictions)
    # برای رگرسیون
    else:
        return mean(predictions)

این مراحل اساسی و اولیه‌ای هستن که برای ساخت یک جنگل تصادفی از Scratch نیاز هست.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4👏2

518 views10:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۶۵: برای بهینه‌سازی عملکرد جنگل تصادفی پیاده‌سازی شده از Scratch، کدوم هایپرپارامترها باید با دقت تنظیم شن؟

Anonymous Quiz

24%

نرخ یادگیری و تعداد دوره‌های آموزشی (epochs)

53%

تعداد درختان (n_estimators) و تعداد ویژگی‌های در نظر گرفته شده برای هر تقسیم (max_features)

21%

تعداد نمونه‌های بوت‌استرپ و عمق حداکثری درخت (max_depth)

تعداد لایه‌ها و تعداد نورون‌ها در هر لایه (برای شبکه‌های عصبی)

😎6👌2🤔1

34 voters474 views14:31

آموزش دیتاساینس و ماشین‌لرنینگ

💡

آشنایی با الگوریتم AdaBoost

🔵الگوریتم AdaBoost، که مخفف Adaptive Boosting هست، یک روش یادگیری تقویتی (Boosting) در ماشین لرنینگه. هدف اصلی AdaBoost، افزایش دقت پیش‌بینی با ترکیب چندین طبقه‌بندی کننده ضعیف، مثل درختان تصمیم کوچک، به یک طبقه‌بندی کننده قدرتمنده.

🔵روند کار AdaBoost به این شکله که در هر مرحله از آموزش، داده‌هایی که به درستی طبقه‌بندی نشدن، وزن بیشتری دریافت می‌کنن. به طوری که طبقه‌بندی کننده بعدی تمرکز بیشتری بر روی این نمونه‌ها داشته باشه.

🔵این فرآیند به صورت تکراری ادامه پیدا می‌کنه و در نهایت، پیش‌بینی‌های نهایی از طریق یک تصمیم گیری وزن‌دار بین همه طبقه‌بندی کننده‌های آموزش دیده انجام می‌شه. AdaBoost برای حل مسائل طبقه‌بندی و رگرسیون کاربرد داره و به دلیل قابلیت تطبیق بالا و دقت نسبتاً بالا در بین الگوریتم‌های یادگیری باناظر معروفه.

🔵جنگل تصادفی و AdaBoost هر دو الگوریتم‌های یادگیری گروهی هستن. AdaBoost در هر مرحله به نمونه‌هایی که قبلا به اشتباه طبقه‌بندی شدن، وزن بیشتری می‌ده تا تمرکز روشون بیشتر شه. جنگل تصادفی از تکنیک بگینگ استفاده می‌کنه و درختان تصمیم متعدد و مستقل رو آموزش می‌ده که در نهایت رای‌گیری یا میانگین‌گیری برای پیش‌بینی انجام می‌دن. AdaBoost ممکنه به بیش‌برازش حساس باشه، در حالی که جنگل تصادفی معمولاً در مقابل بیش‌برازش مقاومت بیشتری داره.

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍3👨‍💻1

499 views17:31

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

جنگل تصادفی در Sklearn

کتابخانه scikit-learn شامل ابزارهای مفیدی برای پیش‌پردازش داده‌ها، انتخاب ویژگی، تنظیم پارامترها و ارزیابی مدله که فرآیند توسعه و تحلیل مدل‌های یادگیری ماشین رو آسون می‌کنه. در ادامه مراحل لازم برای پیاده سازی الگوریتم جنگل تصادفی از این کتابخانه رو با هم بررسی می‌کنیم.

۱. آماده‌سازی داده‌ها: قبل از آموزش مدل، داده‌ها باید بارگذاری و به دو بخش آموزش و تست تقسیم شن.

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

۲. ایجاد مدل جنگل تصادفی: مدل جنگل تصادفی با استفاده از RandomForestClassifier یا RandomForestRegressor از کتابخانه scikit-learn ایجاد و با داده‌های آموزشی، آموزش داده میشه.

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

۳. ارزیابی مدل: نهایتا عملکرد مدل با استفاده از داده‌های تست ارزیابی میشه.

from sklearn.metrics import accuracy_score
y_pred = model.predict(X_test)
print(accuracy_score(y_test, y_pred))

🔵 تنظیم پارامترها

- n_estimators: تعداد درخت‌ها در جنگل. تعداد بیشتر عملکرد بهتری به همراه داره اما زمان محاسبه رو افزایش می‌ده
- max_features: تعداد ویژگی‌هایی که باید در هر تقسیم در نظر گرفته شه. این مقدار تأثیر زیادی روی عملکرد مدل داره
- max_depth: حداکثر عمق درخت. مقدار کمتر می‌تونه به جلوگیری از بیش برازش کمک کنه
- min_samples_split: حداقل تعداد نمونه‌های مورد نیاز برای تقسیم یک گره
- min_samples_leaf: حداقل تعداد نمونه‌های مورد نیاز در یک برگ

🔵 نکات تکمیلی

- اهمیت ویژگی‌ها (Feature Importance): جنگل تصادفی این امکان رو می‌ده که بفهمیم کدوم ویژگی‌ها بیشترین تأثیر رو روی پیش‌بینی‌ها دارن.

feature_importances = model.feature_importances_

- مقابله با بیش برازش (Overfitting): استفاده از پارامترهای max_depth, min_samples_leaf, و min_samples_split در جلوگیری از Overfitting موثره.

🔵 کد قابل اجرا

کد زیر یک مجموعه داده مصنوعی با ۱۰۰۰ نمونه و ۲۰ ویژگی ایجاد می‌کنه. بعد با استفاده از الگوریتم جنگل تصادفی در scikit-learn، مدلی آموزش داده می‌شه و دقتش روی داده‌های تست محاسبه می‌شه. در نهایت اهمیت ویژگی‌ها ارزیابی و سه ویژگی برتر نشون داده می‌شن.

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import numpy as np

X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, n_redundant=10, random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print('Accuracy:', accuracy_score(y_test, y_pred))

feature_importances = model.feature_importances_

indices = np.argsort(feature_importances)[::-1]
top_three_indices = indices[:3]
top_three_importances = feature_importances[top_three_indices]

print('Top 3 feature indices:', top_three_indices)
print('Top 3 feature importances:', top_three_importances)

🔜 Accuracy: 0.94
Top 3 feature indices: [ 2 13 7]
Top 3 feature importances: [0.12026529 0.10476057 0.10329556]

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3👌1

510 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوئیز شماره ۶۶: کدوم روش می‌تونه برای تفسیر پیچیدگی‌های مدل‌های جنگل تصادفی در sklearn مفید باشه؟

Anonymous Quiz

21%

استفاده از نمودارهای درخت تصمیم به صورت تکی.

21%

تحلیل اجزاء اصلی (PCA) برای کاهش ابعاد ویژگی‌ها.

28%

استفاده از تکنیک SHAP (SHapley Additive exPlanations) برای تحلیل اهمیت ویژگی‌ها.

31%

تغییر max_depth به ۱ برای تبدیل همه درخت‌ها به stumps.

👍6👏2😎1

29 voters483 views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

💡

تنظیم پارامتر Bootstrap در جنگل تصادفی

پارامتر bootstrap برای پیاده سازی جنگل تصادفی از scikit-learn نشون‌دهنده استفاده یا عدم استفاده از نمونه‌گیری با جایگزینی برای ساخت درخت‌هاست.

وقتی bootstrap=True باشه، نمونه‌ها با جایگزینی انتخاب می‌شن، که تنوع بیشتری به درخت‌ها و مقاومت بالاتری به مدل می‌دن. در حالت bootstrap=False تمام داده‌ها رو برای ساخت هر درخت به کار می‌بره و ممکنه خطر بیش برازش رو افزایش بده.

بهترین مقدار برای این پارامتر به داده‌ها و ویژگی‌های مسئله بستگی داره و اکثرا توسط جستجوی شبکه‌ای یا تصادفی تعیین می‌شه.

model = RandomForestClassifier(n_estimators=100, bootstrap=True, random_state=42)

#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6👏2❤1

563 views17:30

آموزش دیتاساینس و ماشین‌لرنینگ

⏰

پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺

آموزشی

🔵مفهوم پشت جنگل در الگوریتم جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/219

🔵مفهوم پشت تصادفی در جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/222

🔵جنگل تصادفی در رگرسیون و طبقه‌بندی

👉

🔗 https://t.iss.one/data_ml/224

🔵کاربردها، مزایا و معایب جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/227

🔵کد جنگل تصادفی از پایه (Scratch)

👉

🔗 https://t.iss.one/data_ml/230

🔵جنگل تصادفی در Sklearn

👉

🔗 https://t.iss.one/data_ml/233

🔺

کوئیز

🔵کوئیز شماره ۶۱: تأثیر تعداد درختان در جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/220

🔵کوئیز شماره ۶۲: اثر تصادفی در بهبود کیفیت مدل جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/223

🔵کوئیز شماره ۶۳: داده‌های نامتعادل در جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/225

🔵کوئیز شماره ۶۴: مزیت رقابتی جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/228

🔵کوئیز شماره ۶۵: تنظیم هایپرپارامترها در جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/231

🔵کوئیز شماره ۶۶: تفسیر مدل در جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/234

🔺

نکته

🔵خطای Out-of-Bag

👉

🔗 https://t.iss.one/data_ml/221

🔵مدیریت مقادیر گمشده در جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/226

🔵بلاگ الگوریتم جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/229

🔵آشنایی با الگوریتم AdaBoost

👉

🔗 https://t.iss.one/data_ml/232

🔵پارامتر Bootstrap در جنگل تصادفی

👉

🔗 https://t.iss.one/data_ml/235

#Weekend
#Machine_Learning
#Random_Forest

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2👏1

593 views08:31

آموزش دیتاساینس و ماشین‌لرنینگ

Audio

🟡

توضیحات دوره جامع دیتا ساینس و ماشین لرنینگ

توی این دوره به بررسی جامع مباحث دیتا ساینس و ماشین لرنینگ، از مقدماتی تا پیشرفته پرداخته می‌شه. شما با کلیک روی این لینک، می‌تونین گزارش روند پیشرفت کلاس رو مطالعه کنین.

🟢

برای ثبت‌نام کلیک کنین:‌

👉

📎

https://ctdrs.ir/cr14924

#DS_Course

@DSLanders | دی‌اس‌لندرز

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1👏1

561 views12:30

آموزش دیتاساینس و ماشین‌لرنینگ

👩‍🎓

برنامه آموزشی هفته: الگوریتم Xgboost

🟠شنبه: مقایسه Bagging و Boosting و Stacking

🔵یک‌شنبه: استفاده از Gradient در Xgboost

🟢دوشنبه: Xgboost در رگرسیون و طبقه‌بندی

🔴سه‌شنبه: کد Xgboost از پایه (Scratch)

🟠چهارشنبه: پکیج پایتونی Xgboost

🔵پنج‌شنبه: مقایسه Xgboost و Random Forest

🟢جمعه: جمع بندی

#Machine_Learning
#Xgboost

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👌2🔥1

3.29K views16:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

مقایسه Bagging و Boosting و Stacking

یادگیری ترکیبی (Ensemble Learning)، که به نام تجمیعی هم شناخته می‌شه، رویکردی در یادگیری ماشینه که در اون مدل‌های مختلف برای حل یک مسئله خاص ترکیب می‌شن. هدف اینکه با ترکیب کردن تعدادی از مدل‌ها، یک مدل نهایی قوی‌تر، دقیق‌تر و قابل اعتمادتر از هر مدل انفرادی به دست بیاد. این رویکرد بر این فرض هست که ترکیب چند مدل می‌تونه نویز، واریانس و bias رو کاهش بده.

🔵

روش Bagging یا Bootstrap Aggregating، به کاهش واریانس و جلوگیری از overfitting کمک می‌کنه. این روش با تولید چند نسخه از مجموعه داده اصلی و آموزش مستقل هر مدل روی این نمونه‌ها کار می‌کنه.

بعد با استفاده از روش‌هایی مثل رای‌گیری یا میانگین‌گیری، نتیجه نهایی به دست میاد. یک مثال معروف از Bagging، مدل Random Forest هست که در تشخیص بیماری‌ها یا تحلیل ریسک مالی کاربرد داره.

🔵

روش Boosting فرایندی تکراریه که در اون مدل‌های جدید به صورت متوالی آموزش داده می‌شن و هر مدل جدید تلاش می‌کنه تا خطاهای مدل‌های قبلی رو جبران کنه. این روش روی کاهش bias تمرکز داره و نسبت به نویز و داده‌های پرت حساسه.

همچنین از تکنیک‌هایی مثل AdaBoost و Gradient Boosting استفاده می‌کنه. XGBoost یکی از پیاده‌سازی‌های محبوب Boosting هست که با استفاده از تکنیک‌هایی مثل gradient descent، عملکرد خودش رو بهینه می‌کنه.

🔵

روش Stacking یا Stacked Generalization، مدل‌های مختلف رو ترکیب و پیش‌بینی‌هاشون رو به عنوان ورودی به یک مدل meta یا متا-یادگیرنده می‌ده که پیش‌بینی نهایی رو انجام بده.

روش Stacking معمولاً در وظایف طبقه‌بندی از logistic regression و در وظایف رگرسیونی از linear regression به عنوان متا-یادگیرنده استفاده می‌کنه، چون این مدل‌ها توانایی خوبی در ترکیب پیش‌بینی‌های مدل‌های پایه دارن و می‌تونن نتایج نهایی رو بر اساس وزن‌دهی به پیش‌بینی‌های مختلف بهینه‌سازی کنن.

#Machine_Learning
#Xgboost

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3🔥1

611 views08:30

About

Blog

Apps

Platform