آموزش دیتاساینس و ماشین‌لرنینگ
1.89K subscribers
161 photos
9 videos
134 links
🔴 آموزش مباحث حوزه دیتا شامل علم داده، یادگیری ماشین و تحلیل داده (رضا شکرزاد)

🌀 کانال اخبار و منابع هوش مصنوعی:
@DSLanders

🌀 مشاوره و ارتباط مستقیم:
https://t.iss.one/dslanders_admin

یوتیوب:
Youtube.com/@RezaShokrzad

دوره‌ها:
cafetadris.com/datascience
Download Telegram
کوئیز شماره ۱۸: جلوگیری از بیش‌برازش در Gradient Descent

کدوم گزینه در گرادیان کاهشی می‌تونه به جلوگیری از بیش‌برازش (overfitting) کمک کنه؟
Anonymous Quiz
15%
افزایش نرخ یادگیری
20%
کاهش تعداد ویژگی‌ها
12%
افزایش تعداد تکرارها
53%
استفاده از تنظیم (regularization)
😎62👍2👏1
💡مقایسه عملکرد GD و NE در مواجهه با داده‌های پرت

گرادیان کاهشی (GD) قابلیت انعطاف بیشتری در برابر داده‌های پرت (Outliers) داره. این روش تکراری، با توجه به تغییرات تدریجی در پارامترها، می‌تونه تأثیر داده‌های نامتعارف رو کاهش بده.

در حالی که معادله نرمال (NE) که به طور مستقیم مقادیر بهینه رو از طریق محاسبات ریاضی تعیین می‌کنه، ممکنه بیشتر تحت تأثیر داده‌های نامتعارف قرار بگیره. این ویژگی گرادیان کاهشی اونو برای مواجهه با داده‌های دنیای واقعی که اکثرا دارای Outlier هستن، مطلوب می‌کنه.

#Data_science
#Machine_Learning
#Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
👍62🔥2
👨‍🏫 آموزش r2-score: شاخص ارزیابی رگرسیون

🔵تعریف

سنجه r2-score، که به عنوان ضریب تعیین شناخته می‌شه، یه معیار برای ارزیابی کیفیت برازش مدل‌های رگرسیونی (اینکه مدل چقدر خوب کار می‌کنه) در یادگیری ماشینه. این معیار نشون‌دهنده درصد تغییرات در متغیر وابسته‌ست (ویژگی یا نتیجه مورد نظر برای پیش‌بینی) که توسط متغیرهای مستقل (عوامل پیش‌بینی‌کننده در مدل) توضیح داده میشه.

🔵نحوه محاسبه

برای محاسبه r2-score، اول میزان دقت مدل رگرسیون رو با یه مدل پایه که فقط میانگین متغیر وابسته (Dependent Variable) رو پیش‌بینی می‌کنه، مقایسه می‌کنیم. سپس، r2-score رو با تقسیم مجموع مربعات تفاضل پیش‌بینی‌های مدل (Sum of Squares Regression, SSR) از خط بهینه بر مجموع کل مربعات تفاضلات (Sum of Squares Total, SST)، که تفاوت‌های داده‌های واقعی از میانگین اونهاست رو محاسبه می‌کنیم.

🔵مقدارهای ممکن برای r2-score

اگه r2-score = 1 باشه نشون‌دهنده برازش کامله، یعنی تمامی تغییرات متغیر وابسته توسط مدل پوشش داده شده.

اگه r2-score نزدیک به 1 باشه، نشون‌دهنده برازش خوب مدله، اما همیشه نشون‌دهنده یک مدل خوب برای پیش‌بینی نیست، چرا که ممکنه بر اثر بیش‌برازش (overfitting) به دست اومده باشه.

اگه r2-score نزدیک به 0 باشه نشون می‌ده که مدل تقریبا هیچ یک از تغییرات متغیر وابسته رو یادنگرفته.

🔵محدودیت‌های r2-score

تنها میزان تطابق داده‌های موجود رو می‌سنجه و لزوما دقت مدل در پیش‌بینی داده‌های جدید رو نشون نمی‌ده. همچنین ممکنه به دلیل افزایش تعداد متغیرهای مستقل در مدل افزایش پیدا کنه؛ حتی اگه این متغیرها اطلاعات مفیدی ارائه نکنن.

🔵استفاده از r2-score در کنار سایر معیارها

برای ارزیابی دقیق‌تر یه مدل رگرسیون، توصیه می‌شود r2-score رو در کنار سایر معیارها مثل خطای میانگین مربعات (MSE) یا خطای میانگین مطلق (MAE) استفاده کنیم. این امر به درک بهتری از عملکرد کلی مدل کمک می‌کنه.

#Data_science
#Machine_Learning
#Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥1👨‍💻1
کوئیز شماره ۱۹: سنجه r2-score

کدوم یک از گزینه‌های زیر بهترین استراتژی برای ارزیابی r2-score در یه مدل رگرسیون خطی با هدف کاهش احتمال بیش‌برازشه؟
Anonymous Quiz
57%
کاربرد cross-validation برای تخمین دقیق‌تر r2-score
16%
استفاده از تکنیک‌های انتخاب متغیر مثل روش پشتیبان (backward elimination)
8%
استفاده از یک نمونه بزرگ‌تر از داده‌های تست
18%
تنظیم مقادیر پارامترهای مدل بر اساس r2-score داده‌های آموزشی
5😎4👍2🔥1
آموزش دیتاساینس و ماشین‌لرنینگ
کوئیز شماره ۱۹: سنجه r2-score

کدوم یک از گزینه‌های زیر بهترین استراتژی برای ارزیابی r2-score در یه مدل رگرسیون خطی با هدف کاهش احتمال بیش‌برازشه؟
💡کاربرد Cross-Validation برای تخمین r2-score

توی یادگیری ماشین، cross-validation یه روش ارزیابیه که برای سنجش توانایی مدل در پیش‌بینی داده‌های جدید استفاده می‌شه.

توی این روش، داده‌ها به چندین بخش تقسیم می‌شن. مدل روی تمامی بخش‌ها به جز یکی آموزش داده می‌شه و بخش باقی‌مونده به عنوان داده‌ی تست برای ارزیابی مدل به کار می‌ره. این روند برای هر یک از بخش‌ها به صورت دوره‌ای تکرار می‌شه.

در هر دور، یه r2-score محاسبه می‌شه که نشون‌دهنده میزان دقت مدل توی اون بخش خاصه. در نهایت، میانگین مقادیر r2-score به عنوان شاخصی از کیفیت کلی مدل در نظر گرفته می‌شه.

این روش به ما اجازه می‌ده تا از دقت مدل در پیش‌بینی داده‌هایی که قبلاً ندیده، اطمینان حاصل کنیم و از بیش‌برازش جلوگیری کنیم.

تصور کنین مدل ما یک دانش‌آموزه و داده‌ها مجموعه‌ای از سوالات امتحانی هستن. به جای اینکه تمام سوالات رو یک‌جا به دانش‌آموز بدهیم، ما سوالات را به چند بخش تقسیم می‌کنیم و در هر بار فقط بخشی از سوالات رو می‌پرسیم. به این ترتیب، می‌توانیم مطمئن شویم که دانش‌آموز (یعنی مدل ما) فقط جواب‌ها رو حفظ نکرده، بلکه واقعاً یاد گرفته و می‌تونه به سوالات جدید هم جواب بده.

سنجه r2-score در اینجا مثل نمره‌ای هست که به هر بخش از امتحان داده می‌شه. در نهایت، میانگین این نمرات به ما نشون می‌ده که مدل در کل چقدر خوب عمل کرده. این روش کمک می‌کنه تا مدل‌هایی که فقط روی یک نوع خاص از داده‌ها خوب کار می‌کنن و در مواجهه با داده‌های جدید موفق نیستن، شناسایی شن.

#Data_science
#Machine_Learning
#Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
👍102🤔1
👨‍🏫 مدل‌های Sklearn برای رگرسیون خطی

توی این آموزش به بررسی مدل‌های رگرسیون خطی در کتابخانه scikit-learn (sklearn)، که یکی از کتابخانه‌های محبوب در زمینه یادگیری ماشینه، می‌پردازیم. scikit-learn ابزارهای قدرتمندی رو برای ایجاد، آموزش و ارزیابی مدل‌های رگرسیون خطی در اختیار ما قرار می‌ده.

🔵Simple and Multiple Linear Regression

گرسیون خطی ساده، رابطه‌ای بین یک متغیر مستقل و یک متغیر وابسته رو مدل‌سازی می‌کنه و رگرسیون خطی چندگانه زمانی استفاده می‌شه که بیشتر از یه متغیر مستقل وجود داره.

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)


🔵Ridge Regression

این مدل رگرسیون خطی با اعمال یه جریمه (alpha) روی مجموع مربعات ضرایب عمل می‌کنه، که این کار به منظور پیشگیری از پدیده بیش‌برازش انجام می‌شه.

from sklearn.linear_model import Ridge
model = Ridge(alpha=1.0)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)


🔵Lasso Regression

رگرسیون Lasso با اضافه کردن یه جریمه به مجموع مطلق ضرایب از بیش‌برازش جلوگیری می‌کنه.

from sklearn.linear_model import Lasso
model = Lasso(alpha=1.0)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)



🔵Elastic-Net Regression

این مدل ترکیبی از Ridge و Lasso هست و هر دو نوع جریمه رو اعمال می‌کنه.

from sklearn.linear_model import ElasticNet
model = ElasticNet(alpha=1.0, l1_ratio=0.5) # l1_ratio تعادل بین ریج و لاسو را تعیین می‌کند
model.fit(X_train, y_train)
y_pred = model.predict(X_test)


🔵مراحل کلیدی در استفاده از این مدل‌ها در sklearn

۱. وارد کردن کلاس مربوطه: اول باید کلاس مربوط به مدل مورد نظر رو از sklearn وارد کنین.
۲. ایجاد نمونه مدل: با استفاده از کلاس وارد شده، یه نمونه از مدل ایجاد کنین.
۳. آموزش مدل: مدل رو با استفاده از داده‌های آموزشی آموزش بدین.
۴. ارزیابی مدل: با استفاده از داده‌های تست، عملکرد مدل رو ارزیابی کنین.

در نهایت، scikit-learn به شما این امکان رو می‌ده که با استفاده از این مدل‌ها، برآورد دقیق و قابل اطمینانی از روابط بین متغیرهای مختلف ایجاد کنین، که یکی از مهم‌ترین بخش‌های یادگیری ماشینه.

#Data_science
#Machine_Learning
#Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍3🔥2👨‍💻2
پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺 آموزشی

🔵تعریف و انواع رگرسیون (Regression)
👉🔗 https://t.iss.one/data_ml/58

🔵کاربردهای رگرسیون (Applications of Regression)
👉🔗 https://t.iss.one/data_ml/61

🔵تابع هزینه در رگرسیون خطی
👉🔗 https://t.iss.one/data_ml/64

🔵روش‌های بهینه سازی در رگرسیون
👉🔗 https://t.iss.one/data_ml/66

🔵آموزش r2-score: شاخص ارزیابی رگرسیون
👉🔗 https://t.iss.one/data_ml/69

🔵مدل‌های Sklearn برای رگرسیون خطی
👉🔗 https://t.iss.one/data_ml/72

🔺 کوئیز

🔵کوئیز شماره ۱۵: رگرسیون خطی
👉🔗 https://t.iss.one/data_ml/59

🔵کوئیز شماره ۱۶: کاربردهای رگرسیون خطی
👉🔗 https://t.iss.one/data_ml/62

🔵کوئیز شماره ۱۷: تابع هزینه در رگرسیون
👉🔗 https://t.iss.one/data_ml/65

🔵کوئیز شماره ۱۸: جلوگیری از بیش‌برازش در GD
👉🔗 https://t.iss.one/data_ml/67

🔵کوئیز شماره ۱۹: سنجه r2-score
👉🔗 https://t.iss.one/data_ml/70

🔵کوئیز شماره ۲۰: رگرسیون Ridge و Lasso
👉🔗 https://t.iss.one/data_ml/73

🔺 نکات

🔵بررسی اهمیت توزیع نرمال خطاها در رگرسیون خطی
👉🔗 https://t.iss.one/data_ml/60

🔵هم‌خطی؛ یه مانع مهم در رگرسیون خطی
👉🔗 https://t.iss.one/data_ml/63

🔵مقایسه عملکرد GD و NE در مواجهه با داده‌های پرت
👉🔗 https://t.iss.one/data_ml/68

🔵کاربرد Cross-Validation برای تخمین r2-score
👉🔗 https://t.iss.one/data_ml/71

#Weekend

#Machine_Learning
#Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104🔥1
🟡 وبینار رایگان: معرفی منابع مطالعاتی و بازارکار ماشین لرنینگ

توی این وبینار تفاوت‌های ماشین لرنینگ، دیپ‌لرنینگ و هوش مصنوعی رو بررسی می‌کنیم؛ همین‌طور نکته‌های لازم برای شروع یادگیری در حوزه ماشین لرنینگ و منابع مطالعاتی مفید رو معرفی می‌کنیم؛ درنهایت، توضیح می‌دیم که چطور می‌تونین توی این زمینه شغل پیدا کنین و ارتباط مؤثری بین دانشگاه و صنعت برقرار کنین.

🔺 سرفصل‌ها
🔵 ماشین لرنینگ چیست؟
🔵 تفاوت دیپ لرنینگ و ماشین لرنینگ
🔵 تفاوت ماشین لرنینگ و هوش مصنوعی
🔵 مدل‌های معروف مورداستفاده در ماشین لرنینگ
🔵 پیش‌نیازهای یادگیری ماشین لرنینگ
🔵 منابع مطالعاتی ماشین لرنینگ
🔵 نحوه کار پیداکردن شغل در زمینه ماشین لرنینگ

📆 یکشنبه، ۲۶ آذر
ساعت ۲۰

🟢 رایگان ثبت‌نام کنین:‌
👉📎 https://ctdrs.ir/cr15061

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82👏1
👩‍🎓 برنامه آموزشی هفته: رگرسیون لجستیک (Logistic Regression)

🟠شنبه: تعریف و انواع رگرسیون لجستیک

🔵یک‌شنبه: کاربردها

🟢دوشنبه: تابع هزینه

🔴سه‌شنبه: روش‌های بهینه سازی

🟠چهارشنبه: معیار ارزیابی

🔵پنج‌شنبه: مدل‌های Sklearn

🟢جمعه: جمع بندی

#Machine_Learning
#Logistic_Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍1🔥1👨‍💻1
👨‍🏫 تعریف و انواع رگرسیون لجستیک (Logistic Regression)

رگرسیون لجستیک یکی از الگوریتم‌های یادگیری ماشین با ناظره که برای طبقه‌بندی داده‌ها استفاده می‌شه و بر اساس احتمالات کار می‌کنه. یعنی احتمال اینکه یه نمونه متعلق به یک طبقه خاص باشه رو تخمین می‌زنه. Logistic Regression به‌ویژه برای طبقه‌بندی داده‌ها با دو طبقه مناسبه، مثل طبقه‌بندی ایمیل‌ها به‌عنوان اسپم یا واقعی.

🔵انواع رگرسیون لجستیک

🔵رگرسیون لجستیک دوکلاسه (Binary Logistic Regression): این نوع رگرسیون برای مسائلی استفاده می‌شه که تنها دو دسته یا کلاس دارن. برای مثال، تشخیص بیماری (مثبت یا منفی) یا فیلتر ایمیل‌های اسپم (اسپم یا غیر اسپم).

🔵رگرسیون لجستیک چندکلاسه (Multinomial Logistic Regression): این نوع برای دسته‌بندی‌هایی که بیش از دو کلاس دارن، به کار می‌ره. مثال‌هایی از این دسته‌بندی شامل تشخیص نوع گیاه بر اساس ویژگی‌هاش یا تعیین دسته‌بندی محصولات در یک فروشگاه آنلاینه.

🔵رگرسیون لجستیک ترتیبی (Ordinal Logistic Regression): این نوع برای مواردی که کلاس‌ها ترتیب دارن ولی فاصله معناداری بین‌شون وجود نداره، استفاده می‌شه. برای مثال، رتبه‌بندی رضایت مشتریان (کم، متوسط، زیاد).

🔵مزایای رگرسیون لجستیک

🔵سادگی و سرعت بالا: رگرسیون لجستیک به دلیل ساختار نسبتاً ساده‌اش، به سرعت قابل پیاده‌سازی و اجراست.

🔵کاربرد گسترده: این روش در طیف گسترده‌ای از صنایع و تحقیقات کاربرد داره، مثل حوزه‌های پزشکی، بازاریابی، و مالی.

🔵مقاومت در برابر پراکندگی: رگرسیون لجستیک حتی در شرایطی که داده‌ها پراکندگی بالایی دارند، عملکرد قابل قبولی ارائه می‌ده.

🔵معایب رگرسیون لجستیک

🔵محدودیت در پیچیدگی مدل: نمی‌تونه روابط پیچیده رو به خوبی مدل‌های پیشرفته‌ تحلیل کنه.

🔵نیاز به تبدیل ویژگی‌های غیرخطی: برای استفاده از ویژگی‌های غیرخطی، نیاز به تبدیل‌شون وجود داره.

🔵عملکرد ضعیف در داده‌های نامتوازن (Imbalanced): در مواردی که داده‌های یک کلاس به مراتب بیشتر از کلاس دیگر است، ممکنه عملکرد خوبی نداشته باشه.

🔵تاثیر ویژگی‌های بی‌ربط: حضور Featureهای غیرمرتبط می‌تونه روی عملکرد مدل تاثیر منفی بگذاره.

🔵فرضیه خطی بودن رابطه: فرض می‌کنه که رابطه بین متغیرهای مستقل و وابسته خطیه.

#Machine_Learning
#Logistic_Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
8👏2👨‍💻2
کوئیز شماره ۲۱: روش‌ برازش داده در Logistic Regression

در Logistic Regression از کدوم روش برای پیدا کردن بهترین برازش روی داده‌ها استفاده می‌کنیم؟
Anonymous Quiz
31%
Least Square Error
34%
Maximum Likelihood
7%
Jaccard distance
28%
گزینه ۱ و ۲
😎42👍1👏1
💡مقایسه رگرسیون و لجستیک رگرسیون

🔵رگرسیون خطی برای پیش‌بینی مقادیر پیوسته مثل قیمت خونه، وزن یه نفر یا نمره آزمون استفاده می‌شه. این الگوریتم با پیدا کردن خطی که بهترین ارتباط رو بین متغیرهای مستقل و وابسته داره، کار می‌کنه.

🔵رگرسیون لجستیک برای پیش‌بینی مقادیر گسسته (Classification) مثل وضعیت بیمار (بیمار یا سالم)، وضعیت یه معامله (جعلی یا واقعی) یا گروه خونی فرد (A، B، AB یا O) استفاده می‌شه. این الگوریتم با پیدا کردن یه تابع سیگموئید که احتمال وقوع یه رویداد رو پیش‌بینی می‌کنه، کار می‌کنه.

🔵تفاوت اصلی بین رگرسیون و لجستیک رگرسیون در نوع خروجی شونه. رگرسیون خطی یک مقدار پیوسته تولید می‌کنه و لجستیک رگرسیون یه احتمال تولید می‌کنه.

#Machine_Learning
#Logistic_Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🔥1
👨‍🏫 کاربردهای رگرسیون لجستیک (Applications of Logistic Regression)

🔵تشخیص بیماری‌ها

رگرسیون لجستیک می‌تونه در تشخیص بیماری‌های قلبی، دیابت، سرطان و غیره استفاده شه. با تحلیل داده‌های بیماران مثل سن، جنسیت، سابقه خانوادگی، و نتایج آزمایش‌های بالینی، مدل‌های پیش‌بینی ساخته می‌شن که احتمال وقوع بیماری رو بر اساس این متغیرها تخمین می‌زنن.

مثلاً در تشخیص بیماری دیابت، مدل بر اساس سطح گلوکز، فشار خون، شاخص توده بدنی و سایر متغیرها احتمال ابتلا به دیابت رو پیش‌بینی می‌کنه.

🔵ارزیابی ریسک مالی

در بخش‌های مالی، این مدل‌ها می‌تونن به بانک‌ها و موسسات اعتباری کمک کنن تا احتمال پرداخت یا عدم پرداخت وام‌ها توسط مشتریان رو برآورد کنن. این کار با بررسی پارامترهایی مثل تاریخچه اعتباری، درآمد، و میزان بدهی‌های فعلی انجام می‌شه.

مدل‌های پیش‌بینی تعیین می‌کنن که چه افرادی با احتمال بالاتری وام‌هاشون رو بازپرداخت می‌کنن، که در نتیجه به تصمیم‌گیری در اعطای وام کمک می‌کنه.

🔵تشخیص تقلب

در بخش بیمه و بانکداری، مدل‌های رگرسیون لجستیک می‌توند برای شناسایی تراکنش‌های مشکوک و احتمال تقلب استفاده شن. این مدل‌ها با بررسی الگوهای غیرمعمول در تراکنش‌ها، موارد مشکوک رو شناسایی می‌کنن.

برای مثال، در تشخیص تقلب کارت اعتباری، مدل می‌تونه بر اساس مکان، مبلغ، و زمان تراکنش‌ها، تراکنش‌هایی که احتمال داره تقلبی باشن رو شناسایی کنه.

🔵پیش‌بینی رفتار مشتری

در بازاریابی، این مدل‌ها می‌تونن برای تحلیل رفتار خرید مشتریان و پیش‌بینی احتمال خرید محصولات یا خدمات خاص استفاده شن. این کار با تجزیه و تحلیل داده‌هایی مثل سابقه خرید و ترجیحات مشتری انجام می‌شه.

مدل‌ها می‌تونن به شرکت‌ها کمک کنن تا تعیین کنن کدوم مشتریان با احتمال بیشتری به خرید محصول جدید علاقه‌مندن.

🔵مدیریت منابع انسانی

در حوزه منابع انسانی، مدل‌های رگرسیون لجستیک می‌تونن برای پیش‌بینی عواملی مثل احتمال ترک شغل توسط کارکنان یا میزان درصد پذیرش کارجویان برای یه موقعیت شغلی خاص، استفاده شن.

این مدل‌ها می‌تونن به مدیران منابع انسانی کمک کنن تا برنامه‌های حفظ نیروی کار رو بر اساس نیازهای خاص کارکنان‌شون طراحی کنن.

🔵پیش‌بینی موفقیت آکادمیک

در آموزش، مدل‌های رگرسیون لجستیک می‌تونن برای تجزیه و تحلیل عملکرد دانش‌آموزان و پیش‌بینی احتمال موفقیت یا شکست تحصیلی‌شون استفاده شن.

این مدل‌ها می‌تونن توی تشخیص دانش‌آموزانی که ممکنه به حمایت بیشتری نیاز داشته باشن یا پیش‌بینی عملکردشون در امتحانات و تکالیف آینده کمک کنن.

#Machine_Learning
#Logistic_Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍1👨‍💻1
کوئیز شماره ۲۲: استانداردسازی در Logistic Regression

آیا باید قبل از آموزش یه Logistic Regression، برای ویژگی‌ها استانداردسازی (Standardization) انجام بدیم؟
Anonymous Quiz
79%
بله
21%
خیر
😎72👍2🤔1
💡امکان داشتن تحلیل‌های پیچیده با لجستیک رگرسیون

لجستیک رگرسیون توانایی بالایی توی تحلیل و فهم روابط پیچیده بین عوامل مختلف داره. این مدل به پیش‌بینی بله یا خیر (مثل بیمار بودن یا نبودن) محدود نمی‌شه و می‌تونه درک که که چطور عوامل مختلفی مثل سن، جنسیت، سبک زندگی، و حتی وضعیت محیطی، با هم تعامل دارن و نتایج رو تحت تاثیر قرار می‌دن.

پس، رگرسیون لجستیک نه تنها یه ابزار پیش‌بینی ساده‌ست، بلکه می‌تونه به ما درک عمیق‌تری درباره چگونگی تأثیر متقابل عوامل متعدد در پدیده‌های مختلف بده و این توانایی اونو به ابزاری ارزشمند در تحلیل داده‌ها در حوزه‌های مختلف تبدیل کرده.

#Machine_Learning
#Logistic_Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥1👨‍💻1
👨‍🏫 تابع هزینه در لجستیک رگرسیون

به تابع هزینه (Cost Function) در لجستیک رگرسیون، Cross-Entropy گفته می‌شه. این تابع به ما کمک می‌کنه تا میزان اختلاف بین پیش‌بینی‌های مدل و داده‌های واقعی رو اندازه‌گیری کنیم و هدف کاهش این اختلافه تا مدل بتونه پیش‌بینی‌های دقیق‌تری ارائه بده.

🔵آنتروپی متقاطع به دو دسته تقسیم میشه: Binary Cross-Entropy و Multi-Class Cross-Entropy. توی Binary Cross-Entropy، مدل تلاش می‌کنه تا پیش‌بینی‌هایی با دو دسته‌بندی مثل "بله" یا "خیر" ارائه بده. این روش در مواردی که تنها دو دسته‌بندی ممکنه، مثل تشخیص ایمیل‌های اسپم یا غیراسپم، کاربرد داره. در مقابل، Multi-Class Cross-Entropy برای موقعیت‌هایی به کار می‌ره که بیشتر از دو دسته‌بندی ممکنه، مثل دسته‌بندی انواع گل‌ها یا حیوانات.

🔵تابع سیگموید (Sigmoid Function)، که گاهی اوقات به عنوان "تابع لجستیک" (Logistic Function) هم شناخته می‌شه، یه جزء اصلی در لجستیک رگرسیونه. این تابع هر مقدار ورودی رو به یک احتمال بین صفر و یک تبدیل می‌کنه. برای مثال، اگه خروجی تابع سیگموید 0.7 باشه، این به معنی 70 درصد احتمال وقوع یک رویداد خاصه. این خصوصیت تابع سیگموید اونو برای مدل‌های طبقه‌بندی باینری ایده‌آل می‌کنه.

🔵زمانی که Cross-Entropy و تابع سیگموید در کنار هم استفاده شن، به مدل کمک می‌کنن تا به طور موثر بین دسته‌بندی‌های مختلف تمایز قائل شه. در نتیجه با تنظیم وزن‌ها و بایاس‌ها، بهترین تطابق رو بین داده‌های ورودی و خروجی‌های مورد نظر پیدا میشه.

🔵میشه Cross-Entropy رو از کتابخانه‌های محبوب یادگیری ماشین مثل TensorFlow و PyTorch وارد کرد. این کتابخانه‌ها توابع پیش‌ساخته‌ای رو برای محاسبه Cross-Entropy ارائه می‌دن.

import tensorflow as tf

# Binary Cross-Entropy
binary_CE = tf.keras.losses.BinaryCrossentropy()
loss = binary_CE(y_true, y_pred)

# Multi-Class Cross-Entropy
categorical_CE = tf.keras.losses.CategoricalCrossentropy()
loss = categorical_CE(y_true, y_pred)


#Machine_Learning
#Logistic_Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍4👨‍💻2
کوئیز شماره ۲۳: تابع هزینه در لجستیک رگرسیون

چه زمانی تابع هزینه کراس آنتروپی توی لجستیک رگرسیون به بیشترین مقدارش می‌رسه؟
Anonymous Quiz
21%
زمانی که پیش‌بینی دقیقاً برابر با برچسب واقعیه
54%
زمانی که پیش‌بینی کاملاً مخالف برچسب واقعی
20%
زمانی که تمام پیش‌بینی‌ها 0.5 هستن
4%
تابع هزینه همیشه یک مقدار ثابت داره
6😎4👍1
💡تاثیر Regularization روی لجستیک رگرسیون

می‌تونیم از یه تکنیک به نام "regularization" برای جلوگیری از بیش‌برازش (overfitting) استفاده کنیم. بیش‌برازش زمانی اتفاق می‌افته که مدل بیش از حد به داده‌های آموزشی وابسته شده و توانایی تعمیم (generalization) به داده‌های جدید رو از دست می‌ده. Regularization با اضافه کردن یه جمله جریمه‌ای (penalty term) به تابع هزینه (cost function)، وزن‌های مدل رو کنترل می‌کنه.

دو روش رایج برای این کار، L1 Regularization و L2 Regularization هستن که به ترتیب به عنوان Lasso و Ridge شناخته می‌شن. این روش‌ها با کنترل اندازه وزن‌ها، از پیچیدگی بیش از حد مدل جلوگیری می‌کنن و کارایی رو در پیش‌بینی داده‌های جدید افزایش می‌دن.

#Machine_Learning
#Logistic_Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9👨‍💻32
👨‍🏫 روش‌های بهینه سازی در لجستیک رگرسیون

در رگرسیون لجستیک، هدف اصلی، تنظیم پارامترهای مدل به نحویه که خطای پیش‌بینی به حداقل برسه. این کار از طریق بهینه‌سازی تابع ضرر (Loss Function) انجام میشه که نشون‌دهنده تفاوت بین پیش‌بینی‌های مدل و مقادیر واقعیه.

🔵 روش‌های مبتنی بر گرادیان

🔵گرادیان کاهشی (Gradient Descent): این روش با محاسبه گرادیان تابع ضرر و به‌روزرسانی پارامترها در جهت مخالف اون عمل می‌کنه تا به کمینه محلی (Local Optimum) تابع هزینه برسه. این روش بیشتر برای داده‌های کم مناسبه و در مقابله با داده‌های حجیم ممکنه به خوبی عمل نکنه.

🔵گرادیان کاهشی تصادفی (Stochastic Gradient Descent): این نسخه‌ بهبود و تکامل یافته روش گرادیان کاهشیه که در اون گرادیان (مشتق) تابع هزینه برای زیرمجموعه‌های تصادفی از داده‌ها در هر مرحله محاسبه می‌شن. این رویکرد با سرعت بالای محاسباتی، برای داده‌های حجیم مناسبه و کارایی یادگیری ماشین رو بهبود می‌ده.

🔵 روش‌های مبتنی بر نیوتن

🔵روش نیوتن (Newton Method): روش نیوتن، به عنوان روش نیوتن-رافسون هم شناخته می‌شه، از مشتق دوم تابع ضرر برای بهینه‌سازی استفاده می‌کنه. این روش توانایی داره که نقاط کمینه تابع ضرر رو با دقت بالا و سرعت زیاد پیدا کنه، به خصوص در مواردی که با تابع ضرر پیچیده یا داده‌هایی با توزیع‌های خاص روبرو هستیم. با این حال، محاسبه مشتق دوم و می‌تونه هزینه محاسباتی بالایی داشته باشه، به ویژه در مواردی که با داده‌های با ابعاد بالا سروکار داریم.

🔵روش‌های شبه-نیوتن (Quasi-Newton Methods): روش‌های شبه-نیوتن برای حل مشکلات محاسباتی مرتبط با روش نیوتن توسعه یافتن. این روش‌ها، مثل الگوریتم BFGS یا L-BFGS، بدون نیاز به محاسبه مستقیم ماتریس هسیان (مشتق دوم)، تلاش می‌کنن که یه تخمین دقیق از گرادیان دوم ارائه بدن. این روش‌ها برای مواردی که با حجم بزرگ داده‌ها مواجه هستیم یا مدل‌هایی که پارامترهای زیادی دارن، بسیار مؤثرن و می‌تونن نسبت به روش نیوتن کارایی بالاتری داشته باشن، به خصوص از نظر محاسباتی.

🔵 انتخاب روش بهینه‌سازی

انتخاب روش بهینه‌سازی مناسب برای رگرسیون لجستیک به عواملی مثل ویژگی‌های داده، اندازه مجموعه داده و پیچیدگی مدل بستگی دارد. به طور کلی، گرادیان کاهشی برای داده‌های کم و گرادیان کاهشی تصادفی برای داده‌های حجیم مناسبه، در حالی که روش‌های نیوتن و شبه-نیوتن ممکنه در شرایط خاص کارایی بهتری داشته باشند.

#Machine_Learning
#Logistic_Regression

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥2👏2
کوئیز شماره ۲۴: روش‌های بهینه‌سازی Logistic Regression
کدوم روش‌ بیشترین سرعت همگرایی رو در رگرسیون لجستیک داره؟
Anonymous Quiz
29%
گرادیان کاهشی مینی-بچ (Mini-Batch Gradient Descent)
40%
گرادیان کاهشی تصادفی (SGD)
27%
روش نیوتن-رافسون
4%
روش شبه-نیوتن (Quasi-Newton Methods)
😎5👍31👏1