❓کوییز شماره ۹۳: کدوم تابع فعالساز برای شبکههای عصبی بازگشتی (RNN) به طور معمول استفاده میشه؟
Anonymous Quiz
49%
ReLU
30%
Sigmoid و Tanh
15%
ELU
6%
Softmax
👍5😎2👏1🤔1
تکنیک Dropout در حین آموزش واحدهایی از شبکه را به صورت تصادفی حذف میکند تا از آموزش زیاد مدل جلوگیری شود. این روش به طور قابل توجهی بیشبرازش را کاهش میدهد.
#Deep_Learning
#Artificial_Neural_Networks
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3👌3
هدف نهایی یک بهینهساز (Optimizer) اینکه پارامترهای شبکه رو به نحوه تنظیم کنه که تابع خطا (Loss Function) به حداقل برسه. به عبارت دیگه، بهینهساز با هدایت شبکه به سمت مجموعهای از وزنها و بایاسها (وزن و سوگیری) که منجر به بهترین عملکرد در تسک مورد نظر میشه، عمل میکنه.
تابعیه که میزان خطای خروجی شبکه رو نسبت به خروجی صحیح اندازه گیری میکنه. رایجترین توابع خطا، میانگین مربعات خطا (MSE) و انتروپی متقاطع (Cross Entropy) هستن.
مشتق تابع خطا نسبت به هر پارامتر شبکه است. گرادیان نشون میده که چطور یک تغییر جزئی در یک پارامتر خاص روی مقدار تابع خطا تأثیر میگذاره.
بر اساس گرادیان محاسبه شده، پارامترهای شبکه در هر تکرار از فرآیند آموزش بهروز میشن. این بهروز رسانی با استفاده از الگوریتم بهینهساز انجام میشه.
یک الگوریتم بهینهساز ساده است که از گرادیان برای به روزرسانی پارامترها استفاده میکنه. در هر تکرار، پارامترها با مقدار منفی خاصی از گرادیان به روز میشن (ضرب در نرخ یادگیری). نرخ یادگیری (Learning Rate) پارامتریه که سرعت همگرایی بهینهساز رو کنترل میکنه.
مومنتوم یک روش بهینهسازیه که به منظور افزایش سرعت و کارایی همگرایی در روش گرادیان نزولی (GD) طراحی شده. این تکنیک با در نظر گرفتن جهت بهروزرسانیهای قبلی پارامترها، عمل میکنه تا مسیر بهینه به سمت کمینه تابع هزینه رو با سرعت بیشتری طی کنه.
مومنتوم شبیه به حرکت یک توپ غلتانه که روی یک سطح شیبدار حرکت میکنه، به طوری که نه تنها در جهت گرادیان تابع هزینه پیش میره بلکه میتونه با استفاده از انرژی حرکتیش، از چالههای کم عمق هم به راحتی عبور کنه. این رویکرد به معنی پیدا کردن و دنبال کردن مسیرهایی در فضای پارامترهاست که به سرعت و به طور مؤثر به کاهش هزینه منجر شه.
این الگوریتم شبیه به GD هست، اما نرخ یادگیری رو برای هر پارامتر به صورت جداگانه بر اساس میانگین مربعات مقادیر قبلی گرادیان اون پارامتر تنظیم میکنه. در نتیجه به بهینهساز اجازه میده تا با سرعتهای مختلفی پارامترهای مختلف رو به روز کنه و از بروز مشکلاتی مثل ناپایداری همگرایی جلوگیری کنه.
الگوریتم Adam ترکیبی از Momentum و RMSprop هست که به طور تطبیقی نرخ یادگیری رو برای هر پارامتر بر اساس میانگین های متحرک مقادیر گذشته و گرادیان های اون پارامتر تنظیم میکنه. Adam به دلیل کارایی و همگرایی خوب، به یکی از محبوبترین الگوریتمهای بهینهساز در یادگیری عمیق تبدیل شده.
انتخاب بهینهساز مناسب برای شبکه عصبی بسیار مهمه، چون روی عملکرد نهایی شبکه تأثیر گذاره.
به طور کلی، توصیه میشه با الگوریتمهای رایج مثل Adam شروع کنین و در صورت لزوم، گزینه های دیگه رو با توجه به عملکرد و همگرایی شبکه آزمایش کنین.
این بهینهسازها از اطلاعات بیشتری در مورد تابع خطا، مثل ماتریس Hessian، برای به روزرسانی پارامترها استفاده میکنن. در حالی که این الگوریتمها میتونن سریعتر همگرا شن، اما به محاسبات بیشتری نیاز دارن.
#Deep_Learning
#Artificial_Neural_Networks
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5👌1👨💻1
❓کوییز شماره ۹۴: کدوم ویژگی زیر در مورد بهینهساز Adamax صحیح نیست؟
Anonymous Quiz
28%
یک واریانت از Adam هست که از نرم بینهایت استفاده میکنه.
16%
تمایل به داشتن پایداری بیشتری در مقایسه با Adam در مجموعههای داده با نویز زیاد داره.
32%
بهینهساز Adamax به طور قابل توجهی سریعتر از Adam همگرا میشه.
24%
از رویکردی مشابه با Adam استفاده میکنه اما روش محاسبهاش متفاوته.
👍4😎2👌1
بله، ترکیب مومنتوم و کاهش وزن (Weight Decay) در بهینهسازی شبکههای عصبی موثره. مومنتوم به شبکه کمک میکنه تا سریعتر از دامنههای کمعمق تابع هزینه عبور کنه و به سمت کمینههای جهانی حرکت کنه.
از طرف دیگه، کاهش وزن به جلوگیری از Overfitting کمک میکنه و به کاهش اثرات نویز در دادههای آموزشی منجر میشه.
ترکیب این دو رویکرد به ایجاد تعادل بین جستجو برای پارامترهای بهتر و تثبیت مدل در کمینههای جهانی منجر میشه و در نهایت عملکرد مدل رو بهبود میده.
#Deep_Learning
#Artificial_Neural_Networks
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👌2👨💻1
تابع هزینه، که گاهی به عنوان تابع خطا هم شناخته میشه، معیاری برای اندازهگیری میزان دقت یک مدل شبکه عصبی در پیشبینی نتایجه.
این تابع مقداری رو به عنوان هزینه یا خطا محاسبه میکنه که بیانگر تفاوت بین خروجی پیشبینی شده توسط مدل و خروجی هدفه.
توابع هزینه متفاوتی وجود دارن که بر اساس نوع مسئله و ساختار خروجی مدل انتخاب میشن.
برای کمینهسازی تابع هزینه و بهینهسازی وزنهای شبکه، روشهای مختلفی وجود داره. از جمله مهمترین روشها، الگوریتم پسانتشار (Backpropagation) هست.
یکی از چالشهای اصلی در استفاده از توابع هزینه و پسانتشار، مسئله محو شدگی گرادیانه. این مشکل حالتیه که گرادیانها در لایههای عمیقتر شبکه به شدت کاهش پیدا میکنن و بهروزرسانی وزنها بسیار کم میشه.
راهکارهایی مثل استفاده از توابع فعالسازی مناسب (مثل ReLU)، اولیهسازی وزنها و استفاده از نرخهای یادگیری تطبیقی به حل این مشکل کمک میکنن.
#Deep_Learning
#Artificial_Neural_Networks
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👌6❤3👨💻2👍1
❓کوییز شماره ۹۵: چرا استفاده از نرخ یادگیری بسیار بالا در Backpropagation میتونه مشکلساز باشه؟
Anonymous Quiz
14%
نرخ یادگیری بالا هیچ تأثیری روی سرعت همگرایی شبکه نداره.
81%
ممکنه باعث شه شبکه در طول زمان آموزش دائماً روی یک حداقل Local یا Global بپره و همگرا نشه.
5%
نرخ یادگیری بالا تنها برای شبکههای کوچیک مناسبه.
😎4👍3🤔1
محوشدگی گرادیان
نوید حقوقی
مشکل محوشدگی گرادیان یا Vanishing Gradient یکی از رفتارهای ناپایدار شبکهست و ممکنه موقع آموزش مدل پیش بیاد.
#Machine_Learning
#Podcast
@DSLanders | دیاسلندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👌2❤1👍1
در یادگیری ماشین و یادگیری عمیق، مدلها گاهی اوقات بیشبرازش پیدا میکنن، به این معنی که بیش از حد به دادههای آموزشی وابسته میشن و قابلیت تعمیمشون به دادههای جدید کاهش پیدا میکنه. برای حل این مشکل، از تکنیکهای تنظیم استفاده میشه.
تنظیم L1 (معروف به Lasso) و L2 (معروف به Ridge) دو روش رایج برای جلوگیری از بیشبرازش هستن. هر دو این روشها با اضافه کردن یک جمله تنظیم به تابع هزینه کار میکنن که به وزنهای مدل جریمه اعمال میکنه.
روش دیگهاش که برای جلوگیری از بیشبرازش استفاده میشه، Dropout هست. در این روش، در هر دور آموزش، بعضی از نورونها به طور تصادفی انتخاب و حذف میشن.
این کار باعث میشه که مدل نتونه به طور کامل به دادههای آموزشی وابسته شه و مجبور به یادگیری ویژگیهای معنادارتر از دادهها میشه. Dropout به عنوان یک روش موثر در شبکههای عصبی عمیق شناخته شده.
نرمال سازی دسته ای یک تکنیک دیگه برای بهبود عملکرد و ثبات شبکههای عصبی عمیقه. این روش به نرمال سازی خروجی هر لایه با استفاده از میانگین و انحراف معیار خروجیهای اون دسته کار میکنه.
این کار باعث میشه که توزیع ورودیها به لایههای بعدی نسبتاً ثابت باقی بمونه و مشکل محوشدگی کاهش پیدا کنه.
در حالی که تنظیم L1، L2، Dropout و Batch Normalization روشهای رایج برای جلوگیری از بیشبرازش و بهبود عملکرد مدل هستن، روشهای جدیدی به طور مداوم درحال معرفی هستن.
برای مثال، نرمالسازی وزن و تنظیم خودکار (AutoML)، که هدفشون بهینهسازی هایپرپارامترها و رویکردهای تنظیمه، در حال توسعه هستن.
#Deep_Learning
#Artificial_Neural_Networks
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👌2👨💻2
❓کوییز شماره ۹۶: تکنیک Batch Normalization چطور به بهبود کارایی شبکههای عصبی عمیق کمک میکنه، به ویژه در شبکههای با لایههای زیاد؟
Anonymous Quiz
13%
با کاهش تاثیر نورونهای فعال روی خروجی نهایی مدل.
9%
افزایش دقت مدل فقط در مواردی که دادهها دارای توزیع یکنواخت باشن.
47%
بهبود ثبات فرایند آموزش با کاهش مشکل انتشار گرادیان ناپایدار و کمک به تنظیم خودکار سرعت یادگیری.
31%
تاثیر مستقیم روی کاهش زمان آموزش با کاهش تعداد دورههای لازم برای رسیدن به همگرایی.
❤3👌2😎2👍1
تکنیکهای Dropout و DropConnect هر دو برای جلوگیری از بیشبرازش در مدلهای یادگیری عمیق استفاده میشن، اما در نحوه عملکرد باهم متفاوتن.
تفاوت اصلی بین این دو در اینکه Dropout کل نورونها رو حذف میکنه، در حالی که DropConnect تنها بعضی از وزنهای مرتبط با نورونها رو حذف میکنه.
این تفاوت در نحوهی ایجاد تنوع و مقاومت در برابر بیشبرازش موثره. DropConnect میتونه به مدل اجازه بده که وابستگیهای پیچیدهتری رو یادبگیره، چون فقط بعضی از وزنها حذف میشن، نه کل نورون.
#Deep_Learning
#Artificial_Neural_Networks
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👌2❤1🔥1
#Weekend
#Deep_Learning
#Artificial_Neural_Networks
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👏2👍1👨💻1
در این وبینار شما با زمینههای متأثر از ماشین لرنینگ آشنا میشین. همچنین اپلیکیشنها و محصولات موفق این حوزههای مختلف معرفی خواهند شد.
@DSLanders | دیاسلندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
👏3❤2👍1👨💻1
#Deep_Learning
#CNNs
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥1
آموزش دیتاساینس و ماشینلرنینگ
Audio
@DSLanders | دیاسلندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3🔥2
شبکههای عصبی پیچشی (Convolutional Neural Networks یا CNNs) با الهام از ساختار بینایی موجودات زنده طراحی شدن و توانایی شگفتانگیزی در استخراج ویژگیهای مهم از تصاویر با حداقل پیشپردازش دارن.
ایدهی اصلی پشت شبکههای عصبی پیچشی به مطالعهی چگونگی پردازش اطلاعات تصویری توسط مغز انسان و سایر موجودات زنده برمیگرده.
این کشف انگیزهای شد برای طراحی مدلهای مصنوعی که میتونن الگوهای مشابهی از دادهها رو با استفاده از فیلترهای پیچشی تشخیص بدن.
یکی از اولین کاربردهای عملی این ایده در شبکه نورونی لایه پیچشی (LeNet) توسط یان لیکان در دهه ۱۹۹۰ معرفی شد.
از نوآوریهای مهم در این حوزه، معرفی تکنیکهایی مثل انتقال یادگیری (Transfer Learning)، تکنیکهای افزایش داده (Data Augmentation) و شبکههای پیچشی عمیق با لایههای باقیمانده (Residual Networks) بود که توانایی مدلها در آموزش عمیقتر و کارآمدتر کردن فرآیند یادگیری رو افزایش داد.
با پیچیدهتر شدن شبکهها، مسائل جدیدی مثل بیشبرازش، نیاز به دادههای آموزشی زیاد و محدودیتهای محاسباتی به وجود اومد.
#Deep_Learning
#CNNs
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👌5❤4👍3👨💻1
❓کوییز شماره ۹۷: در یک شبکهی CNN، اصطلاح کرنل (Kernel) به چه معنی هست و کدوم یک از موارد زیر توصیفکنندهی عملکرد کرنل سوبل (Sobel Kernel) در تصاویره؟
Anonymous Quiz
51%
وزنهایی که به طور تصادفی اولیهسازی شده و در طول آموزش بهروزرسانی میشن. تشخیص لبههای عمودی تصویر
20%
تابع فعالسازی که روی خروجی هر لایه اعمال میشه. تشخیص تغییرات رنگ در سراسر تصویر
8%
مقدار خطای محاسبه شده در هر دور از آموزش. تخمین زاویههای موجود در تصویر
20%
الگوهای اولیه که شبکه قبل از آموزش شناسایی میکنه. ایجاد نقشهی حرارتی از ویژگیهای تصویر
😎5👍3❤2👨💻1
CNN
نوید حقوقی
حوزه بینایی ماشین یکی از حوزههای پرطرفدار هوش مصنوعیه و شبکه عصبی کانولوشنی یا CNN یکی از الگوریتمهای معروفیه که تو این حوزه خیلی استفاده میشه.
#Machine_Learning
#Podcast
@DSLanders | دیاسلندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2
فیلترها، هستههایی هستن که روی تصاویر ورودی اعمال میشن تا ویژگیهای خاصی رو استخراج کنن. هر فیلتر، یک آرایهای از وزنها (مقادیر) هست که با حرکت روی همه نقاط تصویر، یک نقشه ویژگی (feature map) تولید میکنه. این فرآیند، کانولوشن نام داره و به ما امکان میده تا ویژگیهایی مثل لبهها، بافتها و شکلها رو در تصویر شناسایی کنیم.
- فیلتر Sobel: برای تشخیص لبهها در تصاویر استفاده میشه. این فیلتر از ماتریسهای 3x3 تشکیل شده و لبههای عمودی، افقی و مورب رو در تصویر تشخیص میده.
- فیلتر Gaussian: برای تار کردن تصاویر و حذف نویز استفاده میشه. این فیلتر از ماتریسهای گاوسی تشکیل شده و نویز رو در تصویر با حفظ جزئیات مهم، حذف میکنه.
در طول فرآیند آموزش شبکه، شبکه با دریافت تصاویر ورودی و برچسبهای مربوطه، به طور خودکار فیلترهایی رو یاد میگیره که ویژگیهای مهم تصاویر رو برای تشخیص اشیاء یا طبقهبندی تصاویر استخراج کنن.
استراید، تعداد پیکسلهایی هست که فیلتر بین هر اعمال کانولوشن حرکت میکنه. اگه Stride برابر ۱ باشه، فیلتر بعد از هر اعمال، یک پیکسل حرکت میکنه.
اگه Stride بزرگتر باشه، فیلتر فواصل بیشتری رو پوشش میده، که منجر به کاهش ابعاد نقشه ویژگی میشه؛ در نتیجه به کاهش پیچیدگی محاسباتی و حافظه شبکه کمک شده.
پدینگ، فرآیندیه که در اون حاشیههای اطراف تصویر ورودی با مقادیر خاصی (معمولاً صفر) پر میشن تا ابعاد نقشه ویژگی نهایی تنظیم یا از کاهش شدید ابعاد جلوگیری شه.
- تکنیک Dilated Padding امکان افزایش فیلد دید فیلترها بدون افزایش تعداد پارامترها رو فراهم میکنه. این تکنیک به شبکهها اجازه میده که ویژگیهای موجود در دادهها رو بهتر استخراج کنن.
- در روش پدینگ انعطافپذیر یا Adaptive Padding، پدینگ بر اساس ویژگیهای خاص دادهها یا لایههای شبکه تنظیم میشه تا بهترین نحوه استفاده از پدینگ رو برای استخراج ویژگیها انتخاب کنه.
#Deep_Learning
#CNNs
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👌4👨💻2❤1
❓کوییز شماره ۹۸: استفاده از پدینگ Same در یک لایه کانولوشنی با استراید ۱ چه تاثیری روی ابعاد نقشه ویژگی خروجی داره؟
Anonymous Quiz
13%
ابعاد نقشه ویژگی خروجی کاهش پیدا میکنه.
73%
ابعاد نقشه ویژگی خروجی نسبت به تصویر ورودی بدون تغییر باقی میمونه.
7%
ابعاد نقشه ویژگی خروجی پیدا میکنه.
7%
تنها تعداد کانالهای نقشه ویژگی خروجی تغییر میکنه.
😎4👌2❤1👍1🤔1