❓کوییز شماره ۱۱۸: کدوم یک از گزینههای زیر استراتژی صحیحی برای بهینهسازی Decoder در شبکههای اتوانکودر هست؟
Anonymous Quiz
11%
استفاده از تعداد زیادی لایهی کانولوشنی برای افزایش پیچیدگی مدل.
33%
کاهش تعداد پارامترها در Decoder برای جلوگیری از بیشبرازش.
50%
ادغام مکانیزم توجه به Decoder برای تمرکز بهتر روی نواحی کلیدی دادهها.
6%
افزایش سرعت یادگیری رمزگشا بدون توجه به انکودر.
❤3😎3👍2🤔1👨💻1
اتوانکدر از مفاهیم مهم حوزه یادگیری عمیقه که برای یادگیری ویژگیهای نهفته در دادهها و بازسازی اطلاعات با کاهش بعد به کار میره. این تکنولوژی بهخصوص در مواردی که نیاز به کاهش ابعاد دادهها با حفظ اطلاعات مهم وجود داره، کاربرد فراوانی داره.
#Deep_Learning
#AutoEncoders
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👌3❤2👨💻1
یونت یک معماری شبکه عمیق برای تجزیه و تحلیل تصویره که اولین بار برای کاربردهای پزشکی، مثل تصویربرداری از بافتهای زیستی استفاده شد. این معماری توسط Olaf Ronneberger و همکارانش در سال 2015 ارائه شد و به سرعت به یکی از محبوبترین مدلها برای وظایف تقسیمبندی تصویر تبدیل شد.
معماری یونت شبیه به حرف "U" هست و به همین دلیل نام گذاریش به این صورته. این معماری از دو بخش اصلی تشکیل شده: کدگذار (Encoder) و کدگشا (Decoder).
یکی از ویژگیهای اصلی یونت، استفاده از اتصالات انتقالی بین لایههای متناظر کدگذار و کدگشاست. این اتصالات به اطلاعات موجود در کدگذار اجازه میدن تا مستقیماً به کدگشا منتقل شن، که باعث بهبود دقت بازسازی و کمک به حفظ جزئیات مکانی میشه.
رمزگشا در معماری یونت شروع به بازسازی تصویر از مجموعهای محدود از ویژگیهای پیچیده میکنه که توسط کدگذار فشرده شدن. در این فرآیند، هر مرحله شامل مراحل زیره:
این مراحل به طور متوالی تکرار میشن تا تصویر ورودی به طور کامل بازسازی شه. در نهایت، یک لایه کانولوشنی نهایی برای تولید خروجی نهایی که تقسیمبندی تصویره، استفاده میشه.
معماری یونت به دلیل توانایی در کار با تصاویری که نیاز به تحلیل دقیق و بازسازی جزئیات دارن، بسیار محبوبه و در بسیاری از زمینههای پژوهشی و کاربردی به کار رفته.
#Deep_Learning
#AutoEncoders
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3👌3👨💻1
❓کوییز شماره ۱۱۹: کدوم یک از موارد زیر یک مزیت رقابتی U-Net نسبت به مدلهای دیگه مثل SegNet یا FCN در زمینه تقسیمبندی تصاویره؟
Anonymous Quiz
24%
استفاده از تعداد لایههای کانولوشنی بیشتر برای پردازش تصاویر
41%
کاهش نیاز به دادههای آموزشی بزرگ به دلیل اتصالات انتقالی موثر
18%
بهبود زمان آموزش به واسطه استفاده موثر از واحدهای پردازشی
18%
توانایی پردازش تصاویر با رزولوشن بالا بدون نیاز به تغییر اندازه
😎4👍3❤2🤔2
درک ساختار U-Net به درک مفهوم AutoEncodrs کمک میکنه و در این ویدیو به بهونه بررسی مقاله U-Net، با فرآیند down/up sampling که در ساختار encode/decoder ها استفاده میشه آشنا خواهیم شد.
#Deep_Learning
#AutoEncoders
#YouTube
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
مقاله شبکه عصبی یونت | U-Net 2015
شبکههای عصبی کانولوشنی و بازگشتی خیلی ساختار متفاوتی دارند و تقریبا ربطی به هم ندارن. از یه جا با هم یک چیزی رو مشترک وارد ساختارهاشون کردن اون هم مفهوم autoencoders هست. CNNs ها با U-net این و RNNs ها با Transformers از ساختار AutoEncoders بهره بردن.
درک…
درک…
👍6❤2🔥1👌1
یکی از متداولترین کاربردهای خودرمزنگارها، کاهش بعد دادههاست. در دنیای واقعی، دادهها معمولا دارای بعد بالا هستن و پردازششون میتونه هم از نظر محاسباتی و هم از نظر زمانی هزینهبر باشه. خودرمزنگارها میتونن این دادهها رو به فضاهای کوچکتر و مدیریتپذیرتر تبدیل کنن.
خودرمزنگارهای دنویزینگ (Denoising AutoEncoders) به یادگیری نمایش دادهها به نحوی که نویز موجود در دادههای ورودی حذف شه، میپردازن. این تکنیک بسیار مفید در پیشپردازش دادهها برای سایر الگوریتمهای یادگیری ماشینه.
خودرمزنگارهای واریانسی (Variational AutoEncoders) یک نوع خاص از خودرمزنگارها هستن که میتونن برای تولید دادههای جدید استفاده شن. این خودرمزنگارها یک فضای پیوسته و هموار از دادهها رو فراهم میکنن که میشه ازش برای تولید نمونههای جدید با ویژگیهای مشابه به دادههای آموزش دیده استفاده کرد.
خودرمزنگارها میتونن برای تشخیص دادههایی که از الگوی عادی خارج هستن (ناهنجاریها) استفاده شن. این کاربرد در صنایع مختلف مثل تشخیص تقلب در تراکنشهای بانکی یا شناسایی خطاها در سیستمهای مکانیکی اهمیت داره.
اخیراً، تکنیکهای پیشرفتهتری در زمینه خودرمزنگارها توسعه پیدا کردن. برای مثال، خودرمزنگارهای توزیع شده که میتونن به طور همزمان روی چند سرور یا دستگاه پردازش دادهها رو انجام بدن و برای دادههای بزرگمقیاس بسیار مفیدن.
#Deep_Learning
#AutoEncoders
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👌3👍2👨💻1
❓کوییز شماره ۱۲۰: کدوم یک از ویژگیهای زیر مربوط به استفاده از خودرمزنگارها در سیستمهای توصیهگر (Recommendation Systems) هست؟
Anonymous Quiz
24%
تولید توصیههای شخصیسازی شده با تحلیل پیوسته کاربران.
24%
تشخیص تقلب در ارزیابیهای کاربران.
29%
حذف نویز از دادههای کاربران برای تحلیل دقیقتر.
24%
کاهش بعد دادههای کاربر برای بهبود سرعت پردازش.
👍3😎3❤1🤔1👨💻1
معماری U-Net بهعنوان یکی از معماریهای برجسته در پردازش و بخشبندی تصاویر در علوم کامپیوتر شناخته شده و در حوزههایی که دادههای محدودی در دسترس هستن، تحولی بزرگی ایجاد کرده.
#Deep_Learning
#AutoEncoders
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4❤2👏1
اتوانکدرهای متغیر (VAEs) امکان استخراج الگوها و معانی سادهتر از دادههای نویزدار رو فراهم میکنن، و رویکرد جدیدی در تفسیر اطلاعات ارائه میدن.
#Deep_Learning
#AutoEncoders
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3👏1👌1
#Weekend
#Deep_Learning
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5👌3❤1👨💻1
#Deep_Learning
#Word_Embedding_Methods
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2👨💻2👌1
تعبیه کلمه (Word Embedding)، روشی در پردازش زبان طبیعیه (NLP) که در اون کلمات، عبارات یا جملات به صورت نمایشهای عددی یا بردارهایی در فضاهای چندبُعدی تبدیل میشن. این بردارها میتونن ویژگیها و مفاهیم مختلف لغوی و معنایی رو بیان کنن.
تعبیه کلمات به ماشین اجازه میده تا درک بهتری از متن داشته باشه، به این صورت که کلمات با مفاهیم مشابه، نزدیک به هم و کلمات با مفاهیم متفاوت، دور از هم قرار میگیرن.
در این روش برای کلمات نمایشهایی با ابعاد بزرگ و مقادیر ۰ و ۱ ایجاد میشه که بهینه نیستن. تعبیه کلمه دستهای بردارهایی با ابعاد بسیار بالا و sparse (پراکنده) رسم میکنه و نهایتا برای کلمات بدون درکی از متن یا محاسبهای فقط یک عدد مشخص میشه.
از مدلهای معروف این روش میشه به Bag of Words و One-Hot Encoding اشاره کرد و مشکلاتی مثل هزینه محاسبات بالا و غیر کارآمد بودن داره. در این روش به عنوان خروجی یک بردار ساده داریم.
این روش بردار محوره اما برای کلمهای که چند معنی داره، نمیتونه چند بردار خروجی بده. در نتیجه به عنوان خروجی بردارهای ثابتی داریم که بر پایه فرمول هستن و درکی از متن ندارن. از معروفترین مدلهای تعبیه آماری میشه به tf/idf، LDA، LSA و مدلهای N-gram اشاره کرد.
در این نوع مدل نحوه تعبیه کلمات رو یادمیگیره و ما به صورت دستی یا آماری این کار رو انجام نمیدیم. یعنی توسط شبکههای عصبی سبک (Shallow NNs) در یک فرآیند تکراری یادگیری اتفاق میافته.
خروجی این روش وکتورهای ثابت بر پایه شبکه عصبیه، درکی از متن ندارن (context-free) و از مدلهای معروف این روش میشه به word2vec، GloVe و FastText اشاره کرد.
این روش، تکامل یافتهترین حالت ممکنه و بردار کلمات رو بر پایه متن یادمیگیره و از متن درک داره (context-aware). در Contextualized Embedding هر کلمه بر اساس متن یا جملهای که در اون ظاهر میشه، نمایش متفاوتی داره در نتیجه به عنوان خروجی بردارهای پویا داریم.
مدلهایی مثل BERT یا GPT از این روش استفاده میکنن. در این مدلها، معنا و کاربرد کلمات با تغییر زمینه تغییر میکنه، که در نتیجه به درک بهتر نقش و معنای کلمات در جملات مختلف کمک میشه.
#Deep_Learning
#Word_Embedding_Methods
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2👌1👨💻1
❓کوییز شماره ۱۲۱: کدوم گزینه بهترین توصیف برای تفاوت اصلی بین تعبیههای آماری مثل LSA و تعبیههای چگال مثل Word2Vec هست؟
Anonymous Quiz
56%
تعبیههای آماری فقط بر پایه تکرار کلمات در متن هستن، اما تعبیههای چگال از NNs استفاده میکنن.
0%
تعبیههای چگال همیشه ابعاد کمتری نسبت به تعبیههای آماری دارن.
22%
تعبیههای آماری هیچ وقت نمیتونن معنی کلمات رو درک کنن.
22%
تعبیههای چگال فقط برای زبانهای با ساختار پیچیده استفاده میشن.
🤔5👍4😎2
تعبیه دستهای فرآیندیه که طیاش دادههای دستهای به فضاهای برداری پیوسته تبدیل میشن. این تبدیل انجام میشه تا الگوریتمهای یادگیری ماشین بتونن این دادهها رو به شکل موثرتری درک و پردازش کنن.
تعبیهها نوعی نمایش غنیتر و فشردهتر از دادهها هستن که در اونها همبستگیها و ویژگیهای پنهان در دادهها بهتر نشون داده میشه.
این روش سادهترین روش تبدیل دادههای دستهای به برداره. در One-hot Encoding، برای هر دسته، یک ویژگی جدید ایجاد میکنیم که مقدارش فقط ۰ یا ۱ هست. این روش در دادههایی با تعداد دستههای محدود مفیده اما وقتی تعداد دستهها زیاد شه، فضای زیادی اشغال میشه و کارایی مدل کاهش پیدا میکنه.
این روش بیشتر در تجزیه و تحلیل متن به کار میره. BoW یک داده متنی رو به مجموعهای از توکنها تقسیم میکنه و بر اساس تعداد دفعات ظهور هر توکن در متن، یک بردار تولید میشه. این روش هم میتونه در دادههایی با ویژگیهای دستهای استفاده شه.
#Deep_Learning
#Word_Embedding_Methods
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5👌2👨💻1
این روش بردار محوره اما برای کلمهای که چند معنی داره، نمیتونه چند بردار خروجی بده. در نتیجه به عنوان خروجی بردارهای ثابتی داریم که بر پایه فرمول هستن و درکی از متن ندارن. از معروفترین مدلهای تعبیه آماری میشه به tf/idf، LDA، LSA و مدلهای N-gram اشاره کرد.
این روش بر اساس دو مؤلفه اصلی کار میکنه: Term Frequency (TF) و Inverse Document Frequency (IDF)
مؤلفه اول نشوندهنده تعداد دفعاتیه که یک کلمه در یک سند خاص ظاهر میشه. این مؤلفه به طور مستقیم به تکرار کلمه در سند بستگی داره. مؤلفه دوم تأثیر تعداد اسنادی که شامل یک کلمه خاص هستن رو اندازهگیری میکنه و با افزایش تعداد اسناد حاوی کلمه، وزن کلمه مورد نظر کاهش پیدا میکنه.
این روش به خصوص در مواردی کاربرد داره که نیاز به تشخیص اهمیت نسبی کلمات در یک مجموعه سنده، مثل موتورهای جستجو و فیلترینگ اطلاعات.
این مدل به کمک تجزیه مقادیر منفرد (SVD)، روابط پنهان بین کلمات و اسناد رو کشف میکنه. با این کار، مفاهیم معنایی که کلمات در متنهای مختلف به اشتراک میذارن، آشکار میشه، حتی اگه از کلمات متفاوتی استفاده شده باشه. این روش میتونه به فهم بهتر محتوا و توسعه سیستمهای توصیهگر کمک کنه.
این روش از یک رویکرد احتمالاتی استفاده میکنه که هر سند رو به عنوان ترکیبی از چند موضوع مدل میکنه، و هر کلمه رو به احتمالات مختلف به این موضوعات نسبت میده. این مدل برای کشف ساختارهای موضوعی در دادههای بزرگ بسیار مفیده و میتونه در فهم بهتر محتوای متنی و طبقهبندی اسناد کمک کنه.
مدلهای N-gram به بررسی توالیهای n کلمهای میپردازن و میتونن توالیها و ساختارهای زبانی رو در متن به خوبی نشون بدن. این روش به خصوص در مدلهایی که به پیشبینی کلمه بعدی یا تشخیص دستور زبانی نیاز دارن، کاربرد داره.
#Deep_Learning
#Word_Embedding_Methods
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4👌1👨💻1
❓کوییز شماره ۱۲۲: در مقایسه بین Latent Semantic Analysis (LSA) و Latent Dirichlet Allocation (LDA)، کدوم یک از گزینههای زیر تفاوت اصلی بین این دو روش رو به درستی توصیف میکنه؟
Anonymous Quiz
18%
روش LSA از مدلهای احتمالاتی استفاده میکنه، در حالی که LDA بر اساس تجزیه ماتریس عمل میکنه.
24%
هر دو LSA و LDA برای کاهش بُعد دادهها از تجزیه ماتریس استفاده میکنن.
29%
روش LDA به صورت احتمالاتی موضوعات رو مدل میکنه اما LSA ساختارهای خطی دادهها رو استخراج میکنه.
29%
روش LDA برای تحلیلهای بلندمدت مناسبه، در حالی که LSA تنها برای تحلیلهای کوتاهمدت کاربرد داره.
🤔4👍3😎2
این مقاله مدیوم، یه جمعبندی مختصر و مفید از انواع روشهای Word Embedding ارائه داده که به تثبیت دانش شما در این زمینه خیلی کمک میکنه.
پینوشت (یه نظر شخصی): بعد یادگیری یه مبحث برین جمعبندی، خلاصهسازی و نمودارهای کلی مربوط بهش رو بخونین که این کار خیلی به یادگیری عمیقتر کمک میکنه و زمانیکه تونستین برای یه مبحث خلاصهسازی انجام بدین، بدونین کامل یادش گرفتین.
#Deep_Learning
#Word_Embedding_Methods
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👌2👨💻1
تعبیه برداری متراکم به فرآیند تبدیل کلمات به بردارهای عددی متراکم در فضای چند بعدی میگن. هر کلمه به یک بردار عددی منتقل میشه که در اون هر بُعد نمایانگر یک ویژگی خاص از کلمه است. این بردارها معمولاً توسط مدلهایی مثل شبکههای عصبی به دست میان.
تعبیه بردار متراکم از شبکههای عصبی سبک (Shallow Neural Networks) برای یادگیری نحوه تعبیه کلمات استفاده میکنه و در اون یک فرآیند تکراری برای بهینهسازی تعبیهها انجام میشه. در نتیجه، مدل توانایی ایجاد بردارهایی رو داره که نشوندهنده روابط معنایی بین کلمات در دادههای آموزشی هستن.
این روش یکی از محبوبترین مدلها برای تولید تعبیههای برداریه که دو روش اصلی، CBOW (Continuous Bag of Words) و Skip-gram رو پیشنهاد میکنه. در CBOW، کلمه هدف از روی کلمات اطرافش پیشبینی میشه، در حالی که در Skip-gram، کلمات اطراف از روی کلمه هدف پیشبینی میشن.
این مدل روی ماتریس تعداد همراهی کلمات (co-occurrence) تمرکز داره و از روابط آماری بین کلمات در یک متن بزرگ برای یادگیری تعبیهها استفاده میکنه.
این مدل، توسعهیافته توسط فیسبوک، توانایی کار با کلمات خارج از واژگان رو داره و این کار رو با استفاده از بخشهای کوچکتر از کلمات (subwords) ممکن میکنه. FastText میتونه برای زبانهایی با تغییر شکلهای زیاد مفید باشه.
#Deep_Learning
#Word_Embedding_Methods
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3👌3👨💻1
❓کوییز شماره ۱۲۳: اگه یک پروژه نیاز به تحلیل دقیق دادههای متنی با وجود نویز زیاد داشته باشه، کدوم مدل رو باید انتخاب کنیم؟
Anonymous Quiz
31%
Word2Vec
18%
GloVe
28%
FastText
23%
همهی مدلها مناسبن
😎4🤔3👍2
اگه بخوایم از کلمات به عنوان ورودی یک شبکه عصبی استفاده کنیم، باید آنها رو به اعداد تبدیل کنیم. یکی از محبوبترین روشها برای تخصیص اعداد به کلمات برای استفاده در شبکههای عصبی تعبیه برداری لغاته و این ویدئو با لحن ساده و جالب این موضوع رو توضیح داده.
#Deep_Learning
#Word_Embedding_Methods
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Word Embedding and Word2Vec, Clearly Explained!!!
Words are great, but if we want to use them as input to a neural network, we have to convert them to numbers. One of the most popular methods for assigning numbers to words is to use a Neural Network to create Word Embeddings. In this StatQuest, we go through…
👍4👌2❤1👨💻1