آموزش دیتاساینس و ماشین‌لرنینگ
1.89K subscribers
161 photos
9 videos
134 links
🔴 آموزش مباحث حوزه دیتا شامل علم داده، یادگیری ماشین و تحلیل داده (رضا شکرزاد)

🌀 کانال اخبار و منابع هوش مصنوعی:
@DSLanders

🌀 مشاوره و ارتباط مستقیم:
https://t.iss.one/dslanders_admin

یوتیوب:
Youtube.com/@RezaShokrzad

دوره‌ها:
cafetadris.com/datascience
Download Telegram
🧑‍🎓 اتوانکدر چیست و در پردازش داده چه تحولی ایجاد کرده است؟

اتوانکدر از مفاهیم مهم حوزه یادگیری عمیقه که برای یادگیری ویژگی‌های نهفته در داده‌ها و بازسازی اطلاعات با کاهش بعد به کار می‌ره. این تکنولوژی به‌خصوص در مواردی که نیاز به کاهش ابعاد داده‌ها با حفظ اطلاعات مهم وجود داره، کاربرد فراوانی داره.

🟢برای مطالعه بیشتر کلیک کنین:

👉📎 ctdrs.ir/ds0246

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👌32👨‍💻1
👨‍🎓 معماری شبکه یونت (U-Net)

یونت یک معماری شبکه عمیق برای تجزیه و تحلیل تصویره که اولین بار برای کاربردهای پزشکی، مثل تصویربرداری از بافت‌های زیستی استفاده شد. این معماری توسط Olaf Ronneberger و همکارانش در سال 2015 ارائه شد و به سرعت به یکی از محبوب‌ترین مدل‌ها برای وظایف تقسیم‌بندی تصویر تبدیل شد.

🔵 ساختار کلی

معماری یونت شبیه به حرف "U" هست و به همین دلیل نام گذاریش به این صورته. این معماری از دو بخش اصلی تشکیل شده: کدگذار (Encoder) و کدگشا (Decoder).

🔵کدگذار (Encoder): کدگذار شامل چند لایه است که وظیفه‌اش استخراج ویژگی‌ها از تصویر ورودیه. به تدریج که به سمت انتهای کدگذار پیش می‌ریم، ویژگی‌های بیشتر و پیچیده‌تری استخراج می‌شن و ابعاد فضایی تصویر کاهش پیدا می‌کنه.

🔵کدگشا (Decoder): کدگشا وظیفه بازسازی تصویر از ویژگی‌های استخراج شده رو داره تا به یک نقشه ویژگی با ابعاد اصلی برسه. این فرآیند به طور معمول شامل لایه‌های Up-sampling هست که باعث می‌شن ابعاد تصویر افزایش پیدا کنه.

🔵 Skip Connection

یکی از ویژگی‌های اصلی یونت، استفاده از اتصالات انتقالی بین لایه‌های متناظر کدگذار و کدگشاست. این اتصالات به اطلاعات موجود در کدگذار اجازه می‌دن تا مستقیماً به کدگشا منتقل شن، که باعث بهبود دقت بازسازی و کمک به حفظ جزئیات مکانی می‌شه.

🔵 جزئیات رمزگشا (Decoder) در این معماری

رمزگشا در معماری یونت شروع به بازسازی تصویر از مجموعه‌ای محدود از ویژگی‌های پیچیده می‌کنه که توسط کدگذار فشرده شدن. در این فرآیند، هر مرحله شامل مراحل زیره:

🔵انبساط (Up-sampling): در این مرحله، ابعاد ویژگی‌ها افزایش پیدا می‌کنه. این کار معمولاً از طریق تکنیک‌هایی مثل Transposed Convolution (که گاهی اوقات به عنوان Deconvolution هم شناخته می‌شه) انجام می‌شه.

🔵ادغام اتصالات انتقالی: بعد از انبساط، ویژگی‌های انتقالی از کدگذار با ویژگی‌های فعلی ادغام می‌شن تا اطلاعات مکانی رو حفظ کنن.

🔵کانولوشن: بعد از ادغام، یک یا چند لایه کانولوشنی اعمال می‌شن تا ویژگی‌ها رو دوباره تنظیم کنن و به تصویر بازسازی شده نزدیک‌تر شن.

🔵فعال‌ساز: معمولاً از توابع فعال‌ساز مثل ReLU برای غیرخطی‌ کردن فرآیند استفاده می‌شه.

این مراحل به طور متوالی تکرار می‌شن تا تصویر ورودی به طور کامل بازسازی شه. در نهایت، یک لایه کانولوشنی نهایی برای تولید خروجی نهایی که تقسیم‌بندی تصویره، استفاده میشه.

معماری یونت به دلیل توانایی در کار با تصاویری که نیاز به تحلیل دقیق و بازسازی جزئیات دارن، بسیار محبوبه و در بسیاری از زمینه‌های پژوهشی و کاربردی به کار رفته.

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👌3👨‍💻1
🎞 مقاله شبکه عصبی یونت | U-Net 2015

درک ساختار U-Net به درک مفهوم AutoEncodrs کمک می‌کنه و در این ویدیو به بهونه بررسی مقاله U-Net، با فرآیند down/up sampling که در ساختار encode/decoder ها استفاده میشه آشنا خواهیم شد.

👉📎 https://youtu.be/jAO237BNZXM

#Deep_Learning
#AutoEncoders
#YouTube

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1👌1
👨‍🎓 کاربردهای خودرمزنگارها

🔵کاهش بعد

یکی از متداول‌ترین کاربردهای خودرمزنگارها، کاهش بعد داده‌هاست. در دنیای واقعی، داده‌ها معمولا دارای بعد بالا هستن و پردازش‌شون می‌تونه هم از نظر محاسباتی و هم از نظر زمانی هزینه‌بر باشه. خودرمزنگارها می‌تونن این داده‌ها رو به فضاهای کوچک‌تر و مدیریت‌پذیرتر تبدیل کنن.

🔵حذف نویز

خودرمزنگارهای دنویزینگ (Denoising AutoEncoders) به یادگیری نمایش داده‌ها به نحوی که نویز موجود در داده‌های ورودی حذف شه، می‌پردازن. این تکنیک بسیار مفید در پیش‌پردازش داده‌ها برای سایر الگوریتم‌های یادگیری ماشینه.

🔵تولید داده‌های جدید

خودرمزنگارهای واریانسی (Variational AutoEncoders) یک نوع خاص از خودرمزنگارها هستن که می‌تونن برای تولید داده‌های جدید استفاده شن. این خودرمزنگارها یک فضای پیوسته و هموار از داده‌ها رو فراهم می‌کنن که میشه ازش برای تولید نمونه‌های جدید با ویژگی‌های مشابه به داده‌های آموزش دیده استفاده کرد.

🔵تشخیص ناهنجاری

خودرمزنگارها می‌تونن برای تشخیص داده‌هایی که از الگوی عادی خارج هستن (ناهنجاری‌ها) استفاده شن. این کاربرد در صنایع مختلف مثل تشخیص تقلب در تراکنش‌های بانکی یا شناسایی خطاها در سیستم‌های مکانیکی اهمیت داره.

🔵پیشرفت‌های اخیر

اخیراً، تکنیک‌های پیشرفته‌تری در زمینه خودرمزنگارها توسعه پیدا کردن. برای مثال، خودرمزنگارهای توزیع شده که می‌تونن به طور همزمان روی چند سرور یا دستگاه پردازش داده‌ها رو انجام بدن و برای داده‌های بزرگ‌مقیاس بسیار مفیدن.

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
4👌3👍2👨‍💻1
🧑‍🎓 معماری U-Net چیه؟ معماری برتر برای پردازش تصاویر دیجیتال رو بشناسین!

معماری U-Net به‌عنوان یکی از معماری‌های برجسته در پردازش و بخش‌بندی تصاویر در علوم کامپیوتر شناخته شده و در حوزه‌هایی که داده‌های محدودی در دسترس هستن، تحولی بزرگی ایجاد کرده.

🟢برای مطالعه بیشتر کلیک کنین:

👉📎 ctdrs.ir/ds0248

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥42👏1
🧑‍🎓 با اتوانکدرهای متغیر یا Variational Auto Encoders آشنا شوید!

اتوانکدرهای متغیر (VAEs) امکان استخراج الگوها و معانی ساده‌تر از داده‌های نویزدار رو فراهم می‌کنن، و رویکرد جدیدی در تفسیر اطلاعات ارائه می‌دن.

🟢برای مطالعه بیشتر کلیک کنین:

👉📎 ctdrs.ir/ds0250

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👏1👌1
پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺 آموزشی

🔵آشنایی با خودرمزگذارها یا AutoEncoders
👉🔗 https://t.iss.one/data_ml/412

🔵آشنایی با رمزگذار یا Encoder
👉🔗 https://t.iss.one/data_ml/415

🔵فضای پنهان یا Latent Space
👉🔗 https://t.iss.one/data_ml/418

🔵آشنایی با رمزگشا یا Decoder
👉🔗 https://t.iss.one/data_ml/421

🔵معماری شبکه یونت (U-Net)
👉🔗 https://t.iss.one/data_ml/424

🔵کاربردهای خودرمزنگارها
👉🔗 https://t.iss.one/data_ml/427

🔺 کوئیز

🔵کوییز شماره ۱۱۵: اتوانکودرهای Denoising
👉🔗 https://t.iss.one/data_ml/413

🔵کوییز شماره ۱۱۶: کدگذارهای خودرمزنگار و RNNها
👉🔗 https://t.iss.one/data_ml/416

🔵کوییز شماره ۱۱۷: اهمیت تفسیرپذیری فضای پنهان
👉🔗 https://t.iss.one/data_ml/419

🔵کوییز شماره ۱۱۸: بهینه‌سازی Decoder در شبکه‌های اتوانکودر
👉🔗 https://t.iss.one/data_ml/422

🔵کوییز شماره ۱۱۹: مزیت رقابتی U-Net نسبت به مدل‌های دیگه
👉🔗 https://t.iss.one/data_ml/425

🔵کوییز شماره ۱۲۰: استفاده از خودرمزنگارها در سیستم‌های توصیه‌گر
👉🔗 https://t.iss.one/data_ml/428

🔺 نکته

🔵 انواع اتوانکودرها
👉🔗 https://t.iss.one/data_ml/414

🔵قطعه کد ایجاد یک Encoder
👉🔗 https://t.iss.one/data_ml/417

🔵چه عواملی روی ظرفیت و اندازه فضای پنهان در یک خودرمزنگار تأثیر گذارن؟
👉🔗 https://t.iss.one/data_ml/420

🔵بلاگ اتوانکدر
👉🔗 https://t.iss.one/data_ml/423

🔵ویدئو مقاله شبکه عصبی یونت | U-Net 2015
👉🔗 https://t.iss.one/data_ml/426

🔵بلاگ معماری U-Net
👉🔗 https://t.iss.one/data_ml/429

🔵بلاگ اتوانکدرهای متغیر (VAEs)
👉🔗 https://t.iss.one/data_ml/430

#Weekend
#Deep_Learning

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5👌31👨‍💻1
👩‍🎓 برنامه آموزشی هفته: روش‌های Word Embedding

🟠شنبه: آشنایی کلی با روش‌های Word Embedding

🔵یک‌شنبه: مدل‌های دسته‌ای یا Categorical

🟢دوشنبه: مدل‌های آماری یا Statistical

🔴سه‌شنبه: مدل‌های بردار متراکم یا Dense Vector

🟠چهارشنبه: مدل‌های زبانی محتوا محور

🔵پنج‌شنبه: کاربردها، مزایا و معایب

🟢جمعه: جمع بندی

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72👨‍💻2👌1
👨‍🎓 آشنایی با روش‌های تعبیه برداری لغات یا Word Embedding

تعبیه کلمه (Word Embedding)، روشی در پردازش زبان طبیعیه (NLP) که در اون کلمات، عبارات یا جملات به صورت نمایش‌های عددی یا بردارهایی در فضاهای چندبُعدی تبدیل می‌شن. این بردارها می‌تونن ویژگی‌ها و مفاهیم مختلف لغوی و معنایی رو بیان کنن.

تعبیه کلمات به ماشین اجازه می‌ده تا درک بهتری از متن داشته باشه، به این صورت که کلمات با مفاهیم مشابه، نزدیک به هم و کلمات با مفاهیم متفاوت، دور از هم قرار می‌گیرن.

🔵 انواع روش‌های تعبیه کلمه

🔵تعبیه کلمه دسته‌ای (Categorical Embedding)

در این روش برای کلمات نمایش‌هایی با ابعاد بزرگ و مقادیر ۰ و ۱ ایجاد میشه که بهینه‌ نیستن. تعبیه کلمه دسته‌ای بردارهایی با ابعاد بسیار بالا و sparse (پراکنده) رسم می‌کنه و نهایتا برای کلمات بدون درکی از متن یا محاسبه‌ای فقط یک عدد مشخص میشه.

از مدل‌های معروف این روش میشه به Bag of Words و One-Hot Encoding اشاره کرد و مشکلاتی مثل هزینه محاسبات بالا و غیر کارآمد بودن داره. در این روش به عنوان خروجی یک بردار ساده داریم.

🔵تعبیه کلمه آماری (Statistical Embedding)

این روش بردار محوره اما برای کلمه‌ای که چند معنی داره، نمی‌تونه چند بردار خروجی بده. در نتیجه به عنوان خروجی بردارهای ثابتی داریم که بر پایه فرمول هستن و درکی از متن ندارن. از معروف‌ترین مدل‌های تعبیه‌ آماری میشه به tf/idf، LDA، LSA و مدل‌های N-gram اشاره کرد.

🔵تعبیه کلمه برداری چگال (Dense Vector Embedding)

در این نوع مدل نحوه تعبیه کلمات رو یادمی‌گیره و ما به صورت دستی یا آماری این کار رو انجام نمی‌دیم. یعنی توسط شبکه‌های عصبی سبک (Shallow NNs) در یک فرآیند تکراری یادگیری اتفاق می‌افته.

خروجی این روش وکتورهای ثابت بر پایه شبکه‌ عصبیه، درکی از متن ندارن (context-free) و از مدل‌های معروف این روش میشه به word2vec، GloVe و FastText اشاره کرد.

🔵تعبیه کلمه متناظر (Contextualized Embedding)

این روش، تکامل یافته‌ترین حالت ممکنه و بردار کلمات رو بر پایه متن یادمی‌گیره و از متن درک داره (context-aware). در Contextualized Embedding هر کلمه بر اساس متن یا جمله‌ای که در اون ظاهر می‌شه، نمایش متفاوتی داره در نتیجه به عنوان خروجی بردارهای پویا داریم.

مدل‌هایی مثل BERT یا GPT از این روش استفاده می‌کنن. در این مدل‌ها، معنا و کاربرد کلمات با تغییر زمینه تغییر می‌کنه، که در نتیجه به درک بهتر نقش و معنای کلمات در جملات مختلف کمک میشه.

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52👌1👨‍💻1
👨‍🎓 مدل‌های تعبیه کلمات دسته‌ای یا Categorical

تعبیه دسته‌ای فرآیندیه که طی‌اش داده‌های دسته‌ای به فضاهای برداری پیوسته تبدیل می‌شن. این تبدیل انجام میشه تا الگوریتم‌های یادگیری ماشین بتونن این داده‌ها رو به شکل موثرتری درک و پردازش کنن.

تعبیه‌ها نوعی نمایش غنی‌تر و فشرده‌تر از داده‌ها هستن که در اونها همبستگی‌ها و ویژگی‌های پنهان در داده‌ها بهتر نشون داده میشه.

🔵 مدل‌های تعبیه دسته‌ای

🔵One-hot Encoding

این روش ساده‌ترین روش تبدیل داده‌های دسته‌ای به برداره. در One-hot Encoding، برای هر دسته، یک ویژگی جدید ایجاد می‌کنیم که مقدارش فقط ۰ یا ۱ هست. این روش در داده‌هایی با تعداد دسته‌های محدود مفیده اما وقتی تعداد دسته‌ها زیاد شه، فضای زیادی اشغال میشه و کارایی مدل کاهش پیدا می‌کنه.

🔵Bag of Words (BoW)

این روش بیشتر در تجزیه و تحلیل متن به کار می‌ره. BoW یک داده متنی رو به مجموعه‌ای از توکن‌ها تقسیم می‌کنه و بر اساس تعداد دفعات ظهور هر توکن در متن، یک بردار تولید میشه. این روش هم می‌تونه در داده‌هایی با ویژگی‌های دسته‌ای استفاده شه.

🔵 مزایا

🔵کاهش بعد: تعبیه‌ها امکان کاهش ابعاد داده‌های ورودی رو فراهم می‌کنن، به این ترتیب که اطلاعات مربوطه در بردارهای کوچکتر جمع‌آوری می‌شن.

🔵کشف روابط پنهان: تعبیه‌ها امکان کشف و نمایش روابط پیچیده و غیرخطی بین دسته‌ها رو فراهم می‌کنن.

🔵 معایب

🔵پیچیدگی محاسباتی: روش‌های پیچیده‌تر تعبیه ممکنه نیازمند منابع محاسباتی بیشتری باشن.

🔵ریسک بیش‌برازش: در صورت استفاده نادرست از تعبیه‌ها، مدل به داده‌های آموزشی بیش‌برازش پیدا می‌کنه.

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5👌2👨‍💻1
👨‍🎓 مدل‌های تعبیه کلمات آماری یا Statistical

این روش بردار محوره اما برای کلمه‌ای که چند معنی داره، نمی‌تونه چند بردار خروجی بده. در نتیجه به عنوان خروجی بردارهای ثابتی داریم که بر پایه فرمول هستن و درکی از متن ندارن. از معروف‌ترین مدل‌های تعبیه‌ آماری میشه به tf/idf، LDA، LSA و مدل‌های N-gram اشاره کرد.

🔵 مدل‌های تعبیه آماری

🔵Term Frequency-Inverse Document Frequency (TF-IDF)

این روش بر اساس دو مؤلفه اصلی کار می‌کنه: Term Frequency (TF) و Inverse Document Frequency (IDF)

مؤلفه اول نشون‌دهنده تعداد دفعاتیه که یک کلمه در یک سند خاص ظاهر می‌شه. این مؤلفه به طور مستقیم به تکرار کلمه در سند بستگی داره. مؤلفه دوم تأثیر تعداد اسنادی که شامل یک کلمه خاص هستن رو اندازه‌گیری می‌کنه و با افزایش تعداد اسناد حاوی کلمه، وزن کلمه مورد نظر کاهش پیدا می‌کنه.

این روش به خصوص در مواردی کاربرد داره که نیاز به تشخیص اهمیت نسبی کلمات در یک مجموعه سنده، مثل موتورهای جستجو و فیلترینگ اطلاعات.

🔵Latent Semantic Analysis (LSA)

این مدل به کمک تجزیه مقادیر منفرد (SVD)، روابط پنهان بین کلمات و اسناد رو کشف می‌کنه. با این کار، مفاهیم معنایی که کلمات در متن‌های مختلف به اشتراک می‌ذارن، آشکار می‌شه، حتی اگه از کلمات متفاوتی استفاده شده باشه. این روش می‌تونه به فهم بهتر محتوا و توسعه سیستم‌های توصیه‌گر کمک کنه.

🔵Latent Dirichlet Allocation (LDA)

این روش از یک رویکرد احتمالاتی استفاده می‌کنه که هر سند رو به عنوان ترکیبی از چند موضوع مدل می‌کنه، و هر کلمه رو به احتمالات مختلف به این موضوعات نسبت می‌ده. این مدل برای کشف ساختارهای موضوعی در داده‌های بزرگ بسیار مفیده و می‌تونه در فهم بهتر محتوای متنی و طبقه‌بندی اسناد کمک کنه.

🔵N-gram Models

مدل‌های N-gram به بررسی توالی‌های n کلمه‌ای می‌پردازن و می‌تونن توالی‌ها و ساختارهای زبانی رو در متن به خوبی نشون بدن. این روش به خصوص در مدل‌هایی که به پیش‌بینی کلمه بعدی یا تشخیص دستور زبانی نیاز دارن، کاربرد داره.

🔵 مزایا

🔵کاهش بُعد: یکی از بزرگ‌ترین مزایای استفاده از تعبیه برداری لغات آماری، کاهش بعد داده‌های متنیه. این کاهش بعد امکان کار با داده‌های بزرگتر و پیچیده‌تر رو فراهم می‌کنه.

🔵تعمیم‌پذیری: Embedding به مدل‌ها کمک می‌کنه تا دانش کلی‌تر و قابل تعمیم‌تری نسبت به ویژگی‌های زبانی داشته باشن.

🔵 معایب

🔵عدم تفکیک معانی مختلف: یکی از اصلی‌ترین محدودیت‌های Statistical Embedding اینکه برای کلماتی که دارای چند معنی هستن، نمی‌تونن بردارهای متفاوتی ارائه بدن.

🔵ثبات بردارها: بردارهای حاصل از امبدینگ‌های آماری بر پایه فرمول‌های ثابت تولید می‌شن و تغییری در اونها ایجاد نمی‌شه، حتی اگه متنی که ازشون استخراج می‌شه، تغییر کنه. این کار در شرایطی که نیاز به درک عمیق‌ و پویایی متن وجود داره، محدودکننده است.

🔵عدم درک متن: از اونجایی که این بردارها فقط بر اساس توزیع آماری و تکرار کلمات ساخته می‌شن، نمی‌تونن درک واقعی از محتوای متن داشته باشن.

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4👌1👨‍💻1
📝 جمع‌بندی روش‌های تعبیه برداری لغات

این مقاله مدیوم، یه جمع‌بندی مختصر و مفید از انواع روش‌های Word Embedding ارائه داده که به تثبیت دانش شما در این زمینه خیلی کمک می‌کنه.

پی‌نوشت (یه نظر شخصی): بعد یادگیری یه مبحث برین جمع‌بندی‌، خلاصه‌سازی و نمودارهای کلی مربوط بهش رو بخونین که این کار خیلی به یادگیری‌ عمیق‌تر کمک می‌کنه و زمانیکه تونستین برای یه مبحث خلاصه‌سازی انجام بدین، بدونین کامل یادش گرفتین.

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👌2👨‍💻1
👨‍🎓 مدل‌های تعبیه کلمات بردار متراکم یا Dense Vector Embedding

تعبیه برداری متراکم به فرآیند تبدیل کلمات به بردارهای عددی متراکم در فضای چند بعدی میگن. هر کلمه به یک بردار عددی منتقل می‌شه که در اون هر بُعد نمایانگر یک ویژگی خاص از کلمه است. این بردارها معمولاً توسط مدل‌هایی مثل شبکه‌های عصبی به دست میان.

تعبیه بردار متراکم از شبکه‌های عصبی سبک (Shallow Neural Networks) برای یادگیری نحوه تعبیه کلمات استفاده می‌کنه و در اون یک فرآیند تکراری برای بهینه‌سازی تعبیه‌ها انجام میشه. در نتیجه، مدل توانایی ایجاد بردارهایی رو داره که نشون‌دهنده روابط معنایی بین کلمات در داده‌های آموزشی هستن.

🔵 انواع تعبیه برداری متراکم

🔵Word2Vec

این روش یکی از محبوب‌ترین مدل‌ها برای تولید تعبیه‌های برداریه که دو روش اصلی، CBOW (Continuous Bag of Words) و Skip-gram رو پیشنهاد می‌کنه. در CBOW، کلمه هدف از روی کلمات اطرافش پیش‌بینی می‌شه، در حالی که در Skip-gram، کلمات اطراف از روی کلمه هدف پیش‌بینی می‌شن.

🔵GloVe (Global Vectors for Word Representation)

این مدل روی ماتریس تعداد همراهی کلمات (co-occurrence) تمرکز داره و از روابط آماری بین کلمات در یک متن بزرگ برای یادگیری تعبیه‌ها استفاده می‌کنه.

🔵FastText

این مدل، توسعه‌یافته توسط فیسبوک، توانایی کار با کلمات خارج از واژگان رو داره و این کار رو با استفاده از بخش‌های کوچک‌تر از کلمات (subwords) ممکن می‌کنه. FastText می‌تونه برای زبان‌هایی با تغییر شکل‌های زیاد مفید باشه.

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3👌3👨‍💻1
کوییز شماره ۱۲۳: اگه یک پروژه نیاز به تحلیل دقیق داده‌های متنی با وجود نویز زیاد داشته باشه، کدوم مدل رو باید انتخاب کنیم؟
Anonymous Quiz
31%
Word2Vec
18%
GloVe
28%
FastText
23%
همه‌ی مدل‌ها مناسبن
😎4🤔3👍2
🎞 Word Embedding and Word2Vec, Clearly Explained!

اگه بخوایم از کلمات به عنوان ورودی یک شبکه عصبی استفاده کنیم، باید آنها رو به اعداد تبدیل کنیم. یکی از محبوب‌ترین روش‌ها برای تخصیص اعداد به کلمات برای استفاده در شبکه‌های عصبی تعبیه برداری لغاته و این ویدئو با لحن ساده و جالب این موضوع رو توضیح داده.

👉📎 https://youtu.be/viZrOnJclY0

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👌21👨‍💻1