آموزش دیتاساینس و ماشین‌لرنینگ
1.89K subscribers
161 photos
9 videos
134 links
🔴 آموزش مباحث حوزه دیتا شامل علم داده، یادگیری ماشین و تحلیل داده (رضا شکرزاد)

🌀 کانال اخبار و منابع هوش مصنوعی:
@DSLanders

🌀 مشاوره و ارتباط مستقیم:
https://t.iss.one/dslanders_admin

یوتیوب:
Youtube.com/@RezaShokrzad

دوره‌ها:
cafetadris.com/datascience
Download Telegram
👨‍🎓 آشنایی با رمزگذار یا Encoder در شبکه‌های خودرمزنگار

رمزگذار بخشی از شبکه‌ست که وظیفه‌ی فشرده‌سازی داده‌های ورودی رو به عهده داره. این بخش از شبکه تلاش می‌کنه تا ویژگی‌های مهم و بنیادین داده‌ها رو درک کنه و اونها رو به یک بردار کوچکتر معروف به "کد" تبدیل کنه. کدگذارها به ما اجازه می‌دن که با داده‌های کمتر، بیشتر ببینیم و درک کنیم.

🔵 نحوه کار رمزگذار

رمزگذار معمولاً شامل چند لایه‌ست که می‌تونه شامل لایه‌های کاملاً متصل (fully connected layers)، لایه‌های کانولوشنی (convolutional layers) یا حتی لایه‌های تکراری (recurrent layers) باشه.

هر لایه از نورون‌هایی تشکیل شده که وزن‌ها و بایاس‌های خاص خودشون رو دارن. این نورون‌ها با گذروندن داده‌ها از توابع فعال‌ساز خاص، به تدریج ویژگی‌های مورد نیاز رو استخراج و کد می‌کنن.

🔵 تکنیک‌های پیشرفته در رمزگذارها

در مدل‌های پیشرفته‌تر، رمزگذارها ممکنه از تکنیک‌هایی مثل رگولاریزاسیون (Regularization) برای جلوگیری از بیش‌برازش استفاده کنن. علاوه بر این، میشه از خودرمزنگار متغیر (Variational Autoencoders) که مدل‌های احتمالی هستن هم استفاده کرد تا یک توزیع احتمالی از داده‌ها رو در فضای کد مدل‌سازی کنن.

🔵 کاربردهای Encoderها

رمزگذارها کاربردهای زیادی از جمله کاهش بعد، حذف نویز از داده‌ها (denoising)، آموزش بدون نظارت و حتی تولید داده‌های جدید دارن. این ابزارها به دلیل توانایی‌شون در درک و فشرده‌سازی داده‌ها، در از زمینه‌های پزشکی، تشخیص چهره و مالی استفاده دارن.

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👌5👍32👨‍💻1
🔵 قطعه کد ایجاد یک Encoder

در این کد، یک کدگذار ساده در شبکه‌های خودرمزنگار با استفاده از کتابخانه‌ی Keras و با هدف کاهش بعد داده‌های تصویری پیاده‌سازی شده.

import numpy as np
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model

def build_autoencoder(input_dim, encoding_dim):
# تعریف ورودی
input_img = Input(shape=(input_dim,))

# لایه‌ی کدگذار
encoded = Dense(encoding_dim, activation='relu')(input_img)

# لایه‌ی کدگشا
decoded = Dense(input_dim, activation='sigmoid')(encoded)

# مدل خودرمزنگار کامل
autoencoder = Model(input_img, decoded)

# مدل کدگذار
encoder = Model(input_img, encoded)

# مدل کدگشا
# برای ساخت کدگشا به یک ورودی برای لایه‌های کدگشا نیاز داریم
encoded_input = Input(shape=(encoding_dim,))
decoder_layer = autoencoder.layers[-1]
decoder = Model(encoded_input, decoder_layer(encoded_input))

autoencoder.compile(optimizer='adam', loss='binary_crossentropy')

return autoencoder, encoder, decoder

# پارامترهای مدل
input_dim = 784 # مثلا برای تصاویر MNIST با ابعاد 28x28
encoding_dim = 32 # ابعاد فضای ویژگی که می‌خواهیم داده‌ها را به آن تبدیل کنیم

autoencoder, encoder, decoder = build_autoencoder(input_dim, encoding_dim)

autoencoder.summary()
encoder.summary()
decoder.summary()


#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👌31👨‍💻1
👨‍🎓 فضای پنهان یا Latent Space

فضای پنهان در مفهوم خودرمزنگار، به بخشی از شبکه اشاره داره که داده‌های ورودی رو به نمایشی فشرده‌تر تبدیل می‌کنه. این فضا معمولاً بین رمزگذار و رمزگشا قرار می‌گیره و محتوای اطلاعاتی مفید و مرتبط برای بازسازی داده‌ها رو در خودش جا می‌ده. فضای پنهان نقش مهمی در یادگیری ویژگی‌های معنادار داده‌ها داره و به عنوان یک نقطه فشرده سازی داده‌ها عمل می‌کنه.

🔵 کاربردهای فضای پنهان

این فضا می‌تونه کاربردهای مختلفی مثل کاهش بعد داده‌ها، دسته‌بندی، تشخیص ناهنجاری و یادگیری بدون نظارت داشته باشه و به عنوان یک نقطه مهم برای فهم و تحلیل داده‌ها عمل می‌کنه. همچنین اجازه می‌ده تا الگوهای پیچیده و ساختارهای زیربنایی در داده‌ها شناسایی شن.

🔵فضای پنهان باید به نحوی طراحی شه که بتونه ویژگی‌های مهم داده‌ها رو حفظ کنه؛ پس معماری شبکه و تابع هزینه‌ای که برای آموزش خودرمزنگار استفاده می‌شه مهمه.

🔵در سطح پیشرفته‌تر، مطالعه Latent Space شامل بررسی نحوه تنظیم شبکه‌ها برای به دست آوردن نمایش‌هاییه که کارآمدتر و معنادارتر هستن. تکنیک‌هایی مثل آموزش تقویتی، نظارت شده و نیمه‌نظارتی به بهبود کارایی فضای پنهان کمک می‌کنن. همچنین، استفاده از خودرمزنگارهای متغییر (Variational AutoEncoders) که یک نمونه از خودرمزنگارها با قابلیت تولید نمونه‌های جدید از فضای پنهانه، هم بسیار مورد توجه قرار گرفته. این مدل‌ با استفاده از روش‌های آماری، فضای پنهان رو به نحوی مدل‌سازی می‌کنه که داده‌های جدید با ویژگی‌های مشابه به داده‌های آموزشی باشن.

🔵یکی از چالش‌های اصلی در کار با خودرمزنگارها و فضای پنهان، تعیین میزان فشرده‌سازی مناسبه. اگه فضای پنهان بیش از حد فشرده شه، اطلاعات مهم از دست می‌رن و بازسازی داده‌ها با خطاهای زیادی همراه خواهد بود. از طرف دیگه، اگه فشرده‌سازی کافی نباشه، مدل ممکنه نتونه به خوبی تفاوتهای مهم بین داده‌های مختلف رو یاد بگیره.
#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👌5👍3👨‍💻2
📝 چه عواملی روی ظرفیت و اندازه فضای پنهان در یک خودرمزنگار تأثیر گذارن؟

🔵پیچیدگی داده‌های ورودی: داده‌های پیچیده‌تر با ویژگی‌های بیشتر ممکنه نیازمند یک فضای پنهان با ابعاد بزرگتر برای نگه‌داری اطلاعات باشن.

🔵هدف مدل‌سازی: اگه هدف کاهش ابعاد برای تجزیه و تحلیل داده‌ها باشه، احتمالا یک فضای پنهان کوچک‌تر مناسبه؛ در حالی که برای بازسازی داده‌ها با دقت بالا، فضای پنهان بزرگتری نیازه.

🔵معماری خودرمزنگار: تعداد و اندازه لایه‌ها و نورون‌ها در شبکه، مستقیماً روی اندازه و ظرفیت فضای پنهان تأثیر می‌گذاره.

🔵رگولاریزاسیون: استفاده از روش‌های رگولاریزاسیون مثل L1 و L2 به کنترل اندازه فضای پنهان کمک می‌کنه تا از بیش‌برازش جلوگیری شه.

🔵تنظیمات آموزش: نرخ یادگیری، تعداد epochها و سایر پارامترهای آموزشی روی توانایی شبکه در یادگیری نمایش‌های مؤثر در فضای پنهان تأثیر گذارن.

در نهایت، تعادل بین ظرفیت Latent Space و توانایی شبکه برای بازسازی داده‌ها، به دقت فرایند یادگیری و هدف نهایی مدل بستگی داره. انتخاب درست اندازه و ظرفیت این فضا به بهینه‌سازی عملکرد خودرمزنگار در کاربردهای مختلف کمک می‌کنه.

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62👌1
👨‍🎓 آشنایی با رمزگشا یا Decoder

رمزگشا بخشی از اتوانکودره که وظیفه‌ی بازسازی داده‌های ورودی رو از نمایش فشرده‌ای که توسط رمزگذار ایجاد شده، به عهده داره. به طور ساده، اگه انکودر وظیفه فشرده‌سازی داده‌ها رو داره، دیکودر وظیفه‌ی بازگرداندن اونها به حالت اصلی (یا نزدیک بهش) رو داره.

🔵 معماری Decoder

معماری دیکودر می‌تونه به شکل‌های مختلفی باشه اما اغلب شامل لایه‌هایی هست که عملکردی معکوس نسبت به لایه‌های انکودر دارن. این لایه‌ها ممکنه شامل کانولوشن، لایه‌های کاملاً متصل و یا حتی لایه‌های نرمال‌سازی باشن.

🔵 عملکرد Decoder

عملکرد Decoder مستقیماً تحت تاثیر کیفیت نمایش ارائه شده توسط Encoder قرار داره. اگه نمایش فشرده دارای اطلاعات کافی و مرتبط با ویژگی‌های داده‌های ورودی باشه، رمزگشا می‌تونه بازسازی دقیق‌تری انجام بده. در نتیجه کیفیت آموزش Encoder روی عملکرد Decoder تاثیر مستقیم داره.

🔵در پیشرفته‌ترین تحقیقات، دیکودرها می‌تونن با استفاده از تکنیک‌های پیچیده‌تر مثل یادگیری تقویتی، بهینه‌سازی شن تا بازسازی‌های دقیق‌تری ارائه بدن.

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4👌3👨‍💻1
🧑‍🎓 اتوانکدر چیست و در پردازش داده چه تحولی ایجاد کرده است؟

اتوانکدر از مفاهیم مهم حوزه یادگیری عمیقه که برای یادگیری ویژگی‌های نهفته در داده‌ها و بازسازی اطلاعات با کاهش بعد به کار می‌ره. این تکنولوژی به‌خصوص در مواردی که نیاز به کاهش ابعاد داده‌ها با حفظ اطلاعات مهم وجود داره، کاربرد فراوانی داره.

🟢برای مطالعه بیشتر کلیک کنین:

👉📎 ctdrs.ir/ds0246

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👌32👨‍💻1
👨‍🎓 معماری شبکه یونت (U-Net)

یونت یک معماری شبکه عمیق برای تجزیه و تحلیل تصویره که اولین بار برای کاربردهای پزشکی، مثل تصویربرداری از بافت‌های زیستی استفاده شد. این معماری توسط Olaf Ronneberger و همکارانش در سال 2015 ارائه شد و به سرعت به یکی از محبوب‌ترین مدل‌ها برای وظایف تقسیم‌بندی تصویر تبدیل شد.

🔵 ساختار کلی

معماری یونت شبیه به حرف "U" هست و به همین دلیل نام گذاریش به این صورته. این معماری از دو بخش اصلی تشکیل شده: کدگذار (Encoder) و کدگشا (Decoder).

🔵کدگذار (Encoder): کدگذار شامل چند لایه است که وظیفه‌اش استخراج ویژگی‌ها از تصویر ورودیه. به تدریج که به سمت انتهای کدگذار پیش می‌ریم، ویژگی‌های بیشتر و پیچیده‌تری استخراج می‌شن و ابعاد فضایی تصویر کاهش پیدا می‌کنه.

🔵کدگشا (Decoder): کدگشا وظیفه بازسازی تصویر از ویژگی‌های استخراج شده رو داره تا به یک نقشه ویژگی با ابعاد اصلی برسه. این فرآیند به طور معمول شامل لایه‌های Up-sampling هست که باعث می‌شن ابعاد تصویر افزایش پیدا کنه.

🔵 Skip Connection

یکی از ویژگی‌های اصلی یونت، استفاده از اتصالات انتقالی بین لایه‌های متناظر کدگذار و کدگشاست. این اتصالات به اطلاعات موجود در کدگذار اجازه می‌دن تا مستقیماً به کدگشا منتقل شن، که باعث بهبود دقت بازسازی و کمک به حفظ جزئیات مکانی می‌شه.

🔵 جزئیات رمزگشا (Decoder) در این معماری

رمزگشا در معماری یونت شروع به بازسازی تصویر از مجموعه‌ای محدود از ویژگی‌های پیچیده می‌کنه که توسط کدگذار فشرده شدن. در این فرآیند، هر مرحله شامل مراحل زیره:

🔵انبساط (Up-sampling): در این مرحله، ابعاد ویژگی‌ها افزایش پیدا می‌کنه. این کار معمولاً از طریق تکنیک‌هایی مثل Transposed Convolution (که گاهی اوقات به عنوان Deconvolution هم شناخته می‌شه) انجام می‌شه.

🔵ادغام اتصالات انتقالی: بعد از انبساط، ویژگی‌های انتقالی از کدگذار با ویژگی‌های فعلی ادغام می‌شن تا اطلاعات مکانی رو حفظ کنن.

🔵کانولوشن: بعد از ادغام، یک یا چند لایه کانولوشنی اعمال می‌شن تا ویژگی‌ها رو دوباره تنظیم کنن و به تصویر بازسازی شده نزدیک‌تر شن.

🔵فعال‌ساز: معمولاً از توابع فعال‌ساز مثل ReLU برای غیرخطی‌ کردن فرآیند استفاده می‌شه.

این مراحل به طور متوالی تکرار می‌شن تا تصویر ورودی به طور کامل بازسازی شه. در نهایت، یک لایه کانولوشنی نهایی برای تولید خروجی نهایی که تقسیم‌بندی تصویره، استفاده میشه.

معماری یونت به دلیل توانایی در کار با تصاویری که نیاز به تحلیل دقیق و بازسازی جزئیات دارن، بسیار محبوبه و در بسیاری از زمینه‌های پژوهشی و کاربردی به کار رفته.

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👌3👨‍💻1
🎞 مقاله شبکه عصبی یونت | U-Net 2015

درک ساختار U-Net به درک مفهوم AutoEncodrs کمک می‌کنه و در این ویدیو به بهونه بررسی مقاله U-Net، با فرآیند down/up sampling که در ساختار encode/decoder ها استفاده میشه آشنا خواهیم شد.

👉📎 https://youtu.be/jAO237BNZXM

#Deep_Learning
#AutoEncoders
#YouTube

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1👌1
👨‍🎓 کاربردهای خودرمزنگارها

🔵کاهش بعد

یکی از متداول‌ترین کاربردهای خودرمزنگارها، کاهش بعد داده‌هاست. در دنیای واقعی، داده‌ها معمولا دارای بعد بالا هستن و پردازش‌شون می‌تونه هم از نظر محاسباتی و هم از نظر زمانی هزینه‌بر باشه. خودرمزنگارها می‌تونن این داده‌ها رو به فضاهای کوچک‌تر و مدیریت‌پذیرتر تبدیل کنن.

🔵حذف نویز

خودرمزنگارهای دنویزینگ (Denoising AutoEncoders) به یادگیری نمایش داده‌ها به نحوی که نویز موجود در داده‌های ورودی حذف شه، می‌پردازن. این تکنیک بسیار مفید در پیش‌پردازش داده‌ها برای سایر الگوریتم‌های یادگیری ماشینه.

🔵تولید داده‌های جدید

خودرمزنگارهای واریانسی (Variational AutoEncoders) یک نوع خاص از خودرمزنگارها هستن که می‌تونن برای تولید داده‌های جدید استفاده شن. این خودرمزنگارها یک فضای پیوسته و هموار از داده‌ها رو فراهم می‌کنن که میشه ازش برای تولید نمونه‌های جدید با ویژگی‌های مشابه به داده‌های آموزش دیده استفاده کرد.

🔵تشخیص ناهنجاری

خودرمزنگارها می‌تونن برای تشخیص داده‌هایی که از الگوی عادی خارج هستن (ناهنجاری‌ها) استفاده شن. این کاربرد در صنایع مختلف مثل تشخیص تقلب در تراکنش‌های بانکی یا شناسایی خطاها در سیستم‌های مکانیکی اهمیت داره.

🔵پیشرفت‌های اخیر

اخیراً، تکنیک‌های پیشرفته‌تری در زمینه خودرمزنگارها توسعه پیدا کردن. برای مثال، خودرمزنگارهای توزیع شده که می‌تونن به طور همزمان روی چند سرور یا دستگاه پردازش داده‌ها رو انجام بدن و برای داده‌های بزرگ‌مقیاس بسیار مفیدن.

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
4👌3👍2👨‍💻1
🧑‍🎓 معماری U-Net چیه؟ معماری برتر برای پردازش تصاویر دیجیتال رو بشناسین!

معماری U-Net به‌عنوان یکی از معماری‌های برجسته در پردازش و بخش‌بندی تصاویر در علوم کامپیوتر شناخته شده و در حوزه‌هایی که داده‌های محدودی در دسترس هستن، تحولی بزرگی ایجاد کرده.

🟢برای مطالعه بیشتر کلیک کنین:

👉📎 ctdrs.ir/ds0248

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥42👏1
🧑‍🎓 با اتوانکدرهای متغیر یا Variational Auto Encoders آشنا شوید!

اتوانکدرهای متغیر (VAEs) امکان استخراج الگوها و معانی ساده‌تر از داده‌های نویزدار رو فراهم می‌کنن، و رویکرد جدیدی در تفسیر اطلاعات ارائه می‌دن.

🟢برای مطالعه بیشتر کلیک کنین:

👉📎 ctdrs.ir/ds0250

#Deep_Learning
#AutoEncoders

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👏1👌1
پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺 آموزشی

🔵آشنایی با خودرمزگذارها یا AutoEncoders
👉🔗 https://t.iss.one/data_ml/412

🔵آشنایی با رمزگذار یا Encoder
👉🔗 https://t.iss.one/data_ml/415

🔵فضای پنهان یا Latent Space
👉🔗 https://t.iss.one/data_ml/418

🔵آشنایی با رمزگشا یا Decoder
👉🔗 https://t.iss.one/data_ml/421

🔵معماری شبکه یونت (U-Net)
👉🔗 https://t.iss.one/data_ml/424

🔵کاربردهای خودرمزنگارها
👉🔗 https://t.iss.one/data_ml/427

🔺 کوئیز

🔵کوییز شماره ۱۱۵: اتوانکودرهای Denoising
👉🔗 https://t.iss.one/data_ml/413

🔵کوییز شماره ۱۱۶: کدگذارهای خودرمزنگار و RNNها
👉🔗 https://t.iss.one/data_ml/416

🔵کوییز شماره ۱۱۷: اهمیت تفسیرپذیری فضای پنهان
👉🔗 https://t.iss.one/data_ml/419

🔵کوییز شماره ۱۱۸: بهینه‌سازی Decoder در شبکه‌های اتوانکودر
👉🔗 https://t.iss.one/data_ml/422

🔵کوییز شماره ۱۱۹: مزیت رقابتی U-Net نسبت به مدل‌های دیگه
👉🔗 https://t.iss.one/data_ml/425

🔵کوییز شماره ۱۲۰: استفاده از خودرمزنگارها در سیستم‌های توصیه‌گر
👉🔗 https://t.iss.one/data_ml/428

🔺 نکته

🔵 انواع اتوانکودرها
👉🔗 https://t.iss.one/data_ml/414

🔵قطعه کد ایجاد یک Encoder
👉🔗 https://t.iss.one/data_ml/417

🔵چه عواملی روی ظرفیت و اندازه فضای پنهان در یک خودرمزنگار تأثیر گذارن؟
👉🔗 https://t.iss.one/data_ml/420

🔵بلاگ اتوانکدر
👉🔗 https://t.iss.one/data_ml/423

🔵ویدئو مقاله شبکه عصبی یونت | U-Net 2015
👉🔗 https://t.iss.one/data_ml/426

🔵بلاگ معماری U-Net
👉🔗 https://t.iss.one/data_ml/429

🔵بلاگ اتوانکدرهای متغیر (VAEs)
👉🔗 https://t.iss.one/data_ml/430

#Weekend
#Deep_Learning

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5👌31👨‍💻1
👩‍🎓 برنامه آموزشی هفته: روش‌های Word Embedding

🟠شنبه: آشنایی کلی با روش‌های Word Embedding

🔵یک‌شنبه: مدل‌های دسته‌ای یا Categorical

🟢دوشنبه: مدل‌های آماری یا Statistical

🔴سه‌شنبه: مدل‌های بردار متراکم یا Dense Vector

🟠چهارشنبه: مدل‌های زبانی محتوا محور

🔵پنج‌شنبه: کاربردها، مزایا و معایب

🟢جمعه: جمع بندی

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72👨‍💻2👌1
👨‍🎓 آشنایی با روش‌های تعبیه برداری لغات یا Word Embedding

تعبیه کلمه (Word Embedding)، روشی در پردازش زبان طبیعیه (NLP) که در اون کلمات، عبارات یا جملات به صورت نمایش‌های عددی یا بردارهایی در فضاهای چندبُعدی تبدیل می‌شن. این بردارها می‌تونن ویژگی‌ها و مفاهیم مختلف لغوی و معنایی رو بیان کنن.

تعبیه کلمات به ماشین اجازه می‌ده تا درک بهتری از متن داشته باشه، به این صورت که کلمات با مفاهیم مشابه، نزدیک به هم و کلمات با مفاهیم متفاوت، دور از هم قرار می‌گیرن.

🔵 انواع روش‌های تعبیه کلمه

🔵تعبیه کلمه دسته‌ای (Categorical Embedding)

در این روش برای کلمات نمایش‌هایی با ابعاد بزرگ و مقادیر ۰ و ۱ ایجاد میشه که بهینه‌ نیستن. تعبیه کلمه دسته‌ای بردارهایی با ابعاد بسیار بالا و sparse (پراکنده) رسم می‌کنه و نهایتا برای کلمات بدون درکی از متن یا محاسبه‌ای فقط یک عدد مشخص میشه.

از مدل‌های معروف این روش میشه به Bag of Words و One-Hot Encoding اشاره کرد و مشکلاتی مثل هزینه محاسبات بالا و غیر کارآمد بودن داره. در این روش به عنوان خروجی یک بردار ساده داریم.

🔵تعبیه کلمه آماری (Statistical Embedding)

این روش بردار محوره اما برای کلمه‌ای که چند معنی داره، نمی‌تونه چند بردار خروجی بده. در نتیجه به عنوان خروجی بردارهای ثابتی داریم که بر پایه فرمول هستن و درکی از متن ندارن. از معروف‌ترین مدل‌های تعبیه‌ آماری میشه به tf/idf، LDA، LSA و مدل‌های N-gram اشاره کرد.

🔵تعبیه کلمه برداری چگال (Dense Vector Embedding)

در این نوع مدل نحوه تعبیه کلمات رو یادمی‌گیره و ما به صورت دستی یا آماری این کار رو انجام نمی‌دیم. یعنی توسط شبکه‌های عصبی سبک (Shallow NNs) در یک فرآیند تکراری یادگیری اتفاق می‌افته.

خروجی این روش وکتورهای ثابت بر پایه شبکه‌ عصبیه، درکی از متن ندارن (context-free) و از مدل‌های معروف این روش میشه به word2vec، GloVe و FastText اشاره کرد.

🔵تعبیه کلمه متناظر (Contextualized Embedding)

این روش، تکامل یافته‌ترین حالت ممکنه و بردار کلمات رو بر پایه متن یادمی‌گیره و از متن درک داره (context-aware). در Contextualized Embedding هر کلمه بر اساس متن یا جمله‌ای که در اون ظاهر می‌شه، نمایش متفاوتی داره در نتیجه به عنوان خروجی بردارهای پویا داریم.

مدل‌هایی مثل BERT یا GPT از این روش استفاده می‌کنن. در این مدل‌ها، معنا و کاربرد کلمات با تغییر زمینه تغییر می‌کنه، که در نتیجه به درک بهتر نقش و معنای کلمات در جملات مختلف کمک میشه.

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52👌1👨‍💻1