آموزش دیتاساینس و ماشین‌لرنینگ
1.89K subscribers
161 photos
9 videos
134 links
🔴 آموزش مباحث حوزه دیتا شامل علم داده، یادگیری ماشین و تحلیل داده (رضا شکرزاد)

🌀 کانال اخبار و منابع هوش مصنوعی:
@DSLanders

🌀 مشاوره و ارتباط مستقیم:
https://t.iss.one/dslanders_admin

یوتیوب:
Youtube.com/@RezaShokrzad

دوره‌ها:
cafetadris.com/datascience
Download Telegram
👨‍🎓 تعبیه برداری کلمه متناظر (Contextualized Embedding)

تعبیه برداری متناظر نوعی روش پیشرفته در پردازش زبان طبیعیه که به مدل‌ها امکان می‌ده تا بردارهای کلمات رو بر اساس متنی که در اون وجود دارن، شکل بدن. این روش، بر خلاف روش‌های قدیمی‌تر که در اونها بردار هر کلمه ثابت و مستقل از متن بود، بر پایه درک متن و زمینه (context-aware) کار می‌کنه.

🔵 مزایا

🔵دقت بالاتر در تحلیل معنایی: با توجه به زمینه، معنی دقیق‌تری از کلمات بدست میاد.

🔵انعطاف‌پذیری: توانایی شناسایی معانی متفاوت یک کلمه در زمینه‌های مختلف.

🔵بهبود درک ماشین از زبان طبیعی: کمک به مدل‌ها برای فهم بهتر ساختارها و نقش‌های گرامری در جملات.

🔵 معایب

🔵پیچیدگی محاسباتی بالا: نیاز به منابع محاسباتی بیشتر برای آموزش و اجرا.

🔵زمان آموزش طولانی‌تر: فرآیند آموزش ممکنه زمان‌بر باشه.

🔵محدودیت‌های حافظه: ذخیره‌سازی اطلاعات بیشتر برای هر کلمه با توجه به زمینه‌های مختلف نیاز به حافظه بیشتر داره.

🔵 انواع Contextualized Embedding

🔵BERT (Bidirectional Encoder Representations from Transformers)

مدل BERT یکی از پیشگامان در استفاده از Embedding متناظره که با استفاده از مکانیزم‌های توجه دوجهته، توانایی درک زمینه کلمات رو از هر دو جهت (چپ و راست) فراهم می‌کنه و در زمینه فهم ماشین از زبان طبیعی، اساس بسیاری از دست‌آوردهاست.

🔵GPT (Generative Pre-trained Transformer)

مدل GPT، که از خانواده ترنسفورمرهاست، یک مدل مولده و برای تولید متن به کار می‌ره. این مدل هم به صورت متناظر، بردارهای کلمه رو با توجه به زمینه موجود و با تمرکز روی تولید متن جدید و خلاق می‌سازه.

🔵 کاربردهای Contextualized Embedding

🔵ترجمه ماشینی: استفاده از Embedding‌های متناظر برای ترجمه دقیق‌تر متن‌ها با توجه به زمینه‌های فرهنگی و زبانی متفاوت کاربرد داره.

🔵تشخیص قصد و هدف کاربر: بهبود درک نیت کاربران در سیستم‌های پرسش و پاسخ خودکار با استفاده از در نظر گرفتن زمینه‌های گفتاری یا متنی.

🔵تحلیل احساسات: شناسایی و تفسیر دقیق‌تر احساسات کاربران از طریق تحلیل متون با زمینه‌های مختلف احساسی.

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👌2
🎞 Understanding BERT Embeddings and Tokenization

این ویدئو یوتیوب خیلی ساده توضیح می‌ده که تعبیه برداری لغت چیه و چطور با مدل از پیش آموزش دیده BERT این کار رو انجام بدیم.

👉📎 https://youtu.be/30zPz5Xz-8g

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👌1👨‍💻1
👨‍🎓 کاربردها، مزایا و معایب تعبیه برداری لغات

🔵 مزایا

🔵کاهش بعد داده‌ها: Embedding کلمات به مدل‌ها امکان می‌ده تا با استفاده از بردارهای کوچک‌تر، داده‌های متنی بزرگ و پیچیده رو پردازش کنن. در نتیجه بهبود کارایی محاسباتی و ذخیره‌سازی ممکن می‌شه.

🔵درک معنایی: Word Embedding به مدل‌های یادگیری ماشین کمک می‌کنه تا روابط معنایی بین کلمات رو درک کنن.

🔵عمومی‌سازی: از اونجایی که بردارهای تعبیه اجازه می‌دن که کلمات با معانی مشابه نزدیک به هم باشن، مدل‌های آموزش دیده با Embeddings می‌تونن بهتر عمومی‌سازی کنن و در موقعیت‌های جدید عملکرد بهتری داشته باشن.

🔵کمک به فهم راحت‌تر زبان‌های مختلف: Embedding کمک می‌کنه تا مدل‌ها توانایی درک و ترجمه زبان‌های مختلف رو داشته باشن، بدون اینکه نیاز به یک مدل اختصاصی برای هر زبان وجود داشته باشه. این ویژگی برای ترجمه ماشینی و سیستم‌های چندزبانه مفیده.

🔵کاربرد در تشخیص گفتار: Embeddings می‌تونه با تحلیل تنوع در لهجه‌های مختلف به فهم بهتر محتوای گفتاری و بهبود دقت سیستم‌های تشخیص گفتار کمک کنه.

🔵تقویت سیستم‌های پاسخگویی: با استفاده از Embedding، سیستم‌های پاسخگویی خودکار (مثل chatbots) می‌تونن مفهوم پرسش‌ها و درخواست‌های کاربران رو بهتر درک کنن، در نتیجه پاسخ‌های دقیق‌تر و طبیعی‌تری ارائه بدن.

🔵 معایب

🔵مشکلات مربوط به زبان‌های کم‌داده: در زبان‌هایی که داده‌های کمتری برای آموزش موجوده، تعبیه برداری لغات دقیق و کارآمد تولید نمیشه، چون نیازمند داده‌های زیاد و متنوع برای آموزشه.

🔵عدم درک زمینه: ساده‌ترین مدل‌های Embedding مثل Word2Vec یا GloVe نمی‌تونن تفاوت‌های معنایی ناشی از تغییر زمینه رو درک کنن.

🔵سوگیری‌های پنهان: Embedding می‌تونه بازتاب‌دهنده سوگیری‌های موجود در داده‌های آموزشی باشه، مثل سوگیری‌های جنسیتی یا نژادی.

🔵چالش‌های به‌روزرسانی: یکی از مشکلات Embedding اینکه به‌روزرسانی‌شون برای شامل کردن واژگان جدید یا تغییر معانی، نیازمند آموزش مجدد کل مدله که هزینه‌بر و زمان‌بره.

🔵 کاربردها

🔵صنعت: در صنایعی مثل فناوری مالی، بردارهای کلمه برای تجزیه و تحلیل احساسات در بازار، شناسایی تقلب، و بهینه‌سازی موتورهای جستجو استفاده می‌شن. برای مثال، شرکت‌های بزرگ داده از Embedding برای بهبود الگوریتم‌های توصیه‌گر استفاده می‌کنن.

🔵دنیای واقعی: در حوزه‌های پزشکی، Embeddings برای تحلیل متون پزشکی و بهبود دقت تشخیص بیماری‌ها کاربرد دارن. همچنین در تجزیه و تحلیل رسانه‌های اجتماعی برای شناسایی روندها و نظرات عمومی استفاده می‌شن.

#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51👌1👨‍💻1
🎞 پلی‌لیست پردازش زبان‌های طبیعی

پردازش زبان‌های طبیعی (NLP) یکی از شاخه‌های هوش مصنوعیه که به کامپیوترها این توانایی رو می‌ده متن‌ها و گفتار انسانی رو درک کنن. از ترجمه خودکار گرفته تا تجزیه و تحلیل احساسات و پاسخگویی به سؤالات، NLP نقش مهمی در توسعه تعامل بین انسان و ماشین داره.

به عنوان جمع‌بندی مبحث روش‌های تعبیه برداری لغات یا Word Embedding، پیشنهاد می‌کنم این پلی‌لیست رو مشاهده کنین.

👈📎 پلی‌لیست NLP

🟢لینک کانال یوتیوب:

👉📎 https://youtube.com/@RezaShokrzad

#YouTube
#Deep_Learning
#Word_Embedding_Methods

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43👨‍💻1
پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺 آموزشی

🔵آشنایی با روش‌های تعبیه برداری لغات یا Word Embedding
👉🔗 https://t.iss.one/data_ml/433

🔵مدل‌های تعبیه کلمات دسته‌ای یا Categorical
👉🔗 https://t.iss.one/data_ml/435

🔵مدل‌های تعبیه کلمات آماری یا Statistical
👉🔗 https://t.iss.one/data_ml/436

🔵مدل‌های تعبیه کلمات بردار متراکم یا Dense Vector
👉🔗 https://t.iss.one/data_ml/439

🔵تعبیه برداری کلمه متناظر یا Contextualized Embedding
👉🔗 https://t.iss.one/data_ml/442

🔵کاربردها، مزایا و معایب تعبیه برداری لغات
👉🔗 https://t.iss.one/data_ml/445

🔺 کوئیز

🔵کوییز شماره ۱۲۱: تفاوت بین تعبیه‌های آماری و تعبیه‌های چگال
👉🔗 https://t.iss.one/data_ml/434

🔵کوییز شماره ۱۲۲: تفاوت اصلی بین LSA و LDA
👉🔗 https://t.iss.one/data_ml/437

🔵کوییز شماره ۱۲۳: مدل مناسب برای تحلیل داده‌های متنی نویزدار
👉🔗 https://t.iss.one/data_ml/440

🔵کوییز شماره ۱۲۴:ساختار مدل BERT
👉🔗 https://t.iss.one/data_ml/443

🔵کوییز شماره ۱۲۵: مزیت و محدودیت اصلی استفاده از تعبیه برداری لغت
👉🔗 https://t.iss.one/data_ml/446

🔺 نکته

🔵 جمع‌بندی روش‌های تعبیه برداری لغات
👉🔗 https://t.iss.one/data_ml/438

🔵ویدئو توضیح تعبیه برداری لغات و Word2Vec
👉🔗 https://t.iss.one/data_ml/441

🔵ویدئو نحوه کارکرد مدل BERT
👉🔗 https://t.iss.one/data_ml/444

🔵پلی‌لیست پردازش زبان‌های طبیعی
👉🔗 https://t.iss.one/data_ml/447

#Weekend
#Deep_Learning

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1
🟡 سلسله وبینارهای رایگان ماشین لرنینگ و علم داده ۱۴۰۳

وبینار رزومه، اپلای و مصاحبه شغلی دیتاساینس به شما کمک می‌کنه تا با اصول نوشتن رزومه‌ای قوی، استراتژی‌های مؤثر برای اپلای و روش‌های موفقیت در مصاحبه‌های شغلی آشنا شین.

وبینار ماشین لرنینگ ۲۰۲۴، با تمرکز روی جدیدترین پیشرفت‌ها و روندهای ماشین لرنینگ در سال جاری، دیدگاهی نوآورانه به شما می‌ده و برای برنامه‌ریزی و پیشبرد پروژه‌های مرتبط با ماشین لرنینگ کارآمده.

در نهایت، وبینار نقشه راه ورود به دیتاساینس و ماشین لرنینگ به شما امکان می‌ده تا با مبانی، ابزارها و مهارت‌های لازم برای شروع در این حوزه‌ها آشنا شین.

🟢وبینار اول: رزومه، اپلای و مصاحبه شغلی دیتاساینس

🗓 دوشنبه، ۱۷ اردیبهشت
ساعت ۲۰:۳۰

❗️این سه وبینار ضبط نمیشن و فقط به صورت لایو در دسترس خواهند بود.

برای مطالعه سرفصل‌ها و دریافت جزئیات بیشتر، روی لینک زیر کلیک کنین.

🟢 رایگان ثبت‌نام کنین:‌

👉📎 https://ctdrs.ir/cr15594

@DSLanders | دی‌اس‌لندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1👏1
👩‍🎓 برنامه آموزشی هفته: معماری ترنسفورمر - Transformers

🟠شنبه: ایده و انگیزه این معماری

🔵یک‌شنبه: تعبیه ورودی یا Input Embedding

🟢دوشنبه: تعبیه موقعیتی یا Positional Embedding

🔴سه‌شنبه: ماژول Attention Head

🟠چهارشنبه: لایه کدگذار و کدگشا

🔵پنج‌شنبه: ماژول Feed Forward

🟢جمعه: جمع بندی

#Deep_Learning
#Transformers

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1
👨‍🎓 آشنایی با ساختار ترنسفورمرها و ایده پشت آنها

ترنسفورمرها برای اولین بار در مقاله‌ای با عنوان "Attention is All You Need" در سال 2017 معرفی شدن و یک پیشرفت بزرگ در زمینه‌ی یادگیری عمیق و پردازش زبان طبیعی (NLP) هستن.

🔵 چالش‌های مدل‌های قبلی

قبل از ترنسفورمر، بیشتر مدل‌های پردازش زبان طبیعی بر اساس شبکه‌های عصبی بازگشتی (RNN) و نسخه‌هایی مثل LSTM و GRU ساخته شده بودن. این مدل‌ها در درک زمان‌ها و ساختارهای طولانی متن موفق عمل می‌کردن اما با دو مشکل بزرگ داشتن:

🔵کندی در آموزش: به دلیل وابستگی به توالی‌های زمانی، آموزش این مدل‌ها زمان‌بر بود.

🔵مشکل فراموشی: در توالی‌های بسیار طولانی، این مدل‌ها اکثرا اطلاعات ابتدایی توالی رو فراموش می‌کردن.

🔵 انگیزه‌ی ساخت ترنسفورمر

ایده‌ی اصلی ترنسفورمر بر پایه‌ی حل مشکلات مربوط به مدل‌های RNN و بهبود کارایی و سرعت آموزش در پردازش زبان طبیعی بود. این معماری جدید دو اصل مهم داره:

🔵حذف وابستگی به توالی زمانی: ترنسفورمرها با استفاده از ساختاری کاملا موازی، نیاز به پردازش داده‌ها به صورت متوالی رو از بین بردن. در نتیجه امکان استفاده از قدرت محاسباتی GPU‌ها و TPU‌ها رو فراهم و سرعت آموزش افزایش پیدا می‌کنه.

🔵تمرکز روی مکانیزم توجه: به جای تکیه به حافظه‌ی داخلی مدل، ترنسفورمر با استفاده از مکانیزم‌های توجه، به مدل اجازه می‌ده تا وزن‌های بیشتری به بخش‌های مهم‌تر داده‌ها اختصاص داده شه. این تکنیک به مدل این قابلیت رو می‌ده که ارتباطات پیچیده‌تر و دورتر در داده‌ها رو کشف کنه و در نتیجه عملکرد بهتری داشته باشه.

🔵 ساختار اصلی ترنسفورمر

معماری ترنسفورمر دو بخش اصلی داره:

🔵کدگذار (Encoder): که ورودی‌ها رو دریافت کرده و به فضای ویژگی‌ها تبدیل می‌کنه.

🔵کدگشا (Decoder): که خروجی‌ها رو با توجه به خروجی کدگذار و شرایط داده‌ی ورودی تولید می‌کنه.

هر کدگذار و کدگشا شامل چند لایه‌ست که هر لایه شامل دو بخش اصلیه: Multi-Head Attention و یک Feed Forward Neural Network.

🔵 تأثیر و کاربردها

از ترنسفورمرها در ساخت مدل‌های پیشرفته‌تری مثل BERT، GPT و T5 استفاده شده که در وظایف مختلف NLP مثل ترجمه‌ی ماشینی، خلاصه‌سازی متن و تولید متن کاربرد دارن.

#Deep_Learning
#Transformers

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3👌31👨‍💻1
🧑‍🎓 با مدل BERT آشنا شین!

مدل BERT یه مدل زبانی بزرگه که بر اساس مدل ترنسفورمر (Transformer) شکل گرفته و با ظهورش انقلابی رو در حوزه پردازش زبان طبیعی ایجاد کرده! این مدل انقدر خوب و کاربردیه که گوگل ازش در سیستم سرچ خودش استفاده می‌کنه.

🟢برای مطالعه بیشتر کلیک کنین:

👉📎 ctdrs.ir/ds0143

#Deep_Learning
#Transformers

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2👨‍💻2
👨‍🎓 تعبیه ورودی یا Input Embedding در ترنسفورمرها چیست؟

در مدل‌های ترانسفورمر، تعبیه ورودی (Input Embedding) یکی از اصول اساسی برای تبدیل داده‌های ورودی به نمایش‌های قابل پردازش توسط شبکه عصبیه. این روش به مدل امکان می‌ده تا اطلاعات واژگان رو در قالب بردارهایی از اعداد نمایش بده.

🔵 مفهوم تعبیه ورودی

تعبیه ورودی (Input Embedding) به فرایند تبدیل کلمات یا واحدهای متنی دیگه به بردارهای چگال از اعداد گفته می‌شه. هر بردار نشون دهنده ویژگی‌های ذاتی هر کلمه‌ست که می‌تونه شامل معنی کلمه، نقش دستوری، و همچنین ارتباطات معنایی با کلمات دیگه باشه. این بردارها در فضای برداری می‌تونن به نحوی تنظیم شن که کلمات با معانی نزدیک به هم‌دیگه، نزدیک به هم قرار بگیرن.

🔵 فرایند تعبیه ورودی در ترانسفورمرها

در مدل‌های ترانسفورمر، فرایند تعبیه شامل چند مرحله مهمه:

🔵انتخاب واژگان: اول یک مجموعه واژگان تعیین میشه که شامل تمام کلمات ممکن در داده‌های آموزشیه. اندازه این مجموعه می‌تونه تاثیر زیادی روی عملکرد مدل داشته باشه.

🔵نگاشت کلمات به شاخص‌ها: هر کلمه از واژگان به یک شاخص منحصربه‌فرد نگاشت میشه و این شاخص‌ها به عنوان ورودی لایه تعبیه به کار می‌رن.

🔵لایه تعبیه: این لایه یک جدول تعبیه‌ست که در اون هر شاخص به یک بردار ویژگی چگال متناظر می‌شه. بردارهای تعبیه به طور تصادفی اولیه‌سازی میشن و بعد طی فرایند آموزش به‌روزرسانی می‌شن.

🔵 چالش‌ها و مزایای تعبیه ورودی

🔵چالش‌ها: یکی از چالش‌های اصلی در تعبیه ورودی، مدیریت کلمات نادر و تولید بردارهای معنادار برای اونهاست. همچنین، اندازه واژگان بزرگ می‌تونه منجر به افزایش قابل توجهی در مصرف حافظه و زمان آموزش شه.

🔵مزایا: استفاده از تعبیه ورودی به مدل اجازه می‌ده تا ارتباطات پیچیده معنایی و دستوری رو درک کنه و به نتایج بهتری در فهم زبان طبیعی برسه.

🔵 توسعه و بهینه‌سازی

در راستای بهبود کیفیت تعبیه‌ها، محققان روش‌های مختلفی رو مثل استفاده از تعبیه‌های پیش‌آموزش دیده یا تعدیل تعبیه‌ها بر اساس متن زمینه‌ای آزمایش کردن. این رویکردها به مدل کمک می‌کنن تا درک عمیق‌تری از متن به دست بیاره و به طور کلی عملکرد مدل رو افزایش بده.

#Deep_Learning
#Transformers

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73👨‍💻1
🎞 Transformer models and BERT model: Overview

برای آشنایی با معماری ترنسفورمر، رمزگذار دوطرفه مدل BERT و وظایف مختلفی که این مدل براشون استفاده میشه، این ویدیو که توسط گوگل تهیه شده رو می‌تونین تماشا کنین.

👉📎 https://youtu.be/t45S_MwAcOw

#Deep_Learning
#Transformers

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63👌1
👨‍🎓 آشنایی با تعبیه موقعیتی یا Positional Embedding

تعبیه موقعیتی، روشی برای ذخیره اطلاعات مربوط به جایگاه یا موقعیت هر عنصر در توالی داده‌هاست. این روش به مدل کمک می‌کنه تا تفاوت بین داده‌ها در موقعیت‌های مختلف توالی رو تشخیص بده، که این کار برای فهم ساختار و معنی کلی توالی ضروریه.

🔵 چرا از تعبیه موقعیتی استفاده میشه؟

در مدل‌های شبکه عصبی که با توالی‌ها کار می‌کنن، مثل RNN و LSTM، وجود مکانیزمی برای درک ترتیب داده‌ها لازمه. بدون این مکانیزم، مدل نمی‌تونه تفاوت معنایی تغییر ترتیب کلمات در یک جمله رو تشخیص بده.

برای مثال، جملات "من به مدرسه رفتم" و "مدرسه به من رفت" از نظر دستوری و معنایی کاملاً متفاوت هستن، ولی بدون در نظر گرفتن ترتیب، هر دو جمله می‌تونن به طور یکسان تفسیر شن.

🔵 روش‌های اجرای تعبیه موقعیتی

🔵تعبیه موقعیت ثابت

این روش بیشتر در مدل‌های ترنسفورمر به کار می‌ره. در این روش، برای هر موقعیت در توالی، یک بردار تعبیه منحصر به فرد از پیش تعریف شده وجود داره.

این بردارها معمولاً با استفاده از توابع مثلثاتی سینوس و کسینوس ساخته می‌شن که به این ترتیب امکان مقایسه موقعیت‌های مختلف فراهم می‌شه.

🔵تعبیه موقعیت یادگرفتنی

در این روش که در برخی از پیکربندی‌های جدیدتر مدل‌های عصبی به کار رفته، بردار تعبیه موقعیتی به طور خودکار توسط مدل در طول فرآیند یادگیری تنظیم و بهینه می‌شه. این روش انعطاف‌پذیری بیشتری به مدل می‌ده تا بتونه ویژگی‌های منحصر به فرد توالی رو در نظر بگیره.

#Deep_Learning
#Transformers

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5👨‍💻1
کوییز شماره ۱۲۸: در تعبیه موقعیتی استفاده شده در مدل‌ ترنسفورمر، چرا از توابع مثلثاتی سینوس و کسینوس استفاده می‌شه؟
Anonymous Quiz
19%
برای جلوگیری از بیش‌برازش داده‌ها در مدل
26%
به منظور کاهش پیچیدگی محاسباتی مدل
52%
برای امکان تفکیک و تشخیص موقعیت‌های متفاوت در توالی
3%
به منظور افزایش سرعت آموزش مدل
👍3😎31🤔1
👨‍🎓 آشنایی با ماژول Attention Head

مکانیزم توجه (Attention Mechanism) به مدل‌ها این امکان رو می‌ده که وزن‌دهی به اطلاعات مختلف در یک داده بزرگ به صورت پویا انجام شه.

🔵 انواع مکانیزم‌های توجه

🔵توجه سراسری (Global Attention): در این نوع، مدل به تمام قسمت‌های ورودی توجه می‌کنه و بعد بر اساس اهمیت وزن‌دهی انجام می‌ده.

🔵توجه محلی (Local Attention): مدل تنها روی بخش‌های خاصی از داده تمرکز می‌کنه که احتمالاً اطلاعات بیشتری در اونها نهفته است.

🔵توجه چند سر (Multi-Head Attention): این نوع به مدل اجازه می‌ده تا به طور همزمان از چندین سناریوی توجه استفاده کنه و اطلاعات متفاوت رو از دیدگاه‌های مختلف بررسی کنه.

🔵 توضیحات تصویر

این تصویر دو مفهوم مهم مورد استفاده در ترنسفورمرها رو نشون می‌ده: توجه حاصل‌ضرب نقطه‌ای مقیاس‌شده (Scaled Dot-Product Attention) و Multi-Head Attention. این مکانیسم‌ها زیر بنای پردازش زبان طبیعی هستن.

🔵Scaled Dot-Product Attention

در سمت چپ تصویر، ساختار این نوع توجه که از سه بخش اصلی تشکیل شده، نشون داده شده:

- بخش MatMul: این مرحله، حاصلضرب نقطه‌ای (dot product) بین کوئری‌ها (Q) و کلیدها (K) رو با هدف تعیین میزان توجهی که باید به هر مقدار (V) اختصاص پیدا کنه، حساب می‌کنه.

- بخش Scale: حاصلضرب نقطه‌ای مقیاس‌بندی شده، با تقسیم به ریشه تعداد بعد‌ها کاهش پیدا می‌کنه تا از بزرگ شدن بیش از حد ارقام در طول آموزش جلوگیری شه.

- بخش SoftMax: تابع SoftMax روی نتایج مقیاس‌شده اعمال می‌شه تا اطمینان حاصل شه که مقادیر وزن‌دهی شده برای هر کلید بین 0 و 1 هستن و مجموع‌شون برابر با 1 هست. این مرحله مشخص می‌کنه که چه مقدار توجه به هر مقدار اختصاص پیدا کنه.

🔵Multi-Head Attention

این مکانیسم که در سمت راست تصویر هست، ممکن می‌کنه که مدل در طول پردازش از دیدگاه‌های متفاوت به داده‌ها نگاه کنه.

برای هر Head Attention، یک تبدیل خطی روی ویژگی‌های ورودی اعمال می‌شه تا کوئری‌ها، کلیدها و مقادیر جدید ایجاد شن و Scaled Dot-Product Attention به صورت مستقل محاسبه می‌شه. با Concat خروجی‌های حاصل از Head Attention کنار هم قرار می‌گیرن. درنهایت Linear Layer روی خروجی ترکیب شده اعمال می‌شه تا خروجی نهایی برای ترانسفورمر ایجاد شه.

#Deep_Learning
#Transformers

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3👌3👨‍💻1
در معماری ترنسفورمر، کوئری‌ها‌، کلیدها و مقدارها به چه معنی هستن؟

🔵کوئری‌ها (Queries)

کوئری‌ها یا پرسش‌ها، بردارهایی هستن که نشون‌دهنده‌ی ویژگی‌های درخواست‌شده توسط مدل برای جستجو در بین داده‌ها هستن. در واقع، کوئری عملکردی شبیه به یک سوال رو داره که جوابش از بین کلیدها و مقادیر به دست میاد.

در مدل ترنسفورمر، کوئری‌ها از طریق تبدیلات خطی روی ورودی‌ها تولید می‌شن و برای تعیین میزان اهمیت و ارتباط هر بخش از داده‌ها به کار می‌رن.

🔵کلیدها (Keys)

کلیدها هم بردارهایی هستن که با کوئری‌ها مقایسه می‌شن تا میزان ارتباط یا تطابق‌شون با هر کوئری سنجیده شه. هر کلید به طور خاص به یک قسمت از داده‌های ورودی مرتبطه و وظیفه داره که این ارتباط رو در قالب یک امتیاز عددی به کوئری برگردونه. این امتیازات در مرحله بعد برای تعیین وزن‌های توجه استفاده می‌شن.

🔵مقدارها (Values)

بردارهای مقدار به عنوان بخشی از ساختار داده‌ها در مدل‌های توجه (Attention) عمل می‌کنن که اطلاعات مورد نظر برای پاسخ به کوئری‌ها رو در اختیار مدل قرار می‌دن.

بعد از اینکه کوئری‌ها و کلیدها از طریق امتیازدهی متقابل و مقیاس‌بندی، وزن‌های توجه رو تعیین می‌کنن، بردارهای مقدار بر اساس این وزن‌ها ترکیب می‌شن تا خروجی نهایی مدل رو تشکیل بدن.

این فرآیند به مدل اجازه می‌ده تا اطلاعات مرتبط با درخواست‌های مشخص رو از بین حجم زیادی از داده‌ها استخراج و به کار ببرن. در واقع، مقدارها شامل داده‌هایی هستن که باید به دلیل اهمیت‌شون در پاسخ به کوئری‌های خاص، مورد توجه قرار بگیرن.

🔵 تعامل بین این سه جزء، اساس کارکرد مکانیزم توجه در مدل‌های عصبی مدرن مثل ترنسفورمره. این فرایند توجه به مدل‌ها کمک می‌کنه تا داده‌های پیچیده و بزرگ رو با دقت و کارآمدی بیشتری پردازش کنن، که در نتیجه به بهبود عملکرد کلی سیستم‌های یادگیری منجر می‌شه.

#Deep_Learning
#Transformers

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3👌3👏1