آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

هدف از کاهش ابعاد

کاهش ابعاد یا Dimensionality Reduction فرآیندیه که در طولش تعداد متغیرها یا ویژگی‌های (Features) موجود در داده‌ها کاهش پیدا می‌کنه؛ بدون اینکه اطلاعات مهم و مرتبط با مسئله به طور قابل توجهی از دست برن.

🔵 اهداف کاهش ابعاد

🔵کاهش پیچیدگی محاسباتی: با کاهش تعداد ویژگی‌ها، الگوریتم‌های یادگیری ماشین سریع‌تر و با کارایی بالاتری آموزش می‌بینن.

🔵کاهش مشکل بیش‌برازش (Overfitting): با حذف ویژگی‌های غیرضروری یا تکراری، مدل کمتر مستعد بیش‌برازش خواهد بود.

🔵افزایش قابلیت تفسیرپذیری: کاهش تعداد ویژگی‌ها به درک بهتر مدل و تصمیم‌گیری‌هایش کمک می‌کنه.

🔵کاهش نیاز به حافظه: ذخیره‌سازی داده‌ها با تعداد ویژگی‌های کمتر به فضای کمتری نیاز داره.

🔵 روش‌های کاهش ابعاد

🔵روش‌های خطی: این روش‌ها سعی می‌کنن ساختار داده‌ها رو در فضایی با بعد پایین‌تر نمایش بدن، در حالی که اطلاعات مهم حفظ میشن.

- تجزیه مولفه‌های اصلی (PCA): محبوب‌ترین روش برای کاهش ابعاد که با پیدا کردن مولفه‌های اصلی که بیشترین واریانس داده‌ها رو حفظ کنن، کار می‌کنه.

- تجزیه مقادیر منفرد (SVD): روشی که از تجزیه ماتریس برای کاهش بُعد استفاده می‌کنه.

🔵روش‌های غیرخطی: این روش‌ها برای داده‌هایی که ساختار پیچیده‌تری دارن مناسب‌تر هستن.

- تعبیه چندبُعدی مقیاس (MDS): روشی که سعی داره فواصل بین نقاط در فضای کاهش یافته رو حفظ کنه.
- توزیع استوکاستیک همسایگی t-SNE: روشی محبوب برای کاهش بُعدیت که ساختارهای محلی داده‌ها رو حفظ می‌کنه و برای تصویرسازی داده‌های پیچیده مفیده.

🔵

چالش‌ها

چالش‌های کاهش ابعاد شامل انتخاب تعداد ابعاد مناسب برای کاهش، حفظ تمام اطلاعات مهم و اطمینان از اینکه کاهش ابعاد به تفسیرپذیری مدل آسیب نمی‌زنه، میشه.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3👌3

569 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۳: چطور عملکرد خوب یک الگوریتم کاهش ابعاد روی دیتاست ارزیابی میشه؟

Anonymous Quiz

38%

با توجه به افزایش دقت مدل بعد از کاهش ابعاد.

48%

زمانیکه الگوریتم تعداد زیادی از فیچرها رو حذف کنه؛ بدون اینکه اطلاعات زیادی از دست برن.

15%

کاهش زمان آموزش مدل بعد از کاهش بُعد.

فقط بر اساس کاهش فضای ذخیره‌سازی مورد نیاز برای داده‌ها.

😎5❤3👍2

48 voters518 views15:25

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

انواع روش‌های کاهش ابعاد

روش‌های کاهش بُعد دو دسته کلی دارن: روش‌هایی که فقط ویژگی‌های مهم رو حفظ می‌کنن و روش‌هایی که ترکیب جدیدی از ویژگی‌ها پیدا می‌کنن. در دسته اول، سه تکنیک وجود داره: حذف ویژگی به روش عقب‌گرد، انتخاب ویژگی به روش جلوگرد و جنگل‌های تصادفی. در دسته دوم، دو زیر دسته از روش‌ها وجود دارن: روش‌های خطی و روش‌های غیرخطی

🔵 روش‌های حفظ ویژگی‌های مهم

🔵حذف ویژگی به روش عقب‌گرد (Backward Elimination): در این روش با تمام ویژگی‌ها شروع می‌کنیم و در هر مرحله، ویژگی‌ای که کمترین تأثیر رو بر دقت مدل داره، حذف می‌شه. این فرآیند تا زمانی ادامه پیدا می‌کنه که فقط ویژگی‌های با اهمیت باقی بمونن.

🔵انتخاب ویژگی به روش جلوگرد (Forward Selection): در این روش، برعکس حذف به روش عقب‌گرد، با هیچ ویژگی شروع نمی‌کنیم و ویژگی‌ها یکی یکی به مدل اضافه می‌شن. هر ویژگی که بیشترین بهبود رو در عملکرد مدل داشته باشه، انتخاب می‌شه و در نهایت فقط مجموعه‌ای از ویژگی‌های مهم باقی می‌مونن.

🔵جنگل‌های تصادفی (Random Forests): این الگوریتم به خودی خود می‌تونه اهمیت ویژگی‌ها رو مشخص کنه و بنابراین برای انتخاب ویژگی‌ها مورد استفاده قرار می‌گیره. جنگل‌های تصادفی با ترکیب چندین درخت تصمیم و بررسی چگونگی عملکرد هر ویژگی در این درخت‌ها، ویژگی‌های مهم رو شناسایی می‌کنن.

🔵 روش‌های خطی

🔵تحلیل مؤلفه‌های اصلی (PCA): این روش از تبدیلات زاویه‌دار برای تبدیل ویژگی‌های مرتبط به مجموعه‌ای از ویژگی‌های آماری مستقل استفاده می‌کنه که به اونها مؤلفه‌های اصلی گفته می‌شه.

🔵تحلیل عاملی (FA): این تکنیک برای پیدا کردن علت‌ها یا فاکتورهایی هست که مستقیماً مشهود نیستن اما می‌تونن رفتار یا الگوهایی که در داده‌ها دیده میشه رو توجیه کنن.

🔵تحلیل تمایزی خطی (LDA): LDA سعی در پیدا کردن ترکیب خطی از ویژگی‌ها داره که بیشترین جداسازی بین کلاس‌های مختلف داده‌ها رو ایجاد کنه.

🔵

تحلیل مؤلفه‌های متقطع (Truncated SVD): روش Truncated SVD برای کاهش بُعد داده‌هایی که به صورت ماتریس‌های Sparse (کم تراکم) هستن، به کار می‌ره. این روش برای مواردی مثل ماتریس‌های متنی یا داده‌هایی که در اونها بیشتر مقادیر صفر هستن، مناسبه.

🔵

روش‌های غیرخطی (یادگیری Manifold)

🔵تحلیل مؤلفه‌های هسته‌ای (Kernel PCA): این روش یک توسعه غیرخطی از PCA هست که امکان کاهش بُعد در داده‌هایی که رابطه‌های غیرخطی دارن رو فراهم می‌کنه.

🔵توزیع تصادفی همسایه نزدیک با توزیع t: یک تکنیک قدرتمند برای کاهش بُعد، t-SNE هست که برای مصورسازی داده‌های با بُعد بالا به کار می‌ره. این روش سعی در حفظ ساختارهای محلی داده‌ها در فضای کاهش بُعد یافته داره و به طور گسترده‌ در تجزیه و تحلیل داده‌های پیچیده مثل داده‌های ژنتیکی کاربرد داره.

🔵تحلیل تفاوت‌های چندبُعدی: MDS یک روش کاهش بُعد هست که با حفظ فاصله‌های بین نقاط در فضای بُعد بالا، به کاهش بُعد داده‌ها می‌پردازد.

🔵تصویرسازی بُعد کمتر با حفظ فواصل: روش Isomap یکی از اولین تکنیک‌های یادگیری Manifold هست که با ترکیب روش‌های محاسبه فاصله‌ی کوتاه‌ترین مسیر و کاهش بُعد خطی، به حفظ ساختار کلی داده‌ها در فضای کاهش بُعد یافته کمک می‌کنه.

اگه داده‌ها دارای روابط غیرخطی قوی باشن، استفاده از روش‌های غیرخطی مثل Kernel PCA یا t-SNE مناسبه. در حالی که اگه داده‌ها به صورت خطی جدا بشن، استفاده از PCA یا LDA مؤثرتره. t-SNE برای مجموعه‌های داده‌های بزرگ بسیار زمان‌بره و نیاز به تنظیم دقیق پارامترها داره.

در نهایت، هدف از کاهش بُعد اینکه بتوانیم داده‌های پیچیده رو به شکلی ساده‌تر برای تحلیل و مدل‌سازی در یادگیری ماشین تبدیل کنیم. این کار نه تنها به بهبود عملکرد الگوریتم‌ها کمک می‌کنه بلکه امکان تصویرسازی داده‌هایی که در فضاهای بُعد بالا قرار دارن رو هم فراهم می‌کنه. همچنین، با کاهش ابعاد، overfitting هم کاهش پیدا می‌کنه چون مدل کمتر توسط نویز و ویژگی‌های غیرمرتبط تأثیر می‌پذیره.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤4👌3👏1

580 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۴: کدوم گزینه‌ به درستی تفاوت بین PCA و t-SNE رو توضیح می‌ده؟

Anonymous Quiz

19%

هر دو برای داده‌های خطی و غیرخطی به کار می‌رن.

هر دو تکنیک بر پایه محاسبه فاصله‌های ژئودزیک هستند.

52%

برای حفظ ساختارهای محلی در داده‌های چند بعدی t-SNE به کار می‌ره ولی PCA ساختار کلی رو حفظ می‌کنه.

23%

یک تکنیک انتخاب ویژگی PCA هست، در حالی که t-SNE یک تکنیک استخراج ویژگیه.

❤5😎3👌1

31 voters478 views18:15

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 بررسی PCA با جزئیات

تجزیه و تحلیل مولفه‌های اصلی (PCA) یکی از روش‌های پرکاربرد در کاهش ابعاد داده‌ها در حوزه یادگیری ماشینه. این روش به ما امکان می‌ده تا اطلاعات موجود در داده‌های دارای ابعاد بالا رو به شکلی فشرده و با از دست دادن حداقل اطلاعات، در ابعاد کمتری بازنمایی کنیم.

🔵 نحوه کارکرد PCA

🔵مرحله اولیه: شروع با داده‌های اصلی.
🔵نرمال‌سازی داده‌ها: صفر در نظر گرفتن میانگین و یک در نظر گرفتن واریانس.
🔵محاسبه ماتریس کوواریانس: برای درک نحوه وابستگی متغیرها به نسبت به هم کوواریانس محاسبه میشه.
🔵محاسبه مقادیر و بردارهای ویژه: برای تعیین جهت‌هایی که بیشترین واریانس (پراکندگی) داده‌ها رو نشون بده، این مورد محاسبه میشه.
🔵محاسبه مولفه‌های اصلی (PC): این مرحله شامل انتخاب بردارهای ویژه‌ایه که بیشترین واریانس رو شامل شن.
🔵ترسیم نمودار: برای بررسی عمود بودن مولفه‌های اصلی نسبت بهم نمودار رسم میشه.

🔵 تعداد مولفه‌های اصلی مورد نیاز

تعداد مولفه‌های اصلی مورد نیاز بر اساس میزان واریانس (اطلاعات) که یک مولفه اصلی در خودش جا داده، تعیین می‌شه.

🔵

مزایا و معایب PCA

مزایا:

🔵کاهش ابعاد داده‌ها و سهولت در تجزیه و تحلیل.
🔵حذف ویژگی‌های مرتبط و کاهش مشکل چند خطی بودن.
🔵کاهش زمان لازم برای آموزش مدل‌ها.
🔵کمک به جلوگیری از بیش‌برازش با حذف ویژگی‌های اضافی.

معایب:

🔵مناسب برای داده‌های کمی و نه چندان موثر برای داده‌های کیفی.
🔵مولفه‌های اصلی به دست اومده از PCA گاهی به سادگی قابل تفسیر نیستن چون ترکیب خطی از ویژگی‌های اصلی هستن.
🔵داده‌هایی که در مقیاس‌های مختلف اندازه‌گیری شدن نتایج PCA رو به شدت تحت تأثیر قرار میدن و نرمال‌سازی داده‌ها قبل از اجرای PCA ضروریه.
🔵این الگوریتم بر اساس فرضیه خطی بودن داده‌ها کار می‌کنه و در مواجهه با ساختارهای پیچیده‌تر و غیرخطی داده‌ها کارایی لازم رو نداره.

🔵

کاربردهای PCA

- بینایی کامپیوتر: برای پردازش تصویر و شناسایی الگو.
- بیوانفورماتیک: کاربرد در تحلیل داده‌های ژنومیک و پروتئومیک.
- فشرده‌سازی تصاویر: کاهش حجم داده‌های تصویری با حفظ اطلاعات مهم.
- کشف الگوها در داده‌های با بعد بالا: تجزیه و تحلیل داده‌های پیچیده و بزرگ.
- کاهش ابعاد برای تجسم داده‌ها: تسهیل در تجسم و تحلیل داده‌های چند بعدی.

🔵برای پیاده‌سازی عملی PCA معمولاً از کتابخانه sklearn.decomposition.PCA در Python استفاده میشه.

from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
import pandas as pd

iris = load_iris()
X = iris.data
y = iris.target

pca = PCA(n_components=2) # کاهش به 2 بعد
X_r = pca.fit_transform(X)

df = pd.DataFrame(X_r, columns=['PC1', 'PC2'])
df['Target'] = y

fig, ax = plt.subplots()
colors = ['navy', 'turquoise', 'darkorange']
lw = 2

for color, i, target_name in zip(colors, [0, 1, 2], iris.target_names):
    plt.scatter(df[df['Target'] == i]['PC1'], df[df['Target'] == i]['PC2'], color=color, alpha=.8, lw=lw,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('PCA of IRIS dataset')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.show()

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3👌1

573 views08:31

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۵: PCA چه کاری انجام می‌ده؟

Anonymous Quiz

79%

کاهش ابعاد داده‌ها و ایجاد ویژگی‌های جدید از مجموعه ویژگی‌های داده شده.

پیش‌بینی هدف با کارایی بالا.

ایجاد خوشه‌ها برای شناسایی کلاس‌ها.

11%

ارائه بیشترین تعداد ویژگی ممکن، برای حداکثر کردن کارایی الگوریتم یادگیری ماشین.

❤5👌3👍2

53 voters484 views17:46

آموزش دیتاساینس و ماشین‌لرنینگ

💡چطور از PCA برای تشخیص ناهنجاری استفاده میشه؟

برای تشخیص ناهنجاری با شناسایی تغییرات غیرعادی در واریانس داده‌ها از PCA استفاده می‌شه. در حالتی که داده‌ها در فضایی با بعد بالا قرار دارن، PCA می‌تونه به کاهش ابعاد داده‌ها کمک کنه و اجازه بده تا الگوهای ناهنجاری که در ابعاد اصلی داده‌ها پنهان شذن، به راحتی تشخیص داده شن. این کار با برجسته‌سازی تفاوت‌ها در ویژگی‌های کلیدی داده‌ها انجام می‌شه، که شامل ناهنجاری‌های آماری یا الگوهای داده‌ای غیرمعموله.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

👍4❤2👌1

499 views19:00

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

بررسی t-SNE با جزئیات

الگوریتم t-SNE مخفف t-distributed Stochastic Neighbor Embedding، یک تکنیک کاهش بعد غیرخطی در یادگیری ماشینه که برای مصور سازی داده‌های چند بعدی در فضایی با بعد پایین‌تر طراحی شده. این الگوریتم به طور گسترده‌ای برای کشف الگوها و ساختارهای پنهان در مجموعه‌های داده پیچیده استفاده می‌شه.

🔵

نحوه کارکرد t-SNE

🔵

شروع با داده‌های اصلی: در این مرحله، مجموعه داده‌های چندبعدی اولیه به عنوان ورودی الگوریتم در نظر گرفته میشن.

🔵

محاسبه احتمالات شرطی: به جای نرمال‌سازی داده‌ها، t-SNE احتمالات شرطی رو محاسبه می‌کنه که نشون‌دهنده میزان شباهت هر جفت نقطه در فضای چندبعدیه. این احتمالات بر اساس فاصله بین نقاط داده در فضای اصلی و با استفاده از توزیع گاوسی محاسبه می‌شن.

🔵

انتخاب پارامتر پیچیدگی (Perplexity): پیچیدگی، معیاری برای تعداد همسایه‌های موثر هر نقطه داده است و نقش مهمی در تعیین مقیاس احتمالات شرطی داره. این پارامتر روی توازن بین حفظ ساختارهای Local و Global در نقشه کم‌بعد تأثیر می‌گذاره.

🔵

محاسبه نقشه کم‌بعد: الگوریتم t-SNE یک نمایش با بعد پایین‌تر از داده‌ها ارائه می‌ده. در این فرآیند، روابط بین نقاط داده در فضای با بعد کم با به کارگیری توزیع t-Student برای محاسبه احتمالات متقابل تعریف می‌شن. هدف از این کار، بازتاب دقیق شباهت‌هایی هست که در بین داده‌های اصلی وجود دارن، تا از این طریق بشه ساختار واقعی داده‌ها رو در فضایی با ابعاد کمتر به نمایش گذاشت.

🔵

کمینه‌سازی اختلاف Kullback-Leibler: الگوریتم t-SNE تلاش می‌کنه تا با کمینه‌سازی تفاوت Kullback-Leibler بین توزیع‌های احتمالی در فضای اصلی و فضای کم‌بعد، نقشه‌ رو بهینه‌سازی کنه. این فرایند به طور معمول از طریق روش‌های گرادیان کاهشی انجام می‌شه.

🔵

تجسم و تحلیل: بعد از بهینه‌سازی، نقشه‌ به دست لومده رو می‌تونیم برای بررسی و تحلیل به کار ببریم. این نقشه به ما این امکان رو می‌ده که الگوها، خوشه‌ها و ساختارهای پنهان در داده‌ها رو شناسایی کنیم. این فرایند کمک می‌کنه تا درک عمیق‌تری از داده‌ها پیدا کنیم.

🔵

مزایا و معایب t-SNE

مزایا

🔵قدرت بالا در نمایش ساختارهای پیچیده و گروه‌بندی‌های ظریف در داده‌ها.
🔵توانایی در تجسم داده‌هایی با ابعاد بالا در فضایی با دو یا سه بعد برای تحلیل آسان‌تر.

معایب

🔵پیچیدگی زمانی و فضایی بالا، که استفاده از این الگوریتم رو برای مجموعه‌های داده‌ای با بیشتر از 10,000 نمونه رو سخت می‌کنه.
🔵حساسیت به انتخاب پارامترها مثل پیچیدگی.
🔵عدم قابلیت تعمیم‌پذیری نتایج به داده‌های جدید بدون اجرای مجدد الگوریتم.

🔵 کاربردهای t-SNE

این الگوریتم در زمینه‌های مختلف مثل بیوانفورماتیک، تحقیقات پزشکی، امنیت سایبری، پردازش زبان طبیعی، و تجزیه و تحلیل داده‌های شبکه کاربرد داره.

🔵

قطعه کد قابل اجرا برای این الگوریتم

from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
y = digits.target

tsne = TSNE(n_components=2, random_state=0)
X_2d = tsne.fit_transform(X)

plt.figure(figsize=(10, 5))
plt.scatter(X_2d[:, 0], X_2d[:, 1], c=y, cmap='jet', edgecolor='k', s=40)
plt.colorbar()
plt.title('t-SNE visualization of digit data')
plt.xlabel('t-SNE axis 1')
plt.ylabel('t-SNE axis 2')
plt.show()

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌3👍2❤1👨‍💻1

534 views10:00

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۶: پارامتر min_dist در UMAP چه نقشی داره؟

Anonymous Quiz

26%

تعیین کننده تعداد خوشه‌هاییه که UMAP تولید می‌کنه.

47%

حداقل فاصله مجاز بین نقاط در نمایش کم‌بعدی رو کنترل می‌کنه.

16%

روی مقیاس فاصله‌ها در فضای اصلی داده‌ها تاثیر می‌گذاره.

11%

کیفیت بصری نمودارهای تولید شده توسط UMAP رو بهبود میده.

👍3🤔2😎2

19 voters470 views16:00

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 بررسی t-SNE با جزئیات الگوریتم t-SNE مخفف t-distributed Stochastic Neighbor Embedding، یک تکنیک کاهش بعد غیرخطی در یادگیری ماشینه که برای مصور سازی داده‌های چند بعدی در فضایی با بعد پایین‌تر طراحی شده. این الگوریتم به طور گسترده‌ای برای کشف الگوها و ساختارهای…

💡

بررسی کد الگوریتم t-SNE

🔵تعداد بعدهای هدف برای نمایش داده‌ها در فضای کم‌بعد توسط n_components مشخص میشه.

🔵یک عدد ثابت برای اطمینان از تکرارپذیری نتایج توسط random_state مشخص میشه. t-SNE دارای جنبه‌های تصادفیه و تنظیم این پارامتر اطمینان می‌ده که با هر بار اجرای کد، نتایج یکسانی به دست میاد.

🔵توسط c=y رنگ هر نقطه بر اساس برچسب کلاس آن نقطه تعیین می‌شود، که در اینجا نشان‌دهنده شماره عدده.

🔵پالت رنگی که برای رنگ‌آمیزی نقاط استفاده می‌شه cmap=jet هست.

🔵

تصویر پست، خروجی قطعه کد می‌باشد.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌3❤2👍1🔥1

485 views18:11

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

بررسی UMAP با جزئیات

الگوریتم UMAP، مخفف Uniform Manifold Approximation and Projection، یک روش پیشرفته کاهش ابعاده که با هدف حفظ روابط و ویژگی‌های موجود بین نقاط داده و کشف ساختار Global در داده‌ها، طراحی شده.

در مقایسه با t-SNE، الگوریتم UMAP سریع‌تر و مقیاس‌پذیرتره و امکان استفاده ازش در مجموعه‌های داده‌ با اندازه بزرگ‌تر ممکنه. همچنین، UMAP قابلیت تعمیم به داده‌های جدید رو داره.

🔵

نحوه کارکرد UMAP

🔵

شروع با داده‌های اصلی: UMAP اول مجموعه داده‌های چندبعدی رو به عنوان ورودی دریافت می‌کنه و به دنبال حفظ الگوها، روابط، و فاصله‌های نزدیک بین نقاط داده‌ است.

🔵

ساخت گراف همسایگی: UMAP یک گراف همسایگی از داده‌های ورودی می‌سازه، که در اون نقاط به همسایه‌های نزدیک‌شون متصل می‌شن. این فرآیند با استفاده از فاصله اقلیدسی یا بقیه معیارهای فاصله انجام می‌شه.

🔵

بهینه‌سازی فضای کم‌بعد: با استفاده از تکنیک‌های بهینه‌سازی، UMAP سعی می‌کنه نمایشی از داده‌ها در فضایی با بعد پایین‌تر ارائه بده که ساختارهای Local و Global داده‌های اصلی رو حفظ کنه.

🔵

کمینه‌سازی تابع هزینه: UMAP از یک تابع هزینه برای کمینه‌سازی اختلاف بین فاصله‌های موجود در گراف همسایگی اصلی و نمایش کاهش یافته استفاده می‌کنه. این فرآیند باعث می‌شه تا نمایش کم‌بعد، ساختارهای موجود در داده‌های چندبعدی رو به خوبی منعکس کنه.

🔵

مزایا و معایب UMAP

مزایا:

🔵سرعت بالا و مقیاس‌پذیری: UMAP برای مجموعه‌های داده بزرگ مناسبه.
🔵حفظ ساختارهای Local و Global: توانایی حفظ هر دو نوع ساختار، UMAP رو برای تجسم و تحلیل داده‌های پیچیده ارزشمند می‌کنه.
🔵تنظیم پذیری: پارامترهای مختلفی برای تنظیم UMAP وجود داره که به کاربر امکان می‌ده کنترل بیشتری روی فرآیند کاهش بعد داشته باشه.

معایب:

🔵انتخاب پارامترها: بهینه‌سازی نتایج نیاز به تنظیم دقیق پارامترها داشته داره.
🔵تفسیرپذیری: مثل سایر روش‌های کاهش بعد غیرخطی، تفسیر نتایج می‌تونه چالش‌برانگیز باشه.

🔵

کاربردهای UMAP

الگوریتم UMAP در زمینه‌های مختلفی مثل بیولوژی سیستم‌ها، تحلیل داده‌های ژنتیکی، تجسم داده‌های پیچیده و فهم ساختارهای زیربنایی در مجموعه‌های داده بزرگ کاربرد داره. این روش مخصوصا برای تحلیل ساختارهای زیربنایی در داده‌های پیچیده و بزرگ مفیده.

🔵

قطعه کد قابل اجرا برای UMAP

import umap
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
y = digits.target

reducer = umap.UMAP()
X_reduced = reducer.fit_transform(X)

plt.figure(figsize=(10, 5))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap='Spectral', edgecolor='k', s=40)
plt.colorbar()
plt.title('UMAP visualization of digit data')
plt.xlabel('UMAP axis 1')
plt.ylabel('UMAP axis 2')
plt.show()

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌4❤2👍2👨‍💻1

488 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۷: نقش تابع هزینه در الگوریتم UMAP چیه؟

Anonymous Quiz

24%

برای تعیین سرعت همگرایی الگوریتم استفاده می‌شه.

24%

برای اندازه‌گیری فاصله بین نقاط در فضای اصلی و فضای کم‌بعد استفاده می‌شه.

36%

برای اندازه‌گیری شباهت بین نمایش داده‌ها در فضای اصلی و فضای کم‌بعد استفاده می‌شه.

16%

فقط برای تنظیم پارامترهای الگوریتم مثل تعداد همسایه‌ها و فاصله حداقل استفاده می‌شه.

👍3😎3🤔2

25 voters435 views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 بررسی UMAP با جزئیات الگوریتم UMAP، مخفف Uniform Manifold Approximation and Projection، یک روش پیشرفته کاهش ابعاده که با هدف حفظ روابط و ویژگی‌های موجود بین نقاط داده و کشف ساختار Global در داده‌ها، طراحی شده. در مقایسه با t-SNE، الگوریتم UMAP سریع‌تر…

💡

بررسی کد الگوریتم UMAP

🔵تعداد همسایه‌ها برای محاسبه فاصله فضای اصلی توسط n_neighbors مشخص میشه و تأثیر زیادی روی ساختار نهایی نقشه کاهش بعد داره.

🔵تعداد بعدهای هدف برای فضای کاهش یافته توسط n_components مشخص میشه. در این مثال به 2 تنظیم شده تا داده‌ها در یک فضای دو بعدی قابل نمایش باشن.

🔵معیار فاصله استفاده شده برای محاسبه فاصله بین نقاط در فضای اصلی metric است که می‌تونه مقادیر مختلفی داشته مثل euclidean ، manhattan و... داشته باشه.

🔵

تصویر پست، خروجی قطعه کد می‌باشد.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2👌2

476 views17:51

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

کاربردهای کاهش ابعاد

هر جا که داده‌های با بعد بالا وجود داشته باشه و نیاز به تجزیه و تحلیل، تجسم یا ساده‌سازی‌شون باشه، تکنیک‌های کاهش ابعاد می‌تونن به کار برده شن.

استفاده از این روش‌ها در پروژه‌های یادگیری ماشین به بهبود کارایی مدل‌ها و کشف اطلاعات معنادار از بین داده‌های پیچیده کمک می‌کنه.

🔵 کاربردهای PCA

🔵تجزیه و تحلیل داده‌های ژنتیکی: PCA به صورت گسترده برای تجزیه و تحلیل داده‌های ژنی استفاده می‌شه، جایی که تعیین ساختار و الگوهای موجود در داده‌های بیوانفورماتیکی دارای اهمیته.

🔵پردازش تصویر و ویدیو: کاهش ابعاد با استفاده از PCA برای کاهش حجم داده‌ها در پردازش تصویر و ویدیو به کار می‌ره، به طوری که اطلاعات اصلی حفظ شن.

🔵شناسایی چهره: در سیستم‌های شناسایی چهره، PCA برای تبدیل تصاویر چهره به یک فضای ویژگی با بعد کمتر استفاده می‌شه تا عملیات مقایسه و شناسایی سریع‌تر انجام شه.

🔵

کاربردهای t-SNE

🔵تجسم داده‌های ژنتیکی: t-SNE برای نمایش داده‌های بیوانفورماتیکی در فضاهای دو یا سه بعدی به کار میره تا الگوهای پیچیده و گروه‌بندی‌های طبیعی داده‌ها بررسی شن.

🔵تجزیه و تحلیل داده‌های بزرگ: در مجموعه داده‌هایی با تعداد نمونه‌های بسیار زیاد، t-SNE برای کاهش ابعاد و تجسم ساختارهای پنهان داده‌ها استفاده میشه.

🔵فهم داده‌های پیچیده: با استفاده از t-SNE، میشه داده‌های پیچیده از حوزه‌های مختلف مثل مالی، اجتماعی و زیست‌شناختی رو تجزیه و تحلیل کرد تا الگوها و روابط کشف بشن.

🔵

کاربردهای UMAP

🔵تجزیه و تحلیل سیگنال‌های زیستی: در پردازش سیگنال‌های زیستی مثل EEG و ECG ،UMAP برای کاهش ابعاد داده‌ها و شناسایی ویژگی‌های مهم استفاده میشه.

🔵استفاده از UMAP برای بررسی سلول‌ها: UMAP کمک می‌کنه تا گروه‌های مختلف سلولی رو شناسایی و تفاوت‌های کارکردی بین‌شون رو متوجه شیم.

🔵 جمع‌بندی

🔵برای حفظ ساختارهای محلی UMAP بهترین انتخابه.
🔵برای تجسم داده‌های غیرخطی t-SNE مناسب‌تره.
🔵برای کاهش خطای بازسازی PCA عملکرد خوبی داره.
🔵برای تفسیر نتایج اول PCA و بعد UMAP انتخاب‌های مناسبی هستن.
🔵برای سرعت و مقیاس‌پذیری UMAP بهترینه.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3👏2

530 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۸: در کدوم سناریو زیر استفاده از t-SNE بهتر از PCA برای کاهش ابعاد، در حین کار با یک سیستم با حداقل توان محاسباتیه؟

Anonymous Quiz

29%

مجموعه داده با 1 میلیون ورودی و 300 ویژگی

19%

مجموعه داده با 100,000 ورودی و 310 ویژگی

33%

مجموعه داده با 10,000 ورودی و 8 ویژگی

19%

مجموعه داده با 10,000 ورودی و 200 ویژگی

😎5👍3🤔1

21 voters472 views18:00

آموزش دیتاساینس و ماشین‌لرنینگ

💡

ترفند هسته (Kernel Trick) در تحلیل مؤلفه‌های اصلی با هسته (Kernel PCA) چیه و چه زمانی استفاده میشه؟

یک روش ریاضیه که امکان می‌ده تا مسائل غیرخطی رو به نحوی تغییر بدیم که بشه از روش‌های خطی برای حل‌شون استفاده کرد. در kPCA به جای کار با ماتریس کوواریانس، از ماتریس هسته استفاده می‌شه.

این ماتریس نشون می‌ده که هر دو نقطه داده در فضای جدید چقدر به هم شبیه هستن؛ فضای جدیدی که با استفاده از یک تابع خاص (هسته) به دست اومده.

برای مثال در مواردی مثل تشخیص چهره، جایی که داده‌ها به صورت غیرخطی در فضای اصلی پخش شدن، kPCA برای استخراج ویژگی‌ها و کاهش ابعاد، بدون تغییر ساختار غیرخطی داده‌ها کاربرد داره.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3👌2👨‍💻1

469 views19:02

آموزش دیتاساینس و ماشین‌لرنینگ

⏰

پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺

آموزشی

🔵هدف از کاهش ابعاد

👉

🔗 https://t.iss.one/data_ml/259

🔵انواع روش‌های کاهش ابعاد

👉

🔗 https://t.iss.one/data_ml/261

🔵بررسی PCA با جزئیات

👉

🔗 https://t.iss.one/data_ml/263

🔵بررسی t-SNE با جزئیات

👉

🔗 https://t.iss.one/data_ml/266

🔵بررسی UMAP با جزئیات

👉

🔗 https://t.iss.one/data_ml/269

🔵کاربردهای کاهش ابعاد

👉

🔗 https://t.iss.one/data_ml/272

🔺

کوئیز

🔵کوییز شماره ۷۳: بررسی عملکرد الگوریتم کاهش ابعاد

👉

🔗 https://t.iss.one/data_ml/260

🔵کوییز شماره ۷۴: تفاوت بین PCA و t-SNE

👉

🔗 https://t.iss.one/data_ml/262

🔵کوییز شماره ۷۵: وظیفه PCA

👉

🔗 https://t.iss.one/data_ml/264

🔵کوییز شماره ۷۶: پارامتر min_dist در UMAP

👉

🔗 https://t.iss.one/data_ml/267

🔵کوییز شماره ۷۷: نقش تابع هزینه در الگوریتم UMAP

👉

🔗 https://t.iss.one/data_ml/270

🔵کوییز شماره ۷۸: t-SNE و PCA

👉

🔗 https://t.iss.one/data_ml/274

🔺

نکته

🔵استفاده از PCA برای تشخیص ناهنجاری

👉

🔗 https://t.iss.one/data_ml/265

🔵بررسی کد الگوریتم t-SNE

👉

🔗 https://t.iss.one/data_ml/268

🔵بررسی کد الگوریتم UMAP

👉

🔗 https://t.iss.one/data_ml/271

🔵ترفند هسته (Kernel Trick) در Kernel PCA

👉

🔗 https://t.iss.one/data_ml/275

#Weekend
#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👏3👍2🔥2

526 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

👩‍🎓

برنامه آموزشی هفته: تشخیص ناهنجاری یا Anomaly Detection

🟠شنبه: هدف از تشخیص ناهنجاری

🔵یک‌شنبه: انواع تشخیص ناهنجاری

🟢دوشنبه: بررسی iForest با جزئیات

🔴سه‌شنبه: بررسی LOF با جزئیات

🟠چهارشنبه: شبکه‌های عصبی برای تشخیص ناهنجاری

🔵پنج‌شنبه: کاربردهای تشخیص ناهنجاری

🟢جمعه: جمع بندی

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👌2🔥1

3.35K views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

🟡 دوره‌های مقدماتی و پیشرفته علم داده

دنیای داده‌ها جذابه و دونستن علم داده، توانایی تحلیل داده‌، یا بازاریابی مبتنی بر داده، می‌تونه شما رو برای فرصت‌های شغلی زیادی مناسب کنه.

فارغ از رشته‌ و پیش زمینه‌تون، می‌تونین با استفاده از دوره‌های رضا شکرزاد این مسیر رو شروع کنین و از سطح مقدماتی تا پیشرفته پیش برین.

🟢 دوره جامع دیتاساینس و ماشین لرنینگ:

👉

📎

https://ctdrs.ir/cr14924

❗️دانشجویان دوره علم داده ۱ می‌تونن با پرداخت اختلاف هزینه، دوره جامع رو تهیه کنن.

🔵 هوش تجاری و تحلیل داده با Tableau و Power BI:

👉

📎

https://ctdrs.ir/cr14230

🟠مارکتینگ داده‌محور:

👉

📎

https://ctdrs.ir/cr13581

#Courses

@DSLanders | دی‌اس‌لندرز

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1🔥1

513 views17:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

هدف از تشخیص ناهنجاری

تشخیص ناهنجاری اشاره به تکنیک‌ها و روش‌هایی داره که در اونها داده‌هایی که از الگوهای معمول متفاوت هستن، شناسایی می‌شن.

🔵 هدف از تشخیص ناهنجاری

هدف اصلی از تشخیص ناهنجاری، شناسایی داده‌ها یا رویدادهایی هست که از الگوهای معمول یا مورد انتظار منحرف هستن. این کار به دلایل زیر انجام می‌تونه انجام شه:

🔵

پیشگیری از خسارت: در حوزه‌هایی مثل تشخیص تقلب یا نظارت روی سلامت تجهیزات، تشخیص به موقع ناهنجاری‌ها از به وجود اومدن خسارت‌های جدی جلوگیری می‌کنه.

🔵

بهبود امنیت: تشخیص حملات سایبری یا نفوذهای امنیتی اکثرا با شناسایی الگوهای ناهنجار در ترافیک شبکه انجام می‌شه.

🔵

کیفیت داده: در تحلیل داده‌ها، حذف یا اصلاح داده‌های ناهنجار به افزایش دقت نتایج کمک می‌کنه.

🔵

کشف دانش: بعضی اوقات ناهنجاری‌ها نشون‌دهنده کشفیات جدید یا فرصت‌های نوآوری هستن.

🔵

بهینه‌سازی عملیاتی: تشخیص ناهنجاری به شناسایی نقاط ضعف و فرصت‌های بهبود در فرآیندهای عملیاتی کمک می‌کنه و این ویژگی در صنایع تولیدی و حمل‌ونقل کاربرد داره.

🔵

مدیریت ریسک: در مدیریت مالی و بیمه، تشخیص ناهنجاری باعث شناسایی ریسک‌های احتمالی میشه و به شرکت‌ها امکان می‌ده تا استراتژی‌های مدیریت ریسک‌شون رو تنظیم و از ضررهای بزرگ جلوگیری کنن.

🔵

بهینه‌سازی مصرف انرژی: در صنعت انرژی، تشخیص ناهنجاری برای شناسایی موارد هدر رفت انرژی کاربرد داره و باعث کاهش هزینه‌ها میشه.

🔵

روش‌های تشخیص ناهنجاری

🔵

تشخیص ناهنجاری بر اساس نقاط دورافتاده: این روش‌ها به دنبال شناسایی داده‌هایی هستن که به شدت از مجموعه‌های داده اصلی منحرف شدن.

🔵

تشخیص ناهنجاری بر پایه چگالی: در این روش، داده‌هایی که در نواحی با چگالی پایین‌تر قرار دارن به عنوان ناهنجار شناسایی می‌شن.

🔵

تشخیص ناهنجاری بر اساس خوشه: داده‌هایی که به هیچ خوشه معناداری تعلق ندارن یا با فاصله زیادی از کلاسترهای اصلی قرار دارن.

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤4🔥1

507 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۹: کدوم یک از گزینه‌های زیر به درستی انواع ناهنجاری‌های موجود در داده‌ها رو شرح می‌ده؟

Anonymous Quiz

16%

ناهنجاری‌های جهانی و ناهنجاری‌های محلی

44%

ناهنجاری‌های نقطه‌ای، ناهنجاری‌های زمینه‌ای و ناهنجاری‌های جمعی

19%