آموزش دیتاساینس و ماشین‌لرنینگ
1.89K subscribers
161 photos
9 videos
134 links
🔴 آموزش مباحث حوزه دیتا شامل علم داده، یادگیری ماشین و تحلیل داده (رضا شکرزاد)

🌀 کانال اخبار و منابع هوش مصنوعی:
@DSLanders

🌀 مشاوره و ارتباط مستقیم:
https://t.iss.one/dslanders_admin

یوتیوب:
Youtube.com/@RezaShokrzad

دوره‌ها:
cafetadris.com/datascience
Download Telegram
👨‍🎓 بررسی PCA با جزئیات

تجزیه و تحلیل مولفه‌های اصلی (PCA) یکی از روش‌های پرکاربرد در کاهش ابعاد داده‌ها در حوزه یادگیری ماشینه. این روش به ما امکان می‌ده تا اطلاعات موجود در داده‌های دارای ابعاد بالا رو به شکلی فشرده و با از دست دادن حداقل اطلاعات، در ابعاد کمتری بازنمایی کنیم.

🔵 نحوه کارکرد PCA

🔵مرحله اولیه: شروع با داده‌های اصلی.
🔵نرمال‌سازی داده‌ها: صفر در نظر گرفتن میانگین و یک در نظر گرفتن واریانس.
🔵محاسبه ماتریس کوواریانس: برای درک نحوه وابستگی متغیرها به نسبت به هم کوواریانس محاسبه میشه.
🔵محاسبه مقادیر و بردارهای ویژه: برای تعیین جهت‌هایی که بیشترین واریانس (پراکندگی) داده‌ها رو نشون بده، این مورد محاسبه میشه.
🔵محاسبه مولفه‌های اصلی (PC): این مرحله شامل انتخاب بردارهای ویژه‌ایه که بیشترین واریانس رو شامل شن.
🔵ترسیم نمودار: برای بررسی عمود بودن مولفه‌های اصلی نسبت بهم نمودار رسم میشه.

🔵 تعداد مولفه‌های اصلی مورد نیاز

تعداد مولفه‌های اصلی مورد نیاز بر اساس میزان واریانس (اطلاعات) که یک مولفه اصلی در خودش جا داده، تعیین می‌شه.

🔵 مزایا و معایب PCA

مزایا:

🔵کاهش ابعاد داده‌ها و سهولت در تجزیه و تحلیل.
🔵حذف ویژگی‌های مرتبط و کاهش مشکل چند خطی بودن.
🔵کاهش زمان لازم برای آموزش مدل‌ها.
🔵کمک به جلوگیری از بیش‌برازش با حذف ویژگی‌های اضافی.

معایب:

🔵مناسب برای داده‌های کمی و نه چندان موثر برای داده‌های کیفی.
🔵مولفه‌های اصلی به دست اومده از PCA گاهی به سادگی قابل تفسیر نیستن چون ترکیب خطی از ویژگی‌های اصلی هستن.
🔵داده‌هایی که در مقیاس‌های مختلف اندازه‌گیری شدن نتایج PCA رو به شدت تحت تأثیر قرار میدن و نرمال‌سازی داده‌ها قبل از اجرای PCA ضروریه.
🔵این الگوریتم بر اساس فرضیه خطی بودن داده‌ها کار می‌کنه و در مواجهه با ساختارهای پیچیده‌تر و غیرخطی داده‌ها کارایی لازم رو نداره.

🔵 کاربردهای PCA

- بینایی کامپیوتر: برای پردازش تصویر و شناسایی الگو.
- بیوانفورماتیک: کاربرد در تحلیل داده‌های ژنومیک و پروتئومیک.
- فشرده‌سازی تصاویر: کاهش حجم داده‌های تصویری با حفظ اطلاعات مهم.
- کشف الگوها در داده‌های با بعد بالا: تجزیه و تحلیل داده‌های پیچیده و بزرگ.
- کاهش ابعاد برای تجسم داده‌ها: تسهیل در تجسم و تحلیل داده‌های چند بعدی.

🔵برای پیاده‌سازی عملی PCA معمولاً از کتابخانه sklearn.decomposition.PCA در Python استفاده میشه.

from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
import pandas as pd

iris = load_iris()
X = iris.data
y = iris.target

pca = PCA(n_components=2) # کاهش به 2 بعد
X_r = pca.fit_transform(X)

df = pd.DataFrame(X_r, columns=['PC1', 'PC2'])
df['Target'] = y

fig, ax = plt.subplots()
colors = ['navy', 'turquoise', 'darkorange']
lw = 2

for color, i, target_name in zip(colors, [0, 1, 2], iris.target_names):
plt.scatter(df[df['Target'] == i]['PC1'], df[df['Target'] == i]['PC2'], color=color, alpha=.8, lw=lw,
label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('PCA of IRIS dataset')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.show()


#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83👌1
💡چطور از PCA برای تشخیص ناهنجاری استفاده میشه؟

برای تشخیص ناهنجاری با شناسایی تغییرات غیرعادی در واریانس داده‌ها از PCA استفاده می‌شه. در حالتی که داده‌ها در فضایی با بعد بالا قرار دارن، PCA می‌تونه به کاهش ابعاد داده‌ها کمک کنه و اجازه بده تا الگوهای ناهنجاری که در ابعاد اصلی داده‌ها پنهان شذن، به راحتی تشخیص داده شن. این کار با برجسته‌سازی تفاوت‌ها در ویژگی‌های کلیدی داده‌ها انجام می‌شه، که شامل ناهنجاری‌های آماری یا الگوهای داده‌ای غیرمعموله.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
👍42👌1
👨‍🎓 بررسی t-SNE با جزئیات

الگوریتم t-SNE مخفف t-distributed Stochastic Neighbor Embedding، یک تکنیک کاهش بعد غیرخطی در یادگیری ماشینه که برای مصور سازی داده‌های چند بعدی در فضایی با بعد پایین‌تر طراحی شده. این الگوریتم به طور گسترده‌ای برای کشف الگوها و ساختارهای پنهان در مجموعه‌های داده پیچیده استفاده می‌شه.

🔵 نحوه کارکرد t-SNE

🔵شروع با داده‌های اصلی: در این مرحله، مجموعه داده‌های چندبعدی اولیه به عنوان ورودی الگوریتم در نظر گرفته میشن.

🔵محاسبه احتمالات شرطی: به جای نرمال‌سازی داده‌ها، t-SNE احتمالات شرطی رو محاسبه می‌کنه که نشون‌دهنده میزان شباهت هر جفت نقطه در فضای چندبعدیه. این احتمالات بر اساس فاصله بین نقاط داده در فضای اصلی و با استفاده از توزیع گاوسی محاسبه می‌شن.

🔵انتخاب پارامتر پیچیدگی (Perplexity): پیچیدگی، معیاری برای تعداد همسایه‌های موثر هر نقطه داده است و نقش مهمی در تعیین مقیاس احتمالات شرطی داره. این پارامتر روی توازن بین حفظ ساختارهای Local و Global در نقشه کم‌بعد تأثیر می‌گذاره.

🔵محاسبه نقشه کم‌بعد: الگوریتم t-SNE یک نمایش با بعد پایین‌تر از داده‌ها ارائه می‌ده. در این فرآیند، روابط بین نقاط داده در فضای با بعد کم با به کارگیری توزیع t-Student برای محاسبه احتمالات متقابل تعریف می‌شن. هدف از این کار، بازتاب دقیق شباهت‌هایی هست که در بین داده‌های اصلی وجود دارن، تا از این طریق بشه ساختار واقعی داده‌ها رو در فضایی با ابعاد کمتر به نمایش گذاشت.

🔵کمینه‌سازی اختلاف Kullback-Leibler: الگوریتم t-SNE تلاش می‌کنه تا با کمینه‌سازی تفاوت Kullback-Leibler بین توزیع‌های احتمالی در فضای اصلی و فضای کم‌بعد، نقشه‌ رو بهینه‌سازی کنه. این فرایند به طور معمول از طریق روش‌های گرادیان کاهشی انجام می‌شه.

🔵تجسم و تحلیل: بعد از بهینه‌سازی، نقشه‌ به دست لومده رو می‌تونیم برای بررسی و تحلیل به کار ببریم. این نقشه به ما این امکان رو می‌ده که الگوها، خوشه‌ها و ساختارهای پنهان در داده‌ها رو شناسایی کنیم. این فرایند کمک می‌کنه تا درک عمیق‌تری از داده‌ها پیدا کنیم.

🔵 مزایا و معایب t-SNE

مزایا

🔵قدرت بالا در نمایش ساختارهای پیچیده و گروه‌بندی‌های ظریف در داده‌ها.
🔵توانایی در تجسم داده‌هایی با ابعاد بالا در فضایی با دو یا سه بعد برای تحلیل آسان‌تر.

معایب

🔵پیچیدگی زمانی و فضایی بالا، که استفاده از این الگوریتم رو برای مجموعه‌های داده‌ای با بیشتر از 10,000 نمونه رو سخت می‌کنه.
🔵حساسیت به انتخاب پارامترها مثل پیچیدگی.
🔵عدم قابلیت تعمیم‌پذیری نتایج به داده‌های جدید بدون اجرای مجدد الگوریتم.

🔵 کاربردهای t-SNE

این الگوریتم در زمینه‌های مختلف مثل بیوانفورماتیک، تحقیقات پزشکی، امنیت سایبری، پردازش زبان طبیعی، و تجزیه و تحلیل داده‌های شبکه کاربرد داره.

🔵 قطعه کد قابل اجرا برای این الگوریتم

from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
y = digits.target

tsne = TSNE(n_components=2, random_state=0)
X_2d = tsne.fit_transform(X)

plt.figure(figsize=(10, 5))
plt.scatter(X_2d[:, 0], X_2d[:, 1], c=y, cmap='jet', edgecolor='k', s=40)
plt.colorbar()
plt.title('t-SNE visualization of digit data')
plt.xlabel('t-SNE axis 1')
plt.ylabel('t-SNE axis 2')
plt.show()


#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👌3👍21👨‍💻1
آموزش دیتاساینس و ماشین‌لرنینگ
👨‍🎓 بررسی t-SNE با جزئیات الگوریتم t-SNE مخفف t-distributed Stochastic Neighbor Embedding، یک تکنیک کاهش بعد غیرخطی در یادگیری ماشینه که برای مصور سازی داده‌های چند بعدی در فضایی با بعد پایین‌تر طراحی شده. این الگوریتم به طور گسترده‌ای برای کشف الگوها و ساختارهای…
💡بررسی کد الگوریتم t-SNE

🔵تعداد بعدهای هدف برای نمایش داده‌ها در فضای کم‌بعد توسط n_components مشخص میشه.

🔵یک عدد ثابت برای اطمینان از تکرارپذیری نتایج توسط random_state مشخص میشه. t-SNE دارای جنبه‌های تصادفیه و تنظیم این پارامتر اطمینان می‌ده که با هر بار اجرای کد، نتایج یکسانی به دست میاد.

🔵توسط c=y رنگ هر نقطه بر اساس برچسب کلاس آن نقطه تعیین می‌شود، که در اینجا نشان‌دهنده شماره عدده.

🔵پالت رنگی که برای رنگ‌آمیزی نقاط استفاده می‌شه cmap=jet هست.

🔵تصویر پست، خروجی قطعه کد می‌باشد.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👌32👍1🔥1
👨‍🎓 بررسی UMAP با جزئیات

الگوریتم UMAP، مخفف Uniform Manifold Approximation and Projection، یک روش پیشرفته کاهش ابعاده که با هدف حفظ روابط و ویژگی‌های موجود بین نقاط داده و کشف ساختار Global در داده‌ها، طراحی شده.

در مقایسه با t-SNE، الگوریتم UMAP سریع‌تر و مقیاس‌پذیرتره و امکان استفاده ازش در مجموعه‌های داده‌ با اندازه بزرگ‌تر ممکنه. همچنین، UMAP قابلیت تعمیم به داده‌های جدید رو داره.

🔵 نحوه کارکرد UMAP

🔵شروع با داده‌های اصلی: UMAP اول مجموعه داده‌های چندبعدی رو به عنوان ورودی دریافت می‌کنه و به دنبال حفظ الگوها، روابط، و فاصله‌های نزدیک بین نقاط داده‌ است.

🔵ساخت گراف همسایگی: UMAP یک گراف همسایگی از داده‌های ورودی می‌سازه، که در اون نقاط به همسایه‌های نزدیک‌شون متصل می‌شن. این فرآیند با استفاده از فاصله اقلیدسی یا بقیه معیارهای فاصله انجام می‌شه.

🔵بهینه‌سازی فضای کم‌بعد: با استفاده از تکنیک‌های بهینه‌سازی، UMAP سعی می‌کنه نمایشی از داده‌ها در فضایی با بعد پایین‌تر ارائه بده که ساختارهای Local و Global داده‌های اصلی رو حفظ کنه.

🔵کمینه‌سازی تابع هزینه: UMAP از یک تابع هزینه برای کمینه‌سازی اختلاف بین فاصله‌های موجود در گراف همسایگی اصلی و نمایش کاهش یافته استفاده می‌کنه. این فرآیند باعث می‌شه تا نمایش کم‌بعد، ساختارهای موجود در داده‌های چندبعدی رو به خوبی منعکس کنه.

🔵 مزایا و معایب UMAP

مزایا:

🔵سرعت بالا و مقیاس‌پذیری: UMAP برای مجموعه‌های داده بزرگ مناسبه.
🔵حفظ ساختارهای Local و Global: توانایی حفظ هر دو نوع ساختار، UMAP رو برای تجسم و تحلیل داده‌های پیچیده ارزشمند می‌کنه.
🔵تنظیم پذیری: پارامترهای مختلفی برای تنظیم UMAP وجود داره که به کاربر امکان می‌ده کنترل بیشتری روی فرآیند کاهش بعد داشته باشه.

معایب:

🔵انتخاب پارامترها: بهینه‌سازی نتایج نیاز به تنظیم دقیق پارامترها داشته داره.
🔵تفسیرپذیری: مثل سایر روش‌های کاهش بعد غیرخطی، تفسیر نتایج می‌تونه چالش‌برانگیز باشه.

🔵 کاربردهای UMAP

الگوریتم UMAP در زمینه‌های مختلفی مثل بیولوژی سیستم‌ها، تحلیل داده‌های ژنتیکی، تجسم داده‌های پیچیده و فهم ساختارهای زیربنایی در مجموعه‌های داده بزرگ کاربرد داره. این روش مخصوصا برای تحلیل ساختارهای زیربنایی در داده‌های پیچیده و بزرگ مفیده.

🔵 قطعه کد قابل اجرا برای UMAP

import umap
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
y = digits.target

reducer = umap.UMAP()
X_reduced = reducer.fit_transform(X)

plt.figure(figsize=(10, 5))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap='Spectral', edgecolor='k', s=40)
plt.colorbar()
plt.title('UMAP visualization of digit data')
plt.xlabel('UMAP axis 1')
plt.ylabel('UMAP axis 2')
plt.show()


#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👌42👍2👨‍💻1
آموزش دیتاساینس و ماشین‌لرنینگ
👨‍🎓 بررسی UMAP با جزئیات الگوریتم UMAP، مخفف Uniform Manifold Approximation and Projection، یک روش پیشرفته کاهش ابعاده که با هدف حفظ روابط و ویژگی‌های موجود بین نقاط داده و کشف ساختار Global در داده‌ها، طراحی شده. در مقایسه با t-SNE، الگوریتم UMAP سریع‌تر…
💡بررسی کد الگوریتم UMAP

🔵تعداد همسایه‌ها برای محاسبه فاصله فضای اصلی توسط n_neighbors مشخص میشه و تأثیر زیادی روی ساختار نهایی نقشه کاهش بعد داره.

🔵تعداد بعدهای هدف برای فضای کاهش یافته توسط n_components مشخص میشه. در این مثال به 2 تنظیم شده تا داده‌ها در یک فضای دو بعدی قابل نمایش باشن.

🔵معیار فاصله استفاده شده برای محاسبه فاصله بین نقاط در فضای اصلی metric است که می‌تونه مقادیر مختلفی داشته مثل euclidean ، manhattan و... داشته باشه.

🔵تصویر پست، خروجی قطعه کد می‌باشد.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52👌2
👨‍🎓 کاربردهای کاهش ابعاد

هر جا که داده‌های با بعد بالا وجود داشته باشه و نیاز به تجزیه و تحلیل، تجسم یا ساده‌سازی‌شون باشه، تکنیک‌های کاهش ابعاد می‌تونن به کار برده شن.

استفاده از این روش‌ها در پروژه‌های یادگیری ماشین به بهبود کارایی مدل‌ها و کشف اطلاعات معنادار از بین داده‌های پیچیده کمک می‌کنه.

🔵 کاربردهای PCA

🔵تجزیه و تحلیل داده‌های ژنتیکی: PCA به صورت گسترده برای تجزیه و تحلیل داده‌های ژنی استفاده می‌شه، جایی که تعیین ساختار و الگوهای موجود در داده‌های بیوانفورماتیکی دارای اهمیته.

🔵پردازش تصویر و ویدیو: کاهش ابعاد با استفاده از PCA برای کاهش حجم داده‌ها در پردازش تصویر و ویدیو به کار می‌ره، به طوری که اطلاعات اصلی حفظ شن.

🔵شناسایی چهره: در سیستم‌های شناسایی چهره، PCA برای تبدیل تصاویر چهره به یک فضای ویژگی با بعد کمتر استفاده می‌شه تا عملیات مقایسه و شناسایی سریع‌تر انجام شه.

🔵 کاربردهای t-SNE

🔵تجسم داده‌های ژنتیکی: t-SNE برای نمایش داده‌های بیوانفورماتیکی در فضاهای دو یا سه بعدی به کار میره تا الگوهای پیچیده و گروه‌بندی‌های طبیعی داده‌ها بررسی شن.

🔵تجزیه و تحلیل داده‌های بزرگ: در مجموعه داده‌هایی با تعداد نمونه‌های بسیار زیاد، t-SNE برای کاهش ابعاد و تجسم ساختارهای پنهان داده‌ها استفاده میشه.

🔵فهم داده‌های پیچیده: با استفاده از t-SNE، میشه داده‌های پیچیده از حوزه‌های مختلف مثل مالی، اجتماعی و زیست‌شناختی رو تجزیه و تحلیل کرد تا الگوها و روابط کشف بشن.

🔵 کاربردهای UMAP

🔵تجزیه و تحلیل سیگنال‌های زیستی: در پردازش سیگنال‌های زیستی مثل EEG و ECG ،UMAP برای کاهش ابعاد داده‌ها و شناسایی ویژگی‌های مهم استفاده میشه.

🔵استفاده از UMAP برای بررسی سلول‌ها: UMAP کمک می‌کنه تا گروه‌های مختلف سلولی رو شناسایی و تفاوت‌های کارکردی بین‌شون رو متوجه شیم.

🔵 جمع‌بندی

🔵برای حفظ ساختارهای محلی UMAP بهترین انتخابه.
🔵برای تجسم داده‌های غیرخطی t-SNE مناسب‌تره.
🔵برای کاهش خطای بازسازی PCA عملکرد خوبی داره.
🔵برای تفسیر نتایج اول PCA و بعد UMAP انتخاب‌های مناسبی هستن.
🔵برای سرعت و مقیاس‌پذیری UMAP بهترینه.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👏2
کوییز شماره ۷۸: در کدوم سناریو زیر استفاده از t-SNE بهتر از PCA برای کاهش ابعاد، در حین کار با یک سیستم با حداقل توان محاسباتیه؟
Anonymous Quiz
29%
مجموعه داده با 1 میلیون ورودی و 300 ویژگی
19%
مجموعه داده با 100,000 ورودی و 310 ویژگی
33%
مجموعه داده با 10,000 ورودی و 8 ویژگی
19%
مجموعه داده با 10,000 ورودی و 200 ویژگی
😎5👍3🤔1
💡ترفند هسته (Kernel Trick) در تحلیل مؤلفه‌های اصلی با هسته (Kernel PCA) چیه و چه زمانی استفاده میشه؟

یک روش ریاضیه که امکان می‌ده تا مسائل غیرخطی رو به نحوی تغییر بدیم که بشه از روش‌های خطی برای حل‌شون استفاده کرد. در kPCA به جای کار با ماتریس کوواریانس، از ماتریس هسته استفاده می‌شه.

این ماتریس نشون می‌ده که هر دو نقطه داده در فضای جدید چقدر به هم شبیه هستن؛ فضای جدیدی که با استفاده از یک تابع خاص (هسته) به دست اومده.

برای مثال در مواردی مثل تشخیص چهره، جایی که داده‌ها به صورت غیرخطی در فضای اصلی پخش شدن، kPCA برای استخراج ویژگی‌ها و کاهش ابعاد، بدون تغییر ساختار غیرخطی داده‌ها کاربرد داره.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3👌2👨‍💻1
پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺 آموزشی

🔵هدف از کاهش ابعاد
👉🔗 https://t.iss.one/data_ml/259

🔵انواع روش‌های کاهش ابعاد
👉🔗 https://t.iss.one/data_ml/261

🔵بررسی PCA با جزئیات
👉🔗 https://t.iss.one/data_ml/263

🔵بررسی t-SNE با جزئیات
👉🔗 https://t.iss.one/data_ml/266

🔵بررسی UMAP با جزئیات
👉🔗 https://t.iss.one/data_ml/269

🔵کاربردهای کاهش ابعاد
👉🔗 https://t.iss.one/data_ml/272

🔺 کوئیز

🔵کوییز شماره ۷۳: بررسی عملکرد الگوریتم کاهش ابعاد
👉🔗 https://t.iss.one/data_ml/260

🔵کوییز شماره ۷۴: تفاوت بین PCA و t-SNE
👉🔗 https://t.iss.one/data_ml/262

🔵کوییز شماره ۷۵: وظیفه PCA
👉🔗 https://t.iss.one/data_ml/264

🔵کوییز شماره ۷۶: پارامتر min_dist در UMAP
👉🔗 https://t.iss.one/data_ml/267

🔵کوییز شماره ۷۷: نقش تابع هزینه در الگوریتم UMAP
👉🔗 https://t.iss.one/data_ml/270

🔵کوییز شماره ۷۸: t-SNE و PCA
👉🔗 https://t.iss.one/data_ml/274

🔺 نکته

🔵استفاده از PCA برای تشخیص ناهنجاری
👉🔗 https://t.iss.one/data_ml/265

🔵بررسی کد الگوریتم t-SNE
👉🔗 https://t.iss.one/data_ml/268

🔵بررسی کد الگوریتم UMAP
👉🔗 https://t.iss.one/data_ml/271

🔵ترفند هسته (Kernel Trick) در Kernel PCA
👉🔗 https://t.iss.one/data_ml/275

#Weekend
#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👏3👍2🔥2
👩‍🎓 برنامه آموزشی هفته: تشخیص ناهنجاری یا Anomaly Detection

🟠شنبه: هدف از تشخیص ناهنجاری

🔵یک‌شنبه: انواع تشخیص ناهنجاری

🟢دوشنبه: بررسی iForest با جزئیات

🔴سه‌شنبه: بررسی LOF با جزئیات

🟠چهارشنبه: شبکه‌های عصبی برای تشخیص ناهنجاری

🔵پنج‌شنبه: کاربردهای تشخیص ناهنجاری

🟢جمعه: جمع بندی

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
5👌2🔥1
🟡 دوره‌های مقدماتی و پیشرفته علم داده

دنیای داده‌ها جذابه و دونستن علم داده، توانایی تحلیل داده‌، یا بازاریابی مبتنی بر داده، می‌تونه شما رو برای فرصت‌های شغلی زیادی مناسب کنه.

فارغ از رشته‌ و پیش زمینه‌تون، می‌تونین با استفاده از دوره‌های رضا شکرزاد این مسیر رو شروع کنین و از سطح مقدماتی تا پیشرفته پیش برین.

🟢 دوره جامع دیتاساینس و ماشین لرنینگ:
👉📎 https://ctdrs.ir/cr14924

❗️دانشجویان دوره علم داده ۱ می‌تونن با پرداخت اختلاف هزینه، دوره جامع رو تهیه کنن.

🔵 هوش تجاری و تحلیل داده با Tableau و Power BI:
👉📎 https://ctdrs.ir/cr14230

🟠مارکتینگ داده‌محور:
👉📎 https://ctdrs.ir/cr13581

#Courses

@DSLanders | دی‌اس‌لندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1🔥1
👨‍🎓 هدف از تشخیص ناهنجاری

تشخیص ناهنجاری اشاره به تکنیک‌ها و روش‌هایی داره که در اونها داده‌هایی که از الگوهای معمول متفاوت هستن، شناسایی می‌شن.

🔵 هدف از تشخیص ناهنجاری

هدف اصلی از تشخیص ناهنجاری، شناسایی داده‌ها یا رویدادهایی هست که از الگوهای معمول یا مورد انتظار منحرف هستن. این کار به دلایل زیر انجام می‌تونه انجام شه:

🔵پیشگیری از خسارت: در حوزه‌هایی مثل تشخیص تقلب یا نظارت روی سلامت تجهیزات، تشخیص به موقع ناهنجاری‌ها از به وجود اومدن خسارت‌های جدی جلوگیری می‌کنه.

🔵بهبود امنیت: تشخیص حملات سایبری یا نفوذهای امنیتی اکثرا با شناسایی الگوهای ناهنجار در ترافیک شبکه انجام می‌شه.

🔵کیفیت داده: در تحلیل داده‌ها، حذف یا اصلاح داده‌های ناهنجار به افزایش دقت نتایج کمک می‌کنه.

🔵کشف دانش: بعضی اوقات ناهنجاری‌ها نشون‌دهنده کشفیات جدید یا فرصت‌های نوآوری هستن.

🔵بهینه‌سازی عملیاتی: تشخیص ناهنجاری به شناسایی نقاط ضعف و فرصت‌های بهبود در فرآیندهای عملیاتی کمک می‌کنه و این ویژگی در صنایع تولیدی و حمل‌ونقل کاربرد داره.

🔵مدیریت ریسک: در مدیریت مالی و بیمه، تشخیص ناهنجاری باعث شناسایی ریسک‌های احتمالی میشه و به شرکت‌ها امکان می‌ده تا استراتژی‌های مدیریت ریسک‌شون رو تنظیم و از ضررهای بزرگ جلوگیری کنن.

🔵بهینه‌سازی مصرف انرژی: در صنعت انرژی، تشخیص ناهنجاری برای شناسایی موارد هدر رفت انرژی کاربرد داره و باعث کاهش هزینه‌ها میشه.

🔵 روش‌های تشخیص ناهنجاری

🔵تشخیص ناهنجاری بر اساس نقاط دورافتاده: این روش‌ها به دنبال شناسایی داده‌هایی هستن که به شدت از مجموعه‌های داده اصلی منحرف شدن.

🔵تشخیص ناهنجاری بر پایه چگالی: در این روش، داده‌هایی که در نواحی با چگالی پایین‌تر قرار دارن به عنوان ناهنجار شناسایی می‌شن.

🔵تشخیص ناهنجاری بر اساس خوشه: داده‌هایی که به هیچ خوشه معناداری تعلق ندارن یا با فاصله زیادی از کلاسترهای اصلی قرار دارن.

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥1
💡تفاوت تشخیص ناهنجاری با حذف نویز چیه؟

هر دو برای شناسایی و فیلتر کردن ناهنجاری‌ها هستن اما اهداف و روش‌شناسی‌های متفاوتی دارن.

🔵 اهداف

🔵تشخیص ناهنجاری: شناسایی نقاط داده‌ای که به طور قابل توجهی از بقیه داده‌ها منحرف شدن.

🔵حذف نویز: از بین بردن نقاط داده‌ای تصادفی یا بدون اطلاعات که اکثرا به دلایلی مثل خطاهای اندازه‌گیری به وجود اومدن.

🔵 روش‌شناسی

🔵تشخیص ناهنجاری: از روش‌های آماری، مبتنی به فاصله یا یادگیری ماشین استفاده می‌کنه.

🔵حذف نویز: معمولاً از تکنیک‌های فیلتر کردن مثل میانگین‌های دوره‌ای یا میانگین مرکزی استفاده می‌کنه.

🔵 زمینه کاربرد

🔵تشخیص ناهنجاری: تشخیص تقلب مالی، امنیت شبکه، نظارت به تجهیزات و...

🔵حذف نویز: بسیار مهم در پیش‌پردازش داده‌های خام، متن‌های ساختار نیافته، یا تصاویر برای بهبود کیفیت سیگنال قبل از تجزیه و تحلیل‌های اصلی.

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👌1
👨‍🎓 انواع روش‌های تشخیص ناهنجاری

🔵 روش‌های آماری

روش‌های آماری یکی از سنتی‌ترین رویکردها در تشخیص ناهنجاری هستن. این روش‌ها بر پایه مدل‌سازی توزیع داده‌های نرمال و شناسایی داده‌هایی که با این توزیع سازگار نیستن، عمل می‌کنن. بعضی از روش‌های آماری شامل نمونه‌های زیر میشن:

🔵نقطه دورافتاده با استفاده از Z-Score: این روش بر اساس محاسبه انحراف معیار و میانگین داده‌ها کار می‌کنه و داده‌هایی که از میانگین به اندازه‌ای مشخص دور هستن رو به عنوان نقطه دورافتاده شناسایی می‌کنه.

🔵تجزیه و تحلیل مؤلفه‌های اصلی (PCA): PCA برای کاهش بعد داده‌ها و شناسایی الگوهای ناهنجاری در داده‌های کم‌بعد استفاده می‌شه.

🔵 روش‌های مبتنی بر فاصله

این روش‌ها داده‌های ناهنجار رو با توجه به فاصله‌شون از بقیه داده‌ها تشخیص می‌دن. الگوریتم K-نزدیک‌ترین همسایه (K-NN) یکی از معروف‌ترین روش‌های این گروهه. داده‌هایی که فاصله زیادی با K همسایه نزدیک‌شون دارن، به عنوان ناهنجاری شناسایی می‌شن.

🔵 روش‌های مبتنی بر چگالی

روش‌های مبتنی بر چگالی مثل DBSCAN و OPTICS، داده‌هایی که در نواحی با چگالی پایین قرار دارن رو به عنوان ناهنجاری در نظر می‌گیرن. این روش‌ها برای داده‌هایی با توزیع‌های مختلف کاربرد دارن و نیازی به تعیین تعداد خوشه‌ها ندارن.

🔵 شبکه‌های عصبی

شبکه‌های عصبی و یادگیری عمیق هم برای تشخیص ناهنجاری استفاده می‌شن. این روش‌ها مخصوصا در داده‌های پیچیده و با ابعاد بالا کارآمد هستن. بعضی از روش‌های شبکه‌های عصبی شامل نمونه‌های زیر میشن:

🔵شبکه‌های عصبی خودرمزگذار (Autoencoders): Autoencoderها داده‌ها رو به یک فضای کم‌بعد تبدیل و سپس بازسازی‌شون می‌کنن. داده‌هایی که در فرایند بازسازی دارای خطای زیادی هستن، ناهنجار در نظر گرفته میشن.

🔵شبکه‌های متخاصم مولد (GANs): GANها از دو بخش، یکی مولد و یکی تمییز دهنده، استفاده می‌کنن. مولد داده‌های جعلی می‌سازه که تمییز دهنده نمی‌تونه تشخیص بده جعلی هستن یا واقعی. اگه تمییز دهنده به سادگی بفهمه داده‌ها جعلی هستن، این نوع داده‌ها رو ناهنجار تشخیص می‌ده.

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👌2👏1