آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۵: PCA چه کاری انجام می‌ده؟

Anonymous Quiz

79%

کاهش ابعاد داده‌ها و ایجاد ویژگی‌های جدید از مجموعه ویژگی‌های داده شده.

پیش‌بینی هدف با کارایی بالا.

ایجاد خوشه‌ها برای شناسایی کلاس‌ها.

11%

ارائه بیشترین تعداد ویژگی ممکن، برای حداکثر کردن کارایی الگوریتم یادگیری ماشین.

❤5👌3👍2

53 voters484 views17:46

آموزش دیتاساینس و ماشین‌لرنینگ

💡چطور از PCA برای تشخیص ناهنجاری استفاده میشه؟

برای تشخیص ناهنجاری با شناسایی تغییرات غیرعادی در واریانس داده‌ها از PCA استفاده می‌شه. در حالتی که داده‌ها در فضایی با بعد بالا قرار دارن، PCA می‌تونه به کاهش ابعاد داده‌ها کمک کنه و اجازه بده تا الگوهای ناهنجاری که در ابعاد اصلی داده‌ها پنهان شذن، به راحتی تشخیص داده شن. این کار با برجسته‌سازی تفاوت‌ها در ویژگی‌های کلیدی داده‌ها انجام می‌شه، که شامل ناهنجاری‌های آماری یا الگوهای داده‌ای غیرمعموله.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

👍4❤2👌1

499 views19:00

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

بررسی t-SNE با جزئیات

الگوریتم t-SNE مخفف t-distributed Stochastic Neighbor Embedding، یک تکنیک کاهش بعد غیرخطی در یادگیری ماشینه که برای مصور سازی داده‌های چند بعدی در فضایی با بعد پایین‌تر طراحی شده. این الگوریتم به طور گسترده‌ای برای کشف الگوها و ساختارهای پنهان در مجموعه‌های داده پیچیده استفاده می‌شه.

🔵

نحوه کارکرد t-SNE

🔵

شروع با داده‌های اصلی: در این مرحله، مجموعه داده‌های چندبعدی اولیه به عنوان ورودی الگوریتم در نظر گرفته میشن.

🔵

محاسبه احتمالات شرطی: به جای نرمال‌سازی داده‌ها، t-SNE احتمالات شرطی رو محاسبه می‌کنه که نشون‌دهنده میزان شباهت هر جفت نقطه در فضای چندبعدیه. این احتمالات بر اساس فاصله بین نقاط داده در فضای اصلی و با استفاده از توزیع گاوسی محاسبه می‌شن.

🔵

انتخاب پارامتر پیچیدگی (Perplexity): پیچیدگی، معیاری برای تعداد همسایه‌های موثر هر نقطه داده است و نقش مهمی در تعیین مقیاس احتمالات شرطی داره. این پارامتر روی توازن بین حفظ ساختارهای Local و Global در نقشه کم‌بعد تأثیر می‌گذاره.

🔵

محاسبه نقشه کم‌بعد: الگوریتم t-SNE یک نمایش با بعد پایین‌تر از داده‌ها ارائه می‌ده. در این فرآیند، روابط بین نقاط داده در فضای با بعد کم با به کارگیری توزیع t-Student برای محاسبه احتمالات متقابل تعریف می‌شن. هدف از این کار، بازتاب دقیق شباهت‌هایی هست که در بین داده‌های اصلی وجود دارن، تا از این طریق بشه ساختار واقعی داده‌ها رو در فضایی با ابعاد کمتر به نمایش گذاشت.

🔵

کمینه‌سازی اختلاف Kullback-Leibler: الگوریتم t-SNE تلاش می‌کنه تا با کمینه‌سازی تفاوت Kullback-Leibler بین توزیع‌های احتمالی در فضای اصلی و فضای کم‌بعد، نقشه‌ رو بهینه‌سازی کنه. این فرایند به طور معمول از طریق روش‌های گرادیان کاهشی انجام می‌شه.

🔵

تجسم و تحلیل: بعد از بهینه‌سازی، نقشه‌ به دست لومده رو می‌تونیم برای بررسی و تحلیل به کار ببریم. این نقشه به ما این امکان رو می‌ده که الگوها، خوشه‌ها و ساختارهای پنهان در داده‌ها رو شناسایی کنیم. این فرایند کمک می‌کنه تا درک عمیق‌تری از داده‌ها پیدا کنیم.

🔵

مزایا و معایب t-SNE

مزایا

🔵قدرت بالا در نمایش ساختارهای پیچیده و گروه‌بندی‌های ظریف در داده‌ها.
🔵توانایی در تجسم داده‌هایی با ابعاد بالا در فضایی با دو یا سه بعد برای تحلیل آسان‌تر.

معایب

🔵پیچیدگی زمانی و فضایی بالا، که استفاده از این الگوریتم رو برای مجموعه‌های داده‌ای با بیشتر از 10,000 نمونه رو سخت می‌کنه.
🔵حساسیت به انتخاب پارامترها مثل پیچیدگی.
🔵عدم قابلیت تعمیم‌پذیری نتایج به داده‌های جدید بدون اجرای مجدد الگوریتم.

🔵 کاربردهای t-SNE

این الگوریتم در زمینه‌های مختلف مثل بیوانفورماتیک، تحقیقات پزشکی، امنیت سایبری، پردازش زبان طبیعی، و تجزیه و تحلیل داده‌های شبکه کاربرد داره.

🔵

قطعه کد قابل اجرا برای این الگوریتم

from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
y = digits.target

tsne = TSNE(n_components=2, random_state=0)
X_2d = tsne.fit_transform(X)

plt.figure(figsize=(10, 5))
plt.scatter(X_2d[:, 0], X_2d[:, 1], c=y, cmap='jet', edgecolor='k', s=40)
plt.colorbar()
plt.title('t-SNE visualization of digit data')
plt.xlabel('t-SNE axis 1')
plt.ylabel('t-SNE axis 2')
plt.show()

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌3👍2❤1👨‍💻1

534 views10:00

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۶: پارامتر min_dist در UMAP چه نقشی داره؟

Anonymous Quiz

26%

تعیین کننده تعداد خوشه‌هاییه که UMAP تولید می‌کنه.

47%

حداقل فاصله مجاز بین نقاط در نمایش کم‌بعدی رو کنترل می‌کنه.

16%

روی مقیاس فاصله‌ها در فضای اصلی داده‌ها تاثیر می‌گذاره.

11%

کیفیت بصری نمودارهای تولید شده توسط UMAP رو بهبود میده.

👍3🤔2😎2

19 voters470 views16:00

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 بررسی t-SNE با جزئیات الگوریتم t-SNE مخفف t-distributed Stochastic Neighbor Embedding، یک تکنیک کاهش بعد غیرخطی در یادگیری ماشینه که برای مصور سازی داده‌های چند بعدی در فضایی با بعد پایین‌تر طراحی شده. این الگوریتم به طور گسترده‌ای برای کشف الگوها و ساختارهای…

💡

بررسی کد الگوریتم t-SNE

🔵تعداد بعدهای هدف برای نمایش داده‌ها در فضای کم‌بعد توسط n_components مشخص میشه.

🔵یک عدد ثابت برای اطمینان از تکرارپذیری نتایج توسط random_state مشخص میشه. t-SNE دارای جنبه‌های تصادفیه و تنظیم این پارامتر اطمینان می‌ده که با هر بار اجرای کد، نتایج یکسانی به دست میاد.

🔵توسط c=y رنگ هر نقطه بر اساس برچسب کلاس آن نقطه تعیین می‌شود، که در اینجا نشان‌دهنده شماره عدده.

🔵پالت رنگی که برای رنگ‌آمیزی نقاط استفاده می‌شه cmap=jet هست.

🔵

تصویر پست، خروجی قطعه کد می‌باشد.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌3❤2👍1🔥1

485 views18:11

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

بررسی UMAP با جزئیات

الگوریتم UMAP، مخفف Uniform Manifold Approximation and Projection، یک روش پیشرفته کاهش ابعاده که با هدف حفظ روابط و ویژگی‌های موجود بین نقاط داده و کشف ساختار Global در داده‌ها، طراحی شده.

در مقایسه با t-SNE، الگوریتم UMAP سریع‌تر و مقیاس‌پذیرتره و امکان استفاده ازش در مجموعه‌های داده‌ با اندازه بزرگ‌تر ممکنه. همچنین، UMAP قابلیت تعمیم به داده‌های جدید رو داره.

🔵

نحوه کارکرد UMAP

🔵

شروع با داده‌های اصلی: UMAP اول مجموعه داده‌های چندبعدی رو به عنوان ورودی دریافت می‌کنه و به دنبال حفظ الگوها، روابط، و فاصله‌های نزدیک بین نقاط داده‌ است.

🔵

ساخت گراف همسایگی: UMAP یک گراف همسایگی از داده‌های ورودی می‌سازه، که در اون نقاط به همسایه‌های نزدیک‌شون متصل می‌شن. این فرآیند با استفاده از فاصله اقلیدسی یا بقیه معیارهای فاصله انجام می‌شه.

🔵

بهینه‌سازی فضای کم‌بعد: با استفاده از تکنیک‌های بهینه‌سازی، UMAP سعی می‌کنه نمایشی از داده‌ها در فضایی با بعد پایین‌تر ارائه بده که ساختارهای Local و Global داده‌های اصلی رو حفظ کنه.

🔵

کمینه‌سازی تابع هزینه: UMAP از یک تابع هزینه برای کمینه‌سازی اختلاف بین فاصله‌های موجود در گراف همسایگی اصلی و نمایش کاهش یافته استفاده می‌کنه. این فرآیند باعث می‌شه تا نمایش کم‌بعد، ساختارهای موجود در داده‌های چندبعدی رو به خوبی منعکس کنه.

🔵

مزایا و معایب UMAP

مزایا:

🔵سرعت بالا و مقیاس‌پذیری: UMAP برای مجموعه‌های داده بزرگ مناسبه.
🔵حفظ ساختارهای Local و Global: توانایی حفظ هر دو نوع ساختار، UMAP رو برای تجسم و تحلیل داده‌های پیچیده ارزشمند می‌کنه.
🔵تنظیم پذیری: پارامترهای مختلفی برای تنظیم UMAP وجود داره که به کاربر امکان می‌ده کنترل بیشتری روی فرآیند کاهش بعد داشته باشه.

معایب:

🔵انتخاب پارامترها: بهینه‌سازی نتایج نیاز به تنظیم دقیق پارامترها داشته داره.
🔵تفسیرپذیری: مثل سایر روش‌های کاهش بعد غیرخطی، تفسیر نتایج می‌تونه چالش‌برانگیز باشه.

🔵

کاربردهای UMAP

الگوریتم UMAP در زمینه‌های مختلفی مثل بیولوژی سیستم‌ها، تحلیل داده‌های ژنتیکی، تجسم داده‌های پیچیده و فهم ساختارهای زیربنایی در مجموعه‌های داده بزرگ کاربرد داره. این روش مخصوصا برای تحلیل ساختارهای زیربنایی در داده‌های پیچیده و بزرگ مفیده.

🔵

قطعه کد قابل اجرا برای UMAP

import umap
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
y = digits.target

reducer = umap.UMAP()
X_reduced = reducer.fit_transform(X)

plt.figure(figsize=(10, 5))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap='Spectral', edgecolor='k', s=40)
plt.colorbar()
plt.title('UMAP visualization of digit data')
plt.xlabel('UMAP axis 1')
plt.ylabel('UMAP axis 2')
plt.show()

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌4❤2👍2👨‍💻1

488 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۷: نقش تابع هزینه در الگوریتم UMAP چیه؟

Anonymous Quiz

24%

برای تعیین سرعت همگرایی الگوریتم استفاده می‌شه.

24%

برای اندازه‌گیری فاصله بین نقاط در فضای اصلی و فضای کم‌بعد استفاده می‌شه.

36%

برای اندازه‌گیری شباهت بین نمایش داده‌ها در فضای اصلی و فضای کم‌بعد استفاده می‌شه.

16%

فقط برای تنظیم پارامترهای الگوریتم مثل تعداد همسایه‌ها و فاصله حداقل استفاده می‌شه.

👍3😎3🤔2

25 voters435 views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 بررسی UMAP با جزئیات الگوریتم UMAP، مخفف Uniform Manifold Approximation and Projection، یک روش پیشرفته کاهش ابعاده که با هدف حفظ روابط و ویژگی‌های موجود بین نقاط داده و کشف ساختار Global در داده‌ها، طراحی شده. در مقایسه با t-SNE، الگوریتم UMAP سریع‌تر…

💡

بررسی کد الگوریتم UMAP

🔵تعداد همسایه‌ها برای محاسبه فاصله فضای اصلی توسط n_neighbors مشخص میشه و تأثیر زیادی روی ساختار نهایی نقشه کاهش بعد داره.

🔵تعداد بعدهای هدف برای فضای کاهش یافته توسط n_components مشخص میشه. در این مثال به 2 تنظیم شده تا داده‌ها در یک فضای دو بعدی قابل نمایش باشن.

🔵معیار فاصله استفاده شده برای محاسبه فاصله بین نقاط در فضای اصلی metric است که می‌تونه مقادیر مختلفی داشته مثل euclidean ، manhattan و... داشته باشه.

🔵

تصویر پست، خروجی قطعه کد می‌باشد.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2👌2

476 views17:51

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

کاربردهای کاهش ابعاد

هر جا که داده‌های با بعد بالا وجود داشته باشه و نیاز به تجزیه و تحلیل، تجسم یا ساده‌سازی‌شون باشه، تکنیک‌های کاهش ابعاد می‌تونن به کار برده شن.

استفاده از این روش‌ها در پروژه‌های یادگیری ماشین به بهبود کارایی مدل‌ها و کشف اطلاعات معنادار از بین داده‌های پیچیده کمک می‌کنه.

🔵 کاربردهای PCA

🔵تجزیه و تحلیل داده‌های ژنتیکی: PCA به صورت گسترده برای تجزیه و تحلیل داده‌های ژنی استفاده می‌شه، جایی که تعیین ساختار و الگوهای موجود در داده‌های بیوانفورماتیکی دارای اهمیته.

🔵پردازش تصویر و ویدیو: کاهش ابعاد با استفاده از PCA برای کاهش حجم داده‌ها در پردازش تصویر و ویدیو به کار می‌ره، به طوری که اطلاعات اصلی حفظ شن.

🔵شناسایی چهره: در سیستم‌های شناسایی چهره، PCA برای تبدیل تصاویر چهره به یک فضای ویژگی با بعد کمتر استفاده می‌شه تا عملیات مقایسه و شناسایی سریع‌تر انجام شه.

🔵

کاربردهای t-SNE

🔵تجسم داده‌های ژنتیکی: t-SNE برای نمایش داده‌های بیوانفورماتیکی در فضاهای دو یا سه بعدی به کار میره تا الگوهای پیچیده و گروه‌بندی‌های طبیعی داده‌ها بررسی شن.

🔵تجزیه و تحلیل داده‌های بزرگ: در مجموعه داده‌هایی با تعداد نمونه‌های بسیار زیاد، t-SNE برای کاهش ابعاد و تجسم ساختارهای پنهان داده‌ها استفاده میشه.

🔵فهم داده‌های پیچیده: با استفاده از t-SNE، میشه داده‌های پیچیده از حوزه‌های مختلف مثل مالی، اجتماعی و زیست‌شناختی رو تجزیه و تحلیل کرد تا الگوها و روابط کشف بشن.

🔵

کاربردهای UMAP

🔵تجزیه و تحلیل سیگنال‌های زیستی: در پردازش سیگنال‌های زیستی مثل EEG و ECG ،UMAP برای کاهش ابعاد داده‌ها و شناسایی ویژگی‌های مهم استفاده میشه.

🔵استفاده از UMAP برای بررسی سلول‌ها: UMAP کمک می‌کنه تا گروه‌های مختلف سلولی رو شناسایی و تفاوت‌های کارکردی بین‌شون رو متوجه شیم.

🔵 جمع‌بندی

🔵برای حفظ ساختارهای محلی UMAP بهترین انتخابه.
🔵برای تجسم داده‌های غیرخطی t-SNE مناسب‌تره.
🔵برای کاهش خطای بازسازی PCA عملکرد خوبی داره.
🔵برای تفسیر نتایج اول PCA و بعد UMAP انتخاب‌های مناسبی هستن.
🔵برای سرعت و مقیاس‌پذیری UMAP بهترینه.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3👏2

530 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۸: در کدوم سناریو زیر استفاده از t-SNE بهتر از PCA برای کاهش ابعاد، در حین کار با یک سیستم با حداقل توان محاسباتیه؟

Anonymous Quiz

29%

مجموعه داده با 1 میلیون ورودی و 300 ویژگی

19%

مجموعه داده با 100,000 ورودی و 310 ویژگی

33%

مجموعه داده با 10,000 ورودی و 8 ویژگی

19%

مجموعه داده با 10,000 ورودی و 200 ویژگی

😎5👍3🤔1

21 voters472 views18:00

آموزش دیتاساینس و ماشین‌لرنینگ

💡

ترفند هسته (Kernel Trick) در تحلیل مؤلفه‌های اصلی با هسته (Kernel PCA) چیه و چه زمانی استفاده میشه؟

یک روش ریاضیه که امکان می‌ده تا مسائل غیرخطی رو به نحوی تغییر بدیم که بشه از روش‌های خطی برای حل‌شون استفاده کرد. در kPCA به جای کار با ماتریس کوواریانس، از ماتریس هسته استفاده می‌شه.

این ماتریس نشون می‌ده که هر دو نقطه داده در فضای جدید چقدر به هم شبیه هستن؛ فضای جدیدی که با استفاده از یک تابع خاص (هسته) به دست اومده.

برای مثال در مواردی مثل تشخیص چهره، جایی که داده‌ها به صورت غیرخطی در فضای اصلی پخش شدن، kPCA برای استخراج ویژگی‌ها و کاهش ابعاد، بدون تغییر ساختار غیرخطی داده‌ها کاربرد داره.

#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3👌2👨‍💻1

469 views19:02

آموزش دیتاساینس و ماشین‌لرنینگ

⏰

پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺

آموزشی

🔵هدف از کاهش ابعاد

👉

🔗 https://t.iss.one/data_ml/259

🔵انواع روش‌های کاهش ابعاد

👉

🔗 https://t.iss.one/data_ml/261

🔵بررسی PCA با جزئیات

👉

🔗 https://t.iss.one/data_ml/263

🔵بررسی t-SNE با جزئیات

👉

🔗 https://t.iss.one/data_ml/266

🔵بررسی UMAP با جزئیات

👉

🔗 https://t.iss.one/data_ml/269

🔵کاربردهای کاهش ابعاد

👉

🔗 https://t.iss.one/data_ml/272

🔺

کوئیز

🔵کوییز شماره ۷۳: بررسی عملکرد الگوریتم کاهش ابعاد

👉

🔗 https://t.iss.one/data_ml/260

🔵کوییز شماره ۷۴: تفاوت بین PCA و t-SNE

👉

🔗 https://t.iss.one/data_ml/262

🔵کوییز شماره ۷۵: وظیفه PCA

👉

🔗 https://t.iss.one/data_ml/264

🔵کوییز شماره ۷۶: پارامتر min_dist در UMAP

👉

🔗 https://t.iss.one/data_ml/267

🔵کوییز شماره ۷۷: نقش تابع هزینه در الگوریتم UMAP

👉

🔗 https://t.iss.one/data_ml/270

🔵کوییز شماره ۷۸: t-SNE و PCA

👉

🔗 https://t.iss.one/data_ml/274

🔺

نکته

🔵استفاده از PCA برای تشخیص ناهنجاری

👉

🔗 https://t.iss.one/data_ml/265

🔵بررسی کد الگوریتم t-SNE

👉

🔗 https://t.iss.one/data_ml/268

🔵بررسی کد الگوریتم UMAP

👉

🔗 https://t.iss.one/data_ml/271

🔵ترفند هسته (Kernel Trick) در Kernel PCA

👉

🔗 https://t.iss.one/data_ml/275

#Weekend
#Machine_Learning
#Dimensionality_Reduction

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👏3👍2🔥2

526 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

👩‍🎓

برنامه آموزشی هفته: تشخیص ناهنجاری یا Anomaly Detection

🟠شنبه: هدف از تشخیص ناهنجاری

🔵یک‌شنبه: انواع تشخیص ناهنجاری

🟢دوشنبه: بررسی iForest با جزئیات

🔴سه‌شنبه: بررسی LOF با جزئیات

🟠چهارشنبه: شبکه‌های عصبی برای تشخیص ناهنجاری

🔵پنج‌شنبه: کاربردهای تشخیص ناهنجاری

🟢جمعه: جمع بندی

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👌2🔥1

3.35K views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

🟡 دوره‌های مقدماتی و پیشرفته علم داده

دنیای داده‌ها جذابه و دونستن علم داده، توانایی تحلیل داده‌، یا بازاریابی مبتنی بر داده، می‌تونه شما رو برای فرصت‌های شغلی زیادی مناسب کنه.

فارغ از رشته‌ و پیش زمینه‌تون، می‌تونین با استفاده از دوره‌های رضا شکرزاد این مسیر رو شروع کنین و از سطح مقدماتی تا پیشرفته پیش برین.

🟢 دوره جامع دیتاساینس و ماشین لرنینگ:

👉

📎

https://ctdrs.ir/cr14924

❗️دانشجویان دوره علم داده ۱ می‌تونن با پرداخت اختلاف هزینه، دوره جامع رو تهیه کنن.

🔵 هوش تجاری و تحلیل داده با Tableau و Power BI:

👉

📎

https://ctdrs.ir/cr14230

🟠مارکتینگ داده‌محور:

👉

📎

https://ctdrs.ir/cr13581

#Courses

@DSLanders | دی‌اس‌لندرز

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1🔥1

513 views17:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

هدف از تشخیص ناهنجاری

تشخیص ناهنجاری اشاره به تکنیک‌ها و روش‌هایی داره که در اونها داده‌هایی که از الگوهای معمول متفاوت هستن، شناسایی می‌شن.

🔵 هدف از تشخیص ناهنجاری

هدف اصلی از تشخیص ناهنجاری، شناسایی داده‌ها یا رویدادهایی هست که از الگوهای معمول یا مورد انتظار منحرف هستن. این کار به دلایل زیر انجام می‌تونه انجام شه:

🔵

پیشگیری از خسارت: در حوزه‌هایی مثل تشخیص تقلب یا نظارت روی سلامت تجهیزات، تشخیص به موقع ناهنجاری‌ها از به وجود اومدن خسارت‌های جدی جلوگیری می‌کنه.

🔵

بهبود امنیت: تشخیص حملات سایبری یا نفوذهای امنیتی اکثرا با شناسایی الگوهای ناهنجار در ترافیک شبکه انجام می‌شه.

🔵

کیفیت داده: در تحلیل داده‌ها، حذف یا اصلاح داده‌های ناهنجار به افزایش دقت نتایج کمک می‌کنه.

🔵

کشف دانش: بعضی اوقات ناهنجاری‌ها نشون‌دهنده کشفیات جدید یا فرصت‌های نوآوری هستن.

🔵

بهینه‌سازی عملیاتی: تشخیص ناهنجاری به شناسایی نقاط ضعف و فرصت‌های بهبود در فرآیندهای عملیاتی کمک می‌کنه و این ویژگی در صنایع تولیدی و حمل‌ونقل کاربرد داره.

🔵

مدیریت ریسک: در مدیریت مالی و بیمه، تشخیص ناهنجاری باعث شناسایی ریسک‌های احتمالی میشه و به شرکت‌ها امکان می‌ده تا استراتژی‌های مدیریت ریسک‌شون رو تنظیم و از ضررهای بزرگ جلوگیری کنن.

🔵

بهینه‌سازی مصرف انرژی: در صنعت انرژی، تشخیص ناهنجاری برای شناسایی موارد هدر رفت انرژی کاربرد داره و باعث کاهش هزینه‌ها میشه.

🔵

روش‌های تشخیص ناهنجاری

🔵

تشخیص ناهنجاری بر اساس نقاط دورافتاده: این روش‌ها به دنبال شناسایی داده‌هایی هستن که به شدت از مجموعه‌های داده اصلی منحرف شدن.

🔵

تشخیص ناهنجاری بر پایه چگالی: در این روش، داده‌هایی که در نواحی با چگالی پایین‌تر قرار دارن به عنوان ناهنجار شناسایی می‌شن.

🔵

تشخیص ناهنجاری بر اساس خوشه: داده‌هایی که به هیچ خوشه معناداری تعلق ندارن یا با فاصله زیادی از کلاسترهای اصلی قرار دارن.

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤4🔥1

507 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۷۹: کدوم یک از گزینه‌های زیر به درستی انواع ناهنجاری‌های موجود در داده‌ها رو شرح می‌ده؟

Anonymous Quiz

16%

ناهنجاری‌های جهانی و ناهنجاری‌های محلی

44%

ناهنجاری‌های نقطه‌ای، ناهنجاری‌های زمینه‌ای و ناهنجاری‌های جمعی

19%

ناهنجاری‌های بر اساس خطا و ناهنجاری‌های بر اساس تقلب

22%

ناهنجاری‌های دسته‌بندی شده و ناهنجاری‌های غیردسته‌بندی شده

❤5😎3🔥2

32 voters445 views15:15

آموزش دیتاساینس و ماشین‌لرنینگ

💡

تفاوت تشخیص ناهنجاری با حذف نویز چیه؟

هر دو برای شناسایی و فیلتر کردن ناهنجاری‌ها هستن اما اهداف و روش‌شناسی‌های متفاوتی دارن.

🔵 اهداف

🔵تشخیص ناهنجاری: شناسایی نقاط داده‌ای که به طور قابل توجهی از بقیه داده‌ها منحرف شدن.

🔵حذف نویز: از بین بردن نقاط داده‌ای تصادفی یا بدون اطلاعات که اکثرا به دلایلی مثل خطاهای اندازه‌گیری به وجود اومدن.

🔵 روش‌شناسی

🔵

تشخیص ناهنجاری: از روش‌های آماری، مبتنی به فاصله یا یادگیری ماشین استفاده می‌کنه.

🔵

حذف نویز: معمولاً از تکنیک‌های فیلتر کردن مثل میانگین‌های دوره‌ای یا میانگین مرکزی استفاده می‌کنه.

🔵 زمینه کاربرد

🔵

تشخیص ناهنجاری: تشخیص تقلب مالی، امنیت شبکه، نظارت به تجهیزات و...

🔵

حذف نویز: بسیار مهم در پیش‌پردازش داده‌های خام، متن‌های ساختار نیافته، یا تصاویر برای بهبود کیفیت سیگنال قبل از تجزیه و تحلیل‌های اصلی.

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3👌1

485 views17:31

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 انواع روش‌های تشخیص ناهنجاری

🔵

روش‌های آماری

روش‌های آماری یکی از سنتی‌ترین رویکردها در تشخیص ناهنجاری هستن. این روش‌ها بر پایه مدل‌سازی توزیع داده‌های نرمال و شناسایی داده‌هایی که با این توزیع سازگار نیستن، عمل می‌کنن. بعضی از روش‌های آماری شامل نمونه‌های زیر میشن:

🔵

نقطه دورافتاده با استفاده از Z-Score: این روش بر اساس محاسبه انحراف معیار و میانگین داده‌ها کار می‌کنه و داده‌هایی که از میانگین به اندازه‌ای مشخص دور هستن رو به عنوان نقطه دورافتاده شناسایی می‌کنه.

🔵

تجزیه و تحلیل مؤلفه‌های اصلی (PCA): PCA برای کاهش بعد داده‌ها و شناسایی الگوهای ناهنجاری در داده‌های کم‌بعد استفاده می‌شه.

🔵

روش‌های مبتنی بر فاصله

این روش‌ها داده‌های ناهنجار رو با توجه به فاصله‌شون از بقیه داده‌ها تشخیص می‌دن. الگوریتم K-نزدیک‌ترین همسایه (K-NN) یکی از معروف‌ترین روش‌های این گروهه. داده‌هایی که فاصله زیادی با K همسایه نزدیک‌شون دارن، به عنوان ناهنجاری شناسایی می‌شن.

🔵

روش‌های مبتنی بر چگالی

روش‌های مبتنی بر چگالی مثل DBSCAN و OPTICS، داده‌هایی که در نواحی با چگالی پایین قرار دارن رو به عنوان ناهنجاری در نظر می‌گیرن. این روش‌ها برای داده‌هایی با توزیع‌های مختلف کاربرد دارن و نیازی به تعیین تعداد خوشه‌ها ندارن.

🔵

شبکه‌های عصبی

شبکه‌های عصبی و یادگیری عمیق هم برای تشخیص ناهنجاری استفاده می‌شن. این روش‌ها مخصوصا در داده‌های پیچیده و با ابعاد بالا کارآمد هستن. بعضی از روش‌های شبکه‌های عصبی شامل نمونه‌های زیر میشن:

🔵

شبکه‌های عصبی خودرمزگذار (Autoencoders): Autoencoderها داده‌ها رو به یک فضای کم‌بعد تبدیل و سپس بازسازی‌شون می‌کنن. داده‌هایی که در فرایند بازسازی دارای خطای زیادی هستن، ناهنجار در نظر گرفته میشن.

🔵

شبکه‌های متخاصم مولد (GANs): GANها از دو بخش، یکی مولد و یکی تمییز دهنده، استفاده می‌کنن. مولد داده‌های جعلی می‌سازه که تمییز دهنده نمی‌تونه تشخیص بده جعلی هستن یا واقعی. اگه تمییز دهنده به سادگی بفهمه داده‌ها جعلی هستن، این نوع داده‌ها رو ناهنجار تشخیص می‌ده.

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6👌2👏1

511 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۸۰: کدوم یک از گزینه‌های زیر تکنیک صحیحی برای کشف ناهنجاری‌های مبتنی بر تراکم داده‌ها نیست؟

Anonymous Quiz

K-means cluster analysis

😎4❤3🤔2

47 voters430 views15:00

آموزش دیتاساینس و ماشین‌لرنینگ

💡

مزایا و معایب روش‌های تشخیص ناهنجاری

🔵

روش‌های آماری

🔵

مزایا: سادگی و قابل فهم بودن؛ کارایی در داده‌های کوچک.

🔵

معایب: محدودیت در مواجهه با داده‌های پیچیده؛ حساسیت به تنظیمات پارامتر.

🔵

روش‌های مبتنی بر فاصله

🔵

مزایا: انعطاف‌پذیری؛ سادگی پیاده‌سازی.

🔵

معایب: هزینه محاسباتی بالا برای داده‌های بزرگ؛ حساسیت به انتخاب تعداد همسایگان (K).

🔵

روش‌های مبتنی بر چگالی

🔵

مزایا: کارآمد در داده‌های با توزیع‌های مختلف؛ عدم نیاز به تعیین تعداد خوشه‌ها.

🔵

معایب: پیچیدگی در تنظیم پارامترها؛ چالش‌ها در داده‌های بسیار بزرگ.

🔵

شبکه‌های عصبی و یادگیری عمیق

🔵

مزایا: قابلیت کشف ویژگی‌های پیچیده و غیرخطی؛ انعطاف‌پذیری و قابلیت تعمیم.

🔵

معایب: نیاز به حجم زیادی از داده برای آموزش؛ پیچیدگی محاسباتی و زمان آموزش طولانی.

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍4👌3

456 views17:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 بررسی iForest با جزئیات

یکی از روش‌های موثر در تشخیص ناهنجاری، استفاده از الگوریتم iForest یا جنگل ایزوله است. iForest که مخفف Isolation Forest هست، یک الگوریتم مبتنی بر درخت تصمیم برای تشخیص ناهنجاریه.

این روش به جای تمرکز روی ساختن فهرستی از داده‌های عادی، سعی در ایزوله کردن نمونه‌های ناهنجار داره. این کار با ساختن چندین درخت ایزوله و محاسبه‌ی میزان طول مسیر ایزوله برای هر نمونه انجام می‌شه. نمونه‌هایی که زودتر ایزوله می‌شن، احتمال دارن که ناهنجار باشن.

🔵

نحوه کار iForest

الگوریتم iForest با ایجاد یک جنگل از درختان ایزوله کار می‌کنه. هر درخت در این جنگل با استفاده از یک زیرمجموعه‌ی تصادفی از داده‌ها ساخته می‌شه.

در هر گره از درخت، یک ویژگی به صورت تصادفی انتخاب میشه و یک مقدار شکاف (split value) هم به صورت تصادفی تعیین می‌شه تا داده‌ها رو به دو زیر مجموعه تقسیم کنه. این فرآیند تا رسیدن به ایزوله کردن نمونه‌ها یا رسیدن به عمق مشخصی از درخت ادامه داره.

🔵

مزایای iForest

🔵الگوریتم iForest به دلیل نیاز کم به محاسبه و پیچیدگی زمانی خطی، برای داده‌های بزرگ بسیار کارآمده.

🔵نسبت به بقیه الگوریتم‌های تشخیص ناهنجاری، iForest نیاز به تنظیم کمتری از پارامترها داره.

🔵این الگوریتم می‌تونه انواع مختلفی از ناهنجاری‌ها رو بدون توجه به نوع توزیع داده‌ها تشخیص بده.

🔵

چالش‌ها و محدودیت‌ها

🔵با وجود اینکه iForest نیاز به تنظیم کمتری از پارامترها داره، اما انتخاب تعداد درخت‌ها و عمق درخت روی عملکردش تأثیر داره.

🔵در صورتی که ناهنجاری‌ها بسیار نزدیک به داده‌های عادی باشن، تشخیص‌شون سخت می‌شه.

🔵

کاربردها

الگوریتم iForest در زمینه‌های مختلفی مثل تشخیص تقلب، سیستم‌های توصیه‌گر، نظارت به سلامت شبکه، و تشخیص نقص در تولید استفاده می‌شه. همچنین کارایی بالا و نیاز کمی به منابع محاسباتی داره.

🔵 مهم‌ترین پارامترهای کد iForest

تعداد درخت‌ها (n_estimators) روی دقت تشخیص ناهنجاری‌ها و عمق درخت (max_depth) روی قابلیت جداسازی ناهنجاری‌ها و تعادل بین زمان اجرا و دقت تاثیر گذاره.

همچنین contamination برای تعیین سطح آستانه‌ای که بر اساسش نمونه‌ها به عنوان ناهنجار شناسایی می‌شن اهمیت داره.

#Machine_Learning
#Anomaly_Detection

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3👌2

470 views08:31

About

Blog

Apps

Platform