Iran_Stat
123 subscribers
11 photos
2 videos
16 links
در این کانال سعی داریم
مباحث از سطح پایه تا پیشرفته پوشش داده شوند و ابزارهای مختلف مانند R ، SPSS ، Excel و Python به شکلی کاملاً کاربردی و رایگان آموزش داده شوند .

@Iranstat_admin1
@Iranstat_admin2
Download Telegram
Iran_Stat pinned «🧠بیشترین علاقه شما برای آموزش های بعدی کانال چه چیزی هست؟»
📉چیت شیت پاکسازی و فیلتر داده ها با دو پکیج tidyr و dplyr📊





🌸💯با ما همراه باشید....



💫آکادمی iran_stat
📌 «همبستگی کاذب»؛ یکی از تله‌های مرگبار تحلیل داده!

خیلی وقت‌ها توی تحلیل آماری، بین دو متغیر یک همبستگی قوی پیدا می‌کنیم و ذوق‌زده می‌شیم!
اما صبر کن... 📉

آیا همبستگی یعنی رابطه علّی؟ نه همیشه!

🔍 مثالی معروف: در آمریکا، داده‌ها نشون داده بودن که مصرف بستنی با افزایش غرق شدن در استخرها همبستگی مثبت داره!
اما آیا بستنی باعث غرق شدن می‌شه؟ قطعاً نه 😄
عامل سوم (تابستون و گرما) پشت این رابطه‌ست. به این می‌گن:

🔺 همبستگی کاذب (Spurious Correlation)




📎 چطور گرفتارش نشیم؟

همیشه دنبال متغیرهای مخدوش‌کننده (Confounders) باش
از تکنیک‌هایی مثل تحلیل رگرسیون چندگانه یا مدل‌سازی ساختاری استفاده کن
و مهم‌تر از همه: فقط به عدد "r" یا ضریب همبستگی دل خوش نکن!




🧠 تحلیل داده بدون درک مفهومی، یعنی قضاوت‌های اشتباه با اطمینان زیاد...


🆔:@Statistics_Irann
📰 آمار چطوری خبر می‌سازه؟ یه واقعیت مهم که شاید ندونی!

تا حالا شده یه تیتر خبری این شکلی ببینی؟ 👇
🔺 «مصرف قهوه خطر بیماری قلبی رو ۴۰٪ کاهش می‌ده!»
یا
🔻 «احتمال ابتلا به سرطان در کسانی که شب بیدارن، ۲ برابر بیشتره!»

اما صبر کن...
آیا این آمارا واقعی‌ان؟ یا فقط بازی با اعداده؟ 🎲




🎯 اینجا پای یه ابزار آماری وسطه به اسم:

"رگرسیون لجستیک (Logistic Regression)"

این روش آماری کمک می‌کنه که با استفاده از داده‌های گذشته، احتمال وقوع یک رویداد دودویی (مثلاً بیمار شدن یا نشدن) رو پیش‌بینی کنن.

اما نکته مهم:

🔍 خیلی وقتا توی خروجی این مدل‌ها، فقط ضریب‌ها و نسبت شانس (Odds Ratio) رو گزارش می‌کنن.
بعد اون نسبت شانس می‌شه تیتر داغ رسانه‌ها!

مثلاً:
مدل نشون می‌ده مصرف زیاد نوشابه باعث می‌شه نسبت شانس ابتلا به دیابت 1.5 برابر بشه
و خبر می‌گه: «نوشابه خطر دیابت را ۵۰٪ افزایش می‌دهد» 😳

در حالی که:

داده ممکنه از یه نظرسنجی ضعیف اومده باشه

متغیرهای مهم حذف شده باشن (مثلاً ورزش یا ژنتیک)

همبستگی رو به جای علیت جا زده باشن


🆔:@Statistics_Irann
📌 گرایش‌های پرطرفدار آمار در مقطع ارشد



1⃣آمار ریاضی (Mathematical Statistics)

📚 چی یاد می‌گیری؟
ریشه‌های نظری آمار، اثبات فرمول‌ها، تحلیل‌های دقیق، احتمال پیشرفته، فرآیندهای تصادفی.

🎯 مناسب برای کیه؟
کسی که عاشق ریاضی، تحلیل، و تدریسه یا می‌خواد دکتری بگیره و وارد کار دانشگاهی یا پژوهشی بشه.

💼 بازار کار؟
محدوده، ولی در دانشگاه‌ها، پژوهشکده‌ها یا مسیر علمی قابل توجهه.



2⃣آمار اقتصادی - اجتماعی (Socioeconomic Statistics)

📚 چی یاد می‌گیری؟
تحلیل داده‌های اقتصادی، مدل‌های سری زمانی، داده‌های ترکیبی، اقتصادسنجی.

🎯 مناسب برای کیه؟
کسی که دوست داره آمار رو در اقتصاد و جامعه به‌کار ببره. مناسب برای شغل‌های دولتی، بانک مرکزی، مرکز آمار و پژوهشکده‌ها.

💼 بازار کار؟
در ایران خوبه. به‌خصوص در حوزه‌های مرتبط با بانک، دولت، مشاوره آماری و طرح‌های بزرگ اجتماعی.




3️⃣ آمار زیستی (Biostatistics)

📚 چی یاد می‌گیری؟
تحلیل داده‌های پزشکی، طراحی آزمایشات بالینی، تحلیل بقا، مدل‌سازی در سلامت.

🎯 مناسب برای کیه؟
علاقه‌مندان به حوزه سلامت، پزشکی، بیوانفورماتیک یا کار در علوم پزشکی.

💼 بازار کار؟
خیلی خوب. در شرکت‌های دارویی، مراکز تحقیقاتی پزشکی، دانشگاه‌های علوم پزشکی.

🌍 خارج از ایران؟
بی‌نظیره. یکی از بهترین گرایش‌ها برای مهاجرت علمی.



4️⃣ علم داده (Data Science)

📚 چی یاد می‌گیری؟
ترکیبی از آمار، یادگیری ماشین، برنامه‌نویسی (پایتون/R)، تحلیل داده‌های حجیم.

🎯 مناسب برای کیه؟
کسی که می‌خواد وارد حوزه هوش مصنوعی، تحلیل کلان‌داده‌ها یا شغل‌های پردرآمد مثل Data Scientist بشه.

💼 بازار کار؟
در حال رشد شدید. در شرکت‌های فناوری، فین‌تک، استارتاپ‌ها، تحلیل مارکتینگ.

📌 توجه: علم داده گرایش رسمی ارشد آمار نیست (در ایران) ولی با انتخاب درست پروژه، پایان‌نامه و مهارت‌ها، می‌تونه بهش نزدیک بشی.




5️⃣ بیم‌سنجی (Actuarial Statistics)

📚 چی یاد می‌گیری؟
مدل‌سازی ریسک، محاسبه حق بیمه، تحلیل خسارت، کاربرد احتمال در صنعت بیمه.

🎯 مناسب برای کیه؟
کسی که دنبال بازار کار خوب در بیمه، بانک یا تحلیل‌های مالی و ریسک‌محوره.

💼 بازار کار؟
خوب. به‌ویژه در بیمه مرکزی، تأمین اجتماعی، بیمه‌های خصوصی، شرکت‌های ریسک.

🌍 خارج از ایران؟
در کشورهای توسعه‌یافته (مثل کانادا، امریکا، اروپا)، جزو پردرآمدترین تخصص‌هاست.

🆔: @Statistics_Irann
5
📊 🎓 کدوم گرایش آمار رو برای ادامه تحصیل در مقطع ارشد ترجیح می‌دی؟
Final Results
12%
آمار ریاضی📐
2%
آمار اقتصادی و اجتماعی💼
16%
آمار زیستی🏥
35%
علم داده🤖
12%
بیمسنجی🧾
23%
هنوز تصمیم نگرفتم☹️
🎯 نکته کاربردی برای علاقه‌مندان به علم داده:

📌 قبل از اینکه مدل‌سازی رو شروع کنی، ۷۰٪ وقتت رو صرف تمیز کردن داده‌ها کن!

بله درست خوندی!
🔍 حتی بهترین مدل‌ها هم با داده‌های کثیف، خروجی‌های بی‌معنی می‌دن.

پس اولین مهارت مهم برای ورود به علم داده اینه:
Data Cleaning is King 👑

🔧 یاد بگیر:

چطور با داده‌های گمشده برخورد کنی

مقادیر پرت (outliers) رو شناسایی و بررسی کنی

ستون‌های بی‌ربط یا تکراری رو حذف کنی

نوع متغیرها رو درست مشخص کنی (عددی، طبقه‌ای، متنی...)


🧠 خیلی‌ها فقط روی یادگیری مدل‌ها تمرکز می‌کنن، اما اونایی موفق می‌شن که اول «داده‌ی تمیز» بسازن!


🆔: @Statistics_Irann
5
🎯 نکته: تفاوت بین مدل‌های پارامتری، نیمه‌پارامتری و ناپارامتری در تحلیل آماری

در مقاطع بالاتر مثل ارشد، شناخت نوع مدل‌ها و فرض‌های آنها اهمیت حیاتی در انتخاب روش تحلیل دارد:




1. مدل‌های پارامتری (Parametric Models):

این مدل‌ها ساختار مشخصی برای توزیع داده‌ها فرض می‌کنند (مثلاً نرمال، پواسون، نمایی).

فقط کافی است پارامترهای خاصی (مثل میانگین و واریانس) را تخمین بزنید.

مثال: رگرسیون خطی کلاسیک، مدل‌های ARIMA در سری‌های زمانی، مدل کاکس در صورت استفاده از توزیع نمایی.


مزایا: کارآمد و دقیق در صورتی که فرض‌ها درست باشند.
محدودیت: بسیار حساس به نقض فرض‌ها.




2. مدل‌های ناپارامتری (Non-parametric Models):

این مدل‌ها هیچ فرضی درباره توزیع داده‌ها ندارند.

مثال: آزمون‌های من-ویتنی، کروسکال-والیس، مدل‌های درخت تصمیم، روش‌های کرنل (Kernel methods)، Kaplan-Meier در تحلیل بقا.


مزایا: انعطاف‌پذیر، مناسب برای داده‌های واقعی با توزیع‌های ناشناخته.
محدودیت: معمولاً قدرت آماری کمتر و نیاز به حجم نمونه بالا.




3. مدل‌های نیمه‌پارامتری (Semi-parametric Models):

ترکیبی از پارامتری و ناپارامتری هستند.

یک بخش از مدل ساختار پارامتری دارد، اما بخش دیگر به صورت ناپارامتری مدل‌سازی می‌شود.

مثال بسیار مهم: مدل مخاطره نسبی کاکس (Cox Proportional Hazards Model) که در تحلیل بقا کاربرد دارد. این مدل تابع خطر پایه را به صورت ناپارامتری در نظر می‌گیرد، اما اثر متغیرهای مستقل را به‌صورت پارامتری مدل می‌کند.


مزایا: تعادل بین انعطاف‌پذیری و دقت
محدودیت: تفسیر پیچیده‌تر نسبت به مدل‌های کلاسیک
🆔: @Statistics_Irann
چیت شیت الگوریتم های یادگیری ماشین

🆔: @Statistics_Irann
Part 1:

دو نگاه آماری به یک ادعا!
🤯 تصور کن یک ادعای بزرگ می‌شنوی:
«این رژیم باعث میشه توی یک ماه ۱۰ کیلو وزن کم کنی»

و حالا تو به عنوان تحلیلگر میخوای بفهمی آیا این ادعا واقعاً درسته یا فقط یک شانس اتفاقی هستش.

📊حالا P-Value این موضوع رو برات بررسی می‌کنه :

اگر P-Value خیلی کوچک باشه، یعنی احتمال اینکه این کاهش وزن فقط از روی شانس باشه خیلی خیلی کمه و این ادعا درسته.

هر چی P-Value بزرگ‌تر باشه، یعنی شواهد ما برای تایید ادعا ضعیف‌تره و ممکنه این نتیجه شانسی و بدون اثر واقعی باشه.
3
Part 2:

🌿 پس P-Value بهت میگه «آیا این نتیجه ارزش باور کردن داره یا نه؟» ولی نمیگه خود نتیجه چقدره.

یعنی اگر تایید شد که واقعاً کاهش وزن وجود داره، چطوری بفهمیم «چقدر وزن کم می‌کنیم؟»

حالا فاصله اطمینان جواب این سوال رو میده.

📈 فاصله اطمینان (Confidence Interval):
پس این بار میخوای بدونی «بازه واقعی» کاهش وزن «احتمالاً» چقدر هست.

مثلا میگیم: با ۹۵٪ اطمینان، این رژیم بین ۶ تا ۱۴ کیلو وزن کم می‌کنه.

این بازه بهت دامنه واقعی اثر رو نشون میده، نه فقط اینکه «آیا اثر وجود داره یا نه».


🌿 پس فاصله اطمینان مثل اینه که بگی: «نتیجه بین این دو حد احتمالاً درسته.»

🌿 فرق این دوتا مفهوم چیه؟

حالا P-Value میگه: «باور کن یا نه؟»

و Confidence Interval میگه: «اگر باور کردی، نتیجه واقعی احتمالاً بین این دو عدد است.»


📊 چرا باید هر دو را با هم ببینیم؟
ممکنه P-Value کوچک باشه (پس نتیجه معتبره و معنا دار)، ولی فاصله اطمینان نشون بده اثر واقعی اونقدر کم هست که در عمل ارزشی نداره.
مثلاً: «با ۹۵٪ اطمینان بین ۰٫۲ تا ۰٫۵ کیلوگرم کاهش وزن»
یعنی از نظر آماری درست، ولی از نظر عملی بی‌اثر 😏

پس خیلی مهمه که به هر دو، در تصمیم‌گیری‌ها توجه کنیم
4
تفاوت های مهم آمار کلاسیک و آمار بیز....؟؟؟؟

🆔:@Statistics_Irann
👌1
📊روابط بین توزیع ها📈

🆔: @Statistics_Irann
مسیر شروع تحلیگر داده

🆔 :@Statistics_Irann
آیا با قانون ۶۸٪ ،۹۵٪ ،۹۹.۷٪ در آمار آشنایی دارید؟

وقتی گفته میشه یک جامعه دارای توزیع نرمال است ،‌یعنی داده ها به شکل منظم و قابل پیش بینی حول میانگین (mu) پخش شده اند.

براساس قانون سه سیگما:

📉حدودا ۶۸٪ از داده ها در فاصله یک انحراف معیار از میانگین قرار دارند.

📈حدود ۹۵٪ از داده ها در فاصله دو انحراف معیار از میانگین قرار دارند.

📊و تقریبا ۹۹.۷٪ از داده ها در فاصله سه انحراف معیار از میانگین دیده میشوند.

و این یعنی:

⭐️P(mu-sigma<X<mu+sigma)=0.68

⭐️P(mu-2sigma<X<mu+2sigma)=0.95

⭐️P(mu-3sigma<X<mu+3sigma)=0.997


🆔: @Statistics_Irann