Data Science
2.29K subscribers
108 photos
62 videos
17 files
104 links
آموزش نوین علم داده و رویکردهای داده محور
@DataScience :: Machine Learning, Statistics, Econometrics, BI and big data
#data_science
#Machine_learning
Download Telegram
اقتصادسنجی و یادگیری ماشین (از سلسله آموزش های علم داده)
2⃣ سنجی سری زمانی
Time Series Regression

مدل های سری زمانی مختص به علم خاصی مانند علم اقتصادسنجی، یادگیری و غیر نیست. پایه این مدل ها آماری و بر مبنای ایده اتورگرسیو است. ساده ترین این مدل ها شامل مدل های :
AR, MA and ARIMA
است، که در همه علوم مرتبط نام آشنا هستند. اما در هر کدام از علوم متناسب با نیازمندی های آن حوزه و با توجه به توسعه های آن, مدل های مختلفی بوجود آمده است مانند مدل های مارکف پنهان و غیره. در علم سنجی نیز مدل های زیر بسیار پر کاربرد است:
VARX, SVARX, TVAR, MSVAR, BVARX, MSGHARCH, MGHARCH,...
اما تفاوت این مدل ها با مدل های رگرسیون مقطعی یا مدل های یادگیری ماشین ساده در چیست؟ مگر ما داده دارای ویژگی زمان را در مدل تخمین نمی زنیم. جواب مثبت است اما تفاوت اساسی در برخورد مدل با متغیر زمان است. زمانی ما یک شبکه عصبی ساده ( نه شبکه عصبی سری زمانی) یا رگرسیون مقطعی تخمین میزنیم از داده های متغیرهای توضیحی، همان مشاهده برای برازش مقادیر استفاده میکنیم. پس رفتار مدل ما
Temporal
است.
ادامه در پست بعد..

🌐@Data_ScienceR
ادامه پست قبل...

2⃣ سنجی سری زمانی
Time Series Regression

... پس رفتار مدل ما
Temporal
است. پس ما در حقیقت از حافظه متغیر و گذشته و تاریخچه آن که منبع غنی از اطلاعات است بهره نبرده ایم. اما در مدل های سری زمانی برای برازش یا پیشبینی متغیر هدف، از حافظه گذشته خود متغیر یا سایر متغیرها استفاده میشود و این مزیت مدل های سری زمانی است. در این حالت ما علاوه بر برازش و تخمین prediction میتوانیم از پیشبینی برون نمونه ای forecast نیز بهره ببریم. که متأسفانه ما اصولا این دو واژه را اشتباها بجای هم بکار می بریم.
اما در مدل های سری زمانی نیز ما با یک بعد از داده یعنی زمان به ازای یک مقطع سر و کار داریم. مثلا نرخ رشد اقتصادی ایران طی 30 سال گذشته و حتی یکسری متغیر توضیحی. اما در داده های پانل چندین مقطع و زمان وجود دارد که ابعاد زمان ما میتواند متوازن یا نامتوازن باشد.

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR
(از سلسله آموزش های علم داده)
3⃣ سنجی پانل دیتا
Econometrics: panel data

تفاوت مدل های پانل دیتا با سایر مدلهای رگرسیونی و یادگیری ماشین در چیست؟ مگر ما در مدل های یادگیری ماشین داده های پانل نداریم یا تخمین نمی زنیم!! جواب این سوال مثبت است، بله ما در مدل های یادگیری ماشین و رگرسیون های ساده ممکن است داده های پانل تخمین بزنیم، اما تفاوت مدل های پانل در مدلسازی و تخمین الگوریتم با ساختار پانل است. یعنی برای رگرسیون عادی و شبکه عصبی تفاوتی ندارد که داده پانل است یا خیر، الگوریتم پارامترهای خود را با یک روش بهینه ساز مانند لونبرگ مارکوارت در شبکه عصبی یا بهینه ساز گوس نیوتون در رگرسیون ها غیرخطی اقدام به برازش مدل می نماید. اما تفاوت مقاطع و بلوک ها را درک نمیکند. قبل از توضیح منطق رگرسیون پانل اجازه دهید خود داده پانل را تعریف نماییم. داده پانل به داده ای می گویند که علاوه بر بعد موجودیت یا مقطع دارای بعد زمان نیز می باشد.
(مانند داده های صد شرکت بورس برای 10 سال. مقاطع= شرکت های بورس، تایم= سالهای فعالیت)
ادامه در پست بعد...

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR
ادامه پست قبل...
تفاوت ها و شباهت های اقتصادسنجی و یادگیری ماشین (از سلسله آموزش های علم داده)

3⃣ سنجی پانل دیتا
Econometrics: panel data

ادامه پست قبل...
به عبارتی داده های ما 2 بعد از ابعاد 3 گانه یک رخداد را دارند پس بهتر است از مدلسازی و الگوریتمی استفاده شود که توانایی مدل نمودن هر دو بعد در داخل آن دیده شده باشد. مدل های پانل دیتا بدین صورت هستند و در تخمین متوجه ابعاد مقطع و زمان میشوند و در ساده ترین حالت برای هر بلوک مقطعی یا زمانی عرض از مبدأ خاص و انعطاف پذیر در نظر میگیرند. در نتیجه در شرایط ناهمگنی مقاطع یا ابعاد زمانی عملکرد و قدرت برازش بسیار بهتر و با تورش کمتر خواهند داشت.

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR
📌 نکته: مزیت رگرسیون های پانل دیتا:

اصولا در داده ها یکسری اثرات ثابت و تصادفی وجود دارد که ممکن است زمانی یا مقطعی باشد، شما چگونه این اثرات در داده ها را مدلسازی یا کنترل می نمایید؟! زیرا در صورت عدم کنترل نتایج شما تورش دار و فاقد اعتبار کافی است. مدل های پانل دیتا این اثرات خاص زمانی، مقطعی یکطرفه یا دوطرفه را مدل و کنترل می نمایند. مثلا نقدینگی با تورم رابطه مثبت دارد، پس چرا در کشورهای مختلف این نظریه نتایج مختلفی دارد و ضریب و متوسط اثرگذاری متفاوت است. مثلا چرا نقدینگی در کشور ایران اثرگذاری متفاوتی نسبت به کشورهای اروپایی دارد؟! جواب شاید پیچیده نباشد اما مدلسازی آن ساده نخواهد بود. دلیل این تفاوت مرتبط با ویژگی های خاص کشور ایران در مقایسه با کشورهای اروپایی است، مثل نفت خیز بودن، فرهنگ، شرایط اقتصادی، زیرساخت، مدیریت، سیاست، انقلاب ، تحریم و ... خب این تفاوت ها در مدل سازی کجا قرار میگیرند یا همه این عوامل را میتوان کمی نبود و یا بصورت متغیر مجازی وارد نمود، خب جواب منفی است. اما در مدل های پانل این ویژگی های انفرادی یا زمانی منحصربفرد در قالب تفاوت متوسط سایر عوامل حذف شده از مدل در عرض از مبدأ های مختلف خود را نشان میدهد و رگرسیون صرفا یک عرض از مبدأ ندارد. این مساله یکی از مزیت های مدل های پانل است.
Forwarded from Data Science
جایگاه هر پکیج در جریان علوم داده:
#Data_Science_Workflow in R

1- فراخوانی و استخراج داده
(readr, data.table, rvest, xml2..)
2- تبدیل داده و تمیزسازی
(Tidyverse= dplyr, magrittr, tidyr, purrr, tibble, stringr, lubridate, ggplot)

پردازش پیچیده و داده حجیم:
SparklyR , Revolution R

3- مدلسازی و ارزیابی
(H2o, keras, GBM, CARET, Party, e1071,broom,rattle_Gui..)

4- ارائه نتایج و مصورسازی
(ggplot & plotly & Highcharter)

5- مدیریت دانش: مستندسازی و ساخت گزارش
(Rmarkdown & R Notebook & blogdown & bookdown )

6- ایجاد web application و داشبورد
(Shiny & Shiny Dashboard)


#R
#shiny
#rmarkdown
#Tidyvers

🌐 @Data_ScienceR
از سلسله آموزش های علم داده (تفاوت و شباهت های یادگیری ماشین و اقتصادسنجی)

4⃣ اقتصادسنجی فضایی (رگرسیون های فضایی)
📒 Spatial Econometrics

قبل از ورود به منطق سنجی فضایی و مدل های مربوطه بهتر است جهت یادآوری، به رویکرد توسعه و دسته بندی متدولوژی های اقتصادسنجی برگردیم. همانطور که قبلا نیز مطرح شد. منطق توسعه مدل های سنجی یک منطق رخداد محور
Event Driven
بوده است. زمانی که ما پدیده یا رخدادی را میخواهیم توصیف نماییم 3 بعد موجودیت، زمان و مکان الزامی است و این 3 بعد اصلی به یک رخداد مفهوم می بخشند. از این رو مدل های فضایی را شاید بتوان یکی از کامل ترین متدولوژی ها جهت توصیف، تفسیر و برازش رخدادها دانست.
حال داده های فضایی در اینگونه مدل ها به چه داده ای می گویند و این مدل ها چه ویژگی دارند؟
ادامه در پست بعد...

🌐 آدرس کانال:
https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
از سلسله آموزش های علم داده (تفاوت و شباهت های یادگیری ماشین و اقتصادسنجی)

4⃣ اقتصادسنجی فضایی (رگرسیون های فضایی)
📒 Spatial Econometrics

داده های فضایی در اینگونه مدل ها به داده هایی می گویند که علاوه بر ابعاد زمان یا موجودیت (شخص/شی) دارای بعد فضا باشد. منظور از فضا متغیرهایی که حاوی اطلاعات جغرافیایی و منطقه ای باشند. مانند ماتریس مسافت و مجاورت فضایی. البته در برخی از موارد در داده های ما متغیر منطقه مانند شهر، استان، ایالت و کشور وجود دارد و ما آنرا در قالب رگرسیون های ساده یا مدلهای یادگیری ماشین تخمین میزنیم. ولی در حقیقت این متغیر به عنوان مقطع یا موجودیت در مدل لحاظ شده است نه ویژگی فضا و مجاورت. پس مدل های معمولی بعد فضا را مدل نمی نمایند و به این منظور باید از متغیرهایی مانند ماتریس مجاورت و مدل هایی مانند رگرسیون های فضایی استفاده نمود. پس در این مدل ها میتوان هر 3 بعد از یک رخداد را مدل و توصیف نمود.

در ادامه به مزیت هر روش و رویکردهای ترکیبی استفاده از مدل های یادگیری ماشین و سنجی می پردازیم.

🌐آدرس کانال:

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
از سلسله آموزش های علم داده (تفاوت و شباهت های یادگیری ماشین و اقتصادسنجی)

📚 جمع بندی:
پس از توضیح فلسفه مدل های یادگیری ماشین و همچنین مدل های اقتصادسنجی میتوان اینگونه جمع بندی نمود که شباهت این دو علم توانایی کلاس بندی و پیشبینی است.
1⃣ شباهت ها:
-Classification
- Prediction and forecast
قابلیت برازش مدل های دسته بندی کننده و پیشبینی کننده

2⃣ تفاوت ها:
- مدل های سنجی بصورت کلی از نوع الگوریتم های تحت نظارت هستند و میتوان برای تخمین انواع متغیرهای هدف و وابسته با جنس های مختلف مورد استفاده قرار گیرند. اما در مدل های سنجی رویکرد بدون نظارت مانند الگوریتم های شباهت سنجی و خوشه بندی وجود ندارد. اما در آمار و یادگیری ماشین تنوع اینگونه مدل ها زیاد است.
- از دیگر تفاوت های مدلهای سنجی امکان تنظیم هر مدل خاص نسبت به جنس داده مقطعی، سری زمانی، پانل و داده های فضایی است.

🌐https://t.iss.one/Data_ScienceR
Forwarded from Data Science
📚 دسته بندی مدل های اقتصادسنجی حسب نوع کاربرد


https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
📚 دسته بندی مدل های اقتصادسنجی حسب نوع و جنس داده


https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
تفاوت ها و شباهت های یادگیری ماشین و اقتصادسنجی (از سلسله آموزش های علم داده)

📗 علاوه بر دسته بندی کلاسیک مدل های سنجی که براساس رویکرد رخدادمحور Event Driven معرفی شد.

- مقطعی و نمونه ای Cross-Section
- سری زمانی Time Series
- پانل دیتا Panel Data
- سنجی فضایی Spatial Econometrics

میتوان دسته بندی دیگری براساس همین رویکرد ارائه نمود. همانطور که قبلا گفته شد، اجزا اصلی یک رخداد دارای 3 بعد موجودیت، زمان و مکان است. در نتیجه مدل ها را میتوان به:
1- مدل های تک بعدی (به لحاظ ابعاد رخداد):
- مدلهای مقطعی
Cross-Section / Temporal
- مدلهای سری زمانی
Time Series

2- مدلهای 2 بعدی ( به لحاظ ابعاد رخداد):
- مدل های پانل دیتا (خصوصا پانل پویا)
Panel Data Model

3- مدل 3 بعدی (به لحاظ ابعاد رخداد):
-مدلهای سنجی فضایی
Spatial Econometrics

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
Yves_Croissant,_Giovanni_Millo_Panel.pdf
3.1 MB
📚 کتاب آموزش مدل های پانل دیتا در R

#panel_data_in_R

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
Spatial Regression.pdf
1.6 MB
📒 کتاب آموزشی و یکی از رفرنس های اصلی رگرسیون های فضایی
#Spatial_Regression

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
علم داده چیست؟.pdf
692.2 KB
📚 علوم داده چیست؟


🆔@datascienceedu
🌐@Data_ScienceR
📚 learn Data Science (8 Steps)
مهارت های مورد نیاز در زمینه علوم داده


#data_science

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
📚 آمار، مهندسی داده و علوم داده

مهارت ها، ابزارها، موقعیت شغلی و درآمد..

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR