Data Science
2.29K subscribers
108 photos
62 videos
17 files
104 links
آموزش نوین علم داده و رویکردهای داده محور
@DataScience :: Machine Learning, Statistics, Econometrics, BI and big data
#data_science
#Machine_learning
Download Telegram
ادامه پست قبل...
تفاوت ها و شباهت های اقتصادسنجی و یادگیری ماشین (از سلسله آموزش های علم داده)

3⃣ سنجی پانل دیتا
Econometrics: panel data

ادامه پست قبل...
به عبارتی داده های ما 2 بعد از ابعاد 3 گانه یک رخداد را دارند پس بهتر است از مدلسازی و الگوریتمی استفاده شود که توانایی مدل نمودن هر دو بعد در داخل آن دیده شده باشد. مدل های پانل دیتا بدین صورت هستند و در تخمین متوجه ابعاد مقطع و زمان میشوند و در ساده ترین حالت برای هر بلوک مقطعی یا زمانی عرض از مبدأ خاص و انعطاف پذیر در نظر میگیرند. در نتیجه در شرایط ناهمگنی مقاطع یا ابعاد زمانی عملکرد و قدرت برازش بسیار بهتر و با تورش کمتر خواهند داشت.

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR
📌 نکته: مزیت رگرسیون های پانل دیتا:

اصولا در داده ها یکسری اثرات ثابت و تصادفی وجود دارد که ممکن است زمانی یا مقطعی باشد، شما چگونه این اثرات در داده ها را مدلسازی یا کنترل می نمایید؟! زیرا در صورت عدم کنترل نتایج شما تورش دار و فاقد اعتبار کافی است. مدل های پانل دیتا این اثرات خاص زمانی، مقطعی یکطرفه یا دوطرفه را مدل و کنترل می نمایند. مثلا نقدینگی با تورم رابطه مثبت دارد، پس چرا در کشورهای مختلف این نظریه نتایج مختلفی دارد و ضریب و متوسط اثرگذاری متفاوت است. مثلا چرا نقدینگی در کشور ایران اثرگذاری متفاوتی نسبت به کشورهای اروپایی دارد؟! جواب شاید پیچیده نباشد اما مدلسازی آن ساده نخواهد بود. دلیل این تفاوت مرتبط با ویژگی های خاص کشور ایران در مقایسه با کشورهای اروپایی است، مثل نفت خیز بودن، فرهنگ، شرایط اقتصادی، زیرساخت، مدیریت، سیاست، انقلاب ، تحریم و ... خب این تفاوت ها در مدل سازی کجا قرار میگیرند یا همه این عوامل را میتوان کمی نبود و یا بصورت متغیر مجازی وارد نمود، خب جواب منفی است. اما در مدل های پانل این ویژگی های انفرادی یا زمانی منحصربفرد در قالب تفاوت متوسط سایر عوامل حذف شده از مدل در عرض از مبدأ های مختلف خود را نشان میدهد و رگرسیون صرفا یک عرض از مبدأ ندارد. این مساله یکی از مزیت های مدل های پانل است.
Forwarded from Data Science
جایگاه هر پکیج در جریان علوم داده:
#Data_Science_Workflow in R

1- فراخوانی و استخراج داده
(readr, data.table, rvest, xml2..)
2- تبدیل داده و تمیزسازی
(Tidyverse= dplyr, magrittr, tidyr, purrr, tibble, stringr, lubridate, ggplot)

پردازش پیچیده و داده حجیم:
SparklyR , Revolution R

3- مدلسازی و ارزیابی
(H2o, keras, GBM, CARET, Party, e1071,broom,rattle_Gui..)

4- ارائه نتایج و مصورسازی
(ggplot & plotly & Highcharter)

5- مدیریت دانش: مستندسازی و ساخت گزارش
(Rmarkdown & R Notebook & blogdown & bookdown )

6- ایجاد web application و داشبورد
(Shiny & Shiny Dashboard)


#R
#shiny
#rmarkdown
#Tidyvers

🌐 @Data_ScienceR
از سلسله آموزش های علم داده (تفاوت و شباهت های یادگیری ماشین و اقتصادسنجی)

4⃣ اقتصادسنجی فضایی (رگرسیون های فضایی)
📒 Spatial Econometrics

قبل از ورود به منطق سنجی فضایی و مدل های مربوطه بهتر است جهت یادآوری، به رویکرد توسعه و دسته بندی متدولوژی های اقتصادسنجی برگردیم. همانطور که قبلا نیز مطرح شد. منطق توسعه مدل های سنجی یک منطق رخداد محور
Event Driven
بوده است. زمانی که ما پدیده یا رخدادی را میخواهیم توصیف نماییم 3 بعد موجودیت، زمان و مکان الزامی است و این 3 بعد اصلی به یک رخداد مفهوم می بخشند. از این رو مدل های فضایی را شاید بتوان یکی از کامل ترین متدولوژی ها جهت توصیف، تفسیر و برازش رخدادها دانست.
حال داده های فضایی در اینگونه مدل ها به چه داده ای می گویند و این مدل ها چه ویژگی دارند؟
ادامه در پست بعد...

🌐 آدرس کانال:
https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
از سلسله آموزش های علم داده (تفاوت و شباهت های یادگیری ماشین و اقتصادسنجی)

4⃣ اقتصادسنجی فضایی (رگرسیون های فضایی)
📒 Spatial Econometrics

داده های فضایی در اینگونه مدل ها به داده هایی می گویند که علاوه بر ابعاد زمان یا موجودیت (شخص/شی) دارای بعد فضا باشد. منظور از فضا متغیرهایی که حاوی اطلاعات جغرافیایی و منطقه ای باشند. مانند ماتریس مسافت و مجاورت فضایی. البته در برخی از موارد در داده های ما متغیر منطقه مانند شهر، استان، ایالت و کشور وجود دارد و ما آنرا در قالب رگرسیون های ساده یا مدلهای یادگیری ماشین تخمین میزنیم. ولی در حقیقت این متغیر به عنوان مقطع یا موجودیت در مدل لحاظ شده است نه ویژگی فضا و مجاورت. پس مدل های معمولی بعد فضا را مدل نمی نمایند و به این منظور باید از متغیرهایی مانند ماتریس مجاورت و مدل هایی مانند رگرسیون های فضایی استفاده نمود. پس در این مدل ها میتوان هر 3 بعد از یک رخداد را مدل و توصیف نمود.

در ادامه به مزیت هر روش و رویکردهای ترکیبی استفاده از مدل های یادگیری ماشین و سنجی می پردازیم.

🌐آدرس کانال:

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
از سلسله آموزش های علم داده (تفاوت و شباهت های یادگیری ماشین و اقتصادسنجی)

📚 جمع بندی:
پس از توضیح فلسفه مدل های یادگیری ماشین و همچنین مدل های اقتصادسنجی میتوان اینگونه جمع بندی نمود که شباهت این دو علم توانایی کلاس بندی و پیشبینی است.
1⃣ شباهت ها:
-Classification
- Prediction and forecast
قابلیت برازش مدل های دسته بندی کننده و پیشبینی کننده

2⃣ تفاوت ها:
- مدل های سنجی بصورت کلی از نوع الگوریتم های تحت نظارت هستند و میتوان برای تخمین انواع متغیرهای هدف و وابسته با جنس های مختلف مورد استفاده قرار گیرند. اما در مدل های سنجی رویکرد بدون نظارت مانند الگوریتم های شباهت سنجی و خوشه بندی وجود ندارد. اما در آمار و یادگیری ماشین تنوع اینگونه مدل ها زیاد است.
- از دیگر تفاوت های مدلهای سنجی امکان تنظیم هر مدل خاص نسبت به جنس داده مقطعی، سری زمانی، پانل و داده های فضایی است.

🌐https://t.iss.one/Data_ScienceR
Forwarded from Data Science
📚 دسته بندی مدل های اقتصادسنجی حسب نوع کاربرد


https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
📚 دسته بندی مدل های اقتصادسنجی حسب نوع و جنس داده


https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
تفاوت ها و شباهت های یادگیری ماشین و اقتصادسنجی (از سلسله آموزش های علم داده)

📗 علاوه بر دسته بندی کلاسیک مدل های سنجی که براساس رویکرد رخدادمحور Event Driven معرفی شد.

- مقطعی و نمونه ای Cross-Section
- سری زمانی Time Series
- پانل دیتا Panel Data
- سنجی فضایی Spatial Econometrics

میتوان دسته بندی دیگری براساس همین رویکرد ارائه نمود. همانطور که قبلا گفته شد، اجزا اصلی یک رخداد دارای 3 بعد موجودیت، زمان و مکان است. در نتیجه مدل ها را میتوان به:
1- مدل های تک بعدی (به لحاظ ابعاد رخداد):
- مدلهای مقطعی
Cross-Section / Temporal
- مدلهای سری زمانی
Time Series

2- مدلهای 2 بعدی ( به لحاظ ابعاد رخداد):
- مدل های پانل دیتا (خصوصا پانل پویا)
Panel Data Model

3- مدل 3 بعدی (به لحاظ ابعاد رخداد):
-مدلهای سنجی فضایی
Spatial Econometrics

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
Yves_Croissant,_Giovanni_Millo_Panel.pdf
3.1 MB
📚 کتاب آموزش مدل های پانل دیتا در R

#panel_data_in_R

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
Spatial Regression.pdf
1.6 MB
📒 کتاب آموزشی و یکی از رفرنس های اصلی رگرسیون های فضایی
#Spatial_Regression

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
علم داده چیست؟.pdf
692.2 KB
📚 علوم داده چیست؟


🆔@datascienceedu
🌐@Data_ScienceR
📚 learn Data Science (8 Steps)
مهارت های مورد نیاز در زمینه علوم داده


#data_science

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
📚 آمار، مهندسی داده و علوم داده

مهارت ها، ابزارها، موقعیت شغلی و درآمد..

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR
📒 Jupyter notebook

پروژه ژوپیتر یک سازمان غیرانتفاعی است که به منظور «ارائه نرم‌افزارهای متن-باز، استانداردهای باز، و خدماتی برای محاسبات تعاملی میان ده‌ها زبان برنامه‌نویسی» ایجاد شده‌است. پروژه ژوپیتر که در سال ۲۰۱۴ توسط فرناندو پرز از آی‌پایتون اشتقاق یافت، از محیط های اجرایی در ده‌ها زبان برنامه‌نویسی پشتیبانی می‌کند. نام این پروژه به سه زبان برنامه‌نویسی که مورد پشتبانی این پروژه هستند، یعنی سه قمر جولیا، پایتون (زبان برنامه‌نویسی) و آر (زبان برنامه‌نویسی)، و همچنین گالیله نوت بوک (یادداشتهای گالیله) اشاره دارد. پروژه ژوپیتر محصولات کامپیوتری تعاملی دفتر یادداشت ژوپیتر، مرکز ارتباطات ژوپیتر، آزمایشگاه ژوپیتر، و نسل بعدی دفتر یادداشت ژوپیتر را ایجاد کرده و پشتیبانی می‌کند.
ژوپیتر یک مدرک JSON است که با یک فرم ثبت نسخ کامل می‌شود و حاوی یک لیست مرتب از واحدهای ورودی/خروجی است که می‌تواند حاوی کد، متن (با استفاده از مدل‌های نشانه گذاری)، ریاضیات، طرحها و رسانه‌های غنی باشد، و معمولاً با فرمت «ipynb.» پایان می‌یابد.


آدرس کانال:
🆔https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
ادامه...
📒 Jupyter notebook

همچنین دفترچه یادداشت ژوپیتر که قبلا به نام آی پایتون شناخته می‌شد. علاوه بر 3 کرنل اصلی خود به چندین کرنل معروف زبان برنامه نویسی دیگر مانند زبان اسکالا، جاوا، سی و .. متصل است و از آنها پشتیبانی می نماید. اولین نسخه پایدار آن نیز در فوریه 2018 ارائه گردید.
متناظر با این دفترچه میتوان به دفترچه یادداشت های:
R notebook, Rmarkdown, R bookdown, R blogdown
اشاره نمود که در پست های بعد بیشتر معرفی می گردند.


🆔https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
🛠 پرکاربرد ترین الگوریتم های یادگیری ماشین در سالیان 2017 تا 2019

#machine_learning

🆔https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR