Data Science
2.29K subscribers
108 photos
62 videos
17 files
104 links
آموزش نوین علم داده و رویکردهای داده محور
@DataScience :: Machine Learning, Statistics, Econometrics, BI and big data
#data_science
#Machine_learning
Download Telegram
📌 مقایسه ابزارها و زیرساخت‌های مختلف داشبوردسازی (مصورسازی) در شاخص های مختلف
که از مزیت های R shiny میتوان در شاخص های
DB / API Connection
Statistical Calculations
ML Implementation
اشاره نمود.
اما همانطور که گفته شد در ایجاد نمودارهای پویا و تعاملی و تنوع، بستر D3 بسیار غنی است و ضعف آن در زمینه پشتیبانی از تکنیک ها و تحلیل های آماری و یادگیری ماشین است که البته این تکنولوژی برای این کارکرد توسعه پیدا نکرده و کارکرد کمی متفاوتی دارد.

#Dashboard
#data_visualization
#R_shiny
#D3_JavaScript

🌐 @Data_ScienceR
📊 رده بندی ابزاری های مصورسازی در حوزه علوم داده
Data Viz for Data Science

با دو شاخص سهولت یادگیری و قابلیت پوشش نیازمندی ها و ظرفیت

#data_visualization
#DataViz


https://t.iss.one/Data_ScienceR
🌐 @Data_ScienceR
ویژگی‌های یک متخصص یا دانشمند علوم داده و تولباکس های مورد نیاز

#R
#python
#Sql

https://t.iss.one/Data_ScienceR
🌐 @Data_ScienceR
📌 سخن مدیر
در این کانال سعی در تبیین 2 مساله و محور وجود دارد.

1) مورد اول سعی در معرفی کارکردها و جایگاه تکنولوژی های مختلف درون نرم افزار R و سایر نرم افزارهای مرتبط یا مشابه در حوزه علوم داده

2) دوم سعی در بیان مرزها و تشریح تفاوت ها و شباهت های علوم مختلف مرتبط با تحلیل داده و ارتباط آنها با یکدیگر و جایگاه هر یک از آنها ست.
همانطور که می دانید یکی از گام ها در فرآیند داده کاوی مرتبط با تبدیل داده های خام به اطلاعات و سپس تبدیل اطلاعات به دانش و خرد است. برای استخراج اطلاعات و دانش ابزارهای مختلفی وجود دارد و لزوما نیاز به استفاده از متدولوژی های خاص و پیشرفته نیست. گاه یک نمودار یا ضریب همبستگی یا یک نرخ رشد ساده میتواند دانشی را در اختیار شما قرار دهد. پس داده کاوی شما را محدود به ابزار و متد خاصی نمی کند بلکه فرآیند استاندارد و گام های انجام یک فرآیند کسب دانش را به شما پیشنهاد میکند.
عموما ابزار و تکنیک ی که بصورت پیش فرض در این گام تصور میشود استفاده از متدهای یادگیری ماشین بمنظور استنتاج روی داده هاست. اما این دیدگاه میتواند گمراه کننده و ناقص باشد و ذهن دانشمند علوم داده را محدود به یک یا چند متد و ابزار خاص نماید.
عموما ابزارهای قابل استفاده و مرتبط با داده را میتوان در چهار دانش داده محور زیر معرفی نمود:
1- علم آمار (علم مادر و پایه)
2- علم یادگیری ماشین ( یکی از قله های علم آمار و ریاضی-کامپیوتر)
3- علم اقتصادسنجی (یکی دیگر از قله های علم آمار و ریاضی)
4 علم تحلیل اطلاعات جغرافیایی (ترکیب علوم هوا فضا، جغرافیا و آمار)

در پست های بعد هر یک از ابعاد مذکور بیشتر باز میشود.

https://t.iss.one/Data_ScienceR
🌐 @Data_ScienceR
Data Science
#Statistics #Machine_Learning #Econometrics #GIS
📌 ML vs Econometrics

🛠 یادگیری ماشین و اقتصادسنجی دو علم کاملا متضاد و متفاوت!! یا همراستا و با کارکردهای مشابه؟!

آیا تکنیک‌های این دو علم قابل تلفیق جهت بهبود الگوریتم ها و پیشبینی متغیرها می باشد یا خیر؟

🔜 در ادامه به این سوالات پاسخ داد میشود.
📝 Data Science Questions:
When?
Why?
What?
Where?
How?
Who?


https://t.iss.one/Data_ScienceR
🌐 @Data_ScienceR
✳️ تفاوت ها و شباهت های یادگیری ماشین و اقتصادسنجی
⚙️ منطق یادگیری ماشین
عمدتا تکنیک های یادگیری ماشین به دو دسته کلی تکنیک‌های تحت نظارت و بدون نظارت تقسیم بندی میشود (البته قصد ورود به دسته بندی دقیق این حوزه مانند تفکیک متدهای به یاگیری با ناظر، بدون ناظر، تقویتی و .. را نداریم).
در تکنیک های فاقد نظارت با 2 دسته تکنیک‌های رگرس محور (prediction) و تکنیک‌های طبقه بندی کننده (Classification) روبرو هستیم. انتخاب اینکه آیا مساله ما یک مساله رگرسیونی است یا طبقه بندی به متغیر هدف یا وابسته مرتبط است. اگر متغیر ما یک متغیر پیوسته (Continues) باشد مساله ما یک مساله رگرسیونی و هدف Prediction است . اگر متغیر هدف یا وابسته ما یک متغیر باینری یا چندجمله‌ای باشد مساله ما یک مساله طبقه بندی است و ما برای تخمین اینگونه مدل‌های باید از یک Classifier استفاده نماییم. (تذکر: در علم یادگیری ماشین در دسته بندی متدهای در دو دسته فوق منظور از واژه رگرسیون یا مسائل رگرسیونی استفاده از تکینیک حداقل مربعات یا رگرسیون خطی نیست بلکه در این دسته بندی منظور از مسائل رگرسیونی، مسائل با متغیر وابسته پیوسته است که میتوان برای این هدف از طبق وسیعی از مدل ها مانند رگرسیون خطی، شبکه عصبی، درخت تصمیم رگرسیونی، SVR
و ... استفاده نمود.
در دسته تکنیک های طبقه بندی نیز میتوان از متدهای رگرسیون لاجستیک، درخت تصمیم، شبکه عصبی طبقه بندی کننده، ماشین بردار پشتیبان، نایوبیز و ... استفاده نمود.

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
⚙️ تفاوت ها و شباهت های یادگیری ماشین و اقتصادسنجی
ادامه درس: منطق یادگیری ماشین
در دسته تکنیک های فاقد نظارت ورود ما به مساله صرفا با یک پیش فرض یا مساله مشخص نیست و به عبارتی ممکن است ما دنبال استخراج و استنتاج یکسری دانش پنهان از دل داده ها باشیم که حتی قبلا برای ما ناشناخته بوده است. به زبان ساده‌تر زمانی که ما متغیر هدف و وابسته نداشته باشیم، مساله ما یک مساله فاقد نظارت است. از عمده این تکنیک ها میتوان به الگوریتم های شباهت سنجی، خوشه بندی، درخت های استخراج قواعد مکرر و ... اشاره نمود.

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
Forwarded from Data Science
تفاوت ها و شباهت های یادگیری ماشین و اقتصادسنجی (از سلسله آموزش های علم داده)

📗 منطق علم اقتصادسنجی
بصورت کلی علم اقتصادسنجی در توسعه الگوریتم‌های خود و توسعه مفاهیم پایه‌ای رگرسیونی که از آمار نشات گرفته است یک منطق رخدادمحور Event Driven داشته است که دلیل این نوع نگاه و رویکرد، در پست های بعدی مفصلا توضیح داده خواهد شد. بدین معنا که در طبقه‌بندی الگوریتم‌های اقتصادسنجی به تکنیک های:

- مقطعی و نمونه ای Cross-Section
- سری زمانی Time Series
- پانل دیتا Panel Data
- سنجی فضایی Spatial Econometrics

و توسعه الگوریتم ها یک رویکرد رخداد محور وجود داشته است. در طبیعت و جهان واقع برای توصیف یک رخداد اصولا 3 پارامتر شی/شخص، مکان و زمان الزامی است. پس ما در تحلیل و توصیف یک رخداد اصولاً با 3 بُعد موجودیت (شخص/شی)، زمان و مکان روبرو هستیم.
ادامه در پست های بعد...

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
1⃣ رگرسیونهای مقطعی Cross-Section

زمانی که در روش مدلسازی و تخمین، متدولوژی ما، تنها یک بُعد از داده ها را مدل می نمایند متدولوژی ما عموما از نوع رگرسیون های مقطعی یا نمونه ای Temporal/Cross section
است. این دسته از تکنیک ها برای هر دو رویکرد حل مسائل رگرسیونی و طبقه بندی کاربرد دارد مانند رگرسیون خطی یا رگرسیون لاجستیک. البته در مدل‌های مقطعی ممکن است داده های ما مقطعی یا زمانی یا فضایی باشند ولی اینگونه از مدل ها ابُعاد زمان و فضا را مدل نمی کنند و با اینگونه داده ها مانند داده های مقطعی برخورد می نمایند. اکثر مدل های یادگیری ماشین نیز به این صورت رفتار می کنند. مگر اینکه در مثال داده های دارای تایم، از مدلسازی سری زمانی و خاصیت اتورگرسیو استفاده نماییم و در این حالت است که ما واقعا از خاصیت زمان در داده ها استفاده نموده ایم در غیر این صورت رفتار مدل بصورت Temporal
بوده است.
در ادامه منطق متدهای سری زمانی، پانل دیتا و سنجی فضایی تشریح میشود و سپس تفاوت ها و شباهت ها و خاصیت استفاده ترکیبی مدل های اقتصادسنجی و یادگیری ماشین مطرح میشود.

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR
اقتصادسنجی و یادگیری ماشین (از سلسله آموزش های علم داده)
2⃣ سنجی سری زمانی
Time Series Regression

مدل های سری زمانی مختص به علم خاصی مانند علم اقتصادسنجی، یادگیری و غیر نیست. پایه این مدل ها آماری و بر مبنای ایده اتورگرسیو است. ساده ترین این مدل ها شامل مدل های :
AR, MA and ARIMA
است، که در همه علوم مرتبط نام آشنا هستند. اما در هر کدام از علوم متناسب با نیازمندی های آن حوزه و با توجه به توسعه های آن, مدل های مختلفی بوجود آمده است مانند مدل های مارکف پنهان و غیره. در علم سنجی نیز مدل های زیر بسیار پر کاربرد است:
VARX, SVARX, TVAR, MSVAR, BVARX, MSGHARCH, MGHARCH,...
اما تفاوت این مدل ها با مدل های رگرسیون مقطعی یا مدل های یادگیری ماشین ساده در چیست؟ مگر ما داده دارای ویژگی زمان را در مدل تخمین نمی زنیم. جواب مثبت است اما تفاوت اساسی در برخورد مدل با متغیر زمان است. زمانی ما یک شبکه عصبی ساده ( نه شبکه عصبی سری زمانی) یا رگرسیون مقطعی تخمین میزنیم از داده های متغیرهای توضیحی، همان مشاهده برای برازش مقادیر استفاده میکنیم. پس رفتار مدل ما
Temporal
است.
ادامه در پست بعد..

🌐@Data_ScienceR
ادامه پست قبل...

2⃣ سنجی سری زمانی
Time Series Regression

... پس رفتار مدل ما
Temporal
است. پس ما در حقیقت از حافظه متغیر و گذشته و تاریخچه آن که منبع غنی از اطلاعات است بهره نبرده ایم. اما در مدل های سری زمانی برای برازش یا پیشبینی متغیر هدف، از حافظه گذشته خود متغیر یا سایر متغیرها استفاده میشود و این مزیت مدل های سری زمانی است. در این حالت ما علاوه بر برازش و تخمین prediction میتوانیم از پیشبینی برون نمونه ای forecast نیز بهره ببریم. که متأسفانه ما اصولا این دو واژه را اشتباها بجای هم بکار می بریم.
اما در مدل های سری زمانی نیز ما با یک بعد از داده یعنی زمان به ازای یک مقطع سر و کار داریم. مثلا نرخ رشد اقتصادی ایران طی 30 سال گذشته و حتی یکسری متغیر توضیحی. اما در داده های پانل چندین مقطع و زمان وجود دارد که ابعاد زمان ما میتواند متوازن یا نامتوازن باشد.

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR
(از سلسله آموزش های علم داده)
3⃣ سنجی پانل دیتا
Econometrics: panel data

تفاوت مدل های پانل دیتا با سایر مدلهای رگرسیونی و یادگیری ماشین در چیست؟ مگر ما در مدل های یادگیری ماشین داده های پانل نداریم یا تخمین نمی زنیم!! جواب این سوال مثبت است، بله ما در مدل های یادگیری ماشین و رگرسیون های ساده ممکن است داده های پانل تخمین بزنیم، اما تفاوت مدل های پانل در مدلسازی و تخمین الگوریتم با ساختار پانل است. یعنی برای رگرسیون عادی و شبکه عصبی تفاوتی ندارد که داده پانل است یا خیر، الگوریتم پارامترهای خود را با یک روش بهینه ساز مانند لونبرگ مارکوارت در شبکه عصبی یا بهینه ساز گوس نیوتون در رگرسیون ها غیرخطی اقدام به برازش مدل می نماید. اما تفاوت مقاطع و بلوک ها را درک نمیکند. قبل از توضیح منطق رگرسیون پانل اجازه دهید خود داده پانل را تعریف نماییم. داده پانل به داده ای می گویند که علاوه بر بعد موجودیت یا مقطع دارای بعد زمان نیز می باشد.
(مانند داده های صد شرکت بورس برای 10 سال. مقاطع= شرکت های بورس، تایم= سالهای فعالیت)
ادامه در پست بعد...

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR
ادامه پست قبل...
تفاوت ها و شباهت های اقتصادسنجی و یادگیری ماشین (از سلسله آموزش های علم داده)

3⃣ سنجی پانل دیتا
Econometrics: panel data

ادامه پست قبل...
به عبارتی داده های ما 2 بعد از ابعاد 3 گانه یک رخداد را دارند پس بهتر است از مدلسازی و الگوریتمی استفاده شود که توانایی مدل نمودن هر دو بعد در داخل آن دیده شده باشد. مدل های پانل دیتا بدین صورت هستند و در تخمین متوجه ابعاد مقطع و زمان میشوند و در ساده ترین حالت برای هر بلوک مقطعی یا زمانی عرض از مبدأ خاص و انعطاف پذیر در نظر میگیرند. در نتیجه در شرایط ناهمگنی مقاطع یا ابعاد زمانی عملکرد و قدرت برازش بسیار بهتر و با تورش کمتر خواهند داشت.

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR
📌 نکته: مزیت رگرسیون های پانل دیتا:

اصولا در داده ها یکسری اثرات ثابت و تصادفی وجود دارد که ممکن است زمانی یا مقطعی باشد، شما چگونه این اثرات در داده ها را مدلسازی یا کنترل می نمایید؟! زیرا در صورت عدم کنترل نتایج شما تورش دار و فاقد اعتبار کافی است. مدل های پانل دیتا این اثرات خاص زمانی، مقطعی یکطرفه یا دوطرفه را مدل و کنترل می نمایند. مثلا نقدینگی با تورم رابطه مثبت دارد، پس چرا در کشورهای مختلف این نظریه نتایج مختلفی دارد و ضریب و متوسط اثرگذاری متفاوت است. مثلا چرا نقدینگی در کشور ایران اثرگذاری متفاوتی نسبت به کشورهای اروپایی دارد؟! جواب شاید پیچیده نباشد اما مدلسازی آن ساده نخواهد بود. دلیل این تفاوت مرتبط با ویژگی های خاص کشور ایران در مقایسه با کشورهای اروپایی است، مثل نفت خیز بودن، فرهنگ، شرایط اقتصادی، زیرساخت، مدیریت، سیاست، انقلاب ، تحریم و ... خب این تفاوت ها در مدل سازی کجا قرار میگیرند یا همه این عوامل را میتوان کمی نبود و یا بصورت متغیر مجازی وارد نمود، خب جواب منفی است. اما در مدل های پانل این ویژگی های انفرادی یا زمانی منحصربفرد در قالب تفاوت متوسط سایر عوامل حذف شده از مدل در عرض از مبدأ های مختلف خود را نشان میدهد و رگرسیون صرفا یک عرض از مبدأ ندارد. این مساله یکی از مزیت های مدل های پانل است.
Forwarded from Data Science
جایگاه هر پکیج در جریان علوم داده:
#Data_Science_Workflow in R

1- فراخوانی و استخراج داده
(readr, data.table, rvest, xml2..)
2- تبدیل داده و تمیزسازی
(Tidyverse= dplyr, magrittr, tidyr, purrr, tibble, stringr, lubridate, ggplot)

پردازش پیچیده و داده حجیم:
SparklyR , Revolution R

3- مدلسازی و ارزیابی
(H2o, keras, GBM, CARET, Party, e1071,broom,rattle_Gui..)

4- ارائه نتایج و مصورسازی
(ggplot & plotly & Highcharter)

5- مدیریت دانش: مستندسازی و ساخت گزارش
(Rmarkdown & R Notebook & blogdown & bookdown )

6- ایجاد web application و داشبورد
(Shiny & Shiny Dashboard)


#R
#shiny
#rmarkdown
#Tidyvers

🌐 @Data_ScienceR