Data Science
2.29K subscribers
108 photos
62 videos
17 files
104 links
آموزش نوین علم داده و رویکردهای داده محور
@DataScience :: Machine Learning, Statistics, Econometrics, BI and big data
#data_science
#Machine_learning
Download Telegram
Forwarded from Hossein Khandani
Media is too big
VIEW IN TELEGRAM
H2O platform_data Science
پیاده سازی نیمه اتوماتیک فرآیند داده کاوی در پلت فرم H2O
#H2O
#AI
#R
#Java
#python
#sparkR
#AWS
پرکارترین کتابخانه ها در R, Scala, python:

@Data_ScienceR
🏷 ETL vs ELT

🌐 @Data_ScienceR
Data Warehouse vs Data Lake

🌐 @Data_ScienceR
امکان ایجاد سناریو نویسی و طراحی الگوریتم در قالب پلاگین در R:

افزونه R AnalyticFlow یکی از افزونه‌هایی است که به منظور ایجاد Workflow در آر طراحی شده است. این ابزار به کاربر اجازه می‌دهد که پروژه‌های تحلیلی خود را در نمای شماتیک طراحی و اجرا کند.
کارکرد این ابزار مانند ابزارهای
Knime and Rapidminer
است با این تفاوت که نرم افزار کد پشت طراحی جریان سناریو و پلاگین را به شما میدهد و بنوعی شما بصورت شماتیک کد نویسی می نمایید.
برای توضیحات بیشتر به تارنمای این افزونه مراجعه فرمایید:

🔗 https://r.analyticflow.com/en/


🌐 @Data_ScienceR
برترین زبان ها در 3 زمینه:

📌1) تکنیک های آماری
زبان های برنامه نویسی
R و SAS
برترین زبان ها در پوشش تکنیک های آماری و رگرسیونی است و در زمینه ابزارهای محاوره ای یا دو حالته نرم افزارهای
IBM SPSS و Stata
پیشرو هستند.

📌2) یادگیری ماشین و یادگیری عمیق:
در زمینه یادگیری ماشین زبان پایتون یکی از بهترین زبان های موجود با عملکرد بالاست و در کنار آن زبان R قرار دارد. در یادگیری عمیق نیز با توجه به تکنولوژی‌ها و بسترهای
Tensorflow and Keras
زبان پایتون نسبت به R پیشرو تر ست و نسبتا توسعه بیشتری پیدا کرده است. هرچند این تکنولوژی در هر دو زبان قابل استفاده و بهره برداری است. اما اقبال بیشتری نسبت به پایتون وجود دارد.

#python
#R
#SAS
#Stata

🌐 @Data_ScienceR
Data Science
برترین زبان ها در 3 زمینه: 📌1) تکنیک های آماری زبان های برنامه نویسی R و SAS برترین زبان ها در پوشش تکنیک های آماری و رگرسیونی است و در زمینه ابزارهای محاوره ای یا دو حالته نرم افزارهای IBM SPSS و Stata پیشرو هستند. 📌2) یادگیری ماشین و یادگیری عمیق:…
📌3) مصورسازی داده
در زمینه مصورسازی اطلاعات و ایجاد چارت های
Interactive
زیرساخت
D3 (JavaScript)
یکی از انعطاف پذیر ترین و بهترین ابزارهای موجود است که بسیار مورد استفاده قرار میگیرد و رواج دارد.
اما در زمینه علوم داده
Data Science
و مصورسازی آماری و استنتاجی تکنولوژی زبان یا گرامر گرافیکی در قالب توابع
geom
که در قالب
grammar of graphics (ggplot)
در زبان R در دسترس و یکی از بهترین و جامع ترین تکنولوژی های موجود است. علاوه بر آن, این تکنولوژی در قالب تکنولوژی و بستر
shiny
امکان ایجاد داشبورد و
web app
را فراهم می نماید که علاوه بر زبان
R
در حوزه تصویرسازی آماری میتوان به ابزاری های مصورسازی در پایتون و sas نیز اشاره نمود.

#ggplot
#plotly
#shiny
#D3
#python

🌐 @Data_ScienceR
📌 مقایسه ابزارها و زیرساخت‌های مختلف داشبوردسازی (مصورسازی) در شاخص های مختلف
که از مزیت های R shiny میتوان در شاخص های
DB / API Connection
Statistical Calculations
ML Implementation
اشاره نمود.
اما همانطور که گفته شد در ایجاد نمودارهای پویا و تعاملی و تنوع، بستر D3 بسیار غنی است و ضعف آن در زمینه پشتیبانی از تکنیک ها و تحلیل های آماری و یادگیری ماشین است که البته این تکنولوژی برای این کارکرد توسعه پیدا نکرده و کارکرد کمی متفاوتی دارد.

#Dashboard
#data_visualization
#R_shiny
#D3_JavaScript

🌐 @Data_ScienceR
📊 رده بندی ابزاری های مصورسازی در حوزه علوم داده
Data Viz for Data Science

با دو شاخص سهولت یادگیری و قابلیت پوشش نیازمندی ها و ظرفیت

#data_visualization
#DataViz


https://t.iss.one/Data_ScienceR
🌐 @Data_ScienceR
ویژگی‌های یک متخصص یا دانشمند علوم داده و تولباکس های مورد نیاز

#R
#python
#Sql

https://t.iss.one/Data_ScienceR
🌐 @Data_ScienceR
📌 سخن مدیر
در این کانال سعی در تبیین 2 مساله و محور وجود دارد.

1) مورد اول سعی در معرفی کارکردها و جایگاه تکنولوژی های مختلف درون نرم افزار R و سایر نرم افزارهای مرتبط یا مشابه در حوزه علوم داده

2) دوم سعی در بیان مرزها و تشریح تفاوت ها و شباهت های علوم مختلف مرتبط با تحلیل داده و ارتباط آنها با یکدیگر و جایگاه هر یک از آنها ست.
همانطور که می دانید یکی از گام ها در فرآیند داده کاوی مرتبط با تبدیل داده های خام به اطلاعات و سپس تبدیل اطلاعات به دانش و خرد است. برای استخراج اطلاعات و دانش ابزارهای مختلفی وجود دارد و لزوما نیاز به استفاده از متدولوژی های خاص و پیشرفته نیست. گاه یک نمودار یا ضریب همبستگی یا یک نرخ رشد ساده میتواند دانشی را در اختیار شما قرار دهد. پس داده کاوی شما را محدود به ابزار و متد خاصی نمی کند بلکه فرآیند استاندارد و گام های انجام یک فرآیند کسب دانش را به شما پیشنهاد میکند.
عموما ابزار و تکنیک ی که بصورت پیش فرض در این گام تصور میشود استفاده از متدهای یادگیری ماشین بمنظور استنتاج روی داده هاست. اما این دیدگاه میتواند گمراه کننده و ناقص باشد و ذهن دانشمند علوم داده را محدود به یک یا چند متد و ابزار خاص نماید.
عموما ابزارهای قابل استفاده و مرتبط با داده را میتوان در چهار دانش داده محور زیر معرفی نمود:
1- علم آمار (علم مادر و پایه)
2- علم یادگیری ماشین ( یکی از قله های علم آمار و ریاضی-کامپیوتر)
3- علم اقتصادسنجی (یکی دیگر از قله های علم آمار و ریاضی)
4 علم تحلیل اطلاعات جغرافیایی (ترکیب علوم هوا فضا، جغرافیا و آمار)

در پست های بعد هر یک از ابعاد مذکور بیشتر باز میشود.

https://t.iss.one/Data_ScienceR
🌐 @Data_ScienceR
Data Science
#Statistics #Machine_Learning #Econometrics #GIS
📌 ML vs Econometrics

🛠 یادگیری ماشین و اقتصادسنجی دو علم کاملا متضاد و متفاوت!! یا همراستا و با کارکردهای مشابه؟!

آیا تکنیک‌های این دو علم قابل تلفیق جهت بهبود الگوریتم ها و پیشبینی متغیرها می باشد یا خیر؟

🔜 در ادامه به این سوالات پاسخ داد میشود.
📝 Data Science Questions:
When?
Why?
What?
Where?
How?
Who?


https://t.iss.one/Data_ScienceR
🌐 @Data_ScienceR
✳️ تفاوت ها و شباهت های یادگیری ماشین و اقتصادسنجی
⚙️ منطق یادگیری ماشین
عمدتا تکنیک های یادگیری ماشین به دو دسته کلی تکنیک‌های تحت نظارت و بدون نظارت تقسیم بندی میشود (البته قصد ورود به دسته بندی دقیق این حوزه مانند تفکیک متدهای به یاگیری با ناظر، بدون ناظر، تقویتی و .. را نداریم).
در تکنیک های فاقد نظارت با 2 دسته تکنیک‌های رگرس محور (prediction) و تکنیک‌های طبقه بندی کننده (Classification) روبرو هستیم. انتخاب اینکه آیا مساله ما یک مساله رگرسیونی است یا طبقه بندی به متغیر هدف یا وابسته مرتبط است. اگر متغیر ما یک متغیر پیوسته (Continues) باشد مساله ما یک مساله رگرسیونی و هدف Prediction است . اگر متغیر هدف یا وابسته ما یک متغیر باینری یا چندجمله‌ای باشد مساله ما یک مساله طبقه بندی است و ما برای تخمین اینگونه مدل‌های باید از یک Classifier استفاده نماییم. (تذکر: در علم یادگیری ماشین در دسته بندی متدهای در دو دسته فوق منظور از واژه رگرسیون یا مسائل رگرسیونی استفاده از تکینیک حداقل مربعات یا رگرسیون خطی نیست بلکه در این دسته بندی منظور از مسائل رگرسیونی، مسائل با متغیر وابسته پیوسته است که میتوان برای این هدف از طبق وسیعی از مدل ها مانند رگرسیون خطی، شبکه عصبی، درخت تصمیم رگرسیونی، SVR
و ... استفاده نمود.
در دسته تکنیک های طبقه بندی نیز میتوان از متدهای رگرسیون لاجستیک، درخت تصمیم، شبکه عصبی طبقه بندی کننده، ماشین بردار پشتیبان، نایوبیز و ... استفاده نمود.

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
⚙️ تفاوت ها و شباهت های یادگیری ماشین و اقتصادسنجی
ادامه درس: منطق یادگیری ماشین
در دسته تکنیک های فاقد نظارت ورود ما به مساله صرفا با یک پیش فرض یا مساله مشخص نیست و به عبارتی ممکن است ما دنبال استخراج و استنتاج یکسری دانش پنهان از دل داده ها باشیم که حتی قبلا برای ما ناشناخته بوده است. به زبان ساده‌تر زمانی که ما متغیر هدف و وابسته نداشته باشیم، مساله ما یک مساله فاقد نظارت است. از عمده این تکنیک ها میتوان به الگوریتم های شباهت سنجی، خوشه بندی، درخت های استخراج قواعد مکرر و ... اشاره نمود.

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
Forwarded from Data Science
تفاوت ها و شباهت های یادگیری ماشین و اقتصادسنجی (از سلسله آموزش های علم داده)

📗 منطق علم اقتصادسنجی
بصورت کلی علم اقتصادسنجی در توسعه الگوریتم‌های خود و توسعه مفاهیم پایه‌ای رگرسیونی که از آمار نشات گرفته است یک منطق رخدادمحور Event Driven داشته است که دلیل این نوع نگاه و رویکرد، در پست های بعدی مفصلا توضیح داده خواهد شد. بدین معنا که در طبقه‌بندی الگوریتم‌های اقتصادسنجی به تکنیک های:

- مقطعی و نمونه ای Cross-Section
- سری زمانی Time Series
- پانل دیتا Panel Data
- سنجی فضایی Spatial Econometrics

و توسعه الگوریتم ها یک رویکرد رخداد محور وجود داشته است. در طبیعت و جهان واقع برای توصیف یک رخداد اصولا 3 پارامتر شی/شخص، مکان و زمان الزامی است. پس ما در تحلیل و توصیف یک رخداد اصولاً با 3 بُعد موجودیت (شخص/شی)، زمان و مکان روبرو هستیم.
ادامه در پست های بعد...

https://t.iss.one/Data_ScienceR
🌐@Data_ScienceR
1⃣ رگرسیونهای مقطعی Cross-Section

زمانی که در روش مدلسازی و تخمین، متدولوژی ما، تنها یک بُعد از داده ها را مدل می نمایند متدولوژی ما عموما از نوع رگرسیون های مقطعی یا نمونه ای Temporal/Cross section
است. این دسته از تکنیک ها برای هر دو رویکرد حل مسائل رگرسیونی و طبقه بندی کاربرد دارد مانند رگرسیون خطی یا رگرسیون لاجستیک. البته در مدل‌های مقطعی ممکن است داده های ما مقطعی یا زمانی یا فضایی باشند ولی اینگونه از مدل ها ابُعاد زمان و فضا را مدل نمی کنند و با اینگونه داده ها مانند داده های مقطعی برخورد می نمایند. اکثر مدل های یادگیری ماشین نیز به این صورت رفتار می کنند. مگر اینکه در مثال داده های دارای تایم، از مدلسازی سری زمانی و خاصیت اتورگرسیو استفاده نماییم و در این حالت است که ما واقعا از خاصیت زمان در داده ها استفاده نموده ایم در غیر این صورت رفتار مدل بصورت Temporal
بوده است.
در ادامه منطق متدهای سری زمانی، پانل دیتا و سنجی فضایی تشریح میشود و سپس تفاوت ها و شباهت ها و خاصیت استفاده ترکیبی مدل های اقتصادسنجی و یادگیری ماشین مطرح میشود.

https://t.iss.one/Data_ScienceR
🌐Data_ScienceR