Data Experts
1.45K subscribers
213 photos
61 videos
38 files
171 links
متخصصین داده - مطالب علم داده و نرم‌افزارها و آموزش‌های این حوزه
Admin :
@javad_vahdat

YouTube:
https://www.youtube.com/@dataexperts
Download Telegram
▪️▫️▪️▫️▪️▫️▪️▫️◾️
چگونه خروجی کدها را بصورت جدول در
صورت نیاز نمایش دهیم؟؟
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
با نصب addin زیر میتوانید خروجی ها را بصورت شکل پایین نمایش دهید جهت اعمال این تغییرات از منوی
tools>Addins
و قبلش اجرا کردن کد زیر

devtools::install_github('mwip/beautifyR')
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
نمایش خروجی کدها در نرم افزار Rstudio بصورت جدول

╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
#بیگ_دیتا

چگونه فایل های بیشتر از 7 گیگا بایت را به فرمت csv را در R بخوانیم؟؟
برای انجام این کار میتوانیم از این راه ها استفاده کنیم
1- فایلها را در SQL بخوانیم سپس sql را به r متصل کنیم
2- شما اگر RAM بیش از 10 گیگ دارید ابن کار برای انجام مشکلی ندارد! برای انجام داده ها را به وسیله RAM کامپیوتر پردازش کنید.
3- میتوانید از Data.table برای فایل های خیلی زیاد استفاده کنید
4- مطالعه پکیج ff و fst و h2o or bigmemory طریقه کار این پکیج ها رو مطالعه کنید
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
5- استفاده از تابع hdfs
6- اگر داد هایی چندگانه دارید میتوانید از این موارد استفاده کنید
RDBMS
7- میتوانید داده ها را در این PostgreSQL سرور run کنید سپس با dplyr ران کنید
https://db.rstudio.com/dplyr/
8- استفاده از sparklyr برای استفاده از داده حجیم مناسب است.
9- استفاده از netCDF برای اطلاعات بیشتر به لینک زیر مراجعه کنید
https://www.unidata.ucar.edu/software/netcdf/docs/index.html
10- اگر دارای حافظه کافی هستید این مقاله رو مطالعه کنید
https://github.com/Rdatatable/data.table/wiki/Getting-started
11- اگر از حافظه کمتری در دسترس دارید بدون باز کردن محیط گرافیکی r این دستور را تایپ کتید
fread()
چگونگی کارکرد این مورد را در کتب برنامه نویسی مطالعه کنید
12- استفاده از پکیج RevoScaleR
13- این بخش از این سایت را مطالعه کنید
https://stackoverflow.com/questions/22261082/load-a-small-random-sample-from-a-large-csv-file-into-r-data-frame
14- میتوان فایل ها را در برنامه های sql and mysql به قرمت RDS ذخیره کرد و در برنامه فراخوانی کرد.جهت بهبود و افزایش سرعت پردازش.
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
15- مطالعه بخشیهایی از این سایت
https://stackoverflow.com/questions/1727772/quickly-reading-very-large-tables-as-dataframes-in-r?noredirect=1&lq=1
16- جهت خواندن سریع و پردازش سریع این وبسایتها رو ببینید
https://appsilondatascience.com/blog/rstats/2017/04/11/fast-data-load.html
https://appsilondatascience.com/blog/rstats/2017/03/02/r-fast-lookup.html
17- جهت بهبود و عملکرد سریع برنامه نصب این پکیج توصیه میشود
MonetDB.R
18- مطالعه این چند مقاله
https://nerdsrule.co/2012/12/27/opening-large-csv-files-in-r/
https://rpubs.com/msundar/large_data_analysis

در تمام این موارد تنها ضعف این برنامه عدم حافظه کافی و سرعت عمل پایین در پردازش داده ها می باشد
برای رفع این ضعف میتوان برنامه های پایتون،هدووپ،اسپارک،CPP و ...معرفی کرد .این موارد ذکر شده با توجه پیشرفت روز افزون و کاربردهای فراگیر این نرم افزارها پیشنهادشده اند که فراگیری این موارد بسیار برای آینده کاری و پژوهشی فرد موثر هست موفق باشید.
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
#رابط_برنامه_نویسی
#هدووپ
چگونه کدهای نوشته شده در هدووپ را در R بخوانیم؟!!!

╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
یکی از مزیتهای نرم افزار R متن باز بودن و دسترسی ازاد به این نرم افزار هست.
جهت دسترسی کامل به هدووپ نیاز به دریافت RHadoop هست تا پل ارتباطی بین این دو نرم افزار را مهیا کند این مورد دسترسی شما را به Cloudera و Horton را مهیا میکند که خود شامل 5 پکیج جهت دسترسی به موارد تحلیلی و مدیریتی هدووپ در دسترس عموم قرار میدهد. هرچند که پکیج RHive پل ارتباطی بین Hive و R هستش ولی دارای پکیج های زیاد و قوی ی جهت کارهای آماری هستش همچنین این پکیج قادر به اتصال SQL هستش.و میتواند فایل های ذخیره شده هدووپ را بخواندو قادر است که فایل های Hive را فهرست بندی کند و HiveQL برای مدل های آماری مورد استفاده قرار گیرد
https://github.com/nexr/RHive
1- پکیج
rhdfs
این پکیج دسترسی شما را جهت به فایل های ذخیره شده هدووپ را جهت اعمال تغییرات خواندن،نوشتن و اصلاح باز میگذارد.جهت دانلود به این سایت مراجعه کنید
https://github.com/RevolutionAnalytics/RHadoop/wiki/Installing-RHadoop-on-RHEL
2- پکیج
rhbase
در این پکیج شما قادر خواهید بود که تغییرات را اعمال و اصلاحیات را انجام دهید و برای مرحله بعدی آماده کنید
3- پکیج
plyrmr
شما در این پکیج قادر خواهید بود که به هورتون و mapreduse متصل شوید.اگر چه که پکیج های نرم افزار r نظیر plyr و reshape2 قادر خواهند بود این کار را انجام دهند اما قادر به ارتباط کامل با هدووپ نیستند و نمیتوانند برای گره های زیادتر کارا و عملی باشند.پکیج rmr میتواند جایگزینی نچندان خوب برای این پکیج معرفی شده باشد
4- پکیج
rmr2
شما در این پکیج قادرید که تجزیه و تحلیلهای آماری خود را از طریق Hadoop MapReduce انجام دهید برای همه گره های موجود در داده ها قادر هست
5- پکیج
ravro
این بسته توانایی خواندن فایل های ravro و تابع HDFS را مهیا کرده و اطلاعات را برای خواندن توسط پکیج rmr2 اماده میکند
مثال های قابل انجام جهت یادگیری در وبسایت معرفی شده دنبال کنید.امید است مفید باشد.موفق باشید
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
#رابط_برنامه_نویسی
#جاوا
برای بسیاری از ما ها اتفاق افتاده که برنامه ای را به زبان جاوا نوشته باشیم بخواهیم در R فراخوانی کنیم یا در R کد جاوا بنویسیم.چطور ممکن است؟
1- ابتدا شما نیاز به نصب پکیج rJava و Rserve دارید
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
**اگر شما نیاز دارید که کدهای جاوا را جایگزین کدها R کنید به پکیج rJava نیاز دارد نیاز هست که مسیر یا PATH برای اتصال به برنامه جاوا صورت گیرد.
جهت متصل کردن پکیچ ها و نرم افزار نیاز هست که مسیر یا path به این شکل وارد شود
<YOUR_R_HOME>\bin\i386;<YOUR_R_HOME>\library\rJava\jri\i386;

**اگر شما میخاید که کدهای R به برنامه جاوا بفرستید به این پکیج Rserve نیاز خواهید داشت.
2- شما نیاز دارید که برنامه جاوا را از سایت اورکل دانلود کنید این برنامه رو توسط سیستم کامپیوتر به برنامه R متصل کنید
3- نیاز به یک IDE برای جاوا Eclipse: Luna هستید
4- محیط GUI برنامه R را جهت برنامه نویسی آماده کنید
5- سپس از طریق Package Explorer در جاوا مسیرهای برنامه رو تایید کنید همان
Configure Build Path
6- سپس اسم پروژه ای را که دارید را به وسیله tab کتابخانه ها را انتخاب کنید
7-با انتخاب Add External JARs مسیر نصب شده پکیج R را برای نرم افزار تعریف و مشخص کنید سپس JRI.jar, JRIEngine.jar, REngine.jar انتخاب و اجرا نمایید
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
#رابط_برنامه_نویسی API
#هدووپ
چگونه به اطلاعات و داده های نوشته شده در هدووپ جهت جهت دستکاری و... در R فراخوانی و اجرا کنیم؟!!!😳🙄
""قبلش شما به حافظه پردازنده بالای RAM کامپیوتر نیاز دارید.""
شما برای این کار دو راه دارید
شما میتوانید اطلاعات خود را از هدووپ به SQL ببریدو از آنجا به R فراخوانی کنید(قبلا در گروه فراخوانی از SQLبه R بحث شده است) میتوانید کدهای خود را با پکیج dpylr بنویسید.
شما جهت کار کردن با پکیج های هدووپ نظیرImpala, HBase and Spark با استفاده از پکیج dpylr مورد بررسی قرار بدیم.
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
1- شما میتوانید برای ارتباط هدووپ با r از این بسته استفاده کنید
ODBC
شما جهت استفاده از مورد نیاز است که این موتورهای آپاچی نصب داشته باشید
Hive, Impala, HBase

جهت دسترسی به این پلتفورم ها نیاز به این پکیج های r دارید
DBI, dplyr and odbc

همچین ممکن است که بسته dplyr به بسته dbplyr نیاز پیدا کند.
جهت ایجاد ارتباط با هدووپ نیاز است که این پکیج odbc را به هدووپ متصل گردانید.
library(odbc)

con <- dbConnect(odbc::odbc(),
driver = <driver>, host = <host>,dbname = <dbname>,
user = <user>, password = <password>,port = 10000)
tbl(con, "mytable") # dplyr
dbGetQuery(con, "SELECT * FROM mytable") # SQL
dbDisconnect(con)

2- همچنین اگر بر روی کامپیوتر خود spark نصب دارید و متصل به هدووپ از پکیج sparklyr جهت دسترسی به HDFS استفاده کنید.
library(sparklyr)

con <- spark_connect(master = "yarn-client")

tbl(con, "mytable") # dplyr
dbGetQuery(con, "SELECT * FROM mytable") # SQL

spark_disconnect(con)

╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
#رابط_برنامه_نویسی API
#سی_پلاس_پلاس
در CPP برنامه بنویسیم و در R اجرا کنیم؟؟!!!

╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯

ابتدا اخرین نسخه های Rtools و پکیج Rcpp را دانلود کنید
1- ابتدا یک کد ساده برنامه cpp را در نظر بگیرید فایل مورد نظر باید شامل این هدر باشد Rcpp.h و از تمام دستورات کتاب خانه ای در سی پلاس پلاس برای اجرای برنامه نیاز است استفاده کنید .سپس در بالای دستورات توابع از این تعریف استفاده کنید [[Rcpp::export]] و همچنین از این rcpp استفاده کنید
#include <Rcpp.h>
#include <math.h>
#include <iostream>
// [[Rcpp::export]]
std::string GreetName(std::string name)
{
return "Good evening, " + name + "!";
}

2- فایل را با استفاده از این تابع در R اجرا کنید
sourceCpp()
library(Rcpp)
sourceCpp("../test.cpp")

اگر تمام این مراحل به درستی انجام گیرد مطابق این دستورات میتونید خروجی برنامه رو ببینین
میتونید برای دسترسی به اطلاعات بیشتر به این ادرس مراجعه کنین
https://cran.r-project.org/web/packages/Rcpp/index.html


╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
با ما همراه باشید و متخصص علم داده شوید تا ساعتی دیگر سوالات استاندارد مسابقات کشوری فناورد در اختیارتان قرار خواهد گرفت به کانال ما بپیوندید
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
از همراهی شما سپاسگزاریم
از آنجایی که رویه این گروه چگونه یک دانشمند علم داده باشیم هست ابتدا به معرفی چندتا منبع و سپس به بررسی راه های پیش روی این خواهیم پرداخت.
ابتدا برای شناخت و داشتن پیش زمینه ای در رابطه با داده کاوی کتابهای زیر را برای مطالعه بیشتر تقدیم حضورتان میشود .
و بعدا به بررسی و تحلیل سوالات مسابقه کشوری و مورد تایید نهاد ریاست جمهوری و انجمن بنیاد نخبگان و... پرداخته خواهد شد و سعی بر آن خواهیم کرد که با دنبال کردن این روند شما را برای آماده کردن این مسابقه و جذب بازار کار تا انتهای مسیر با شما همراه باشیم .امید است که موفق باشید.

╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
کتاب
An Introduction to Statistical Learning with Applications By Hasti and other
کتابی است که شما را با مفاهیم و الگوریتم های مقدماتی علم داده و اصول برنامه نویسی در این حوزه اشنا میکند و شما در این کتاب اصول اولیه شامل آمار و ریاضیات,یادگیری ماشین,مدلهای آماری و طرح ازمایشات و الگوریتم های تصمیم گیری و . . . جهت اشنایی مقدماتی اشنا می شوید که جهت پاسخگویی به سوالات و چالشهای پیش روی یک دانشمند علم داده بسیار مفید می باشد در این کانال بصورت کاربرد و عملی به تشریح و پاسخگویی سوالات پرداخته خوهد شد.
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
An_Introduction_to_Statistical_Learning.pdf
11.4 MB
An Introduction to Statistical Learning with Applications in R

╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
Data Mining Applications with R.pdf
17.6 MB
Data Mining Applications with R

╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
2.pdf
186.3 KB
مجموعه سوالات مسابقه فناورد
این قسمت تحلیل شبکه های اجتماعی
با همراه باشید و یک دانشمند علم داده شوید
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
منتظر ما جهت تحلیل و بررسی پاسخ مسابقه فناورد و چگونه یک دانشمند علم داده باشیم همراه باشید

╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
This media is not supported in your browser
VIEW IN TELEGRAM
کانفیگ نرم افزار R در نرم افزار رپیدماینر (RapidMiner)

چگونه یک دانشمند علم داده شویم با ما همراه شوید


╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
با سلام جهت انجام تحلیل شبکه های اجتماعی بسته به نوع مسئله و نیاز نرم افزار آموزشی ما ابتدا به معرفی و آموزش نرم افزارهای کاربردی این حوزه خواهیم پرداخت باتوجه به مشغله های کاری ان شاءالله درصورت آزاد شدن وقت با کلی موضوعات خوب و عالی و سوپرایز خدمت همه شما عزیزان خواهیم بود .

تا چگونه یک دانشمند علم داده باشیم با ما همراه باشید.



╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
▪️▫️▪️▫️▪️▫️▪️
🔘آیا تا حالا در حین انجام شبیه سازی ها یا اجرای حلقه ها دوست داشتید بدونین توی کدوم قسمت حلقه قرار دارین؟! یا چقد از برنامتون مونده تا اجراش تموم بشه؟! مثل نصب برنامه که نوار نصب پر میشه؟!

راه های زیادی برای انجام این کار هست ساده ترین راه گذاشتن یک پرینت در انتهای حلقه هست تا دور حلقه رو برامون پرینت کنه ولی اینکار باعث شلوغ شدن کنسول میشه . ما راه کار جالبی رو بهتون پیشنهاد میدیم که میتونین باهاش این کار رو انجام بدین
#progress_bar #txtProgressBar
🔰🔰
total <- 20
# create progress bar
pb <- txtProgressBar(min = 0, max = total, style = 3)
for(i in 1:total){
#sleep is for slowly run, not necessary
Sys.sleep(0.1)

#you can type your program here

# update progress bar
setTxtProgressBar(pb, i)
}
close(pb)
print("Developed By Data Experts")

╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
▪️▫️▪️▫️▪️▫️▪️
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
Forwarded from Meysam Asgarichenaghlou
This media is not supported in your browser
VIEW IN TELEGRAM
هوش مصنوعی و پایتون رو اینجا یاد بگیرید:
@ai_python
لینوکس رو هم اینجا:
@uselinux
آموزش و معرفی نرم افزار (گفی) Gephi مناسب تحلیل شبکه های اجتماعی در داده کاوی:

نرم افزار گفی ابزاری مناسب برای تحلیل گران اطلاعات و دانشمندان مشتاق به کشف و درک سیستم های پیچیده است. نرم افزاری شبیه به فتوشاپ اما برای داده های گراف، با قدرت رسم و تجسم سه بعدی از سیستم ها بر اساس داده های دریافتی. ابزار قدرتمند گفی به کاربران امکان رسم و دستکاری ساختار، شکل و رنگ گراف ها را به منظور یافتن گراف بهینه و الگوهای پنهان می دهد. ابزارهای آماری این نرم افزار کمک شایانی به استخراج خواص آماری مختلف گراف ها می کند. همچنین الگوریتم های معروف تشخیص اجتماعات در این نرم افزار، امکان تعیین و آشکارسازی خوشه ها و اجتماعات پنهان در دل شبکه ها را به کاربران داده است.
╭──•═✾🔘✾═•──╮
••• @Data_Experts •••
╰──•═✾🔝✾═•──╯
❇️ نرم افزار گفی به عنوان یکی از سریع ترین موتورهای ترسیم گراف های بزرگ شناخته می شود.
❇️ ابزاری برای دستکاری نمودارها
❇️ الگوریتم های ویرایش طرح های شبکه (Foce-based algorithms) امکان دستکاری نحوه ترسیم شبکه ها را فراهم می سازد. این طرح ها امکان تغییر گراف ها را در حین اجرا به کاربر می دهد تا گراف بهینه را انتخاب نماید.
معیارها و نمودارهای شناخته شده نرم افزار گفی که بر اساس مشخصه های آماری هستند، در آنالیز شبکه های اجتماعی و scale-free بسیار غنی هستند.
Metrics: معیارها
❇️ Betweenness Centrality, Closeness, Diameter, Clustering Coefficient, PageRank
❇️تشخیص اجتماعات و ...
در ‍‍پستهای بعدی به آموزش این نرم افزار خواهیم پرداخت