Data Experts
1.45K subscribers
213 photos
61 videos
38 files
171 links
متخصصین داده - مطالب علم داده و نرم‌افزارها و آموزش‌های این حوزه
Admin :
@javad_vahdat

YouTube:
https://www.youtube.com/@dataexperts
Download Telegram
#درخت_تصمیم
#یادگیری_ماشین

الگوریتم ID3 هر شاخه از درخت را آنقدر به عمق میبرد که بتواند بطور کامل مثالهای آموزشی را دسته بندی کند. این امر میتواند منجر به Overfitting شود. دلایل بروز overfitting عبارتند از:
وجود نویز در داده های آموزشی
تعداد کم مثالهای آموزشی
برای مثال اگر فقط دو بار پرتاب سکه داشته باشیم و هر دو بار شیر آمده باشد چه نتیجه ای در مورد این آزمایش میتوان گرفت؟
❇️ @Data_Experts
پرهیز از Overfitting

جلوگیری از رشد درخت قبل از رسیدن به مرحله ای که بطور کامل داده های آموزشی را دسته بندی نماید.
اجازه به رشد کامل درخت و سپس هرس کردن شاخه هائی که مفید نیستند. (post pruning)

در عمل روش دوم بیشتر استفاده شده است زیرا تخمین اندازه صحیح درخت کار ساده ای نیست.

هرس کردن به روش REP
❇️ @Data_Experts
این روش توسط Quinlan ارائه شده است. ابتدا به درخت اجازه داده میشود تا به اندازه کافی رشد کند. سپس گره هائی را که باعث افزایش دقت دسته بندی نمیشوند هرس میگردند:
داده ها به دو مجموعه تست و آموزشی تقسیم میشوند.
درخت با داده های آموزشی مطابق روش قبل یاد گرفته میشود.
سپس برای یک گره داخلی (غیر برگ n )
زیرشاخه n حذف میگردد. این زیر شاخه با یک برگ جایگزین میشود. به این برگ دسته مثالهای اکثریت یعنی دسته بندی اکثر مثالهای قرار گرفته تحت این شاخه نسبت داده میشود.
عملکرد درخت برروی مثالهای تست بررسی میشود: اگر درخت هرس شده عملکرد بهتر و یا مساوی با درخت فعلی داشت از درخت حرس شده استفاده میشود.
هرس کردن آنقدر ادامه می یابد تا هرس بیشتر، سودی نداشته باشد.
❇️ @Data_Experts

اگر به مثال قبل یک ویژگی به نام تاریخ اضافه شود، این ویژگی به تنهائی قادر خواهد بود تا کلیه مثالهای آموزشی را دسته بندی کند. در واقع بعلت اینکه این ویژگی دارای بهره اطلاعات زیادی است بعنوان ریشه درخت انتخاب خواهد شد و درخت حاصله دارای عمق بسیار کمی خواهد بود.
با وجود اینکه این درخت مثالهای آموزشی را بخوبی دسته بندی خواهد کرد اما در مورد مثالهای نادیده بسیار ضعیف عمل خواهد نمود. زیرا این درخت در عمل مثالهای آموزشی را حفظ کرده و قادر به تعمیم نیست.
❇️ @Data_Experts
✍️ 14امین کنفرانس آمار-2-5شهریور97 - شاهرود

موضوع: آزمون تساوی بردار میانگین بین دو گروه داده های با بعد بالای بیان ژن
❇️
@Data_Experts
چکیده:
در مطالعات جدید و با توجه به رشد و پیشرفت علم و دسترسی و استخراج داده‌ها به‌خصوص داده‌های ژنتیک با حجم عظیمی از داده روبه‌رو هستیم که موارد بسیاری به‌خصوص در مطالعات پزشکی نوع این داده‌ها به‌گونه‌ای است که حجم نمونه در مقایسه با پارامتر‌های مورد بررسی بسیار کوچک است. بدین معنی که نسبت حجم نمونه به روی بعد داده‌ها به صفر میل می‌کند که نشان از بزرگتر بودن بعد داده‌ها است. در این صورت برآورد پارامترها ممکن نبوده و به دنبال آن استنباط‌های پیش‌‌رو دچار مشکل می‌شوند. در چنین حالتی روش‌های موجود در آمار کلاسیک را نمی‌توانیم برای تحلیل و انجام محاسبات به‌کار ببریم. یکی از تحلیل‌های رایج در این ضمینه آزمون تساوی میانگین‌های بین دوگروه‌های مختلف است. که وقتی در مورد داده‌های ژنی بررسی می‌کنیم بدلیل بالا بودن بعد داده‌های بیان ژن نسبت به تعداد نمونه‌ها این نوع تحلیل اهمیت فراوانی می‌یابد، از این رو در این مقاله یک آماره آزمون مناسب برای آزمون برابری بردار‌های میانگین دو جامعه داده‌های بیان ژنی معرفی می‌کنیم و نشان می‌دهیم که عملکرد این آماره نسبت به آماره آزمون‌های قبلی رضایت بخش است.
‎high dimensional - multivariate analysis - gene read count data - mean vector testing - big data

نویسنده: جواد وحدت

❇️ @Data_Experts
Q-Learning
#یادگیری_ماشین
❇️ @Data_Experts
حالت گسترش یافته الگوریتم Value Iteration است که برای مسایل nondeterministic نیز بکار میرود.
یادگیری Q-learning نوعی از یادگیری تقویتی بدون مدل است که بر پایه برنامه ریزی پویای اتفاقی عمل میکند.
در یادگیری Q –Learning بجای انجام یک نگاشت از States به مقادیر حالتها، نگاشتی از زوج state/action به مقادیری که Q-value نامیده میشوند انجام میگردد.
Q Function
❇️ @Data_Experts
به هرزوج > حالت ، عمل < یک مقدار Q(s,a) نسبت داده میشود.. این مقدار عبارت است از مجموع پاداشهای دریافت شده وقتی که از حالت S شروع و عمل a را انجام وبدنبال آن خط مشی موجود را دنبال کرده باشیم
الگوریتم یادگیری:
برای یادگیری تابع Q میتوان از جدولی استفاده کرد که هر ورودی آن یک زوج <s,a> به همراه تقریبی است . که یادگیر از مقدار واقعی Q بدست آورده است.
مقادیر این جدول با مقدار اولیه تصادفی ) معمولا صفر( پر میشود.
❇️ @Data_Experts
علم داده بطور خلاصه در یک عکس
#علم_داده

❇️ @Data_Experts\
Very excited to announce diversity scholarships for rstudio::conf(2019)!
🎉🎉🎉 https://blog.rstudio.com/2018/08/10/rstudio-conf-2019-diversity-scholarships/ ….
Apply now for conference + workshop + travel/accommodation allowance #rstats

❇️ @Data_Experts
This media is not supported in your browser
VIEW IN TELEGRAM
یادگیری ماشین چیست؟

#یادگیری_ماشین
#تعریف

«با ما همراه باشید»

❇️ @Data_Experts
✔️ اموزش پکیج recipes برای پردازش دیتا
لینک
👈 لینک
#یادگیری_آماری
#یادگیری_ماشین
«با ما همراه باشید»

❇️ @Data_Experts
❇️ @AI_Python
#داده_کاوی

🔰شماره آموزش #1_داده_کاوی

#انواع_داده

🔶اولین و ابتدایی ترین، تذکر در رابطه با تعداد رکوردها "بهتره بگیم تعداد
Object

های یک مجموعه داده " است.

باید بدانیم برای این کار یعنی استخراج اطلاعات از میان هزاران و گاهی میلیون ها رکورد باید به حجم قابل توجهی از داده ها

دسترسی داشته باشیم، این مجموعه از داده ها می توانند در قالب:

💥رکورد:
1)رکوردهای رابطه ای
2)ماتریسی از داده ها
3)داده های تراکنشی
4)اسناد متنی

💥گرافها و شبکه ها:
1)صفحات وب مثلا جهت بررسی از لحاظ محتوا
2)شبکه های اجتماعی


💥داده های مرتب:
داده های ویدئویی
داده های وابسته به زمان
داده های دنباله ای تراکنشی

💥داده های فضایی و تصویری چند رسانه ای :
داده های فضایی-نقشه
داده های تصویری
داده های ویدئویی

قرار گیرند ، نحوه ساختار و سازمان دادن به داده ها در قالب مفاهیم پایگاه داده بررسی می شوند.

📈 @R_Experts

https://telegram.me/Data_Experts
انواع داده در نرم افزار R

«با ما همراه باشید»
❇️ @Data_Experts
Forwarded from Deleted Account
Media is too big
VIEW IN TELEGRAM
شبکه های عصبی عمیق چگونه کار میکنند؟

«با ما همراه باشید»
#شبکه_عصبی
❇️@Data_Experts
❇️@AI_Python
در پستهای آتی به تشریح هر کدوم از این روشهای دانشمند علم داده شدن خواهیم پرداخت .

«با ما همراه باشید»

❇️@Data_Experts
برگزاری کنفرانس نرم افزار R در امریکای لاتین
Sept 4-5 in Buenos Aires. The Latinamerican Conference About the Use of R in R&D 2018 Join keynote
Details: https://buff.ly/2OG9r5s
❇️@Data_Experts
Data_Mining.pdf
17.7 MB
#DATA_MINING
FOR BUSINESS ANALYTICS
Concepts, Techniques, and Applications in #R
❇️ @Data_Experts
Forwarded from Code Community ☕️ (Farzad)
#كسر_خدمت

💥 یک شرکت فعال در نظر دارد در قالب پروژه کسری خدمت سربازی (با محوریت ارز دیجیتال) با دانشجویان و فارغ‌التحصیلان رشته‌های زیر همکاری کند:

۱- مهندسی کامپیوتر و فناوری اطلاعات
۲- اقتصاد (کلیه گرایش ها)

متقاضیان انجام پروژه کسری خدمت سربازی، رزومه خود را به ایمیل زیر ارسال کنند. عنوان ایمیل را نام رشته خود بنویسید.
[email protected]

© @Code_Community
Forwarded from Data Experts (Farzad)
ابزارهای #کلان_داده

الگو های ذخیره سازی کلان داده:

الگوی Facade : سیستم فایل توزیع شده هدوپ HDFS از الگوی نوبتی Facade برای رسیدگی به انباره داده های قدیمی استفاده میکند.

🔥@Data_Experts

الگوی Lean : با HBase تنها با استفاده از یک ستون خانوادگی و یک ستون و یک کلید سطر یکتا عمل شاخص گذاری را انجام می دهد.

الگوی NoSQL : سیستم RDBMS قدیمی توسط NoSQL ها برای دستیابی به داده ها با سرعت بالاتر و پرس و جوهای کلان داده ای جایگزین میشود.

الگوی Polygot : انواع مختلف مکانیزم های ذخیره سازی مثل RDBMS ,NoSQL,CMS, OODBMS,HDFS بطور همزمان در سیستم وجود دارد تا مسائل کلان داده موجود را پاسخگو باشند.
🔥@Data_Experts

یک نمونه از دستگاه پکیج شده
سازنده های دستگاه ها با چندین پیکربندی

توزیع نرم افزاری هدوپ :
Cloudera, Hortonwork,MAPR

ذخیره سازی:
پایگاه داده ستونی RAID و HP Vertica

زیرساخت:
HP Proliant Server
🔥@Data_Experts
تحلیل/بصری سازی:
SAS

یادگیری ماشین :
R



لیست سازنده های کلان داده با چندین پیکربندی:

برند EMC
ملحقات همراه با برند:
Greenplum appliance + EMC Storage HW+ Pivotal HD(Hadoop Distributation) + TeraData

برند Oracle
ملحقات همراه برند:
Exadata + Sun SPARC Servers + Exalytics
🔥@Data_Experts
برند IBM :
ملحقات همراه برند:
Big Insights + Netezza + PureData + PureSysyems
با تشکر از:@Movahed_n28

منبع : https://www.tanoco.ir/datamining/%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1%D9%87%D8%A7%DB%8C-%DA%A9%D9%84%D8%A7%D9%86-%D8%AF%D8%A7%D8%AF%D9%87-%D8%A8%DB%8C%DA%AF-%D8%AF%DB%8C%D8%AA%D8%A7/
✔️ نیازمندیهای دانشمند #علم_داده چیست؟

«با ما همراه باشید»

❇️@Data_Experts
Forwarded from DLeX: AI Python (Farzad)
✔️ یادگیری ماشین چیست ؟

#یادگیری_ماشین

❇️ @AI_Python