#درخت_تصمیم
#یادگیری_ماشین
الگوریتم ID3 هر شاخه از درخت را آنقدر به عمق میبرد که بتواند بطور کامل مثالهای آموزشی را دسته بندی کند. این امر میتواند منجر به Overfitting شود. دلایل بروز overfitting عبارتند از:
وجود نویز در داده های آموزشی
تعداد کم مثالهای آموزشی
برای مثال اگر فقط دو بار پرتاب سکه داشته باشیم و هر دو بار شیر آمده باشد چه نتیجه ای در مورد این آزمایش میتوان گرفت؟
❇️ @Data_Experts
پرهیز از Overfitting
جلوگیری از رشد درخت قبل از رسیدن به مرحله ای که بطور کامل داده های آموزشی را دسته بندی نماید.
اجازه به رشد کامل درخت و سپس هرس کردن شاخه هائی که مفید نیستند. (post pruning)
در عمل روش دوم بیشتر استفاده شده است زیرا تخمین اندازه صحیح درخت کار ساده ای نیست.
هرس کردن به روش REP
❇️ @Data_Experts
این روش توسط Quinlan ارائه شده است. ابتدا به درخت اجازه داده میشود تا به اندازه کافی رشد کند. سپس گره هائی را که باعث افزایش دقت دسته بندی نمیشوند هرس میگردند:
داده ها به دو مجموعه تست و آموزشی تقسیم میشوند.
درخت با داده های آموزشی مطابق روش قبل یاد گرفته میشود.
سپس برای یک گره داخلی (غیر برگ n )
زیرشاخه n حذف میگردد. این زیر شاخه با یک برگ جایگزین میشود. به این برگ دسته مثالهای اکثریت یعنی دسته بندی اکثر مثالهای قرار گرفته تحت این شاخه نسبت داده میشود.
عملکرد درخت برروی مثالهای تست بررسی میشود: اگر درخت هرس شده عملکرد بهتر و یا مساوی با درخت فعلی داشت از درخت حرس شده استفاده میشود.
هرس کردن آنقدر ادامه می یابد تا هرس بیشتر، سودی نداشته باشد.
❇️ @Data_Experts
اگر به مثال قبل یک ویژگی به نام تاریخ اضافه شود، این ویژگی به تنهائی قادر خواهد بود تا کلیه مثالهای آموزشی را دسته بندی کند. در واقع بعلت اینکه این ویژگی دارای بهره اطلاعات زیادی است بعنوان ریشه درخت انتخاب خواهد شد و درخت حاصله دارای عمق بسیار کمی خواهد بود.
با وجود اینکه این درخت مثالهای آموزشی را بخوبی دسته بندی خواهد کرد اما در مورد مثالهای نادیده بسیار ضعیف عمل خواهد نمود. زیرا این درخت در عمل مثالهای آموزشی را حفظ کرده و قادر به تعمیم نیست.
❇️ @Data_Experts
#یادگیری_ماشین
الگوریتم ID3 هر شاخه از درخت را آنقدر به عمق میبرد که بتواند بطور کامل مثالهای آموزشی را دسته بندی کند. این امر میتواند منجر به Overfitting شود. دلایل بروز overfitting عبارتند از:
وجود نویز در داده های آموزشی
تعداد کم مثالهای آموزشی
برای مثال اگر فقط دو بار پرتاب سکه داشته باشیم و هر دو بار شیر آمده باشد چه نتیجه ای در مورد این آزمایش میتوان گرفت؟
❇️ @Data_Experts
پرهیز از Overfitting
جلوگیری از رشد درخت قبل از رسیدن به مرحله ای که بطور کامل داده های آموزشی را دسته بندی نماید.
اجازه به رشد کامل درخت و سپس هرس کردن شاخه هائی که مفید نیستند. (post pruning)
در عمل روش دوم بیشتر استفاده شده است زیرا تخمین اندازه صحیح درخت کار ساده ای نیست.
هرس کردن به روش REP
❇️ @Data_Experts
این روش توسط Quinlan ارائه شده است. ابتدا به درخت اجازه داده میشود تا به اندازه کافی رشد کند. سپس گره هائی را که باعث افزایش دقت دسته بندی نمیشوند هرس میگردند:
داده ها به دو مجموعه تست و آموزشی تقسیم میشوند.
درخت با داده های آموزشی مطابق روش قبل یاد گرفته میشود.
سپس برای یک گره داخلی (غیر برگ n )
زیرشاخه n حذف میگردد. این زیر شاخه با یک برگ جایگزین میشود. به این برگ دسته مثالهای اکثریت یعنی دسته بندی اکثر مثالهای قرار گرفته تحت این شاخه نسبت داده میشود.
عملکرد درخت برروی مثالهای تست بررسی میشود: اگر درخت هرس شده عملکرد بهتر و یا مساوی با درخت فعلی داشت از درخت حرس شده استفاده میشود.
هرس کردن آنقدر ادامه می یابد تا هرس بیشتر، سودی نداشته باشد.
❇️ @Data_Experts
اگر به مثال قبل یک ویژگی به نام تاریخ اضافه شود، این ویژگی به تنهائی قادر خواهد بود تا کلیه مثالهای آموزشی را دسته بندی کند. در واقع بعلت اینکه این ویژگی دارای بهره اطلاعات زیادی است بعنوان ریشه درخت انتخاب خواهد شد و درخت حاصله دارای عمق بسیار کمی خواهد بود.
با وجود اینکه این درخت مثالهای آموزشی را بخوبی دسته بندی خواهد کرد اما در مورد مثالهای نادیده بسیار ضعیف عمل خواهد نمود. زیرا این درخت در عمل مثالهای آموزشی را حفظ کرده و قادر به تعمیم نیست.
❇️ @Data_Experts
✍️ 14امین کنفرانس آمار-2-5شهریور97 - شاهرود
موضوع: آزمون تساوی بردار میانگین بین دو گروه داده های با بعد بالای بیان ژن
❇️ @Data_Experts
چکیده:
در مطالعات جدید و با توجه به رشد و پیشرفت علم و دسترسی و استخراج دادهها بهخصوص دادههای ژنتیک با حجم عظیمی از داده روبهرو هستیم که موارد بسیاری بهخصوص در مطالعات پزشکی نوع این دادهها بهگونهای است که حجم نمونه در مقایسه با پارامترهای مورد بررسی بسیار کوچک است. بدین معنی که نسبت حجم نمونه به روی بعد دادهها به صفر میل میکند که نشان از بزرگتر بودن بعد دادهها است. در این صورت برآورد پارامترها ممکن نبوده و به دنبال آن استنباطهای پیشرو دچار مشکل میشوند. در چنین حالتی روشهای موجود در آمار کلاسیک را نمیتوانیم برای تحلیل و انجام محاسبات بهکار ببریم. یکی از تحلیلهای رایج در این ضمینه آزمون تساوی میانگینهای بین دوگروههای مختلف است. که وقتی در مورد دادههای ژنی بررسی میکنیم بدلیل بالا بودن بعد دادههای بیان ژن نسبت به تعداد نمونهها این نوع تحلیل اهمیت فراوانی مییابد، از این رو در این مقاله یک آماره آزمون مناسب برای آزمون برابری بردارهای میانگین دو جامعه دادههای بیان ژنی معرفی میکنیم و نشان میدهیم که عملکرد این آماره نسبت به آماره آزمونهای قبلی رضایت بخش است.
high dimensional - multivariate analysis - gene read count data - mean vector testing - big data
نویسنده: جواد وحدت
❇️ @Data_Experts
موضوع: آزمون تساوی بردار میانگین بین دو گروه داده های با بعد بالای بیان ژن
❇️ @Data_Experts
چکیده:
در مطالعات جدید و با توجه به رشد و پیشرفت علم و دسترسی و استخراج دادهها بهخصوص دادههای ژنتیک با حجم عظیمی از داده روبهرو هستیم که موارد بسیاری بهخصوص در مطالعات پزشکی نوع این دادهها بهگونهای است که حجم نمونه در مقایسه با پارامترهای مورد بررسی بسیار کوچک است. بدین معنی که نسبت حجم نمونه به روی بعد دادهها به صفر میل میکند که نشان از بزرگتر بودن بعد دادهها است. در این صورت برآورد پارامترها ممکن نبوده و به دنبال آن استنباطهای پیشرو دچار مشکل میشوند. در چنین حالتی روشهای موجود در آمار کلاسیک را نمیتوانیم برای تحلیل و انجام محاسبات بهکار ببریم. یکی از تحلیلهای رایج در این ضمینه آزمون تساوی میانگینهای بین دوگروههای مختلف است. که وقتی در مورد دادههای ژنی بررسی میکنیم بدلیل بالا بودن بعد دادههای بیان ژن نسبت به تعداد نمونهها این نوع تحلیل اهمیت فراوانی مییابد، از این رو در این مقاله یک آماره آزمون مناسب برای آزمون برابری بردارهای میانگین دو جامعه دادههای بیان ژنی معرفی میکنیم و نشان میدهیم که عملکرد این آماره نسبت به آماره آزمونهای قبلی رضایت بخش است.
high dimensional - multivariate analysis - gene read count data - mean vector testing - big data
نویسنده: جواد وحدت
❇️ @Data_Experts
Q-Learning
#یادگیری_ماشین
❇️ @Data_Experts
حالت گسترش یافته الگوریتم Value Iteration است که برای مسایل nondeterministic نیز بکار میرود.
یادگیری Q-learning نوعی از یادگیری تقویتی بدون مدل است که بر پایه برنامه ریزی پویای اتفاقی عمل میکند.
در یادگیری Q –Learning بجای انجام یک نگاشت از States به مقادیر حالتها، نگاشتی از زوج state/action به مقادیری که Q-value نامیده میشوند انجام میگردد.
Q Function
❇️ @Data_Experts
به هرزوج > حالت ، عمل < یک مقدار Q(s,a) نسبت داده میشود.. این مقدار عبارت است از مجموع پاداشهای دریافت شده وقتی که از حالت S شروع و عمل a را انجام وبدنبال آن خط مشی موجود را دنبال کرده باشیم
الگوریتم یادگیری:
برای یادگیری تابع Q میتوان از جدولی استفاده کرد که هر ورودی آن یک زوج <s,a> به همراه تقریبی است . که یادگیر از مقدار واقعی Q بدست آورده است.
مقادیر این جدول با مقدار اولیه تصادفی ) معمولا صفر( پر میشود.
❇️ @Data_Experts
#یادگیری_ماشین
❇️ @Data_Experts
حالت گسترش یافته الگوریتم Value Iteration است که برای مسایل nondeterministic نیز بکار میرود.
یادگیری Q-learning نوعی از یادگیری تقویتی بدون مدل است که بر پایه برنامه ریزی پویای اتفاقی عمل میکند.
در یادگیری Q –Learning بجای انجام یک نگاشت از States به مقادیر حالتها، نگاشتی از زوج state/action به مقادیری که Q-value نامیده میشوند انجام میگردد.
Q Function
❇️ @Data_Experts
به هرزوج > حالت ، عمل < یک مقدار Q(s,a) نسبت داده میشود.. این مقدار عبارت است از مجموع پاداشهای دریافت شده وقتی که از حالت S شروع و عمل a را انجام وبدنبال آن خط مشی موجود را دنبال کرده باشیم
الگوریتم یادگیری:
برای یادگیری تابع Q میتوان از جدولی استفاده کرد که هر ورودی آن یک زوج <s,a> به همراه تقریبی است . که یادگیر از مقدار واقعی Q بدست آورده است.
مقادیر این جدول با مقدار اولیه تصادفی ) معمولا صفر( پر میشود.
❇️ @Data_Experts
Very excited to announce diversity scholarships for rstudio::conf(2019)!
🎉🎉🎉 https://blog.rstudio.com/2018/08/10/rstudio-conf-2019-diversity-scholarships/ ….
Apply now for conference + workshop + travel/accommodation allowance #rstats
❇️ @Data_Experts
🎉🎉🎉 https://blog.rstudio.com/2018/08/10/rstudio-conf-2019-diversity-scholarships/ ….
Apply now for conference + workshop + travel/accommodation allowance #rstats
❇️ @Data_Experts
Rstudio
rstudio::conf(2019) diversity scholarships | RStudio Blog
Interesting thread comparing Microsoft R Open with base R https://community.rstudio.com/t/base-r-vs-microsoft-r-open/1757
❇️ @Data_Experts
❇️ @Data_Experts
Posit Forum
Base R vs. Microsoft R Open
I have never been all that impressed with Microsoft products however, Microsoft R Open (MRO) seems like an interesting idea. I have not had a chance to try it out yet but I have read bits and pieces about MRO but I was wondering what this community thinks…
Forwarded from DLeX: AI Python (Farzad)
✔️ لینک گروه پایتون ,هوش مصنوعی و لینوکس
https://t.iss.one/joinchat/ClyM2j9QzOiYfJkHkgrMxQ
✔️ لینک گروه یادگیری عمیق
https://t.iss.one/joinchat/ClyM2kZKfp0_jRXWpiQDkw
✔️ لینک گروه پردازش زبان طبیعی
https://t.iss.one/joinchat/ClyM2lM9sguMoBTT7rVJzw
#ExpertsFamily
❇️ @AI_Python
https://t.iss.one/joinchat/ClyM2j9QzOiYfJkHkgrMxQ
✔️ لینک گروه یادگیری عمیق
https://t.iss.one/joinchat/ClyM2kZKfp0_jRXWpiQDkw
✔️ لینک گروه پردازش زبان طبیعی
https://t.iss.one/joinchat/ClyM2lM9sguMoBTT7rVJzw
#ExpertsFamily
❇️ @AI_Python
Telegram
Python + Linux Experts
Question answering group for Python and Linux
https://t.iss.one/PythonLinuxExperts
https://t.iss.one/joinchat/bZaSWDdHWmNmYmQ8
Python Documentation Repository:
@PyRepo
_______
Our channels:
@uselinux
@ai_person
rules : #قوانین
https://t.iss.one/PythonLinuxExperts
https://t.iss.one/joinchat/bZaSWDdHWmNmYmQ8
Python Documentation Repository:
@PyRepo
_______
Our channels:
@uselinux
@ai_person
rules : #قوانین
✔️ اموزش پکیج recipes برای پردازش دیتا
لینک
👈 لینک
#یادگیری_آماری
#یادگیری_ماشین
«با ما همراه باشید»
❇️ @Data_Experts
❇️ @AI_Python
لینک
👈 لینک
#یادگیری_آماری
#یادگیری_ماشین
«با ما همراه باشید»
❇️ @Data_Experts
❇️ @AI_Python
#داده_کاوی
🔰شماره آموزش #1_داده_کاوی
#انواع_داده
🔶اولین و ابتدایی ترین، تذکر در رابطه با تعداد رکوردها "بهتره بگیم تعداد
های یک مجموعه داده " است.
باید بدانیم برای این کار یعنی استخراج اطلاعات از میان هزاران و گاهی میلیون ها رکورد باید به حجم قابل توجهی از داده ها
دسترسی داشته باشیم، این مجموعه از داده ها می توانند در قالب:
💥رکورد:
1)رکوردهای رابطه ای
2)ماتریسی از داده ها
3)داده های تراکنشی
4)اسناد متنی
💥گرافها و شبکه ها:
1)صفحات وب مثلا جهت بررسی از لحاظ محتوا
2)شبکه های اجتماعی
💥داده های مرتب:
داده های ویدئویی
داده های وابسته به زمان
داده های دنباله ای تراکنشی
💥داده های فضایی و تصویری چند رسانه ای :
داده های فضایی-نقشه
داده های تصویری
داده های ویدئویی
قرار گیرند ، نحوه ساختار و سازمان دادن به داده ها در قالب مفاهیم پایگاه داده بررسی می شوند.
📈 @R_Experts
https://telegram.me/Data_Experts
🔰شماره آموزش #1_داده_کاوی
#انواع_داده
🔶اولین و ابتدایی ترین، تذکر در رابطه با تعداد رکوردها "بهتره بگیم تعداد
Object
های یک مجموعه داده " است.
باید بدانیم برای این کار یعنی استخراج اطلاعات از میان هزاران و گاهی میلیون ها رکورد باید به حجم قابل توجهی از داده ها
دسترسی داشته باشیم، این مجموعه از داده ها می توانند در قالب:
💥رکورد:
1)رکوردهای رابطه ای
2)ماتریسی از داده ها
3)داده های تراکنشی
4)اسناد متنی
💥گرافها و شبکه ها:
1)صفحات وب مثلا جهت بررسی از لحاظ محتوا
2)شبکه های اجتماعی
💥داده های مرتب:
داده های ویدئویی
داده های وابسته به زمان
داده های دنباله ای تراکنشی
💥داده های فضایی و تصویری چند رسانه ای :
داده های فضایی-نقشه
داده های تصویری
داده های ویدئویی
قرار گیرند ، نحوه ساختار و سازمان دادن به داده ها در قالب مفاهیم پایگاه داده بررسی می شوند.
📈 @R_Experts
https://telegram.me/Data_Experts
Telegram
Data Experts
_______________
Related channel :
@R_Experts
________________
Contact us :
@javad_vhd
@farzadHEYdaryy
________________
Instagram: data_experts
Web: dataexperts.ir
Related channel :
@R_Experts
________________
Contact us :
@javad_vhd
@farzadHEYdaryy
________________
Instagram: data_experts
Web: dataexperts.ir
Forwarded from Deleted Account
Media is too big
VIEW IN TELEGRAM
در پستهای آتی به تشریح هر کدوم از این روشهای دانشمند علم داده شدن خواهیم پرداخت .
«با ما همراه باشید»
❇️@Data_Experts
«با ما همراه باشید»
❇️@Data_Experts
برگزاری کنفرانس نرم افزار R در امریکای لاتین
Sept 4-5 in Buenos Aires. The Latinamerican Conference About the Use of R in R&D 2018 Join keynote
Details: https://buff.ly/2OG9r5s
❇️@Data_Experts
Sept 4-5 in Buenos Aires. The Latinamerican Conference About the Use of R in R&D 2018 Join keynote
Details: https://buff.ly/2OG9r5s
❇️@Data_Experts
Forwarded from Code Community ☕️ (Farzad)
#كسر_خدمت
💥 یک شرکت فعال در نظر دارد در قالب پروژه کسری خدمت سربازی (با محوریت ارز دیجیتال) با دانشجویان و فارغالتحصیلان رشتههای زیر همکاری کند:
۱- مهندسی کامپیوتر و فناوری اطلاعات
۲- اقتصاد (کلیه گرایش ها)
متقاضیان انجام پروژه کسری خدمت سربازی، رزومه خود را به ایمیل زیر ارسال کنند. عنوان ایمیل را نام رشته خود بنویسید.
[email protected]
© @Code_Community
💥 یک شرکت فعال در نظر دارد در قالب پروژه کسری خدمت سربازی (با محوریت ارز دیجیتال) با دانشجویان و فارغالتحصیلان رشتههای زیر همکاری کند:
۱- مهندسی کامپیوتر و فناوری اطلاعات
۲- اقتصاد (کلیه گرایش ها)
متقاضیان انجام پروژه کسری خدمت سربازی، رزومه خود را به ایمیل زیر ارسال کنند. عنوان ایمیل را نام رشته خود بنویسید.
[email protected]
© @Code_Community
Forwarded from Data Experts (Farzad)
ابزارهای #کلان_داده
الگو های ذخیره سازی کلان داده:
الگوی Facade : سیستم فایل توزیع شده هدوپ HDFS از الگوی نوبتی Facade برای رسیدگی به انباره داده های قدیمی استفاده میکند.
🔥@Data_Experts
الگوی Lean : با HBase تنها با استفاده از یک ستون خانوادگی و یک ستون و یک کلید سطر یکتا عمل شاخص گذاری را انجام می دهد.
الگوی NoSQL : سیستم RDBMS قدیمی توسط NoSQL ها برای دستیابی به داده ها با سرعت بالاتر و پرس و جوهای کلان داده ای جایگزین میشود.
الگوی Polygot : انواع مختلف مکانیزم های ذخیره سازی مثل RDBMS ,NoSQL,CMS, OODBMS,HDFS بطور همزمان در سیستم وجود دارد تا مسائل کلان داده موجود را پاسخگو باشند.
🔥@Data_Experts
یک نمونه از دستگاه پکیج شده
سازنده های دستگاه ها با چندین پیکربندی
توزیع نرم افزاری هدوپ :
Cloudera, Hortonwork,MAPR
ذخیره سازی:
پایگاه داده ستونی RAID و HP Vertica
زیرساخت:
HP Proliant Server
🔥@Data_Experts
تحلیل/بصری سازی:
SAS
یادگیری ماشین :
R
لیست سازنده های کلان داده با چندین پیکربندی:
برند EMC
ملحقات همراه با برند:
Greenplum appliance + EMC Storage HW+ Pivotal HD(Hadoop Distributation) + TeraData
برند Oracle
ملحقات همراه برند:
Exadata + Sun SPARC Servers + Exalytics
🔥@Data_Experts
برند IBM :
ملحقات همراه برند:
Big Insights + Netezza + PureData + PureSysyems
با تشکر از:@Movahed_n28
منبع : https://www.tanoco.ir/datamining/%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1%D9%87%D8%A7%DB%8C-%DA%A9%D9%84%D8%A7%D9%86-%D8%AF%D8%A7%D8%AF%D9%87-%D8%A8%DB%8C%DA%AF-%D8%AF%DB%8C%D8%AA%D8%A7/
الگو های ذخیره سازی کلان داده:
الگوی Facade : سیستم فایل توزیع شده هدوپ HDFS از الگوی نوبتی Facade برای رسیدگی به انباره داده های قدیمی استفاده میکند.
🔥@Data_Experts
الگوی Lean : با HBase تنها با استفاده از یک ستون خانوادگی و یک ستون و یک کلید سطر یکتا عمل شاخص گذاری را انجام می دهد.
الگوی NoSQL : سیستم RDBMS قدیمی توسط NoSQL ها برای دستیابی به داده ها با سرعت بالاتر و پرس و جوهای کلان داده ای جایگزین میشود.
الگوی Polygot : انواع مختلف مکانیزم های ذخیره سازی مثل RDBMS ,NoSQL,CMS, OODBMS,HDFS بطور همزمان در سیستم وجود دارد تا مسائل کلان داده موجود را پاسخگو باشند.
🔥@Data_Experts
یک نمونه از دستگاه پکیج شده
سازنده های دستگاه ها با چندین پیکربندی
توزیع نرم افزاری هدوپ :
Cloudera, Hortonwork,MAPR
ذخیره سازی:
پایگاه داده ستونی RAID و HP Vertica
زیرساخت:
HP Proliant Server
🔥@Data_Experts
تحلیل/بصری سازی:
SAS
یادگیری ماشین :
R
لیست سازنده های کلان داده با چندین پیکربندی:
برند EMC
ملحقات همراه با برند:
Greenplum appliance + EMC Storage HW+ Pivotal HD(Hadoop Distributation) + TeraData
برند Oracle
ملحقات همراه برند:
Exadata + Sun SPARC Servers + Exalytics
🔥@Data_Experts
برند IBM :
ملحقات همراه برند:
Big Insights + Netezza + PureData + PureSysyems
با تشکر از:@Movahed_n28
منبع : https://www.tanoco.ir/datamining/%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1%D9%87%D8%A7%DB%8C-%DA%A9%D9%84%D8%A7%D9%86-%D8%AF%D8%A7%D8%AF%D9%87-%D8%A8%DB%8C%DA%AF-%D8%AF%DB%8C%D8%AA%D8%A7/
آکادمی داده کاوی انجام پروژه ها و پایانامه های داده کاوی دانشجوی کارشناسی ارشد و دکترا
ابزارهای کلان داده (بیگ دیتا) - آکادمی داده کاوی انجام پروژه ها و پایانامه های داده کاوی دانشجوی کارشناسی ارشد و دکترا
الگو های ذخیره سازی کلان داده: الگوی Facade : سیستم فایل توزیع شده هدوپ HDFS از الگوی نوبتی Facade برای رسیدگی به انباره داده های قدیمی استفاده میکند. الگوی Lean : با HBase تنها با استفاده از یک ستون خانوادگی و یک ستون و یک کلید سطر یکتا عمل شاخص گذاری را…
Forwarded from DLeX: AI Python (Farzad)
Forwarded from DLeX: AI Python (Farzad)