Data Experts

Get Start Data Science – شروع کار برای علم داده
با سلام در این نوشته و در ادامه این مباحث ما در مورد علم داده و روش‌های آن مطالبی را خدمتتان عرض میکنیم

یادگیری ماشین قسمتی از هوش مصنوعی است که به ما در توسعه مدلبندی داده‌ها کمک می‌کند. که ما در این روش به کامپیوتر این اجازه را می‌دهیم تا مدل را طریق داده‌ها توسعه دهد. مدل بندی به این صورت است که...
میتونین ادامه مطلب رو از وبسایت علم داده مطالعه کنین
ادرس مستقیم مطلب »»»» کلیک کنید
❇️dataexperts.ir
❇️ @Data_Experts

986 viewsjavad vhd, edited 14:07

Data Experts

Forwarded from Deleted Account

✨ جی پی لاکر یه ادمین ماهر برای گروهای شما

🌟 برای مشاهده امکانات و خرید ربات , روی لینک زیر کلیک نمایید:

t.iss.one/GpLockerBot?start=q=271280621

➖➖➖➖➖➖
@GpLocker

929 viewsFarzad, 20:33

Data Experts

#یادگیری_ماشین در مسایل مختلفی کاربرد دارد:

Classification
ماشین یاد میگیرد که ورودیها را به دسته های از پیش تعیین شده ای نسبت دهد.

Clustering
سیستم یادگیر کشف میکند که کدام ورودیها با هم در یک دسته بندی قرار میگیرند.

Numeric prediction
ماشین یاد میگیرد که به جای تعیین دسته بندی یک ورودی مقدار عددی آنرا پیش بینی نماید.
❇️ @Data_Experts

919 viewsFarzad, 14:31

Data Experts

انواع دسته بندی های #یادگیری_ماشین

یادگیری با ناظر:
یک مجموعه از مثالهای یادگیری وجود دارد بازای هر ورودی، مقدار خروجی و یا تابع مربوطه نیز مشخص است. هدف سیستم یادگیر بدست آوردن فرضیه ای است که تابع و یا رابطه بین ورودی و یا خروجی را حدس بزند

یادگیری بدون ناظر:
یک مجموعه از مثالهای یادگیری وجود دارد که در آن فقط مقدار ورودی ها مشخص است و اطلاعاتی در مورد خروجی صحیح در دست نیست. یادگیری بدون ناظر برای دسته بندی ورودیها و یا پیش بینی مقدار بعدی بر اساس موقعیت فعلی بکار میرود.

بادگیری تقویتی:
مثالها بصورت ورودی/خروجی نیستند بلکه بصورت وضعیت/پاداش هستند که یادگیر در وضعیت های مختلف عملیات مختلفی را انجام داده و پاداشهای متفاوتی دریافت و بر اساس مجموع پاداش های دریافتی عمل متناسب با هر وضعیت را یاد میگیرد.

یادگیری نیمه نظارتی:
مثالها طوری هستند که برای تعداد کمی از آنها مقدار خروجی موجود است اما برای مثالهای زیادی مقدار خروجی مشخص نیست.

❇️ @Data_Experts

4.38K viewsFarzad, 14:39

Data Experts

❇️@Data_Experts

9.44K viewskarlo Abnoosian, edited 19:56

Data Experts

#یادگیری_ماشین
#درخت_تصمیم
درختها درهوش مصنوعی برای نمایش مفاهیم مختلفی نظیر ساختار جملات، معادلات، حالات بازی، و غیره استفاده میشود.
یادگیری درخت تصمیم روشی برای تقریب توابع هدف با مقادیر گسسته است. این روش نسبت به نویز داده هامقاوم بوده وقادر است ترکیب فصلی گزاره های عطفی را یاد بگیرد.
❇️ @Data_Experts
این روش جزو مشهورترین الگوریتمهای یادگیری استقرائی است که بصورت موفقیت آمیزی در کاربردهای مختلف بکار گرفته شده است.
درخت تصمیم درختی است که در آن نمونه ها را به نحوی دسته بندی میکند که از ریشه به سمت پائین رشد میکنند و در نهایت به گره های برگ میرسد:
هر گره داخلی یاغیر برگ (non leaf) با یک ویژگی (attribute) مشخص میشود. این ویژگی سوالی را در رابطه با مثال ورودی مطرح میکند.
درهر گره داخلی به تعداد جوابهای ممکن با این سوال شاخه (branch) وجود دارد که هر یک با مقدار آن جواب مشخص میشوند.
برگهای این درخت با یک کلاس و یا یک دسته از جوابها مشخص میشوند.
علت نامگذاری آن با درخت تصمیم این است که این درخت فرایند تصمیم گیری برای تعیین دسته یک مثال ورودی را نشان میدهد.
درخت تصمیم در مسایلی کاربرد دارد که بتوان آنها را بصورتی مطرح نمود که پاسخ واحدی بصورت نام یک دسته یا کلاس ارائه دهند.
برای مثال میتوان درخت تصمیمی ساخت که به این سوال پاسخ دهد: بیماری مریض کدام است؟ و یا درختی ساخت که به این سوال پاسخ دهد: آیا مریض به هپاتیت مبتلاست؟
برای مسائلی مناسب است که مثالهای آموزشی بصورت زوج (مقدار-ویژگی) مشخص شده باشند.
تابع هدف دارای خروجی با مقادیر گسسته باشد. مثلا هر مثال با بله و خیر تعیین شود.
نیاز به توصیف گر فصلی (disjunctive) باشد.

ادامه دارد. . .

❇️ @Data_Experts

1.31K viewsFarzad, 19:38

Data Experts

✔️ ویژگیهای درخت تصمیم
#یادگیری_ماشین
#درخت_تصمیم
❇️ @Data_Experts
برای تقریب توابع گسسته بکار می رود (classification)
نسبت به نویز داده های ورودی مقاوم است
برای داده های با حجم بالا کاراست از این رو درData mining استفاده می شود
می توان درخت را بصورت قوانین if-then نمایش داد که قابل فهم برای استفاده است
امکان ترکیب عطفی و فصلی فرضیه ها را می دهد
در مواردی که مثالهای آموزشی که فاقد همه ویژگیها هستند نیز قابل استفاده است
اغلب الگوریتم های یادگیری درخت تصمیم بر پایه یک عمل جستجوی حریصانه (greedy) بالا به پائین (top-down) در فضای درختهای موجود عمل میکنند.
این الگوریتم پایه، Concept Learning System (CLS) نامیده می شود که در سال 1950 معرفی شده است.
این الگوریتم توسط Ross Quilan در سال 1986 بصورت کاملتری تحت عنوان Inducing Decisition trees (ID3) مطرح گردید.
بعدها الگوریتم کاملتر دیگری تحت عنوان C4.5 ارائه گردید که برخی نقائص ID3 را برطرف میکند.
❇️ @Data_Experts
بایاس درخت تصمیم:
انتخاب درختهای کوچکتر بایاس درخت تصمیم بر این ایده است که درخت های کوچکتر بر درختهای بزرگتر ترجیح داده می شوند.
❇️ @Data_Experts
الگوریتم ID3
در این الگوریتم درخت تصمیم از بالا به پائین ساخته میشود. این الگوریتم با این سوال شروع میشود: کدام ویژگی باید در ریشه درخت مورد آزمایش قرار گیرد؟
برای یافتن جواب از یک آزمون آماری استفاده میشود تا مشخص گردد هر کدام تا چه حد قادر است به تنهائی مثالهای آزمایشی را دسته بندی کند.
با انتخاب این ویژگی، برای هر یک از مقادیر ممکن آن یک شاخه ایجاد شده و مثالهای آموزشی بر اساس ویژگی هر شاخه مرتب میشوند. سپس عملیات فوق برای مثالهای قرار گرفته در هر شاخه تکرار میشوند تا بهترین ویژگی برای گره بعدی انتخاب شود.
این الگوریتم یک جستجوی حریصانه است که در آن انتخاب های قبلی هرگز مورد بازبینی قرار نمیگیرند.
❇️ @Data_Experts
نحوه ساخت درخت تصمیم:
برای ساختن درخت تصمیم از مثالهائی استفاده میشود که علامت گذاری (label) شده باشند.
درواقع ورودی سیستم یادگیر مجموعه ای از مثالهاست که هر مثال توسط مجموعه ای از ویژگی ها بیان شده است، هرویژگی می تواند دارای مجموعه متناهی ازمقادیر مختلف باشد. برای هر مثال علاوه بر ویژگیها مقدار دسته بندی آن نیز لازم می باشد.
در این فصل با درختهای تصمیمی آشنا خواهیم شد که برای دسته بندی بولی بکار می روند ولی درحالت کلی می توان یک درخت تصمیم ساخت که برای هر نوع دسته بندی بکار می رود.

در درخت تصمیم (ID3) از یک مقدار آماری به نام بهره اطلاعات Information Gain استفاده می شود تا اینکه مشخص کنیم که یک ویژگی تا چه مقدار قادر است مثالهای آموزشی را بر حسب دسته بندی آنها جدا کند.
❇️ @Data_Experts

3K viewsFarzad, 05:19

Data Experts

https://www.instagram.com/p/BmX1N3ChZ9R/?utm_source=ig_share_sheet&igshid=1uk2vm38lf26k

Follow us on instagram

#DataExperts#RExperts

❇️@Data_Experts

www.DataExperts.ir

®️@R_Experts

https://t.iss.one/Data_Experts

Instagram

1:00

Data Experts

☘📉 introducing Biostatistic Biostatistics is a branch of applied statistics that focuses and emphasis is on the development and use of statistical methods for answers to questions posed in health, medicine, genetics and human biology. 📽 See the video above…

2.3K views|-| ®️[- /_ /\ [- !, 10:22

Data Experts

#درخت_تصمیم
#یادگیری_ماشین

الگوریتم ID3 هر شاخه از درخت را آنقدر به عمق میبرد که بتواند بطور کامل مثالهای آموزشی را دسته بندی کند. این امر میتواند منجر به Overfitting شود. دلایل بروز overfitting عبارتند از:
وجود نویز در داده های آموزشی
تعداد کم مثالهای آموزشی
برای مثال اگر فقط دو بار پرتاب سکه داشته باشیم و هر دو بار شیر آمده باشد چه نتیجه ای در مورد این آزمایش میتوان گرفت؟
❇️ @Data_Experts
پرهیز از Overfitting

جلوگیری از رشد درخت قبل از رسیدن به مرحله ای که بطور کامل داده های آموزشی را دسته بندی نماید.
اجازه به رشد کامل درخت و سپس هرس کردن شاخه هائی که مفید نیستند. (post pruning)

در عمل روش دوم بیشتر استفاده شده است زیرا تخمین اندازه صحیح درخت کار ساده ای نیست.

هرس کردن به روش REP
❇️ @Data_Experts
این روش توسط Quinlan ارائه شده است. ابتدا به درخت اجازه داده میشود تا به اندازه کافی رشد کند. سپس گره هائی را که باعث افزایش دقت دسته بندی نمیشوند هرس میگردند:
داده ها به دو مجموعه تست و آموزشی تقسیم میشوند.
درخت با داده های آموزشی مطابق روش قبل یاد گرفته میشود.
سپس برای یک گره داخلی (غیر برگ n )
زیرشاخه n حذف میگردد. این زیر شاخه با یک برگ جایگزین میشود. به این برگ دسته مثالهای اکثریت یعنی دسته بندی اکثر مثالهای قرار گرفته تحت این شاخه نسبت داده میشود.
عملکرد درخت برروی مثالهای تست بررسی میشود: اگر درخت هرس شده عملکرد بهتر و یا مساوی با درخت فعلی داشت از درخت حرس شده استفاده میشود.
هرس کردن آنقدر ادامه می یابد تا هرس بیشتر، سودی نداشته باشد.
❇️ @Data_Experts

اگر به مثال قبل یک ویژگی به نام تاریخ اضافه شود، این ویژگی به تنهائی قادر خواهد بود تا کلیه مثالهای آموزشی را دسته بندی کند. در واقع بعلت اینکه این ویژگی دارای بهره اطلاعات زیادی است بعنوان ریشه درخت انتخاب خواهد شد و درخت حاصله دارای عمق بسیار کمی خواهد بود.
با وجود اینکه این درخت مثالهای آموزشی را بخوبی دسته بندی خواهد کرد اما در مورد مثالهای نادیده بسیار ضعیف عمل خواهد نمود. زیرا این درخت در عمل مثالهای آموزشی را حفظ کرده و قادر به تعمیم نیست.
❇️ @Data_Experts

1.37K viewsFarzad, edited 18:15

Data Experts

✍️ 14امین کنفرانس آمار-2-5شهریور97 - شاهرود

موضوع: آزمون تساوی بردار میانگین بین دو گروه داده های با بعد بالای بیان ژن
❇️ @Data_Experts
چکیده:
در مطالعات جدید و با توجه به رشد و پیشرفت علم و دسترسی و استخراج داده‌ها به‌خصوص داده‌های ژنتیک با حجم عظیمی از داده روبه‌رو هستیم که موارد بسیاری به‌خصوص در مطالعات پزشکی نوع این داده‌ها به‌گونه‌ای است که حجم نمونه در مقایسه با پارامتر‌های مورد بررسی بسیار کوچک است. بدین معنی که نسبت حجم نمونه به روی بعد داده‌ها به صفر میل می‌کند که نشان از بزرگتر بودن بعد داده‌ها است. در این صورت برآورد پارامترها ممکن نبوده و به دنبال آن استنباط‌های پیش‌‌رو دچار مشکل می‌شوند. در چنین حالتی روش‌های موجود در آمار کلاسیک را نمی‌توانیم برای تحلیل و انجام محاسبات به‌کار ببریم. یکی از تحلیل‌های رایج در این ضمینه آزمون تساوی میانگین‌های بین دوگروه‌های مختلف است. که وقتی در مورد داده‌های ژنی بررسی می‌کنیم بدلیل بالا بودن بعد داده‌های بیان ژن نسبت به تعداد نمونه‌ها این نوع تحلیل اهمیت فراوانی می‌یابد، از این رو در این مقاله یک آماره آزمون مناسب برای آزمون برابری بردار‌های میانگین دو جامعه داده‌های بیان ژنی معرفی می‌کنیم و نشان می‌دهیم که عملکرد این آماره نسبت به آماره آزمون‌های قبلی رضایت بخش است.
‎high dimensional - multivariate analysis - gene read count data - mean vector testing - big data

نویسنده: جواد وحدت

❇️ @Data_Experts

1.54K viewsjavad vhd, edited 19:55

Data Experts

Q-Learning
#یادگیری_ماشین
❇️ @Data_Experts
حالت گسترش یافته الگوریتم Value Iteration است که برای مسایل nondeterministic نیز بکار میرود.
یادگیری Q-learning نوعی از یادگیری تقویتی بدون مدل است که بر پایه برنامه ریزی پویای اتفاقی عمل میکند.
در یادگیری Q –Learning بجای انجام یک نگاشت از States به مقادیر حالتها، نگاشتی از زوج state/action به مقادیری که Q-value نامیده میشوند انجام میگردد.
Q Function
❇️ @Data_Experts
به هرزوج > حالت ، عمل < یک مقدار Q(s,a) نسبت داده میشود.. این مقدار عبارت است از مجموع پاداشهای دریافت شده وقتی که از حالت S شروع و عمل a را انجام وبدنبال آن خط مشی موجود را دنبال کرده باشیم
الگوریتم یادگیری:
برای یادگیری تابع Q میتوان از جدولی استفاده کرد که هر ورودی آن یک زوج <s,a> به همراه تقریبی است . که یادگیر از مقدار واقعی Q بدست آورده است.
مقادیر این جدول با مقدار اولیه تصادفی ) معمولا صفر( پر میشود.
❇️ @Data_Experts

1.64K viewsFarzad, 21:14

Data Experts

علم داده بطور خلاصه در یک عکس
#علم_داده

❇️ @Data_Experts\

1.09K viewsFarzad, edited 22:29

Data Experts

Very excited to announce diversity scholarships for rstudio::conf(2019)!
🎉🎉🎉 https://blog.rstudio.com/2018/08/10/rstudio-conf-2019-diversity-scholarships/ ….
Apply now for conference + workshop + travel/accommodation allowance #rstats

❇️ @Data_Experts

Rstudio

rstudio::conf(2019) diversity scholarships | RStudio Blog

1.46K viewsFarzad, 13:27

Data Experts

2:19

This media is not supported in your browser

VIEW IN TELEGRAM

یادگیری ماشین چیست؟

#یادگیری_ماشین
#تعریف

«با ما همراه باشید»

❇️ @Data_Experts

9.58K viewsFarzad, 18:16

About

Blog

Apps

Platform