علم داده و سواد آماری
953 subscribers
146 photos
10 videos
32 files
153 links
در این کانال مطالبی در راستای پروژه بین المللی علم داده و سواد آماری، جهت توسعه فرهنگ بکارگیری داده و تحلیل صحیح آن به اشتراک گذاشته می شود.
Download Telegram
One of the most interesting research area in new statistical approaches is defined on the base of class imbalance problem in the classification algorithms of Big Data.

What does it mean?

Let me divide it into three different sections: 1-Class imbalance problem 2-Imbalanced Big Data challenges and 3-credit scoring. By following these three steps, I hope to make it clear how making an effective technical solutions and scientific suggestions could lead to an effective result for credit scoring systems based on Big Data imbalanced learning.

Ready?

Basically, classification is an important task in machine learning. A classifier, trained from a set of training examples with class labels, can then be used to predict the class labels of new examples. A class is a collection of things that might reasonably be grouped together. If we discover something belongs to a class, we suddenly know quite a lot about it even if we have not encountered that particular example before. Isn’t it interesting? Anyway, there are some problems in this useful machine learning era named Class Imbalance Problem.
Data are said to suffer the Class Imbalance Problem when the class distributions are highly imbalanced or the classes show a skewed distribution, i.e., there is a minority class, and a majority one. This may be due to rarity of occurrence of a given concept, or even because of some restrictions during the gathering of data for a particular class.

A good news and a bad news!
Good news is there are some solutions. To successfully address the task of imbalanced classification, a number of different solutions have been proposed, which mainly fall into three categories. 1-Family of pre-processing techniques, 2-Algorithmic approaches that alter the learning mechanism by taking into account the different class distribution, 3-Category comprises cost-sensitive learning approaches. Bad news is these approaches have low predictive accuracy for the infrequent class in new Big Data era.

Actually, few research has been conducted on imbalanced classification for Big Data. The reasons behind this are mainly the difficulties in adapting standard techniques to the MapReduce programming style and newness of the subject. As the result, imbalanced learning is still a recent discipline in Big Data and needs more research and development.

But is it really important?

Absolutely YES! For instance, Big Data provides banking industry a chance to boost business outcomes and it plays a great competitive advantage in the risk management systems. It is of extreme importance to design novel approaches to deal with Imbalanced learning problems of Big Data to note the huge practical perspective such as credit scoring in the risk management systems. Recently, cellphones, core banking and payment systems provide Big Data sources for banks. They can be used to monitor different kind of risks but distress situations are relatively infrequent events! The very limited information for distinguishing dynamic fraud from genuine customer in an extremely sparse and imbalanced data environment is making credit scoring more and more challenging nowadays.

What is the solution?

The new researches that focus on the class imbalance problem in the classification algorithms of Big Data!

Afshin Ashofteh
ضمن آرزوی بهترین ها در این تصویر سعی شده است داستان بیگ دیتا در یک نگاه ارایه گردد. نظر و پیشنهاد دوستان موجب امتنان است.
روزگارتان شاد و مهرتان پایدار، افشین آشفته
روز ملی آمار و برنامه ریزی مبارک. توجه شما همراهان گرامی را به دستنوشته فوق جلب می کنم. 👆
Channel name was changed to «Data&Stat Literacy»
همراهان گرامی سلام. امروز بزرگترین کنفرانس فناوری دنیا برای یک هفته شروع شد. شما را در جریان قرار خواهم داد.
افشین آشفته
آنچه می بینیم مانند یک چلچراغ است ولی IBM Q یک رایانه کوانتوم است که در وبسامیت ۲۰۱۸ به نمایش در آمد.☝️
در بخش پایینی و در بین دو بازو، یک چیپ وجود دارد که پردازنده اصلی است و بقیه قسمت های مشاهده شده تنها کار ارسال داده و دریافت نتیجه پردازش را بر عهده دارند.
این رایانه بسیار سریعتر از سوپرکامپوترهای حال حاضر است.
کل دستگاه مشاهده شده فقط پردازنده است و حافظه ندارد.
ارادتمند. آشفته
AI is a complementary of skillful professionals in risk management and can help them by finding the patterns with scalability BUT it should be always a human in the loop.☝️
خلاصه میزگرد فوق در وبسامیت۲۰۱۸ (فایل صوتی ☝️) در مورد استفاده از فناوری در آمار و اطلاعات بانکها و نحوه تحول سیستم بانکی با پیشرفت فناوری که به پاسخ پرسش های مهمی در این زمینه پرداخته شد:
۱- بانکها و بانکهای مرکزی با تحول بنیادین روبرو هستند.
۲- این تحول مدت ها است شروع شده و در حال حاضر به یک درخواست عمومی و یک اجبار تبدیل شده است.
۳- بانکداری سنتی دیگر وجود خارجی ندارد.
۴- بانکداری نوین و معنی نوین پول بر پایه فناوری از طرف نسل جوان پذیرفته شده و نسل قبل نیاز به کمک دارند.
۵- آموزش افراد مرتبط با شبکه بانکی برای درک این تحولات الزامی است.
۶- انحصار اطلاعات مشتری از دست بانک ها خارج شده و طبق قانون مصوب امسال اتحادیه اروپا، تمامی فین تک ها می توانند اطلاعات بانکی مشتریان را دریافت و نگهداری کنند.
۷- اعتماد عمومی در سیستم بانکی بسیار مهم است و بانکها با تعلل در هماهنگ کردن خود با منابع جدید داده مانند موبایل، ارزهای دیجیتال، تجارت الکترونیک، اعتبارسنجی آنلاین، داده های حجیم، اینترنت اشیا و ... این اعتماد را از دست خواهند داد.
۸- شرکت های فناوری بزرگ در بانکداری وارد شده اند و بانکها آن ها را در مقررات پیچیده مالی و پولی همراهی می کنند. حاصل کار شکل جدید کنونی بانکداری است.
۹- این نوع جدید بانکداری فناوری محور باعث دسترسی سریع و ساده همه مردم به خدمات بانکی حتی در دور افتاده ترین مکان ها خواهد شد و در توسعه عدالت موثر است.

برای اطلاع کامل تر، فایل صوتی فوق که گزیده ای از میزگرد است را می توان شنید.

در پناه حق شاد و سلامت باشید.