علم داده و سواد آماری
952 subscribers
146 photos
10 videos
32 files
153 links
در این کانال مطالبی در راستای پروژه بین المللی علم داده و سواد آماری، جهت توسعه فرهنگ بکارگیری داده و تحلیل صحیح آن به اشتراک گذاشته می شود.
Download Telegram
بخش اول دستنوشته ای مختصر در رابطه با بررسی روش های نوین مواجهه با مشکلات تغییر سیاست ها و قوانین بانکی، بحران ها و داده های حجیم نامتوازن در مدل های هوش مصنوعی مالی که برای بانک ها در دنیای کنونی بسیار حیاتی است.

معمولا تعیین حدود قانونی برای موارد مختلف مالی مانند سقف اهدای وام حداکثر تا دوبرابر سرمایه اولیه و غیره مورد استفاده منابع نظارتی است و در این راستا استفاده از نسبت های مالی و ارزیابی وضعیت کنونی بانک مانند درآمد خالص، کل سرمایه و زیان خالص و میانگین تسهیلات اعطایی و لیزینگ مدنظر قرار می گیرد.
در گذشته بخش نظارتی بانک ها با استفاده از داده های مالی و صورت های مالی بانک ها که توسط حسابرسان مستقل و ناظران بانکی مورد بررسی قرار می گرفت به امر نظارت و تشخیص میزان دقت و صحت داده های سرجمع شده می پرداختند و ناظران و حسابرسان با تحلیل نمونه ای از داده های سرجمع و مستندات و بررسی برخی شواهد موجود این کار را انجام می دادند.
در حال حاضر دسترسی به اطلاعات مالی و داده های ترازنامه و غیره بانکها بدون هزینه و محدودیت در اختیار ناظران قرار دارد و زمینه لازم را برای استفاده از روش های نوین آماری بر روی داده های صورتحساب ها و مستندات مالی بر بستر تئوری های اقتصادی فراهم نموده است. مدل های اخطار سریع با استفاده از این زمینه ها به شناسایی بانک های در خطر و پر ریسک می پردازند. همچنین محدودیت گردآوری و نگهداری داده از بین رفته است و موسسات مالی و بخش نظارتی آنها بصورت گسترده ای علاقه مند به داده در سطح خرد برای اندازه گیری ریسک هستند.
یکی از مهمترین اقدامات صورت گرفته در موسسات مالی توسعه روش های محاسبه میزان در خطر یا VaR برای محاسبه ریسک در فعالیت های بازارهای سرمایه است. در این روشها از مدل های آماری و داده های ابزار مالی مختلف (مانند سهام، اوراق بهادار و مشتقات) برای تخمین بیشترین میزان ضرر احتمالی در بخش خاصی از توزیع احتمال ضرر استفاده می شود. برای مثال میزان در معرض ریسک 10 میلیون دلار در سطح یک دهم درصد یعنی نود و نه و نه دهم درصد از زمان ها انتظار می رود میزان ریسک بیشتر از مقدار 10 میلیون دلار نشود.
مهمترین محدودیت استفاده از داده های حجیم و تکنیک های یادگیری ماشین در اهداف نظارتی این است که تحلیل داده تنها می تواند اطلاعاتی را نتیجه دهد که بستگی زیادی به محیط تولید و کیفیت داده اولیه دارد. بقول دیوید رو "هر چقدر هم که از روش های پیچیده آماری و ریاضی در تحلیل داده استفاده شود نمی توان بیشتر از آنچه که بصورت ذاتی در داده ها وجود دارد از آن استخراج کرد".
جهت استفاده از داده های موجود در تحلیل محیط های مختلف، بخش نظارت نیاز به تئوری ها و روشهایی دارد که بتواند مشاهدات و داده های موجود خود را با آنچه از فضاهای مختلف تولید داده انتظار می رود مرتبط نماید.
این محدودیت به طور خاص با قوانین نظارتی درآمیخته است چراکه قوانین نظارتی بصورتی طراحی می شوند که سبب تغییر انگیزه موسسات مالی در جهت کاهش احتمال و سختی مشکلات در بانک و سیستم مالی شوند. این باعث ایجاد حداقل دو مشکل در بکارگیری داده های حجیم و یادگیری ماشین در مسایل نظارتی است:
1. وضعیت نامناسب یا شرایط دشوار بانک ها و سیستم های مالی وقایعی نادر هستند و در یک بازه زمانی طولانی به ندرت اتفاق می افتند.
2. تغییر قوانین و ایجاد تغییر در ساختار عملکردی بانک ها معادل تغییر در محیط و شرایط تولید داده است.

پایان بخش اول
افشین آشفته – 12 تیرماه 1397
بخش دوم دستنوشته ای مختصر در رابطه با بررسی روش های نوین مواجهه با مشکلات تغییر سیاست ها و قوانین بانکی، بحران ها و داده های حجیم نامتوازن در مدل های هوش مصنوعی مالی

در واقع مشکل اصلی در محدودیت های استفاده از اندازه "میزان در خطر" است که توسط بخش های نظارتی جهت مدیریت ریسک یا کفایت سرمایه موسسات مالی استفاده می شوند و تمرکز بر بررسی تعداد و کیفیت وضعیت های بحران دارد. در این حالت مقدار اندازه VaR در تلاش جهت برآورد ضرر و زیان پرتفویی از سرمایه ها است که با یک واقعه کم تکرار و نادر سرکار دارد مانند یک در هزار واقعه. این مسئله باعث می شود که محاسبه یک برآورد دقیق از میزان ضرر و زیان مورد انتظار بسیار سخت باشد.
بکارگیری داده های حجیم و یادگیری ماشین بر روی رخدادهای نرمال نمی تواند به خوبی برآوردهای مناسبی جهت ضرر و زیان احتمالی حوادث نادر با اثرگذاری زیاد را مانند آنچه در موسسات مالی رخ می دهد ارایه نماید. مشکل اینجا است که میزان برگشت سرمایه ها در یک پورتفوی مشخص دارای همبستگی با یکدیگر هستند و در این میان ضرر و زیان های بزرگ در ارتباط با حوادث بزرگ نادر و شوک هایی هستند که تقریبا کل پورتفو را تحت تاثیر قرار می دهند. این موارد با موارد عادی تفاوت ساختاری و اساسی دارند. بنابراین زمانی که تعداد کمی از داده های شوک های بزرگ در یک بازه زمانی مورد بررسی در اختیار است و شاید در برخی موارد اصلا وجود ندارد، روش های یادگیری ماشین بکارگرفته شده بر روی حتی داده های خرد هم کاری از پیش نمی برند.
بنابراین با توجه به تعداد کمی از مشاهدات مربوطه و مشکلات عنوان شده، رویکرد جایگزین این است که مفروضات و نتایج مربوط به مقدار بزرگی از داده های زیان های نسبتا کوچک که در اختیار است را به زیان های مورد انتظار رویدادهای بسیار بد اعمال کنیم. این رویکرد به طور معمول اثرات جانبی ناخوشایند کم برآوردی احتمال حوادث بزرگ نادر ولی با ضرر و زیان شدید را کاهش می دهد.

پایان بخش دوم
افشین آشفته – 12 تیرماه 1397
خبر علمی شبکه تلویزیون از آکادمی نوآوری اروپا
https://www.aparat.com/v/BwLaX
One of the most interesting research area in new statistical approaches is defined on the base of class imbalance problem in the classification algorithms of Big Data.

What does it mean?

Let me divide it into three different sections: 1-Class imbalance problem 2-Imbalanced Big Data challenges and 3-credit scoring. By following these three steps, I hope to make it clear how making an effective technical solutions and scientific suggestions could lead to an effective result for credit scoring systems based on Big Data imbalanced learning.

Ready?

Basically, classification is an important task in machine learning. A classifier, trained from a set of training examples with class labels, can then be used to predict the class labels of new examples. A class is a collection of things that might reasonably be grouped together. If we discover something belongs to a class, we suddenly know quite a lot about it even if we have not encountered that particular example before. Isn’t it interesting? Anyway, there are some problems in this useful machine learning era named Class Imbalance Problem.
Data are said to suffer the Class Imbalance Problem when the class distributions are highly imbalanced or the classes show a skewed distribution, i.e., there is a minority class, and a majority one. This may be due to rarity of occurrence of a given concept, or even because of some restrictions during the gathering of data for a particular class.

A good news and a bad news!
Good news is there are some solutions. To successfully address the task of imbalanced classification, a number of different solutions have been proposed, which mainly fall into three categories. 1-Family of pre-processing techniques, 2-Algorithmic approaches that alter the learning mechanism by taking into account the different class distribution, 3-Category comprises cost-sensitive learning approaches. Bad news is these approaches have low predictive accuracy for the infrequent class in new Big Data era.

Actually, few research has been conducted on imbalanced classification for Big Data. The reasons behind this are mainly the difficulties in adapting standard techniques to the MapReduce programming style and newness of the subject. As the result, imbalanced learning is still a recent discipline in Big Data and needs more research and development.

But is it really important?

Absolutely YES! For instance, Big Data provides banking industry a chance to boost business outcomes and it plays a great competitive advantage in the risk management systems. It is of extreme importance to design novel approaches to deal with Imbalanced learning problems of Big Data to note the huge practical perspective such as credit scoring in the risk management systems. Recently, cellphones, core banking and payment systems provide Big Data sources for banks. They can be used to monitor different kind of risks but distress situations are relatively infrequent events! The very limited information for distinguishing dynamic fraud from genuine customer in an extremely sparse and imbalanced data environment is making credit scoring more and more challenging nowadays.

What is the solution?

The new researches that focus on the class imbalance problem in the classification algorithms of Big Data!

Afshin Ashofteh
ضمن آرزوی بهترین ها در این تصویر سعی شده است داستان بیگ دیتا در یک نگاه ارایه گردد. نظر و پیشنهاد دوستان موجب امتنان است.
روزگارتان شاد و مهرتان پایدار، افشین آشفته
روز ملی آمار و برنامه ریزی مبارک. توجه شما همراهان گرامی را به دستنوشته فوق جلب می کنم. 👆
Channel name was changed to «Data&Stat Literacy»
همراهان گرامی سلام. امروز بزرگترین کنفرانس فناوری دنیا برای یک هفته شروع شد. شما را در جریان قرار خواهم داد.
افشین آشفته
آنچه می بینیم مانند یک چلچراغ است ولی IBM Q یک رایانه کوانتوم است که در وبسامیت ۲۰۱۸ به نمایش در آمد.☝️
در بخش پایینی و در بین دو بازو، یک چیپ وجود دارد که پردازنده اصلی است و بقیه قسمت های مشاهده شده تنها کار ارسال داده و دریافت نتیجه پردازش را بر عهده دارند.
این رایانه بسیار سریعتر از سوپرکامپوترهای حال حاضر است.
کل دستگاه مشاهده شده فقط پردازنده است و حافظه ندارد.
ارادتمند. آشفته
AI is a complementary of skillful professionals in risk management and can help them by finding the patterns with scalability BUT it should be always a human in the loop.☝️
خلاصه میزگرد فوق در وبسامیت۲۰۱۸ (فایل صوتی ☝️) در مورد استفاده از فناوری در آمار و اطلاعات بانکها و نحوه تحول سیستم بانکی با پیشرفت فناوری که به پاسخ پرسش های مهمی در این زمینه پرداخته شد:
۱- بانکها و بانکهای مرکزی با تحول بنیادین روبرو هستند.
۲- این تحول مدت ها است شروع شده و در حال حاضر به یک درخواست عمومی و یک اجبار تبدیل شده است.
۳- بانکداری سنتی دیگر وجود خارجی ندارد.
۴- بانکداری نوین و معنی نوین پول بر پایه فناوری از طرف نسل جوان پذیرفته شده و نسل قبل نیاز به کمک دارند.
۵- آموزش افراد مرتبط با شبکه بانکی برای درک این تحولات الزامی است.
۶- انحصار اطلاعات مشتری از دست بانک ها خارج شده و طبق قانون مصوب امسال اتحادیه اروپا، تمامی فین تک ها می توانند اطلاعات بانکی مشتریان را دریافت و نگهداری کنند.
۷- اعتماد عمومی در سیستم بانکی بسیار مهم است و بانکها با تعلل در هماهنگ کردن خود با منابع جدید داده مانند موبایل، ارزهای دیجیتال، تجارت الکترونیک، اعتبارسنجی آنلاین، داده های حجیم، اینترنت اشیا و ... این اعتماد را از دست خواهند داد.
۸- شرکت های فناوری بزرگ در بانکداری وارد شده اند و بانکها آن ها را در مقررات پیچیده مالی و پولی همراهی می کنند. حاصل کار شکل جدید کنونی بانکداری است.
۹- این نوع جدید بانکداری فناوری محور باعث دسترسی سریع و ساده همه مردم به خدمات بانکی حتی در دور افتاده ترین مکان ها خواهد شد و در توسعه عدالت موثر است.

برای اطلاع کامل تر، فایل صوتی فوق که گزیده ای از میزگرد است را می توان شنید.

در پناه حق شاد و سلامت باشید.