علم داده و سواد آماری
952 subscribers
145 photos
10 videos
32 files
152 links
در این کانال مطالبی در راستای پروژه بین المللی علم داده و سواد آماری، جهت توسعه فرهنگ بکارگیری داده و تحلیل صحیح آن به اشتراک گذاشته می شود.
Download Telegram
با درود اجازه می خواهم نظری در رابطه با مباحث اخیر مطرح شده در فضای آماری کشور ارایه کنم.
وقتی در رابطه با نظام آماری و یک سیستم یکپارچه آمار و اطلاعات در کشور صحبت می‌شود مواردی مانند چگونگی ارتباط متولیان اصلی تولید آمار و اطلاعات که عبارتند از مرکز آمار و بانک مرکزی تا چگونگی فعالیت دست اندرکاران خرد که به نظام آماری کشور مرتبط می شود در درجه اول اهمیت قرار می گیرد.
آنچه در یک سیستم یکپارچه آمار و اطلاعات باید مورد توجه قرار گیرد این است که کلیه نیازهای ذینفعان می‌بایست با بررسی داده‌های مشترک تشخیص داده شود و از گردآوری دوباره داده موجود خودداری شود. تهیه آمار در یک کشور بسیار گران و پرهزینه است و اینکه هر نهاد مرتبط تصمیم بگیرد بعلت فقدان زیرساختها و قوانین صحیح و کارآمد نحوه همکاری، به تولید آمار بپردازد موجب خسران به دارایی های ملی خواهد شد.
نیاز به داده‌های در حال گردآوری نیز به صورت مداوم می بایست توسط نهادهایی مانند مرکز آمار ایران، بانک مرکزی ج.ا.ا.، انجمن آمار ایران به عنوان هسته مرکزی و دیگر ارگان های تهیه و تولید آمار و اطلاعات کشور به عنوان حامی به بررسی مجدد گذاشته ‌شود تا در صورتی که این «نیاز و درخواست مربوط» بر اثر گذشت زمان، لزوم خود را از دست داد از هزینه کردن منابع سیستم برای گردآوری داده‌های مرتبط با آن خودداری شود.
لذا نیاز به یک سیستم ملی آمار و اطلاعات در کشور برای به سرانجام رساندن قوانین لازم، نحوه همکاری متولیان تولید آمار و اطلاعات، مدیریت کلان تولید آمار بر اساس اصل هزینه و فایده و ایجاد زیرساختهای لازم جهت جلوگیری از تولید داده و آمارهای موازی کاملا احساس می شود و به نظر می رسد می توان در این راه قدم گذاشت و از اتلاف منابع جلوگیری کرد و از تامین منافع جزیی به تامین منافع ملی تغییر مسیر داد.
سازمان ملل متحد نیز از بانک های مرکزی و مراکز آمار کشوری به عنوان ارکان تولید آمار و اطلاعات در هر کشور نام برده و بر همکاری میان تولیدکنندگان آمارهای رسمی درون سیستم آماری کشورها، به عنوان اصل اساسی تولید آمارهای رسمی تاکید کرده است و این ناقض استقلال این واحدها نیست. چرا که هرکدام از آن‌ها دارای منابع اطلاع، روش‌ها، اهداف خاص، راهبردها و ساختار ویژه خود هستند، ولی توجه به اصل «همکاری» کلیدی‌ترین نیاز آن‌ها است که این مطلب در رابطه با بانک‌مرکزی و مرکز آمار یک کشور، بسیار مهم است. این مسئله توسط سازمان ملل به کشورها پیشنهاد اکید شده و کار کردن در محیط‌های ایزوله کاملاً ناکارآمد تلقی شده است.
از فواید این همکاری می‌توان به موارد زیر اشاره کرد:
• ایجاد یک سیستم یکپارچه و هماهنگ آمار و اطلاعات
• جامع و مانع شدن فعالیت‌ها
• همکاری در تقسیم کار بهینه با توجه به امکانات، مسئولیت‌ها و منابع
• جلوگیری از افزایش بار پاسخگویی برای منابع اطلاع
• تولید استانداردها، تعاریف، طبقه‌بندی‌ها و فراداده ملی مشترک که موجب ایجاد زمینه و قوانین لازم جهت تبادل داده، اطلاعات و تجارب میان مراکز تولید آمار و اطلاعات می‌شود.

روبرو شدن با گردآوری یک داده مشخص از طرف چند تولیدکننده آمار و اطلاعات در کشور برای افراد حرفه‌ای، مطلب جدیدی نیست. این موضوع زمانی دردناک می‌شود که این مراکز تولیدکننده آمار و اطلاعات برای یک هدف، در چند برهه زمانی، یک داده را از پاسخگو مطالبه می‌کنند و افزون بر اتلاف منابع، بار پاسخگویی را نیز بدون دلیل موجه، افزایش می‌دهند.

در بسیاری از قوانین سیستم آمار و اطلاعات ملی کشورهای توسعه‌یافته برای همکاری سازمان‌های تولیدکننده آمار و اطلاعات، در تنظیم و تهیه برنامه مشترک و فراگیر، چگونگی به اشتراک‌گذاری داده‌ها و اطلاعات آماری، کنترل‌کیفیت اطلاعات پایه و چگونگی انتشار نتایج آمار و اطلاعات برای ذینفعان پافشاری و اجبار وجود دارد. برای مثال می‌توان به قوانین بخش آمار بانک‌مرکزی‌اروپا یا ماده 9 و 21 قانون سیستم ملی آمار کشورهای اروپایی مراجعه کرد.

در قرارداد همکاری میان بانک‌مرکزی بیشتر کشورهای اروپایی و مراکز آمار آن‌ها به موارد زیر اشاره شده است:
• پروتکل به اشتراک‌گذاری چارچوب‌های آماری گردآوری اطلاعات بخش‌های گوناگون اقتصادی به عنوان منبع اساسی اطلاعات که برای برنامه‌ریزی، آماده‌سازی و اجرای طرح‌های آمار و اطلاعات لازم است.
• پروتکل نحوه همکاری بانک‌های‌مرکزی و مراکز آمار در اجرایی کردن کلیه نیازهای استاندارد نظام انتشار داده اختصاصی صندوق بین‌المللی پول.
• پروتکل نحوه تکمیل حساب‌های ملی که معمولاً دربرگیرنده تقسیم مسئولیت میان بانک‌مرکزی در تهیه آمارهای حساب‌های بخش‌های مالی و مرکز آمار در تهیه آمارهای بخش‌های غیرمالی در یک اقدام یکپارچه و هماهنگ است.
• دو پروتکل که تمرکز بر مطالعات ورود و خروج سرمایه و ترازپرداخت‌های کشور را دارد.
• پروتکل نحوه مطالعه و گردآوری داده‌های مربوط به دارایی و بدهی خانوارها.
• پروتکل آمار و اطلاعات عمومی کشوری.

کدام یک از این پروتکل ها در کشور وجود دارد؟

برای تحقق این مهم می بایست از سامانه‌ها، انباره‌های‌داده‌های مایکرو و سامانه‌های هوش‌تجاری در یک سیستم یکپارچه در کل کشور بهره‌برداری شود تا زمان دسترسی به داده‌های لازم بر اساس نیازهای تعریف شده کشور متناسب با نیاز و استانداردهای بین المللی مانند SDDS شود.
به نظر می رسد تا تعارض موجود در سیستم تولید آمار و اطلاعات کشور حل نشود مواردی مانند متولی تولید آمار، نظام آماری کشور، وضعیت شغلی و انگیزش دانش آموختگان، تحلیل نیاز به گرایش های لازم آمار در کشور و غیره نمی تواند حل شود و ابتدا نیاز به یک اجماع نظر در سطح کلان وجود دارد.

برگزاری همایش ها و تلاش های اساتید ارجمند که در دو دوره حضور بنده در هیئت مدیره انجمن آمار ایران شاهد آن بودم گرچه خالی از لطف نیست ولی راه حل واقعی و قطعی هم نیست.
در ادامه مباحث مطرح شده قبلی شایسته است مقداری سیستم ملی آمار و اطلاعات کشور را ارزیابی کنیم.

سیستم ملی آمار یک کشور از سازمان‌ها و واحدهایی در یک کشور تشکیل می‌شود که در گردآوری، پردازش و ارزیابی آمارهای رسمی برای دولت داخلی فعالیت می‌کنند.
با توجه به این تعریف مشخص است که ارگان هایی مانند
بانک‌مرکزی به عنوان متولی آمار و اطلاعات پولی مالی
و مرکز آمار به عنوان متولی آمار و اطلاعات عمومی
از ارکان اساسی این سیستم محسوب می‌شوند و رسالت مدیریت آمار و اطلاعات کشور را در این راستا بر عهده دارند.

انجمن علمی آمار کشور نیز که بازوی دانشی و مشاوره ای به حساب می آید در کنار این سیستم حضور فعال دارد.

سوال اول این است که وضعیت موجود میزان همکاری این نهادها با سیستم ملی آمار و اطلاعات کشور چگونه است؟ در حقیقت باید به این سوال پاسخ داد که آیا مانند کشورهای توسعه یافته، تفاهم نامه نحوه همکاری بین مرکز آمار کشور و بانک مرکزی که از آنها به عنوان دو قدرت بزرگ تولید آمار و اطلاعات در کشورهای توسعه یافته نام برده شده وجود دارد؟ نکته مهم این است که این تفاهم نامه باید به تصویب مجلس و پارلمان کشور رسیده و تبدیل به قانون نیز شده باشد.

سوال دوم آیا موارد مرتبط با کیفیت آمار و اطلاعات شامل تدوین فریم‌ورک و مفاهیم اصلی کیفیت آمار و اطلاعات و تدوین راهنماهای تضمین کیفیت آمار و اطلاعات در کشور وجود دارد؟

سوال سوم آیا فریم‌ورک‌های مدیریتی شامل مدیریت انتشار، مدیریت منابع، استانداردهای اخلاقی، بهبود مستمر و مباحث حاکمیت داده و مدیریت آمار و اطلاعات مالی و پولی که در کشور الزام به رعایت داشته باشد وجود دارد؟

سوال چهارم آیا شورای عالی آمار ایران از ترکیبی متوازن و فضای همکاری بر اساس تفاهم نامه همکاری بین نهادهای مسئول که حوزه عملکرد و مسئولیت هرکدام را مشخص نموده و در مواردی که نیاز به تبادل داده وجود دارد، ساز و کار آن مشخص شده باشد و به تصویب مجلس نیز رسیده باشد بهره می برد؟

سوال پنجم آیا در کنار شورای عالی آمار ایران، حمایت انجمن آمار ایران و هیئت مشورتی شامل چند نفر مستقل با صلاحیت برجسته در زمینه آمار که در سطح ملی و بین المللی دارای اعتبار باشند حضور دارند؟

سوال ششم آیا در شورای عالی آمار ایران راهکارهای اجرایی و تقسیم وظایف برای به سرانجام رسیدن مواردی مانند تهیه راهنماهای حرفه‌ای در زمینه توسعه، تولید و انتشار آمار بر پایه منطق هزینه‌فایده، ابزارهای لازم، بار پاسخگویی طرح‌ها و برنامه زمان‌بندی انجام می شود؟

سوال هفتم در سطح عالی کشوری چه نهاد یا ارگانی وجود دارد که متولی ایجاد مقدمات و زیرساخت‌های لازم برای به انجام رسیدن اولویت‌ها، کاهش بار پاسخگویی، تبیین و بازنگری مسایل مرتبط با محرمانه‌بودن آمارها و بازنگری دستورالعمل‌ها و استانداردها و غیره باشد؟ برای مثال اینجا در اتحادیه اروپا چند وقت پیش قوانین دسترسی و محرمانه بودن در رابطه با آمار و اطلاعات بازنگری شد و بنده شاهدم که کلیه سازمان ها، شرکت ها و نهادهای اروپایی با به روز رسانی قوانین خود و اطلاع رسانی از طریق پیامک و اینترنت و غیره در حال اطلاع رسانی و رضایت گرفتن از مخاطبین خود هستند. آیا ما هم در کشور دارای چنین تجربه ای تا کنون بوده ایم؟

سوال هشتم چه نهادی در کشور مسئول حصول اطمینان از برآورده شدن نیازهای کاربران و ذینفعان آمار و اطلاعات در سطح ملی است؟

سوال نهم چه نهادی در کشور وظیفه تدوین یک برنامه آماری چندساله منطبق بر الزامات یکپارچگی با برنامه‌های بالادستی کشور را به انجام می رساند؟

سوال آخر آیا پاسخ احتمالی که به عنوان فرد مرتبط، آگاه یا مسئول در مورد سوال های فوق می خواهیم مطرح کنیم در پیش وجدان خود نیز به آن اعتقاد داریم؟

به نظر می رسد نیاز به ادامه کار با نگاهی اصولی و آگاهانه و ایجاد واحدهایی با کارکرد درست در سطح ملی و با در نظر گرفتن منافع عمومی گام اول ارتقای سطح آمار و اطلاعات در کشور باشد که به همت اساتید و دست اندرکاران در یک همکاری منتقدانه ولی منصفانه نیاز دارد. در سایه آن مطمئنا مسایلی مانند نظام آماری، رتبه بندی، ایجاد اشتغال و حرفه ای گری و غیره ایجاد خواهد شد و کشور نیز از یک سیستم واحد یکپارچه بهره خواهد برد.

امیدوارم دوستان کم و کاستی های این نوشته ها را به بزرگی خود ببخشند و بتوان تلاش مسئولین و اساتید دست اندرکار را در راستای صحیح شاهد بود.
ارادتمند. افشین آشفته
برای دیدن ویدیوهای مرتبط کوتاه می توان به آدرس زیر مراجعه کرد.

https://www.aparat.com/statas
سلام به دوستان بزرگوار.
در ۱۲ و ۱۳ جولای کنفرانس CARMA2018 با عنوان "کنفرانس روشهای تحلیلی پیشرفته" با موضوعات بیگ دیتا در آمارهای رسمی، بیگ دیتا در بانک های مرکزی، بلاک چین، نقش تحولات دیجیتالی در شاخص های اقتصادی و مالی، متن کاوی و هوش مصنوعی برگزار خواهد شد.

بنده نیز به عنوان سخنران مدعو، مقاله ای را ارایه خواهم کرد.

Mining Big Data in statistical systems of the monetary financial institutions Afshin Ashofteh

به نظر می رسد پرداختن به این موضوعات به علت تغییر شگرف نحوه انجام کار در دنیای کنونی یک الزام اجتناب ناپذیر است.

به موضوعات این کنفرانس با آدرس زیر نگاهی بیاندازیم که خود گویای این تغییرات شگرف خواهد بود.

https://www.carmaconf.org/program/

امید است در کنار رسیدگی به الزامات امروز، از فردا غافل نشویم.

ارادتمند. افشین آشفته
بخش اول دستنوشته ای مختصر در رابطه با بررسی روش های نوین مواجهه با مشکلات تغییر سیاست ها و قوانین بانکی، بحران ها و داده های حجیم نامتوازن در مدل های هوش مصنوعی مالی که برای بانک ها در دنیای کنونی بسیار حیاتی است.

معمولا تعیین حدود قانونی برای موارد مختلف مالی مانند سقف اهدای وام حداکثر تا دوبرابر سرمایه اولیه و غیره مورد استفاده منابع نظارتی است و در این راستا استفاده از نسبت های مالی و ارزیابی وضعیت کنونی بانک مانند درآمد خالص، کل سرمایه و زیان خالص و میانگین تسهیلات اعطایی و لیزینگ مدنظر قرار می گیرد.
در گذشته بخش نظارتی بانک ها با استفاده از داده های مالی و صورت های مالی بانک ها که توسط حسابرسان مستقل و ناظران بانکی مورد بررسی قرار می گرفت به امر نظارت و تشخیص میزان دقت و صحت داده های سرجمع شده می پرداختند و ناظران و حسابرسان با تحلیل نمونه ای از داده های سرجمع و مستندات و بررسی برخی شواهد موجود این کار را انجام می دادند.
در حال حاضر دسترسی به اطلاعات مالی و داده های ترازنامه و غیره بانکها بدون هزینه و محدودیت در اختیار ناظران قرار دارد و زمینه لازم را برای استفاده از روش های نوین آماری بر روی داده های صورتحساب ها و مستندات مالی بر بستر تئوری های اقتصادی فراهم نموده است. مدل های اخطار سریع با استفاده از این زمینه ها به شناسایی بانک های در خطر و پر ریسک می پردازند. همچنین محدودیت گردآوری و نگهداری داده از بین رفته است و موسسات مالی و بخش نظارتی آنها بصورت گسترده ای علاقه مند به داده در سطح خرد برای اندازه گیری ریسک هستند.
یکی از مهمترین اقدامات صورت گرفته در موسسات مالی توسعه روش های محاسبه میزان در خطر یا VaR برای محاسبه ریسک در فعالیت های بازارهای سرمایه است. در این روشها از مدل های آماری و داده های ابزار مالی مختلف (مانند سهام، اوراق بهادار و مشتقات) برای تخمین بیشترین میزان ضرر احتمالی در بخش خاصی از توزیع احتمال ضرر استفاده می شود. برای مثال میزان در معرض ریسک 10 میلیون دلار در سطح یک دهم درصد یعنی نود و نه و نه دهم درصد از زمان ها انتظار می رود میزان ریسک بیشتر از مقدار 10 میلیون دلار نشود.
مهمترین محدودیت استفاده از داده های حجیم و تکنیک های یادگیری ماشین در اهداف نظارتی این است که تحلیل داده تنها می تواند اطلاعاتی را نتیجه دهد که بستگی زیادی به محیط تولید و کیفیت داده اولیه دارد. بقول دیوید رو "هر چقدر هم که از روش های پیچیده آماری و ریاضی در تحلیل داده استفاده شود نمی توان بیشتر از آنچه که بصورت ذاتی در داده ها وجود دارد از آن استخراج کرد".
جهت استفاده از داده های موجود در تحلیل محیط های مختلف، بخش نظارت نیاز به تئوری ها و روشهایی دارد که بتواند مشاهدات و داده های موجود خود را با آنچه از فضاهای مختلف تولید داده انتظار می رود مرتبط نماید.
این محدودیت به طور خاص با قوانین نظارتی درآمیخته است چراکه قوانین نظارتی بصورتی طراحی می شوند که سبب تغییر انگیزه موسسات مالی در جهت کاهش احتمال و سختی مشکلات در بانک و سیستم مالی شوند. این باعث ایجاد حداقل دو مشکل در بکارگیری داده های حجیم و یادگیری ماشین در مسایل نظارتی است:
1. وضعیت نامناسب یا شرایط دشوار بانک ها و سیستم های مالی وقایعی نادر هستند و در یک بازه زمانی طولانی به ندرت اتفاق می افتند.
2. تغییر قوانین و ایجاد تغییر در ساختار عملکردی بانک ها معادل تغییر در محیط و شرایط تولید داده است.

پایان بخش اول
افشین آشفته – 12 تیرماه 1397
بخش دوم دستنوشته ای مختصر در رابطه با بررسی روش های نوین مواجهه با مشکلات تغییر سیاست ها و قوانین بانکی، بحران ها و داده های حجیم نامتوازن در مدل های هوش مصنوعی مالی

در واقع مشکل اصلی در محدودیت های استفاده از اندازه "میزان در خطر" است که توسط بخش های نظارتی جهت مدیریت ریسک یا کفایت سرمایه موسسات مالی استفاده می شوند و تمرکز بر بررسی تعداد و کیفیت وضعیت های بحران دارد. در این حالت مقدار اندازه VaR در تلاش جهت برآورد ضرر و زیان پرتفویی از سرمایه ها است که با یک واقعه کم تکرار و نادر سرکار دارد مانند یک در هزار واقعه. این مسئله باعث می شود که محاسبه یک برآورد دقیق از میزان ضرر و زیان مورد انتظار بسیار سخت باشد.
بکارگیری داده های حجیم و یادگیری ماشین بر روی رخدادهای نرمال نمی تواند به خوبی برآوردهای مناسبی جهت ضرر و زیان احتمالی حوادث نادر با اثرگذاری زیاد را مانند آنچه در موسسات مالی رخ می دهد ارایه نماید. مشکل اینجا است که میزان برگشت سرمایه ها در یک پورتفوی مشخص دارای همبستگی با یکدیگر هستند و در این میان ضرر و زیان های بزرگ در ارتباط با حوادث بزرگ نادر و شوک هایی هستند که تقریبا کل پورتفو را تحت تاثیر قرار می دهند. این موارد با موارد عادی تفاوت ساختاری و اساسی دارند. بنابراین زمانی که تعداد کمی از داده های شوک های بزرگ در یک بازه زمانی مورد بررسی در اختیار است و شاید در برخی موارد اصلا وجود ندارد، روش های یادگیری ماشین بکارگرفته شده بر روی حتی داده های خرد هم کاری از پیش نمی برند.
بنابراین با توجه به تعداد کمی از مشاهدات مربوطه و مشکلات عنوان شده، رویکرد جایگزین این است که مفروضات و نتایج مربوط به مقدار بزرگی از داده های زیان های نسبتا کوچک که در اختیار است را به زیان های مورد انتظار رویدادهای بسیار بد اعمال کنیم. این رویکرد به طور معمول اثرات جانبی ناخوشایند کم برآوردی احتمال حوادث بزرگ نادر ولی با ضرر و زیان شدید را کاهش می دهد.

پایان بخش دوم
افشین آشفته – 12 تیرماه 1397
خبر علمی شبکه تلویزیون از آکادمی نوآوری اروپا
https://www.aparat.com/v/BwLaX
One of the most interesting research area in new statistical approaches is defined on the base of class imbalance problem in the classification algorithms of Big Data.

What does it mean?

Let me divide it into three different sections: 1-Class imbalance problem 2-Imbalanced Big Data challenges and 3-credit scoring. By following these three steps, I hope to make it clear how making an effective technical solutions and scientific suggestions could lead to an effective result for credit scoring systems based on Big Data imbalanced learning.

Ready?

Basically, classification is an important task in machine learning. A classifier, trained from a set of training examples with class labels, can then be used to predict the class labels of new examples. A class is a collection of things that might reasonably be grouped together. If we discover something belongs to a class, we suddenly know quite a lot about it even if we have not encountered that particular example before. Isn’t it interesting? Anyway, there are some problems in this useful machine learning era named Class Imbalance Problem.
Data are said to suffer the Class Imbalance Problem when the class distributions are highly imbalanced or the classes show a skewed distribution, i.e., there is a minority class, and a majority one. This may be due to rarity of occurrence of a given concept, or even because of some restrictions during the gathering of data for a particular class.

A good news and a bad news!
Good news is there are some solutions. To successfully address the task of imbalanced classification, a number of different solutions have been proposed, which mainly fall into three categories. 1-Family of pre-processing techniques, 2-Algorithmic approaches that alter the learning mechanism by taking into account the different class distribution, 3-Category comprises cost-sensitive learning approaches. Bad news is these approaches have low predictive accuracy for the infrequent class in new Big Data era.

Actually, few research has been conducted on imbalanced classification for Big Data. The reasons behind this are mainly the difficulties in adapting standard techniques to the MapReduce programming style and newness of the subject. As the result, imbalanced learning is still a recent discipline in Big Data and needs more research and development.

But is it really important?

Absolutely YES! For instance, Big Data provides banking industry a chance to boost business outcomes and it plays a great competitive advantage in the risk management systems. It is of extreme importance to design novel approaches to deal with Imbalanced learning problems of Big Data to note the huge practical perspective such as credit scoring in the risk management systems. Recently, cellphones, core banking and payment systems provide Big Data sources for banks. They can be used to monitor different kind of risks but distress situations are relatively infrequent events! The very limited information for distinguishing dynamic fraud from genuine customer in an extremely sparse and imbalanced data environment is making credit scoring more and more challenging nowadays.

What is the solution?

The new researches that focus on the class imbalance problem in the classification algorithms of Big Data!

Afshin Ashofteh
ضمن آرزوی بهترین ها در این تصویر سعی شده است داستان بیگ دیتا در یک نگاه ارایه گردد. نظر و پیشنهاد دوستان موجب امتنان است.
روزگارتان شاد و مهرتان پایدار، افشین آشفته
روز ملی آمار و برنامه ریزی مبارک. توجه شما همراهان گرامی را به دستنوشته فوق جلب می کنم. 👆
Channel name was changed to «Data&Stat Literacy»
همراهان گرامی سلام. امروز بزرگترین کنفرانس فناوری دنیا برای یک هفته شروع شد. شما را در جریان قرار خواهم داد.
افشین آشفته