زمینه های تحلیل کلان داده ها :
تحلیل داده های ساخت یافته
تحلیل داده های متنی
تحلیل داده های وب
تحلیل داده های چند رسانه ای
تحلیل داده های شبکه
تحلیل ترافیک سیار
در ادامه هر یک را بررسی خواهیم کرد.
تحلیل داده های ساخت یافته
تحلیل داده های متنی
تحلیل داده های وب
تحلیل داده های چند رسانه ای
تحلیل داده های شبکه
تحلیل ترافیک سیار
در ادامه هر یک را بررسی خواهیم کرد.
تحلیل داده های ساخت یافته :
@BigDataTechnology
کاربرد تجاری و تحقیقات علمی ممکن است انبوهی از داده های ساخت یافته را تولید کنند که مدیریت و تحلیل آن ها بر فناوری های بلوغ یافته ی تجاری مانند RDBMS ،انبار داده ها ،BPM تکیه میکند.
تحلیل داده ها عمدتا بر اساس داده کاوی و تحلیل آماری است.
بهره برداری از ویژگی های داده ها ، کاوش زمان و مکان میتواند ساختارهای دانش پنهان در جریان داده های با سرعت بالا و شیوه ها و مدل های حسگر را استخراج کند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
@BigDataTechnology
@BigDataTechnology
کاربرد تجاری و تحقیقات علمی ممکن است انبوهی از داده های ساخت یافته را تولید کنند که مدیریت و تحلیل آن ها بر فناوری های بلوغ یافته ی تجاری مانند RDBMS ،انبار داده ها ،BPM تکیه میکند.
تحلیل داده ها عمدتا بر اساس داده کاوی و تحلیل آماری است.
بهره برداری از ویژگی های داده ها ، کاوش زمان و مکان میتواند ساختارهای دانش پنهان در جریان داده های با سرعت بالا و شیوه ها و مدل های حسگر را استخراج کند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
@BigDataTechnology
دوستان عزیز ضمن عرض سلام و خسته نباشید.
طی هفته ی آینده آشنایی با مبانی بیگ دیتا را به اتمام میرسانیم و هدفی که این کانال در آینده دنبال میکند آموزش های عملی و کاربردی است.
دوستان جهت بهبود روند پروسه آموزش نظرات و انتقادات خود را به آی دی شخصی بنده
@GolnazArdeshiri
ارسال کنید.
در ابتدا با اصول بنیادی هدوپ با سر فصل های زیر آشنا خواهیم شد:
درک اجزای اصلی هدوپ
راه اندازی محیط توسعه هدوپ
کار با سیستم فایل هدوپ
تنظیم نگاشت کاهش
درک Hive و HBase
این روند با ویدیو های آموزشی همراه است.
دوستان عزیز لازم به ذکر است به دلیل سطوح مختلف دانشی اعضای این کانال بهتر است آموزش ها آهسته و پیوسته ادامه پیدا کند.
با ما همراه باشید.
@BigDataTechnology
طی هفته ی آینده آشنایی با مبانی بیگ دیتا را به اتمام میرسانیم و هدفی که این کانال در آینده دنبال میکند آموزش های عملی و کاربردی است.
دوستان جهت بهبود روند پروسه آموزش نظرات و انتقادات خود را به آی دی شخصی بنده
@GolnazArdeshiri
ارسال کنید.
در ابتدا با اصول بنیادی هدوپ با سر فصل های زیر آشنا خواهیم شد:
درک اجزای اصلی هدوپ
راه اندازی محیط توسعه هدوپ
کار با سیستم فایل هدوپ
تنظیم نگاشت کاهش
درک Hive و HBase
این روند با ویدیو های آموزشی همراه است.
دوستان عزیز لازم به ذکر است به دلیل سطوح مختلف دانشی اعضای این کانال بهتر است آموزش ها آهسته و پیوسته ادامه پیدا کند.
با ما همراه باشید.
@BigDataTechnology
زمینه تحلیل کلان داده ها :
تحلیل داده های متنی:
متن، رایج ترین قالب ذخیره سازی اطلاعات است.
به عنوان مثال، ارتباطات پست الکترونیک ، اسناد تجاری ، صفحات وب و رسانه های اجتماعی.
بنابراین تحلیل متن (داده ای غیر ساخت بافته) نسبت به داده کاوی ساخت یافته بیشتر بر ویژگی بالقوه مبتنی بر تجارت نزدیک است.
به طور کلی تحلیل متن، متن کاوی نامیده میشود.
اکثر سیستم های متن کاوی بر اساس عبارت متنی و پردازش زبان طبیعی (NLP) هستند.
در ادامه با پردازش زبان طبیعی آشنا خواهیم شد.
@BigDataTechnology
تحلیل داده های متنی:
متن، رایج ترین قالب ذخیره سازی اطلاعات است.
به عنوان مثال، ارتباطات پست الکترونیک ، اسناد تجاری ، صفحات وب و رسانه های اجتماعی.
بنابراین تحلیل متن (داده ای غیر ساخت بافته) نسبت به داده کاوی ساخت یافته بیشتر بر ویژگی بالقوه مبتنی بر تجارت نزدیک است.
به طور کلی تحلیل متن، متن کاوی نامیده میشود.
اکثر سیستم های متن کاوی بر اساس عبارت متنی و پردازش زبان طبیعی (NLP) هستند.
در ادامه با پردازش زبان طبیعی آشنا خواهیم شد.
@BigDataTechnology
پردازش زبان های طبیعی (NLP)
پردازش زبان طبیعی چیست؟
در این زمینه، دو حیطه اصلی پژوهش وجود دارد: ادراک، که با فرایندهایی سر و کار دارد که اطلاعات را از زبان استخراج میکنند (مانند درک زبان طبیعی، بازیابی اطلاعات) و تولید، که با فرایندهایی سر و کار دارد که با استفاده از زبان به انتقال اطلاعات میپردازند. معمولاً کارهای مرتبط با گفتار را تحت عناوین جداگانه تشخیص گفتار و تولید گفتار قرار میدهند.
سطوح تحلیل زبانی:
آواشناسی/واجشناسی
ساختواژه(صرف)
نحو
معنیشناسی
کاربردشناسی
گفتمان
تکنیکهای پردازش زبان طبیعی:
قطعهبندی و نرمالسازی متن
تحلیل ساختواژی
برچسبزنی جزء کلام
تجزیه یا پارس (تحلیل نحوی)
تحلیل معنایی
مدلسازی زبانی:یادگیری ماشین
کاربردهای پردازش زبان طبیعی:
درک زبان طبیعی
پردازش متون
بازیابی اطلاعات
ترجمۀ ماشینی:تولید متن
تصحیح املاء و دستور
بازشناسی گفتار:ساخت گفتار از روی متن
بازشناسی نویسههای نوری
سیستمهای مکالمه گفتاری
سیستمهای پرسش و پاسخ
ترجمه گفتار به گفتار
@BigDataTechnology
پردازش زبان طبیعی چیست؟
در این زمینه، دو حیطه اصلی پژوهش وجود دارد: ادراک، که با فرایندهایی سر و کار دارد که اطلاعات را از زبان استخراج میکنند (مانند درک زبان طبیعی، بازیابی اطلاعات) و تولید، که با فرایندهایی سر و کار دارد که با استفاده از زبان به انتقال اطلاعات میپردازند. معمولاً کارهای مرتبط با گفتار را تحت عناوین جداگانه تشخیص گفتار و تولید گفتار قرار میدهند.
سطوح تحلیل زبانی:
آواشناسی/واجشناسی
ساختواژه(صرف)
نحو
معنیشناسی
کاربردشناسی
گفتمان
تکنیکهای پردازش زبان طبیعی:
قطعهبندی و نرمالسازی متن
تحلیل ساختواژی
برچسبزنی جزء کلام
تجزیه یا پارس (تحلیل نحوی)
تحلیل معنایی
مدلسازی زبانی:یادگیری ماشین
کاربردهای پردازش زبان طبیعی:
درک زبان طبیعی
پردازش متون
بازیابی اطلاعات
ترجمۀ ماشینی:تولید متن
تصحیح املاء و دستور
بازشناسی گفتار:ساخت گفتار از روی متن
بازشناسی نویسههای نوری
سیستمهای مکالمه گفتاری
سیستمهای پرسش و پاسخ
ترجمه گفتار به گفتار
@BigDataTechnology
تحلیل داده وب :
Web Mining
اهداف تحلیل وب شامل :
بازیابی
استخراج
ارزیابی
اطلاعات خودکار اسناد و سرویس های وب برای کشف دانش مفید است.
تحلیل وب با چند زمینه تحقیقاتی از جمله پایگاه داده ، بازیابی اطلاعات و NLP و متن کاوی مرتبط است.
با توجه به بخش های مختلف وب ، تحلیل آن به 3 زمینه مرتبط تقستم میشود :
Web Content Mining
Web Structure Mining
Web Usage Mining
در ادامه در مورد هر یک بحث خواهیم کرد.
@BigDataTechnology
Web Mining
اهداف تحلیل وب شامل :
بازیابی
استخراج
ارزیابی
اطلاعات خودکار اسناد و سرویس های وب برای کشف دانش مفید است.
تحلیل وب با چند زمینه تحقیقاتی از جمله پایگاه داده ، بازیابی اطلاعات و NLP و متن کاوی مرتبط است.
با توجه به بخش های مختلف وب ، تحلیل آن به 3 زمینه مرتبط تقستم میشود :
Web Content Mining
Web Structure Mining
Web Usage Mining
در ادامه در مورد هر یک بحث خواهیم کرد.
@BigDataTechnology
تحلیل داده وب :
#web_mining
کاوش محتوای وب
#web_content_mining
کاوش محتواي وب اولين گروه از طبقه بندي ارائه شده در وب کاوي مي باشد.
کاوش محتواي وب به کشف و استخراج اطلاعات مفيد و ناشناخته از محتواي مستندات وب مي پردازد.
محتواي مستندات وب بطور کلي شامل انواع مختلف اطلاعات از جمله داده هاي :
متني
صوتي
تصويري
فرا داده
و ...
مي باشد و کاوش محتواي وب نوعي کاوش داده هاي چندرسانه اي نيز محسوب مي شود.
داده هاي وب عموماً شامل داده هاي غير ساخت يافته مثل متون آزاد يا نيمه ساخت يافته مثل صفحاتHTML و تا حدي ساخت يافته تر مثل جداول يا صفحات HTML توليد شده توسط پايگاه داده هاست. اما در هر صورت بيشتر اطلاعات موجود در وب را متون غير ساخت يافته تشکيل مي دهند.
کاوش محتوا در وب را مي توان از دو ديد بررسي کرد:
از ديد بازيابي اطلاعات
از ديد پايگاه داده ها
هدف کاوش محتوا در وب از نقطه نظر بازيابي اطلاعات تسهيل يا بهبود فرايند جستجوي اطلاعات يا فيلتر کردن اطلاعات براي کاربران است.
در حالي که از ديد پايگاه داده ها هدف کاوش محتوا، ارائه مدلي از داده هاي وب و يکپارچه سازي آنها است به طوي که پرس و جوهاي پيچيده تر از پرس و جوهاي مبتني بر کلمات کليدي قابل پردازش باشند.
کاوش محتوا از ديد پايگاه داده ها سعي در بدست آوردن ساختار سايت وب و يا تبديل سايت وب به يک پايگاه داده دارد تا بتواند مديريت و پرس و جوي اطلاعات موجود در وب را کاراتر انجام دهد. اين کار با کشف شماياسناد موجود در وب يا ساخت يک پايگاه داده مجازي قابل انجام است.
@BigDataTechnology
#web_mining
کاوش محتوای وب
#web_content_mining
کاوش محتواي وب اولين گروه از طبقه بندي ارائه شده در وب کاوي مي باشد.
کاوش محتواي وب به کشف و استخراج اطلاعات مفيد و ناشناخته از محتواي مستندات وب مي پردازد.
محتواي مستندات وب بطور کلي شامل انواع مختلف اطلاعات از جمله داده هاي :
متني
صوتي
تصويري
فرا داده
و ...
مي باشد و کاوش محتواي وب نوعي کاوش داده هاي چندرسانه اي نيز محسوب مي شود.
داده هاي وب عموماً شامل داده هاي غير ساخت يافته مثل متون آزاد يا نيمه ساخت يافته مثل صفحاتHTML و تا حدي ساخت يافته تر مثل جداول يا صفحات HTML توليد شده توسط پايگاه داده هاست. اما در هر صورت بيشتر اطلاعات موجود در وب را متون غير ساخت يافته تشکيل مي دهند.
کاوش محتوا در وب را مي توان از دو ديد بررسي کرد:
از ديد بازيابي اطلاعات
از ديد پايگاه داده ها
هدف کاوش محتوا در وب از نقطه نظر بازيابي اطلاعات تسهيل يا بهبود فرايند جستجوي اطلاعات يا فيلتر کردن اطلاعات براي کاربران است.
در حالي که از ديد پايگاه داده ها هدف کاوش محتوا، ارائه مدلي از داده هاي وب و يکپارچه سازي آنها است به طوي که پرس و جوهاي پيچيده تر از پرس و جوهاي مبتني بر کلمات کليدي قابل پردازش باشند.
کاوش محتوا از ديد پايگاه داده ها سعي در بدست آوردن ساختار سايت وب و يا تبديل سايت وب به يک پايگاه داده دارد تا بتواند مديريت و پرس و جوي اطلاعات موجود در وب را کاراتر انجام دهد. اين کار با کشف شماياسناد موجود در وب يا ساخت يک پايگاه داده مجازي قابل انجام است.
@BigDataTechnology
تحلیل داده های وب
#web_mining
کاوش ساختار وب:
#web_structure_mining
کاوش ساختار وب، فرآيند کشف اطلاعات ساختاري از وب مي باشد.
اين نوع کاوش بر اساس آن که از چه نوع داده ساختاري استفاده مي کند، به دو دسته تقسيم مي شود:
پيوندها:
يک پيوند، يک واحد ساختاري است که يک صفحه وب را به صفحه ديگر يا به بخش ديگري از همان صفحه متصل مي کند. به پيوند نوع اول، پيوند بين سند و به پيوند نوع دوم، پيوند درون سند گفته مي شود. به اين نوع کاوش ساختار وب که از پيوندها استفاده مي کند، تحليل پيوند گفته مي شود.
ساختار سند:
محتواي يک صفحه وب مي تواند بر اساس تگ هاي XML و HTML موجود در آن به صورت يک درخت بازنمايي شود. کاوش در اين جا بر استخراج مدل شيئ سند متمرکز مي شود. به اين نوع از کاوش ساختار وب، تحليل ساختار سند گفته مي شود.
@BigDataTechnology
#web_mining
کاوش ساختار وب:
#web_structure_mining
کاوش ساختار وب، فرآيند کشف اطلاعات ساختاري از وب مي باشد.
اين نوع کاوش بر اساس آن که از چه نوع داده ساختاري استفاده مي کند، به دو دسته تقسيم مي شود:
پيوندها:
يک پيوند، يک واحد ساختاري است که يک صفحه وب را به صفحه ديگر يا به بخش ديگري از همان صفحه متصل مي کند. به پيوند نوع اول، پيوند بين سند و به پيوند نوع دوم، پيوند درون سند گفته مي شود. به اين نوع کاوش ساختار وب که از پيوندها استفاده مي کند، تحليل پيوند گفته مي شود.
ساختار سند:
محتواي يک صفحه وب مي تواند بر اساس تگ هاي XML و HTML موجود در آن به صورت يک درخت بازنمايي شود. کاوش در اين جا بر استخراج مدل شيئ سند متمرکز مي شود. به اين نوع از کاوش ساختار وب، تحليل ساختار سند گفته مي شود.
@BigDataTechnology
تحلیل داده های وب :
#web_mining
کاوش استفاده از وب:
Web Usage Mining
#web
#usage
#mining
کاوش استفاده از وب به استخراج الگوهايي بامعني از داده هاي توليد شده در تعامل بين کلاينت و سرورهاي وب مي پردازد.
اين نوع کاوش بر تکنيک هايي تمرکز دارد که رفتار کاربر را در زمان تعامل با وب پيش بيني مي کند. داده اي که در اين نوع کاوش مورد استفاده قرار مي گيرد، داده هايي است که در نتيجه تعامل کاربران با وب ايجاد و نگهداري شده اند.
کاربردهاي اين نوع کاوش، معمولا شامل:
خصوصي سازي وب
ايجاد سايت هاي وب تطبيقي
مدلسازي کاربر میباشد.
در سال هاي اخير تحقيقات وسيعي در زمينه کاوش استفاده از وب انجام شده است. در اين بخش ابتدا انواع داده اي که در اين شاخه از وب کاوي استفاده مي شود، معرقي مي شوند. سپس تکنيک هايي که براي پيش پردازش و جداسازي داده هاي جمع آوري شده به کار مي روند، بررسي مي شوند. همچنين تکنيک هاي کاوش و کاربردهاي کاوش استفاده از وب تشريح مي گردند.
انواع داده هاي استفاده از وب:
داده هاي استفاده از وب مشخصات کاربران و رفتار پيمايش آنها در سايت هاي وب را مشخص مي نمايد. اين داده ها معمولا از سه منبع اصلي جمع آوري مي شوند: سرورهاي وب، سرورهاي پراکسي و کلاينت هاي وب.
- داده هاي سرورهاي وب:
سرورهاي وب غني ترين و رايج ترين منبع داده هاي استفاده از وب هستند. آنها داده ها را در فايل هاي ثبتخود و فايل هاي ثبت پايگاه داده هايي که استفاده مي کنند، ذخيره مي نمايند. اين داده ها، معمولا شامل آدرس هاي IP، زمان و تاريخ دستيابي ها و ... مي باشند و معمولا در قالب هاي استاندارد مانند
Common Log Format، Extended Log Format، LogML، ...
بازنمايي مي شوند.
يک چالش اصلي در استفاده از سرورهاي وب، تشخيص نشست هاي کاربر (دسته بندي تقاضاهاي کاربر به گونه اي که مسير پيمايش وي در سايت مشخص شود) مي باشد. نحوه انجام اين کار به نوع داده هايي که در فايل هاي ثبت ذخيره مي شود، بستگي دارد. رايج ترين روش براي تشخيص نشست هاي کاربر، استفاده از cookie ها مي باشد.
به غير از فايل هاي ثبت، مي توان از شنود بسته هاي TCP/IP براي رديابي رفتار کاربران استفاده کرد. همچنين برخي از سرورهاي برنامه هاي کاربردي، تعاملات کاربران با سرور را رديابي کرده و آنها را در فايل هاي ثبت سرور نگهداري مي کنند. به طور کلي در صورت ذخيره داده ها در سمت سرور، يک تصوير کلي از چگونگي استفاده شدن يک سرويس توسط تمام کاربران وجود دارد.
- داده هاي سرورهاي پراکسي:
جمع آوري داده هاي مربوط به پيمايش کاربران در سرورهاي پراکسي مشابه جمع آوري داده ها در سرورهاي وب است. تفاوت اصلي در اينجا آن است که سرورهاي پراکسي داده هاي گروه هايي از کاربران را که به تعداد زيادي از سرورهاي وب مراجعه مي کنند، جمع آوري مي کنند. در اين حالت نيز تشخيص نشست هاي کاربران مشکل است و نمي توان کليه مسيرهاي پيمايش کاربران را تشخيص داد.
- داده هاي کلاينت:
داده هاي استفاده از وب را مي توان با استفاده از اسکريپت هاي جاوا، اپلت هاي جاوا و يا مرورگرهاي تغيير يافته در سمت کلاينت نيز پيگيري کرد. در اين حالت برخلاف دو حالت قبل، مشکل تشخيص نشست هاي کاربران وجود ندارد. همچنين با اين روش اطلاعات تفصيلي راجع به رفتار کاربر قابل دستيابي است. همچنين اين امکان وجود دارد که رويدادهاي متنوعي در برنامه کاربردي تعريف گردد و در صورت رخداد آنها، در فايل هاي ثبت، ذخيره شوند. به اين ترتيب تاريخچه اي از رويدادهاي مختلف تعريف شده در برنامه توليد مي شود. به طور کلي در صورت ذخيره داده ها در سمت کاربر، يک تصوير کامل از چگونگي استفاده شدن کليه سرويس ها توسط يک کاربر خاص ايجاد مي شود .اما اين روش ها وابسته به همکاري کاربران است و ممکن است منجر به نقض قوانين مربوط به حفظ حريم خصوصي کاربران گردد.
@BigDataTechnology
#web_mining
کاوش استفاده از وب:
Web Usage Mining
#web
#usage
#mining
کاوش استفاده از وب به استخراج الگوهايي بامعني از داده هاي توليد شده در تعامل بين کلاينت و سرورهاي وب مي پردازد.
اين نوع کاوش بر تکنيک هايي تمرکز دارد که رفتار کاربر را در زمان تعامل با وب پيش بيني مي کند. داده اي که در اين نوع کاوش مورد استفاده قرار مي گيرد، داده هايي است که در نتيجه تعامل کاربران با وب ايجاد و نگهداري شده اند.
کاربردهاي اين نوع کاوش، معمولا شامل:
خصوصي سازي وب
ايجاد سايت هاي وب تطبيقي
مدلسازي کاربر میباشد.
در سال هاي اخير تحقيقات وسيعي در زمينه کاوش استفاده از وب انجام شده است. در اين بخش ابتدا انواع داده اي که در اين شاخه از وب کاوي استفاده مي شود، معرقي مي شوند. سپس تکنيک هايي که براي پيش پردازش و جداسازي داده هاي جمع آوري شده به کار مي روند، بررسي مي شوند. همچنين تکنيک هاي کاوش و کاربردهاي کاوش استفاده از وب تشريح مي گردند.
انواع داده هاي استفاده از وب:
داده هاي استفاده از وب مشخصات کاربران و رفتار پيمايش آنها در سايت هاي وب را مشخص مي نمايد. اين داده ها معمولا از سه منبع اصلي جمع آوري مي شوند: سرورهاي وب، سرورهاي پراکسي و کلاينت هاي وب.
- داده هاي سرورهاي وب:
سرورهاي وب غني ترين و رايج ترين منبع داده هاي استفاده از وب هستند. آنها داده ها را در فايل هاي ثبتخود و فايل هاي ثبت پايگاه داده هايي که استفاده مي کنند، ذخيره مي نمايند. اين داده ها، معمولا شامل آدرس هاي IP، زمان و تاريخ دستيابي ها و ... مي باشند و معمولا در قالب هاي استاندارد مانند
Common Log Format، Extended Log Format، LogML، ...
بازنمايي مي شوند.
يک چالش اصلي در استفاده از سرورهاي وب، تشخيص نشست هاي کاربر (دسته بندي تقاضاهاي کاربر به گونه اي که مسير پيمايش وي در سايت مشخص شود) مي باشد. نحوه انجام اين کار به نوع داده هايي که در فايل هاي ثبت ذخيره مي شود، بستگي دارد. رايج ترين روش براي تشخيص نشست هاي کاربر، استفاده از cookie ها مي باشد.
به غير از فايل هاي ثبت، مي توان از شنود بسته هاي TCP/IP براي رديابي رفتار کاربران استفاده کرد. همچنين برخي از سرورهاي برنامه هاي کاربردي، تعاملات کاربران با سرور را رديابي کرده و آنها را در فايل هاي ثبت سرور نگهداري مي کنند. به طور کلي در صورت ذخيره داده ها در سمت سرور، يک تصوير کلي از چگونگي استفاده شدن يک سرويس توسط تمام کاربران وجود دارد.
- داده هاي سرورهاي پراکسي:
جمع آوري داده هاي مربوط به پيمايش کاربران در سرورهاي پراکسي مشابه جمع آوري داده ها در سرورهاي وب است. تفاوت اصلي در اينجا آن است که سرورهاي پراکسي داده هاي گروه هايي از کاربران را که به تعداد زيادي از سرورهاي وب مراجعه مي کنند، جمع آوري مي کنند. در اين حالت نيز تشخيص نشست هاي کاربران مشکل است و نمي توان کليه مسيرهاي پيمايش کاربران را تشخيص داد.
- داده هاي کلاينت:
داده هاي استفاده از وب را مي توان با استفاده از اسکريپت هاي جاوا، اپلت هاي جاوا و يا مرورگرهاي تغيير يافته در سمت کلاينت نيز پيگيري کرد. در اين حالت برخلاف دو حالت قبل، مشکل تشخيص نشست هاي کاربران وجود ندارد. همچنين با اين روش اطلاعات تفصيلي راجع به رفتار کاربر قابل دستيابي است. همچنين اين امکان وجود دارد که رويدادهاي متنوعي در برنامه کاربردي تعريف گردد و در صورت رخداد آنها، در فايل هاي ثبت، ذخيره شوند. به اين ترتيب تاريخچه اي از رويدادهاي مختلف تعريف شده در برنامه توليد مي شود. به طور کلي در صورت ذخيره داده ها در سمت کاربر، يک تصوير کامل از چگونگي استفاده شدن کليه سرويس ها توسط يک کاربر خاص ايجاد مي شود .اما اين روش ها وابسته به همکاري کاربران است و ممکن است منجر به نقض قوانين مربوط به حفظ حريم خصوصي کاربران گردد.
@BigDataTechnology
Forwarded from Hadoop.ir
اگر در پروژه های تحقیقاتی و عملیاتی خودتان نیاز به مشاوره تخصصی داشتید،مرجع هدوپ ایران می تواند از طریق بسته های مشاوره مدت دار خود در کنار شما باشد. https://hadoop.ir/consulting
مرجع هدوپ ایران به آدرس hadoop.ir به تولید محتوای پارسی پیرامون فریم ورک هدوپ و ارائه سرویس های ابری مبتنی بر هدوپ می پردازد.
Hadoop.ir
مرجع هدوپ ایران | Hadoop.ir
https://telegram.me/hadoop
Hadoop.ir
مرجع هدوپ ایران | Hadoop.ir
https://telegram.me/hadoop
Forwarded from Hadoop.ir
مقاله جدید : «آموزش MapReduce به زبان ساده – بخش دوم»
از اینجا بخوانید: https://hadoop.ir/?p=499
از اینجا بخوانید: https://hadoop.ir/?p=499
تحلیل داده های چند رسانه ای :
#multimedia_mining
یه اشتراک گذاری محتوی چند رسانه ای به معنی استخراج دانش مرتبط و معنایی و مفهومی از داده های چند رسانه ای است.
این داده ها ناهمگن هستند و اغلب شامل اطلاعات غنی تر از داده های متن و داده های ساخت یافته ساده هستند.
استخراج اطلاعات به روش های زیر ممکن است.
Multimedia Summarization
Multimedia Annotation
Multimedia Index and Retrieval
Multimedia Suggestion
Multimedia Event Detection
در ادامه هر یک را مختصر بررسی خواهیم کرد.
@BigDataTechnology
#multimedia_mining
یه اشتراک گذاری محتوی چند رسانه ای به معنی استخراج دانش مرتبط و معنایی و مفهومی از داده های چند رسانه ای است.
این داده ها ناهمگن هستند و اغلب شامل اطلاعات غنی تر از داده های متن و داده های ساخت یافته ساده هستند.
استخراج اطلاعات به روش های زیر ممکن است.
Multimedia Summarization
Multimedia Annotation
Multimedia Index and Retrieval
Multimedia Suggestion
Multimedia Event Detection
در ادامه هر یک را مختصر بررسی خواهیم کرد.
@BigDataTechnology
تحلیل داده های چند رسانه ای :
#mutlimedia_mining
#summarization
روش استخراج :
خلاصه سازی چند رسانه ای :
Multimedia Summarization
خلاصه سازی صوتی با استخراج کلمات یا عبارت بر جسته از metadata و یا ساخت یک نمایش جدید صوتی انجام داد.
خلاصه سازی فیلم برای بیان مهم ترین یا برجسته ترین توالی محتوای فیلم است.
ایستا :از یک توالی فریم های کلیدی حساس به زمینه برای نمایش فیلم استفاده میکند.
پویا : از یکسری کلیپ های تصویری برای نشان دادن یک فیلم،پیکربندی توابع سطح پایین فیلم و ابزارهایی برای خلاصه سازی استفاده میکنند.
موضوع محور TOMS :
Topic-Oriented Multimedia Summarization System
به طور خودکار اطلاعات مهم در یک فیلم متعلق به بخش موضوعی خاص را بر اساس مجموعه معینی از ویژگی های مستخرج از فیلم خلاصه می کند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
@BigDataTechnology
#mutlimedia_mining
#summarization
روش استخراج :
خلاصه سازی چند رسانه ای :
Multimedia Summarization
خلاصه سازی صوتی با استخراج کلمات یا عبارت بر جسته از metadata و یا ساخت یک نمایش جدید صوتی انجام داد.
خلاصه سازی فیلم برای بیان مهم ترین یا برجسته ترین توالی محتوای فیلم است.
ایستا :از یک توالی فریم های کلیدی حساس به زمینه برای نمایش فیلم استفاده میکند.
پویا : از یکسری کلیپ های تصویری برای نشان دادن یک فیلم،پیکربندی توابع سطح پایین فیلم و ابزارهایی برای خلاصه سازی استفاده میکنند.
موضوع محور TOMS :
Topic-Oriented Multimedia Summarization System
به طور خودکار اطلاعات مهم در یک فیلم متعلق به بخش موضوعی خاص را بر اساس مجموعه معینی از ویژگی های مستخرج از فیلم خلاصه می کند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
@BigDataTechnology
تحليل داده هاي چند رسانه اي:
روش استخراج :
ياداشت نويسي :
#multimedia_annotitation
براي توصيف محتواي تصاوير و فيلم ها در هر دو سطح
Semantic
syntax
برچسب هايي را درج مي كند،با كمك چنين برچسب هايي به آساني مديريت ،خلاصه سازي و بازيابي داده هاي چندرسانه اي مي تواند انجام شود.
-----------------------------------------------
شاخص گذاري و بازيابي :
#multimedia
#index
#retriveval
شامل توصيف،ذخيره سازي و سازمان دهي اطلاعات است.
به طور كلي شامل پنج رويه است :
تحليل ساختاري
استخراج ويژگي
داده كاوي
طبقه بندي و ياداشت نويسي
پرس و جو و بازيابي
-----------------------------------------------
پيشنهادگر چند رسانه اي
#Multimedia_suggestion
هدف پيشنهاد استفاده از محتواي خاص با توجه به علاقمندي كاربران است،
اكثر سيستم هاي پيشنهادگر موجود را مي توان به سيستم هاي
Content-base System
Collaborative-filtering-base System
طبقه بندي كرد.
روش اول :
Content-base System
مبتني بر محتوي :
كاربران يا ويژگي هاي عمومي مورد علاقه كاربران را شناسايي ميكند و محتواي ديگر با ويژگي مشابه به كابران پيشنهاد مي دهد.
روش دوم :
Collaborative-filtering-base System
مبتني بر فيلتر همكارانه :
روش هاي همكارانه گروه هاي با علاقمندي مشابه را شناسايي ميكند و محتوا را مطابق با رفتارهاي اعضاي گروه به آن ها پيشنهاد مي كند.
-----------------------------------------------
تشخيص رويداد چند رسانه اي :
#multimedia_event_detection
پژوهش هاي موجود براي تشخيص رويداد ،عمدتا بر رويدادهاي ورزشي و اخبار و رويدادهاي در حال اجرا و يا غير طبيعي در فيلم هاي نظارتي و ساير رويدادهاي مشابه با الگوي تكراري متمركز است.
منبع : كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
@BigDataTechnology
روش استخراج :
ياداشت نويسي :
#multimedia_annotitation
براي توصيف محتواي تصاوير و فيلم ها در هر دو سطح
Semantic
syntax
برچسب هايي را درج مي كند،با كمك چنين برچسب هايي به آساني مديريت ،خلاصه سازي و بازيابي داده هاي چندرسانه اي مي تواند انجام شود.
-----------------------------------------------
شاخص گذاري و بازيابي :
#multimedia
#index
#retriveval
شامل توصيف،ذخيره سازي و سازمان دهي اطلاعات است.
به طور كلي شامل پنج رويه است :
تحليل ساختاري
استخراج ويژگي
داده كاوي
طبقه بندي و ياداشت نويسي
پرس و جو و بازيابي
-----------------------------------------------
پيشنهادگر چند رسانه اي
#Multimedia_suggestion
هدف پيشنهاد استفاده از محتواي خاص با توجه به علاقمندي كاربران است،
اكثر سيستم هاي پيشنهادگر موجود را مي توان به سيستم هاي
Content-base System
Collaborative-filtering-base System
طبقه بندي كرد.
روش اول :
Content-base System
مبتني بر محتوي :
كاربران يا ويژگي هاي عمومي مورد علاقه كاربران را شناسايي ميكند و محتواي ديگر با ويژگي مشابه به كابران پيشنهاد مي دهد.
روش دوم :
Collaborative-filtering-base System
مبتني بر فيلتر همكارانه :
روش هاي همكارانه گروه هاي با علاقمندي مشابه را شناسايي ميكند و محتوا را مطابق با رفتارهاي اعضاي گروه به آن ها پيشنهاد مي كند.
-----------------------------------------------
تشخيص رويداد چند رسانه اي :
#multimedia_event_detection
پژوهش هاي موجود براي تشخيص رويداد ،عمدتا بر رويدادهاي ورزشي و اخبار و رويدادهاي در حال اجرا و يا غير طبيعي در فيلم هاي نظارتي و ساير رويدادهاي مشابه با الگوي تكراري متمركز است.
منبع : كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
@BigDataTechnology
تحليل داده هاي شبكه:
#social
#network
#analysis
شبکههایی که مردم در آنها با یکدیگر متصل و به تولید یا خلق محتوا میپردازند. به عبارتی، امروز گسترش ارتباطات میانفردی در شبکههای اجتماعی مهمترین هدف یا رویکرد در این شبکههاست و حال سوال این است که اتصالات یا روابط (ارتباطات میانفردی) چگونه در شبکههای اجتماعی تحلیل میشوند؟
برای پاسخ به این سوال، روش علمی تحلیل شبکه اجتماعی (Social network analysis) در دنیا مطرح شده است. به عبارتی، تحلیل شبکه اجتماعی، تحلیل روشمند شبکههای اجتماعی است.
تحلیل شبکههای اجتماعی نشاندهنده روابط اجتماعی در نظریه شبکه که متشکل از گرهها (نشاندهنده بازیگران فردی داخل شبکه) و روابط (نشاندهنده روابط بین اشخاص مانند دوستی، خویشاوندی، موقعیت سازمانی و غیره) است. این شبکهها غالبا در دیاگرام شبکههای اجتماعی که در آن گرهها به عنوان نقاط و روابط با خطوط نمایش داده میشود.
روش تحلیل شبکه در پژوهشهای اجتماعی به عنوان پارادایمی مستقل قلمداد میشود چرا که بنیان روشهای پیشنهادی آن مبتنی بر تئوری متمایز و مفروضات هستی شناختی و روششناختی خاصی است که کاملا میان رشتهایست.
تمایز تحلیل شبکه در پژوهشهای علوم اجتماعی و رفتاری با سایر روشها از فرضیه زیربنایی آن مبتنی بر ارتباط بین واحدهای کنش متقابل و اهمیت مفاهیم و اطلاعات رابطهای بین آنهاست و تئوریها، مدلها و کاربردهای آن بر حسب مفاهیم رابطهای یا فرایندها بیان میشود.
تحلیل شبکههای اجتماعی در رشتههای تحصیلی مختلف و همچنین کاربردهای عملی گوناگون مانند مقابله با پولشویی و تروریسم استفاده میشود.
به صورت ریاضی، شبکه اجتماعی یک گراف است که در آن هر شرکت کننده در شبکه یک کنشگر ۱ خوانده می گردد و با یک گره در شبکه نمایش داده می گردد. کنشگرها می توانند انسان ها، سازمان ها، گروهها یا هر مجموعه دیگری از موجودیت های مرتبط با هم باشند. ارتباطات میان کنشگرها به وسیله پیوند میان گره های متناظر نمایش داده می گردد.
با استفاده از تحلیل شبکه، میتوانید مجموعههای پیچیدهای از روابط را به مثابهی نقشههایی (گراف یا نگارههای گروهی) از سمبلهای متصل تجسم کنید و سنجههای دقیق اندازه شکل و تراکم شبکه را به مثابهی یک کل و موقعیت هر عنصر را داخل آن محاسبه نمایید. تحلیل شبکه اجتماعی به شما کمک می کند الگوهای موجود داخل مجموعههای نهادهای مرتبط را که شامل مردم می باشند، تجسم و بررسی کنید.
تمرکز تحلیل شبکه اجتماعی، میانِ و نه داخلِ مردم است. در حالی که در روشهای قدیمیتر تحقیق علوم اجتماعی مانند پیمایشها، بر اشخاص و ویژگیهایشان (مثل جنسیت، سن و درآمد) تمرکز میکند. تحلیلگران شبکه نه تنها بر کیفیتها و تواناییهای داخل آنها تمرکز دارند بلکه توجه ویژهای بر پیوندهایی که اشخاص را به هم متصل میکنند، نیز دارند.
تحلیل شبکه اجتماعی به دنبال تحلیل روابط و ارتباطات در شبکههای اجتماعی است و اصلا به تحلیل محتوا، متون و سایر عوامل در شبکه نمیپردازد بلکه تنها ارتباطات و روابط را در شبکه بررسی میکند تا مفاهیم علوم اجتماعی را در آن بسنجد.
تحلیل شبکه اجتماعی به محقق این امکان را میدهد تا مفاهیم مختلف علوم اجتماعی از جمله سرمایه اجتماعی، همبستگی اجتماعی، روابط اجتماعی، همریختی اجتماعی و غیره را در شبکههای اجتماعی از طریق فرمولهای نرمافزاری موجود بسنجد یا خود آن مفهوم را به فرمول تبدیل کند و در شبکه مورد آزمایش قرار دهد.
@BigDataTechnology
#social
#network
#analysis
شبکههایی که مردم در آنها با یکدیگر متصل و به تولید یا خلق محتوا میپردازند. به عبارتی، امروز گسترش ارتباطات میانفردی در شبکههای اجتماعی مهمترین هدف یا رویکرد در این شبکههاست و حال سوال این است که اتصالات یا روابط (ارتباطات میانفردی) چگونه در شبکههای اجتماعی تحلیل میشوند؟
برای پاسخ به این سوال، روش علمی تحلیل شبکه اجتماعی (Social network analysis) در دنیا مطرح شده است. به عبارتی، تحلیل شبکه اجتماعی، تحلیل روشمند شبکههای اجتماعی است.
تحلیل شبکههای اجتماعی نشاندهنده روابط اجتماعی در نظریه شبکه که متشکل از گرهها (نشاندهنده بازیگران فردی داخل شبکه) و روابط (نشاندهنده روابط بین اشخاص مانند دوستی، خویشاوندی، موقعیت سازمانی و غیره) است. این شبکهها غالبا در دیاگرام شبکههای اجتماعی که در آن گرهها به عنوان نقاط و روابط با خطوط نمایش داده میشود.
روش تحلیل شبکه در پژوهشهای اجتماعی به عنوان پارادایمی مستقل قلمداد میشود چرا که بنیان روشهای پیشنهادی آن مبتنی بر تئوری متمایز و مفروضات هستی شناختی و روششناختی خاصی است که کاملا میان رشتهایست.
تمایز تحلیل شبکه در پژوهشهای علوم اجتماعی و رفتاری با سایر روشها از فرضیه زیربنایی آن مبتنی بر ارتباط بین واحدهای کنش متقابل و اهمیت مفاهیم و اطلاعات رابطهای بین آنهاست و تئوریها، مدلها و کاربردهای آن بر حسب مفاهیم رابطهای یا فرایندها بیان میشود.
تحلیل شبکههای اجتماعی در رشتههای تحصیلی مختلف و همچنین کاربردهای عملی گوناگون مانند مقابله با پولشویی و تروریسم استفاده میشود.
به صورت ریاضی، شبکه اجتماعی یک گراف است که در آن هر شرکت کننده در شبکه یک کنشگر ۱ خوانده می گردد و با یک گره در شبکه نمایش داده می گردد. کنشگرها می توانند انسان ها، سازمان ها، گروهها یا هر مجموعه دیگری از موجودیت های مرتبط با هم باشند. ارتباطات میان کنشگرها به وسیله پیوند میان گره های متناظر نمایش داده می گردد.
با استفاده از تحلیل شبکه، میتوانید مجموعههای پیچیدهای از روابط را به مثابهی نقشههایی (گراف یا نگارههای گروهی) از سمبلهای متصل تجسم کنید و سنجههای دقیق اندازه شکل و تراکم شبکه را به مثابهی یک کل و موقعیت هر عنصر را داخل آن محاسبه نمایید. تحلیل شبکه اجتماعی به شما کمک می کند الگوهای موجود داخل مجموعههای نهادهای مرتبط را که شامل مردم می باشند، تجسم و بررسی کنید.
تمرکز تحلیل شبکه اجتماعی، میانِ و نه داخلِ مردم است. در حالی که در روشهای قدیمیتر تحقیق علوم اجتماعی مانند پیمایشها، بر اشخاص و ویژگیهایشان (مثل جنسیت، سن و درآمد) تمرکز میکند. تحلیلگران شبکه نه تنها بر کیفیتها و تواناییهای داخل آنها تمرکز دارند بلکه توجه ویژهای بر پیوندهایی که اشخاص را به هم متصل میکنند، نیز دارند.
تحلیل شبکه اجتماعی به دنبال تحلیل روابط و ارتباطات در شبکههای اجتماعی است و اصلا به تحلیل محتوا، متون و سایر عوامل در شبکه نمیپردازد بلکه تنها ارتباطات و روابط را در شبکه بررسی میکند تا مفاهیم علوم اجتماعی را در آن بسنجد.
تحلیل شبکه اجتماعی به محقق این امکان را میدهد تا مفاهیم مختلف علوم اجتماعی از جمله سرمایه اجتماعی، همبستگی اجتماعی، روابط اجتماعی، همریختی اجتماعی و غیره را در شبکههای اجتماعی از طریق فرمولهای نرمافزاری موجود بسنجد یا خود آن مفهوم را به فرمول تبدیل کند و در شبکه مورد آزمایش قرار دهد.
@BigDataTechnology
تحلیل ترافیک سیار :
با رشد سریع محاسبات سیار کاربردها و پایانه های سیار در جهان رو به رشد است.
داده های سیار دارای ویژگی های منحصر به فردی هستند.
به عنوان مثال :
نویز ،Mobile sensing ،Moving flexibility ومقدار زیاد افزونگی.
نمونه برنامه های کاربردی :
برنامه کاربردی برای تلفن های هوشمند که زمانی که مردم راه میروند تحلیل گام ها صورت میگیرد و از گام ها برای باز کردن فقل سیستم ایمنی استفاده می شود.
برنامه کاربردی دیگر بنام iTerm که با یک لرزه نگار توکار در تلفن همراه بر لرزش بدن انسان نظارت دارد تا برای مقابله با پارکینسون و سایر بیماری های عصبی استفاده شود.
هدف به دست آوردن اطلاعات و تحلیل داده های سیار از طریق دستگاه های سیار است.
@BigDataTechnology
با رشد سریع محاسبات سیار کاربردها و پایانه های سیار در جهان رو به رشد است.
داده های سیار دارای ویژگی های منحصر به فردی هستند.
به عنوان مثال :
نویز ،Mobile sensing ،Moving flexibility ومقدار زیاد افزونگی.
نمونه برنامه های کاربردی :
برنامه کاربردی برای تلفن های هوشمند که زمانی که مردم راه میروند تحلیل گام ها صورت میگیرد و از گام ها برای باز کردن فقل سیستم ایمنی استفاده می شود.
برنامه کاربردی دیگر بنام iTerm که با یک لرزه نگار توکار در تلفن همراه بر لرزش بدن انسان نظارت دارد تا برای مقابله با پارکینسون و سایر بیماری های عصبی استفاده شود.
هدف به دست آوردن اطلاعات و تحلیل داده های سیار از طریق دستگاه های سیار است.
@BigDataTechnology