427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
فهرست کتاب مقاله های همایش داده های عظیم
زمینه های تحلیل کلان داده ها :

تحلیل داده های ساخت یافته
تحلیل داده های متنی
تحلیل داده های وب
تحلیل داده های چند رسانه ای
تحلیل داده های شبکه
تحلیل ترافیک سیار

در ادامه هر یک را بررسی خواهیم کرد.
تحلیل داده های ساخت یافته :

@BigDataTechnology

کاربرد تجاری و تحقیقات علمی ممکن است انبوهی از داده های ساخت یافته را تولید کنند که مدیریت و تحلیل آن ها بر فناوری های بلوغ یافته ی تجاری مانند RDBMS ،انبار داده ها ،BPM تکیه میکند.
تحلیل داده ها عمدتا بر اساس داده کاوی و تحلیل آماری است.
بهره برداری از ویژگی های داده ها ، کاوش زمان و مکان میتواند ساختارهای دانش پنهان در جریان داده های با سرعت بالا و شیوه ها و مدل های حسگر را استخراج کند.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی

@BigDataTechnology
دوستان عزیز ضمن عرض سلام و خسته نباشید.
طی هفته ی آینده آشنایی با مبانی بیگ دیتا را به اتمام میرسانیم و هدفی که این کانال در آینده دنبال میکند آموزش های عملی و کاربردی است.

دوستان جهت بهبود روند پروسه آموزش نظرات و انتقادات خود را به آی دی شخصی بنده
@GolnazArdeshiri
ارسال کنید.

در ابتدا با اصول بنیادی هدوپ با سر فصل های زیر آشنا خواهیم شد:

درک اجزای اصلی هدوپ
راه اندازی محیط توسعه هدوپ
کار با سیستم فایل هدوپ
تنظیم نگاشت کاهش
درک Hive و HBase

این روند با ویدیو های آموزشی همراه است.

دوستان عزیز لازم به ذکر است به دلیل سطوح مختلف دانشی اعضای این کانال بهتر است آموزش ها آهسته و پیوسته ادامه پیدا کند.

با ما همراه باشید.
@BigDataTechnology
زمینه تحلیل کلان داده ها :

تحلیل داده های متنی:

متن، رایج ترین قالب ذخیره سازی اطلاعات است.
به عنوان مثال، ارتباطات پست الکترونیک ، اسناد تجاری ، صفحات وب و رسانه های اجتماعی.

بنابراین تحلیل متن (داده ای غیر ساخت بافته) نسبت به داده کاوی ساخت یافته بیشتر بر ویژگی بالقوه مبتنی بر تجارت نزدیک است.
به طور کلی تحلیل متن، متن کاوی نامیده میشود.
اکثر سیستم های متن کاوی بر اساس عبارت متنی و پردازش زبان طبیعی (NLP) هستند.
در ادامه با پردازش زبان طبیعی آشنا خواهیم شد.
@BigDataTechnology
NLP
پردازش زبان های طبیعی (NLP)

پردازش زبان طبیعی چیست؟

در این زمینه، دو حیطه اصلی پژوهش وجود دارد: ادراک، که با فرایندهایی سر و کار دارد که اطلاعات را از زبان استخراج می‌کنند (مانند درک زبان طبیعی، بازیابی اطلاعات) و تولید، که با فرایندهایی سر و کار دارد که با استفاده از زبان به انتقال اطلاعات می‌پردازند. معمولاً کارهای مرتبط با گفتار را تحت عناوین جداگانه تشخیص گفتار و تولید گفتار قرار می‌دهند.

سطوح تحلیل زبانی:

آواشناسی/واج‌شناسی
ساختواژه(صرف)
نحو
معنی‌شناسی
کاربردشناسی
گفتمان

تکنیک‌های پردازش زبان طبیعی:

قطعه‌بندی و نرمال‌سازی متن
تحلیل ساختواژی
برچسب‌زنی جزء کلام
تجزیه یا پارس (تحلیل نحوی)
تحلیل معنایی
مدل‌سازی زبانی:یادگیری ماشین

کاربردهای پردازش زبان طبیعی:

درک زبان طبیعی
پردازش متون
بازیابی اطلاعات
ترجمۀ ماشینی:تولید متن
تصحیح املاء و دستور
بازشناسی گفتار:ساخت گفتار از روی متن
بازشناسی نویسه‌های نوری
سیستم‌های مکالمه گفتاری
سیستم‌های پرسش و پاسخ
ترجمه گفتار به گفتار

@BigDataTechnology
تحلیل داده وب :
Web Mining

اهداف تحلیل وب شامل :

بازیابی
استخراج
ارزیابی
اطلاعات خودکار اسناد و سرویس های وب برای کشف دانش مفید است.

تحلیل وب با چند زمینه تحقیقاتی از جمله پایگاه داده ، بازیابی اطلاعات و NLP  و متن کاوی مرتبط است.

با توجه به بخش های مختلف وب ، تحلیل آن به 3 زمینه مرتبط تقستم میشود :

Web Content Mining 
Web Structure Mining
Web Usage Mining

در ادامه در مورد هر یک بحث خواهیم کرد.

@BigDataTechnology
تحلیل  داده وب :

#web_mining
کاوش محتوای وب
#web_content_mining


 کاوش محتواي وب اولين گروه از طبقه بندي ارائه شده در وب کاوي مي باشد.
کاوش محتواي وب به کشف و استخراج اطلاعات مفيد و ناشناخته از محتواي مستندات وب مي پردازد.
محتواي مستندات وب بطور کلي شامل انواع مختلف اطلاعات از جمله داده هاي :
متني
صوتي
تصويري
فرا داده
و ...
 مي باشد و کاوش محتواي وب نوعي کاوش داده هاي چندرسانه اي نيز محسوب مي شود.
داده هاي وب عموماً شامل داده هاي غير ساخت يافته مثل متون آزاد يا نيمه ساخت يافته مثل صفحاتHTML  و تا حدي ساخت يافته تر مثل جداول يا صفحات HTML توليد شده توسط پايگاه داده هاست. اما در هر صورت بيشتر اطلاعات موجود در وب را  متون غير ساخت يافته تشکيل مي دهند.
کاوش محتوا در وب را مي توان از دو ديد بررسي کرد:
از ديد بازيابي اطلاعات
 از ديد پايگاه داده ها

 هدف کاوش محتوا در وب از نقطه نظر بازيابي اطلاعات تسهيل يا بهبود فرايند جستجوي اطلاعات يا فيلتر کردن اطلاعات براي کاربران است.
در حالي که از ديد پايگاه داده ها هدف کاوش محتوا، ارائه مدلي از داده هاي وب و يکپارچه سازي آنها است به طوي که پرس و جوهاي پيچيده تر از پرس و جوهاي مبتني بر کلمات کليدي قابل پردازش باشند.
کاوش محتوا از ديد پايگاه داده ها سعي در بدست آوردن ساختار سايت وب و يا تبديل سايت وب به يک پايگاه داده دارد تا بتواند مديريت و پرس و جوي اطلاعات موجود در وب را کاراتر انجام دهد. اين کار با کشف شماياسناد موجود در وب يا ساخت يک پايگاه داده مجازي قابل انجام است.

@BigDataTechnology
تحلیل داده های وب
#web_mining

 کاوش ساختار وب:
#web_structure_mining

کاوش ساختار وب، فرآيند کشف اطلاعات ساختاري از وب مي باشد.
اين نوع کاوش بر اساس آن که از چه نوع داده ساختاري استفاده مي کند، به دو دسته تقسيم مي شود:
پيوندها:
 يک پيوند، يک واحد ساختاري است که يک صفحه وب را به صفحه ديگر يا به بخش ديگري از همان صفحه متصل مي کند. به پيوند نوع اول، پيوند بين سند و به پيوند نوع دوم، پيوند درون سند گفته مي شود. به اين نوع کاوش ساختار وب که از پيوندها استفاده مي کند، تحليل پيوند گفته مي شود.

ساختار سند:
محتواي يک صفحه وب مي تواند بر اساس تگ هاي XML و HTML موجود در آن به صورت يک درخت بازنمايي شود. کاوش در اين جا بر استخراج مدل شيئ سند متمرکز مي شود. به اين نوع از کاوش ساختار وب، تحليل ساختار سند گفته مي شود.

@BigDataTechnology
 تحلیل داده های وب :
#web_mining
کاوش استفاده از وب:
Web Usage Mining

#web
#usage
#mining

کاوش استفاده از وب به استخراج الگوهايي بامعني از داده هاي توليد شده در تعامل بين کلاينت و سرورهاي وب مي پردازد.
اين نوع کاوش بر تکنيک هايي تمرکز دارد که رفتار کاربر را در زمان تعامل با وب پيش بيني مي کند. داده اي که در اين نوع کاوش مورد استفاده قرار مي گيرد، داده هايي است که در نتيجه تعامل کاربران با وب ايجاد و نگهداري شده اند.

 کاربردهاي اين نوع کاوش، معمولا شامل:

 خصوصي سازي وب
 ايجاد سايت هاي وب تطبيقي
مدلسازي کاربر میباشد.

در سال هاي اخير تحقيقات وسيعي در زمينه کاوش استفاده از وب انجام شده است. در اين بخش ابتدا انواع داده اي که در اين شاخه از وب کاوي استفاده مي شود، معرقي مي شوند. سپس تکنيک هايي که براي پيش پردازش و جداسازي داده هاي جمع آوري شده به کار مي روند، بررسي مي شوند. همچنين تکنيک هاي کاوش و کاربردهاي کاوش استفاده از وب تشريح مي گردند.


انواع داده هاي استفاده از وب:

داده هاي استفاده از وب مشخصات کاربران و رفتار پيمايش آنها در سايت هاي وب را مشخص مي نمايد. اين داده ها معمولا از سه منبع اصلي جمع آوري مي شوند: سرورهاي وب، سرورهاي پراکسي و کلاينت هاي وب.

- داده هاي سرورهاي وب:

سرورهاي وب غني ترين و رايج ترين منبع داده هاي استفاده از وب هستند. آنها داده ها را در فايل هاي ثبتخود و فايل هاي ثبت پايگاه داده هايي که استفاده مي کنند، ذخيره مي نمايند. اين داده ها، معمولا شامل آدرس هاي IP، زمان و تاريخ دستيابي ها و ... مي باشند و معمولا در قالب هاي استاندارد مانند
 Common Log Format، Extended Log Format، LogML، ...
بازنمايي مي شوند.

يک چالش اصلي در استفاده از سرورهاي وب، تشخيص نشست هاي کاربر (دسته بندي تقاضاهاي کاربر به گونه اي که مسير پيمايش وي در سايت مشخص شود) مي باشد. نحوه انجام اين کار به نوع داده هايي که در فايل هاي ثبت ذخيره مي شود، بستگي دارد. رايج ترين روش براي تشخيص نشست هاي کاربر، استفاده از cookie ها مي باشد.
به غير از فايل هاي ثبت، مي توان از شنود بسته هاي TCP/IP براي رديابي رفتار کاربران استفاده کرد. همچنين برخي از سرورهاي برنامه هاي کاربردي، تعاملات کاربران با سرور را رديابي کرده و آنها را در فايل هاي ثبت سرور نگهداري مي کنند. به طور کلي در صورت ذخيره داده ها در سمت سرور، يک تصوير کلي از چگونگي استفاده شدن يک سرويس توسط تمام کاربران وجود دارد.

- داده هاي سرورهاي پراکسي:

جمع آوري داده هاي مربوط به پيمايش کاربران در سرورهاي پراکسي مشابه جمع آوري داده ها در سرورهاي وب است. تفاوت اصلي در اينجا آن است که سرورهاي پراکسي داده هاي گروه هايي از کاربران را که به تعداد زيادي از سرورهاي وب مراجعه مي کنند، جمع آوري مي کنند. در اين حالت نيز تشخيص نشست هاي کاربران مشکل است و نمي توان کليه مسيرهاي پيمايش کاربران را تشخيص داد.


- داده هاي کلاينت:

داده هاي استفاده از وب را مي توان با استفاده از اسکريپت هاي جاوا، اپلت هاي جاوا و يا مرورگرهاي تغيير يافته در سمت کلاينت نيز پيگيري کرد. در اين حالت برخلاف دو حالت قبل، مشکل تشخيص نشست هاي کاربران وجود ندارد. همچنين با اين روش اطلاعات تفصيلي راجع به رفتار کاربر قابل دستيابي است. همچنين اين امکان وجود دارد که رويدادهاي متنوعي در برنامه کاربردي تعريف گردد و در صورت رخداد آنها، در فايل هاي ثبت، ذخيره شوند. به اين ترتيب تاريخچه اي از رويدادهاي مختلف تعريف شده در برنامه توليد مي شود. به طور کلي در صورت ذخيره داده ها در سمت کاربر، يک تصوير کامل از چگونگي استفاده شدن کليه سرويس ها توسط يک کاربر خاص ايجاد مي شود .اما اين روش ها وابسته به همکاري کاربران است و ممکن است منجر به نقض قوانين مربوط به حفظ حريم خصوصي کاربران گردد.

@BigDataTechnology
معرفی شرکت فرافکر تکنولوژی
Forwarded from Hadoop.ir
اگر در پروژه های تحقیقاتی و عملیاتی خودتان نیاز به مشاوره تخصصی داشتید،مرجع هدوپ ایران می تواند از طریق بسته های مشاوره مدت دار خود در کنار شما باشد. https://hadoop.ir/consulting
مرجع هدوپ ایران به آدرس hadoop.ir به تولید محتوای پارسی پیرامون فریم ورک هدوپ و ارائه سرویس های ابری مبتنی بر هدوپ می پردازد.
Hadoop.ir
مرجع هدوپ ایران | Hadoop.ir
https://telegram.me/hadoop
Forwarded from Hadoop.ir
مقاله جدید : «آموزش MapReduce به زبان ساده – بخش دوم»
از اینجا بخوانید: https://hadoop.ir/?p=499
تحلیل داده های چند رسانه ای :
#multimedia_mining

یه اشتراک گذاری محتوی چند رسانه ای به معنی استخراج دانش مرتبط و معنایی و مفهومی از داده های چند رسانه ای است.
این داده ها ناهمگن هستند و اغلب شامل اطلاعات غنی تر از داده های متن و داده های ساخت یافته ساده هستند.
استخراج اطلاعات به روش های زیر ممکن است.

Multimedia Summarization
Multimedia Annotation
Multimedia Index and Retrieval
Multimedia Suggestion
Multimedia Event Detection

در ادامه هر یک را مختصر بررسی خواهیم کرد.

@BigDataTechnology
تحلیل داده های چند رسانه ای :
#mutlimedia_mining
#summarization

روش استخراج :
خلاصه سازی چند رسانه ای :
Multimedia Summarization

خلاصه سازی صوتی با استخراج کلمات یا عبارت بر جسته از metadata و یا ساخت یک نمایش جدید صوتی انجام داد.

خلاصه سازی فیلم برای بیان مهم ترین یا برجسته ترین توالی محتوای فیلم است.

ایستا :از یک توالی فریم های کلیدی حساس به زمینه برای نمایش فیلم استفاده میکند.

پویا : از یکسری کلیپ های تصویری برای نشان دادن یک فیلم،پیکربندی توابع سطح پایین فیلم و ابزارهایی برای خلاصه سازی استفاده میکنند.

موضوع محور TOMS :
Topic-Oriented Multimedia Summarization System

به طور خودکار اطلاعات مهم در یک فیلم متعلق به بخش موضوعی خاص را بر اساس مجموعه معینی از ویژگی های مستخرج از فیلم خلاصه می کند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی

@BigDataTechnology
تحليل داده هاي چند رسانه اي:

روش استخراج :

ياداشت نويسي :
#multimedia_annotitation

براي توصيف محتواي تصاوير و فيلم ها در هر دو سطح

Semantic
syntax
برچسب هايي را درج مي كند،با كمك چنين برچسب هايي به آساني مديريت ،خلاصه سازي و بازيابي داده هاي چندرسانه اي مي تواند انجام شود.

-----------------------------------------------
شاخص گذاري و بازيابي :
#multimedia
#index
#retriveval

شامل توصيف،ذخيره سازي و سازمان دهي اطلاعات است.
به طور كلي شامل پنج رويه است :

تحليل ساختاري
استخراج ويژگي
داده كاوي
طبقه بندي و ياداشت نويسي
پرس و جو و بازيابي

-----------------------------------------------

پيشنهادگر چند رسانه اي

#Multimedia_suggestion

هدف پيشنهاد استفاده از محتواي خاص با توجه به علاقمندي كاربران است،
اكثر سيستم هاي پيشنهادگر موجود را مي توان به سيستم هاي
Content-base System
Collaborative-filtering-base System
طبقه بندي كرد.

روش اول :
Content-base System
مبتني بر محتوي :
كاربران يا ويژگي هاي عمومي مورد علاقه كاربران را شناسايي ميكند و محتواي ديگر با ويژگي مشابه به كابران پيشنهاد مي دهد.


روش دوم :

Collaborative-filtering-base System
مبتني بر فيلتر همكارانه :
روش هاي همكارانه گروه هاي با علاقمندي مشابه را شناسايي ميكند و محتوا را مطابق با رفتارهاي اعضاي گروه به آن ها پيشنهاد مي كند.
-----------------------------------------------

تشخيص رويداد چند رسانه اي :
#multimedia_event_detection
پژوهش هاي موجود براي تشخيص رويداد ،عمدتا بر رويدادهاي ورزشي و اخبار و رويدادهاي در حال اجرا و يا غير طبيعي در فيلم هاي نظارتي و ساير رويدادهاي مشابه با الگوي تكراري متمركز است.


منبع : كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
@BigDataTechnology
تحليل داده هاي شبكه:
#social
#network
#analysis

شبکه‌هایی که مردم در آنها با یکدیگر متصل و به تولید یا خلق محتوا می‌پردازند. به عبارتی، امروز گسترش ارتباطات میان‌فردی در شبکه‌های اجتماعی مهمترین هدف یا رویکرد در این شبکه‌هاست و حال سوال این است که اتصالات یا روابط (ارتباطات میان‌فردی) چگونه در شبکه‌های اجتماعی تحلیل می‌شوند؟

برای پاسخ به این سوال، روش علمی تحلیل شبکه‌ اجتماعی (Social network analysis) در دنیا مطرح شده است. به عبارتی، تحلیل شبکه اجتماعی، تحلیل روشمند شبکه‌های اجتماعی است.

تحلیل شبکه‌های اجتماعی نشان‌دهنده روابط اجتماعی در نظریه شبکه که متشکل از گره‌ها (نشان‌دهنده بازیگران فردی داخل شبکه) و روابط (نشان‌دهنده روابط بین اشخاص مانند دوستی، خویشاوندی، موقعیت سازمانی و غیره) است. این شبکه‌ها غالبا در دیاگرام شبکه‌های اجتماعی که در آن گره‌ها به عنوان نقاط و روابط با خطوط نمایش داده می‌شود.

روش تحلیل شبکه در پژوهش‌های اجتماعی به عنوان پارادایمی مستقل قلمداد می‌شود چرا که بنیان روش‌های پیشنهادی آن مبتنی بر تئوری متمایز و مفروضات هستی ‌شناختی و روش‌شناختی خاصی است که کاملا میان رشته‌ایست.

تمایز تحلیل شبکه در پژوهش‌های علوم اجتماعی و رفتاری با سایر روش‌ها از فرضیه زیربنایی آن مبتنی بر ارتباط بین واحدهای کنش متقابل و اهمیت مفاهیم و اطلاعات رابطه‌ای بین آنهاست و تئوری‌ها، مدل‌ها و کاربردهای آن بر حسب مفاهیم رابطه‌ای یا فرایندها بیان‌ می‌شود.

تحلیل شبکه‌های اجتماعی در رشته‌های تحصیلی مختلف و همچنین کاربردهای عملی گوناگون مانند مقابله با پول‌شویی و تروریسم استفاده می‌شود.
به صورت ریاضی، شبکه اجتماعی یک گراف است که در آن هر شرکت کننده در شبکه یک کنشگر ۱ خوانده می گردد و با یک گره در شبکه نمایش داده می گردد. کنشگرها می توانند انسان ها، سازمان ها، گروه‌ها یا هر مجموعه دیگری از موجودیت های مرتبط با هم باشند. ارتباطات میان کنشگرها به وسیله پیوند میان گره های متناظر نمایش داده می گردد.

با استفاده از تحلیل شبکه، می‎توانید مجموعه‌های پیچیده‌ای از روابط را به مثابه‌ی نقشه‌هایی (گراف یا نگاره‌های گروهی) از سمبل‌های متصل تجسم کنید و سنجه‌های دقیق اندازه شکل و تراکم شبکه را به مثابه‌ی یک کل و موقعیت هر عنصر را داخل آن محاسبه نمایید. تحلیل شبکه اجتماعی به شما کمک می کند الگوهای موجود داخل مجموعه‌های نهادهای مرتبط را که شامل مردم می باشند، تجسم و بررسی کنید.

تمرکز تحلیل شبکه اجتماعی، میانِ و نه داخلِ مردم است. در حالی که در روش‌های قدیمی‌تر تحقیق علوم اجتماعی مانند پیمایش‌ها، بر اشخاص و ویژگی‌های‌شان (مثل جنسیت، سن و درآمد) تمرکز می‌کند. تحلیلگران شبکه نه تنها بر کیفیت‌ها و توانایی‌های داخل آن‌ها تمرکز دارند بلکه توجه ویژه‌ای بر پیوندهایی که اشخاص را به هم متصل می‌کنند، نیز دارند.

تحلیل شبکه اجتماعی به دنبال تحلیل روابط و ارتباطات در شبکه‌های اجتماعی است و اصلا به تحلیل محتوا، متون و سایر عوامل در شبکه نمی‌پردازد بلکه تنها ارتباطات و روابط را در شبکه بررسی می‌کند تا مفاهیم علوم اجتماعی را در آن بسنجد.

تحلیل شبکه اجتماعی به محقق این امکان را می‌دهد تا مفاهیم مختلف علوم اجتماعی از جمله سرمایه‌ اجتماعی، همبستگی اجتماعی، روابط اجتماعی، هم‌ریختی اجتماعی و غیره را در شبکه‌های اجتماعی از طریق فرمول‌های نرم‌افزاری موجود بسنجد یا خود آن مفهوم را به فرمول تبدیل کند و در شبکه مورد آزمایش قرار دهد.

@BigDataTechnology
تحلیل ترافیک سیار :

با رشد سریع محاسبات سیار کاربردها و پایانه های سیار در جهان رو به رشد است.
داده های سیار دارای ویژگی های منحصر به فردی هستند.
به عنوان مثال :
نویز ،Mobile sensing ،Moving flexibility  ومقدار زیاد افزونگی.

نمونه برنامه های کاربردی :

برنامه کاربردی برای تلفن های هوشمند که زمانی که مردم راه میروند تحلیل گام ها صورت میگیرد و از گام ها برای باز کردن فقل سیستم ایمنی استفاده می شود.

برنامه کاربردی دیگر بنام iTerm که با یک لرزه نگار توکار در تلفن همراه بر لرزش بدن انسان نظارت دارد تا برای مقابله با پارکینسون و سایر بیماری های عصبی استفاده شود.

هدف به دست آوردن اطلاعات و تحلیل داده های سیار از طریق دستگاه های سیار است.

@BigDataTechnology