427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
 تحلیل داده های وب :
#web_mining
کاوش استفاده از وب:
Web Usage Mining

#web
#usage
#mining

کاوش استفاده از وب به استخراج الگوهايي بامعني از داده هاي توليد شده در تعامل بين کلاينت و سرورهاي وب مي پردازد.
اين نوع کاوش بر تکنيک هايي تمرکز دارد که رفتار کاربر را در زمان تعامل با وب پيش بيني مي کند. داده اي که در اين نوع کاوش مورد استفاده قرار مي گيرد، داده هايي است که در نتيجه تعامل کاربران با وب ايجاد و نگهداري شده اند.

 کاربردهاي اين نوع کاوش، معمولا شامل:

 خصوصي سازي وب
 ايجاد سايت هاي وب تطبيقي
مدلسازي کاربر میباشد.

در سال هاي اخير تحقيقات وسيعي در زمينه کاوش استفاده از وب انجام شده است. در اين بخش ابتدا انواع داده اي که در اين شاخه از وب کاوي استفاده مي شود، معرقي مي شوند. سپس تکنيک هايي که براي پيش پردازش و جداسازي داده هاي جمع آوري شده به کار مي روند، بررسي مي شوند. همچنين تکنيک هاي کاوش و کاربردهاي کاوش استفاده از وب تشريح مي گردند.


انواع داده هاي استفاده از وب:

داده هاي استفاده از وب مشخصات کاربران و رفتار پيمايش آنها در سايت هاي وب را مشخص مي نمايد. اين داده ها معمولا از سه منبع اصلي جمع آوري مي شوند: سرورهاي وب، سرورهاي پراکسي و کلاينت هاي وب.

- داده هاي سرورهاي وب:

سرورهاي وب غني ترين و رايج ترين منبع داده هاي استفاده از وب هستند. آنها داده ها را در فايل هاي ثبتخود و فايل هاي ثبت پايگاه داده هايي که استفاده مي کنند، ذخيره مي نمايند. اين داده ها، معمولا شامل آدرس هاي IP، زمان و تاريخ دستيابي ها و ... مي باشند و معمولا در قالب هاي استاندارد مانند
 Common Log Format، Extended Log Format، LogML، ...
بازنمايي مي شوند.

يک چالش اصلي در استفاده از سرورهاي وب، تشخيص نشست هاي کاربر (دسته بندي تقاضاهاي کاربر به گونه اي که مسير پيمايش وي در سايت مشخص شود) مي باشد. نحوه انجام اين کار به نوع داده هايي که در فايل هاي ثبت ذخيره مي شود، بستگي دارد. رايج ترين روش براي تشخيص نشست هاي کاربر، استفاده از cookie ها مي باشد.
به غير از فايل هاي ثبت، مي توان از شنود بسته هاي TCP/IP براي رديابي رفتار کاربران استفاده کرد. همچنين برخي از سرورهاي برنامه هاي کاربردي، تعاملات کاربران با سرور را رديابي کرده و آنها را در فايل هاي ثبت سرور نگهداري مي کنند. به طور کلي در صورت ذخيره داده ها در سمت سرور، يک تصوير کلي از چگونگي استفاده شدن يک سرويس توسط تمام کاربران وجود دارد.

- داده هاي سرورهاي پراکسي:

جمع آوري داده هاي مربوط به پيمايش کاربران در سرورهاي پراکسي مشابه جمع آوري داده ها در سرورهاي وب است. تفاوت اصلي در اينجا آن است که سرورهاي پراکسي داده هاي گروه هايي از کاربران را که به تعداد زيادي از سرورهاي وب مراجعه مي کنند، جمع آوري مي کنند. در اين حالت نيز تشخيص نشست هاي کاربران مشکل است و نمي توان کليه مسيرهاي پيمايش کاربران را تشخيص داد.


- داده هاي کلاينت:

داده هاي استفاده از وب را مي توان با استفاده از اسکريپت هاي جاوا، اپلت هاي جاوا و يا مرورگرهاي تغيير يافته در سمت کلاينت نيز پيگيري کرد. در اين حالت برخلاف دو حالت قبل، مشکل تشخيص نشست هاي کاربران وجود ندارد. همچنين با اين روش اطلاعات تفصيلي راجع به رفتار کاربر قابل دستيابي است. همچنين اين امکان وجود دارد که رويدادهاي متنوعي در برنامه کاربردي تعريف گردد و در صورت رخداد آنها، در فايل هاي ثبت، ذخيره شوند. به اين ترتيب تاريخچه اي از رويدادهاي مختلف تعريف شده در برنامه توليد مي شود. به طور کلي در صورت ذخيره داده ها در سمت کاربر، يک تصوير کامل از چگونگي استفاده شدن کليه سرويس ها توسط يک کاربر خاص ايجاد مي شود .اما اين روش ها وابسته به همکاري کاربران است و ممکن است منجر به نقض قوانين مربوط به حفظ حريم خصوصي کاربران گردد.

@BigDataTechnology
معرفی شرکت فرافکر تکنولوژی
Forwarded from Hadoop.ir
اگر در پروژه های تحقیقاتی و عملیاتی خودتان نیاز به مشاوره تخصصی داشتید،مرجع هدوپ ایران می تواند از طریق بسته های مشاوره مدت دار خود در کنار شما باشد. https://hadoop.ir/consulting
مرجع هدوپ ایران به آدرس hadoop.ir به تولید محتوای پارسی پیرامون فریم ورک هدوپ و ارائه سرویس های ابری مبتنی بر هدوپ می پردازد.
Hadoop.ir
مرجع هدوپ ایران | Hadoop.ir
https://telegram.me/hadoop
Forwarded from Hadoop.ir
مقاله جدید : «آموزش MapReduce به زبان ساده – بخش دوم»
از اینجا بخوانید: https://hadoop.ir/?p=499
تحلیل داده های چند رسانه ای :
#multimedia_mining

یه اشتراک گذاری محتوی چند رسانه ای به معنی استخراج دانش مرتبط و معنایی و مفهومی از داده های چند رسانه ای است.
این داده ها ناهمگن هستند و اغلب شامل اطلاعات غنی تر از داده های متن و داده های ساخت یافته ساده هستند.
استخراج اطلاعات به روش های زیر ممکن است.

Multimedia Summarization
Multimedia Annotation
Multimedia Index and Retrieval
Multimedia Suggestion
Multimedia Event Detection

در ادامه هر یک را مختصر بررسی خواهیم کرد.

@BigDataTechnology
تحلیل داده های چند رسانه ای :
#mutlimedia_mining
#summarization

روش استخراج :
خلاصه سازی چند رسانه ای :
Multimedia Summarization

خلاصه سازی صوتی با استخراج کلمات یا عبارت بر جسته از metadata و یا ساخت یک نمایش جدید صوتی انجام داد.

خلاصه سازی فیلم برای بیان مهم ترین یا برجسته ترین توالی محتوای فیلم است.

ایستا :از یک توالی فریم های کلیدی حساس به زمینه برای نمایش فیلم استفاده میکند.

پویا : از یکسری کلیپ های تصویری برای نشان دادن یک فیلم،پیکربندی توابع سطح پایین فیلم و ابزارهایی برای خلاصه سازی استفاده میکنند.

موضوع محور TOMS :
Topic-Oriented Multimedia Summarization System

به طور خودکار اطلاعات مهم در یک فیلم متعلق به بخش موضوعی خاص را بر اساس مجموعه معینی از ویژگی های مستخرج از فیلم خلاصه می کند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی

@BigDataTechnology
تحليل داده هاي چند رسانه اي:

روش استخراج :

ياداشت نويسي :
#multimedia_annotitation

براي توصيف محتواي تصاوير و فيلم ها در هر دو سطح

Semantic
syntax
برچسب هايي را درج مي كند،با كمك چنين برچسب هايي به آساني مديريت ،خلاصه سازي و بازيابي داده هاي چندرسانه اي مي تواند انجام شود.

-----------------------------------------------
شاخص گذاري و بازيابي :
#multimedia
#index
#retriveval

شامل توصيف،ذخيره سازي و سازمان دهي اطلاعات است.
به طور كلي شامل پنج رويه است :

تحليل ساختاري
استخراج ويژگي
داده كاوي
طبقه بندي و ياداشت نويسي
پرس و جو و بازيابي

-----------------------------------------------

پيشنهادگر چند رسانه اي

#Multimedia_suggestion

هدف پيشنهاد استفاده از محتواي خاص با توجه به علاقمندي كاربران است،
اكثر سيستم هاي پيشنهادگر موجود را مي توان به سيستم هاي
Content-base System
Collaborative-filtering-base System
طبقه بندي كرد.

روش اول :
Content-base System
مبتني بر محتوي :
كاربران يا ويژگي هاي عمومي مورد علاقه كاربران را شناسايي ميكند و محتواي ديگر با ويژگي مشابه به كابران پيشنهاد مي دهد.


روش دوم :

Collaborative-filtering-base System
مبتني بر فيلتر همكارانه :
روش هاي همكارانه گروه هاي با علاقمندي مشابه را شناسايي ميكند و محتوا را مطابق با رفتارهاي اعضاي گروه به آن ها پيشنهاد مي كند.
-----------------------------------------------

تشخيص رويداد چند رسانه اي :
#multimedia_event_detection
پژوهش هاي موجود براي تشخيص رويداد ،عمدتا بر رويدادهاي ورزشي و اخبار و رويدادهاي در حال اجرا و يا غير طبيعي در فيلم هاي نظارتي و ساير رويدادهاي مشابه با الگوي تكراري متمركز است.


منبع : كتاب كلان داده ها ترجمه دكتر امير مسعود رحماني
@BigDataTechnology
تحليل داده هاي شبكه:
#social
#network
#analysis

شبکه‌هایی که مردم در آنها با یکدیگر متصل و به تولید یا خلق محتوا می‌پردازند. به عبارتی، امروز گسترش ارتباطات میان‌فردی در شبکه‌های اجتماعی مهمترین هدف یا رویکرد در این شبکه‌هاست و حال سوال این است که اتصالات یا روابط (ارتباطات میان‌فردی) چگونه در شبکه‌های اجتماعی تحلیل می‌شوند؟

برای پاسخ به این سوال، روش علمی تحلیل شبکه‌ اجتماعی (Social network analysis) در دنیا مطرح شده است. به عبارتی، تحلیل شبکه اجتماعی، تحلیل روشمند شبکه‌های اجتماعی است.

تحلیل شبکه‌های اجتماعی نشان‌دهنده روابط اجتماعی در نظریه شبکه که متشکل از گره‌ها (نشان‌دهنده بازیگران فردی داخل شبکه) و روابط (نشان‌دهنده روابط بین اشخاص مانند دوستی، خویشاوندی، موقعیت سازمانی و غیره) است. این شبکه‌ها غالبا در دیاگرام شبکه‌های اجتماعی که در آن گره‌ها به عنوان نقاط و روابط با خطوط نمایش داده می‌شود.

روش تحلیل شبکه در پژوهش‌های اجتماعی به عنوان پارادایمی مستقل قلمداد می‌شود چرا که بنیان روش‌های پیشنهادی آن مبتنی بر تئوری متمایز و مفروضات هستی ‌شناختی و روش‌شناختی خاصی است که کاملا میان رشته‌ایست.

تمایز تحلیل شبکه در پژوهش‌های علوم اجتماعی و رفتاری با سایر روش‌ها از فرضیه زیربنایی آن مبتنی بر ارتباط بین واحدهای کنش متقابل و اهمیت مفاهیم و اطلاعات رابطه‌ای بین آنهاست و تئوری‌ها، مدل‌ها و کاربردهای آن بر حسب مفاهیم رابطه‌ای یا فرایندها بیان‌ می‌شود.

تحلیل شبکه‌های اجتماعی در رشته‌های تحصیلی مختلف و همچنین کاربردهای عملی گوناگون مانند مقابله با پول‌شویی و تروریسم استفاده می‌شود.
به صورت ریاضی، شبکه اجتماعی یک گراف است که در آن هر شرکت کننده در شبکه یک کنشگر ۱ خوانده می گردد و با یک گره در شبکه نمایش داده می گردد. کنشگرها می توانند انسان ها، سازمان ها، گروه‌ها یا هر مجموعه دیگری از موجودیت های مرتبط با هم باشند. ارتباطات میان کنشگرها به وسیله پیوند میان گره های متناظر نمایش داده می گردد.

با استفاده از تحلیل شبکه، می‎توانید مجموعه‌های پیچیده‌ای از روابط را به مثابه‌ی نقشه‌هایی (گراف یا نگاره‌های گروهی) از سمبل‌های متصل تجسم کنید و سنجه‌های دقیق اندازه شکل و تراکم شبکه را به مثابه‌ی یک کل و موقعیت هر عنصر را داخل آن محاسبه نمایید. تحلیل شبکه اجتماعی به شما کمک می کند الگوهای موجود داخل مجموعه‌های نهادهای مرتبط را که شامل مردم می باشند، تجسم و بررسی کنید.

تمرکز تحلیل شبکه اجتماعی، میانِ و نه داخلِ مردم است. در حالی که در روش‌های قدیمی‌تر تحقیق علوم اجتماعی مانند پیمایش‌ها، بر اشخاص و ویژگی‌های‌شان (مثل جنسیت، سن و درآمد) تمرکز می‌کند. تحلیلگران شبکه نه تنها بر کیفیت‌ها و توانایی‌های داخل آن‌ها تمرکز دارند بلکه توجه ویژه‌ای بر پیوندهایی که اشخاص را به هم متصل می‌کنند، نیز دارند.

تحلیل شبکه اجتماعی به دنبال تحلیل روابط و ارتباطات در شبکه‌های اجتماعی است و اصلا به تحلیل محتوا، متون و سایر عوامل در شبکه نمی‌پردازد بلکه تنها ارتباطات و روابط را در شبکه بررسی می‌کند تا مفاهیم علوم اجتماعی را در آن بسنجد.

تحلیل شبکه اجتماعی به محقق این امکان را می‌دهد تا مفاهیم مختلف علوم اجتماعی از جمله سرمایه‌ اجتماعی، همبستگی اجتماعی، روابط اجتماعی، هم‌ریختی اجتماعی و غیره را در شبکه‌های اجتماعی از طریق فرمول‌های نرم‌افزاری موجود بسنجد یا خود آن مفهوم را به فرمول تبدیل کند و در شبکه مورد آزمایش قرار دهد.

@BigDataTechnology
تحلیل ترافیک سیار :

با رشد سریع محاسبات سیار کاربردها و پایانه های سیار در جهان رو به رشد است.
داده های سیار دارای ویژگی های منحصر به فردی هستند.
به عنوان مثال :
نویز ،Mobile sensing ،Moving flexibility  ومقدار زیاد افزونگی.

نمونه برنامه های کاربردی :

برنامه کاربردی برای تلفن های هوشمند که زمانی که مردم راه میروند تحلیل گام ها صورت میگیرد و از گام ها برای باز کردن فقل سیستم ایمنی استفاده می شود.

برنامه کاربردی دیگر بنام iTerm که با یک لرزه نگار توکار در تلفن همراه بر لرزش بدن انسان نظارت دارد تا برای مقابله با پارکینسون و سایر بیماری های عصبی استفاده شود.

هدف به دست آوردن اطلاعات و تحلیل داده های سیار از طریق دستگاه های سیار است.

@BigDataTechnology
کاربردهای کلیدی کلان داده ها :

۱. کاربردهایی از کلان داده ها در شرکت ها
۲. کاربرد IoT بر اساس کلان داده ها
۳. کابرد کلان داده ها در شبکه های اجتماعی بر خط
۴. کاربردهایی از کلان داده های بهداشتی و پزشکی
۵. هوش جمعی
۶. شبکه ی هوشمند

در ادامه هر یک را مختصر بررسی خواهیم کرد.

#IoT
#BigData
#Collective
#Intelligence
#Smart_Grid

@BigDataTechnology
کاربرد کلان داده ها در شرکت ها :

استفاده از کلان داده ها در شرکت ها می تواند بهره وری تولید و رقابت را افزایش دهد.
به طور خاص شرکت ها در بازاریابی با تحلیل همبستگی کلان داده ها، میتوانند با دقت بیشتری رفتار مصرف کنندگان را پیش بینی و موقعیت های جدید تجاری را درک کنند.

چند کاربرد موردی:

بانک بازرگانان چین با بهره گیری از تحلیل داده ها میداند که فعالیت هایی مانند تجمع رتبه ی چند باره و تبادل رتبه در خریدها برای جذب مشتریان با کیفیت موثر است.
با ارائه یک مدل "هشدار دهنده ی زود هنگام ریزش مشتری" ،بانک میتواند برای حفظ 20 درصد بالای مشتریان با کیفیت در حال ریزش،محصولات مالی پر بازده را به آن ها بفروشد.

مورد بعدی قرض دادن وام به شرکت ها از طریق داده های حاصل از تراکتش شرکت ها و بر اساس فناوری های کلان داده ها صورت گیرد.
وام های اعتباری شرکت علی بابا به طور خودکار تحلیل و بررسی میشود و در کل پروسه کاربر هیج دخالتی ندارد.تا کنون علی بابا بیش از 30 میلیارد یوآن قرض داده است و در حالی بدحسابی تنها حدود 3% است.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی

@BigDataTechnology
Forwarded from مفتا - ناشنیده‌های تکنولوژی
با بیگ دیتا موسیقی دلخواه خودتان را گوش دهید
نرم افزار Shazam یک نرم افزار عالی و پرطرفدار برای یافتن موزیک می باشد که استودیوی Shazam Entertainment Limited آن را عرضه نموده است و با میلیون ها خرید از گوگل پلی در صدر برترین و محبوب ترین نرم افزارهای موزیک و آیدیو قرار دارد. روش کار نرم افزار Shazam Encore نیز آسان است به گونه ای که تنها کافیست برنامه را اجرا کنید و از طریق میکروفون موزیک مورد نظر خود را پخش کنید و یا متن موزیک را بخوانید تا برنامه در عرض چند ثانیه در دیتابیس قوی خود بگردد و اطلاعات موزیک را برای شما به نمایش بگذارد. این شرکت با آنالیز آهنگ ها می تواند پیش بینی نماید که چه آهنگی در حال محبوبیت است و خوانندگان آینده را پیش بینی خواهد کرد.
🌍: https://mfta.ir/data-science/id=12139

🆔: mfta_ir
Forwarded from متخصصان هوش تجاری
@BIexperts
مزایای هوش تجاری به روش محاسبه ابری

امروزه با درک مزایای تحلیل داده ها، راه حلهای هوش کسب و کار به روش محاسبه ابری به طور تدریجی در حال عمومیت یافتن در میان کسب و کارها هستند. کسب و کارها به بینش های کیفی احتیاج دارند که بیش از گذشته شامل داده های حقیقی باشند.

👌 مزیت هزینه : در محاسبه ابری، شرکتها به بودجه پکیج های نرم افزاری  بزرگ و یا به روزرسانی های وقت گیر روی سرورهای داخلی برای زیرسازی و اجرای هوش تجاری احتیاج ندارند.آنها فقط برای منابع محاسباتی که نیاز دارند پول پرداخت می کنند.
👌 انعطاف پذیری و مقیاس پذیری : راه حل های هوش کسب و کار با محاسبه ابری انعطاف پذیری بیشتری دارند و برای کاربر امکان دسترسی فنی به منابع داده جدید، آزمایش و تحلیل مدلها را فراهم می آورند.
👌 اعتبارسنجی : اعتبار از طریق استفاده از سایتهای مختلف برای فراهم آوردن مکانهای امن ذخیره داده و منابع کاربران در مقیاس وسیع افزایش می یابد.
👌 قابلیت های اشتراک گذاری وسیع داده : اپلیکیشن های محاسبه ابری قابلیت به اشتراک گذاری داده ها از راه دور را دارد و اگر از طریق اینرنت و یا خارج از فایروال شرکت به کار گرفته شوند نیز این قابلیت را دارند.
👌 عدم هزینه سرمایه گذاری : مجموع هزینه مالکیت مزیت کلیدی این مدل می باشد. با محاسبه ابری، شرکتها برای خدمتی که واقعا استفاده می کنند هزینه پرداخت می کنند.
@BIexperts
Forwarded from مفتا - ناشنیده‌های تکنولوژی
هشت پیش بینی و گرایش بیگ دیتا در سال ۲۰۱۶

۱- استفاده بیشتر از NoSQL
۲- استفاده از Apache Spark در بیگ دیتا
۳- تکامل پروژه Hadoop
۴- بیگ دیتا رشد خواهد کرد و Hadoop به استاندارد شرکت ها می افزاید.
۵- بیگ دیتا سریع تر خواهد شد : گزینه ها برای اضافه کردن به سرعت پردازش Hadoop افزایش می یابد.
۶- گزینه هایی برای آماده سازی کاربر نهایی برای کشف تمام اشکال رشد داده
۷- رشد پایگاه داده ها در ابر
۸- این واژه ها همگرا می شوند: اینترنت اشیا، ابر و بیگ دیتا

🌎: https://mfta.ir/data-science/id=12144

🆔: @mfta_ir
Forwarded from Data Science
چرخه بلوغ فناوری های نو موسسه گارتنر

https://na1.www.gartner.com/imagesrv/newsroom/images/HC_ET_2014.jpg
Forwarded from Iranian ComSoc Channel
کتاب "داده های حجیم و اینترنت اشیا"
انتشارات آپرس
سال 2015
زبان انگلیسی
فرمت PDF
207 صفحه.
Forwarded from Iranian ComSoc Channel
Big Data and The Internet of Things.pdf
5.3 MB
Forwarded from Iranian ComSoc Channel
مجله ی پیشرفت های IEEE
اولین شماره ی 2016...