427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
تحلیل به کمک R :
یک زبان برنامه‌نویسی و محیط نرم‌افزاری برای محاسبات آماری و تحلیل داده است،
که بر اساس زبان‌های اس و اسکیم پیاده‌سازی شده است.
این نرم‌افزار بازمتن، تحت اجازه‌نامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است.

زبان اس بجز R، توسط شرکت Insightful، در نرم‌افزار تجاری اس‌پلاس نیز پیاده‌سازی شده است.
اگرچه دستورات اس‌پلاس و R بسیار شبیه است لیکن این دو نرم‌افزار دارای هسته‌های متمایزی می‌باشند.

ویژگی‌ها :
R
حاوی محدودهٔ گسترده‌ای از تکنیک‌های آماری (از جمله: مدل‌سازی خطی و غیرخطی، آزمون‌های کلاسیک آماری، تحلیل سری‌های زمانی، رده‌بندی، خوشه‌بندی و غیره) و قابلیت‌های گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره می‌توانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.
تحلیل و کاوش به کمک Excel

اکسل از اجزای هسته آفیس ماکروسافت پردازش قدرتمند داده ها و قابلیت تحلیل آماری را فراهم میکند.
پلاگین های پیشرفته تحلیل:
Analysis ToolPak
Solver Add-im

در حالت عادی فعال نمی‌باشد و به منظور فعال سازی آن نیاز است از مسیر زیر آن را فعال نمود.

File -> Option -> Add-ins

با انتخاب Add-ins از منوی Option پنجره‌ای مطابق با پنجره زیر باز می‌شود.

با قرار دادن حالت Manage بر روی Excel Add-ins پنجره‌ی جدیدی باز می‌شود که در آن می‌توانید تیک مربوط به Analysis Toolpak و Solver را فعال نموده و با تایید آن ابزارهای‌ Analysis Toolpak و Solver به تب Data اضافه می‌شوند.
RapidMiner 

این نرم‌افزار یک ابزار داده‌کاوی متن باز است که با زبان جاوا نوشته شده‌است و از سال 2001 تا به حال، توسعه داده شده‌است.
در این نرم‌افزار سعی تیم توسعه‌دهنده، بر آن بوده‌است که تا حد امکان تمامی الگوریتم‌های رایج داده‌کاوی و هم‌چنین یادگیری ماشین پوشش داده شوند.
به گونه‌ای که حتی این امکان برای نرم‌افزار فراهم شده‌است تا بتوان سایر ابزار‌های متن باز داده‌کاوی را نیز به آن الحاق نمود.
رابط گرافیکی شکیل و کاربر‌پسند نرم‌افزار نیز آن را یک سر و گردن بالاتر از سایر ابزار‌های رقیب قرار می‌دهد.
از نقاط قوت نرم‌افزار می‌توان به موارد زیر اشاره کرد. 

- ارائه گزارش و رونوشت از مراحل اجرای الگوریتم. 
- ظاهر پرداخته و آراسته. 
- نمای گرافیکی خوب 
- قابلیت تطابق با فایل‌های خروجی بسیاری از نرم‌افزار‌ها مانند Excel. 
- امکان تصحیح و خطایابی بسیار سریع. 
-وجود آموزش‌های ویدیویی مناسب که برای این نرم‌افزار تهیه شده و در وب قرار داده شده‌است. 
- مستندات شامل راهنمای بسیاری از عملگر‌ها در نرم‌افزار. 
- امکان اجرای هم‌زمان الگوریتم‌های یادگیری متفاوت در نرم‌افزار و مقایسه آن‌ها با یک‌دیگر در ابزار در نظر گرفته شده‌است. 

امکانات ویژه در این ابزار: 

- به دلیل پیاده سازی و توسعه این نرم‌افزار با استفاده از زبان جاوا، امکان کار در سیستم‌های عامل‌ مختلف از جمله ویندوز، لینوکس و سیستم‌های مکینتاش برای این نرم‌افزار وجود دارد. 

- امکانات متن‌کاوی نیز در این نرم‌افزار پیش‌بینی شده‌است. 

- کلیه الگوریتم‌های یادگیری مدل در نرم‌افزار داده‌کاوی WEKA پس از به هنگام‌سازی RapidMiner به نرم‌افزار اضافه خواهند شد. 
درست در همان لحظه که دیگران نا امید می شوند،
افراد موفق ادامه می دهند.

سلام و عرض ادب.
روز زمستانی زیباتون، گرم و شاد.
امروز با یاد پروردگار با معرفی دو ابزار تحلیلی و کاوش دیگر :
KNIME
و
Weka
در خدمت شما عزیزان هستم.

با تشکر از توجه شما 🌷
گلناز اردشیری

@BigDataTechnology
وکا
(Weka)
یک نرم افزار داده کاوی متن‌باز می‌باشد که بسیاری از الگوریتم‌های یادگیری ماشین را پشتیبانی می‌کند.
تمام قسمت‌های این نرم‌افزار به زبان جاوا نوشته شده است و در نتیجه می‌تواند بر روی هر پلتفرمی اجرا گردد.

 این پکیج شامل چهار واسط کاربری متفاوت می‌باشد:

 Explorer:
در این حالت شما می‌توانید روش‌های مختلف آماده‌سازی، تبدیل و الگوریتم‌های مدلسازی بر روی داده‌ها را اجرا کنید.

Experimenter:
در این حالت فقط امکان اجرای الگوریتم‌های مختلف رده‌بندی به صورت هم‌زمان و مقایسه نتایج آن‌ها وجود دارد.
 تمامی شاخص‌های مورد نیاز به منظور بررسی مدل‌های رده بندی در این قسمت تعریف شده و قرار دارند و گزارشات مفصلی را از جمله آزمون T می توان در این قسمت پس از مدلسازی استخراج نمود.

Knowledge Flow:
در این قسمت یک واسط گرافیکی طراحی شده است که مانند نرم افزارهای IBM Modeler و رپیدماینر در آن می توان جریان های داده ای مختلف تولید نمود.

command line interface (CLI):
در این حالت امکان مدلسازی توسط کدنویسی خط به خط قرار دارد.
در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با داده‌ها به فرمت Arff میانه بهتری دارد.
@BigDataTechnology
KNIME

 یک پلت‌فورم متن‌باز و یکپارچه برای تجزیه و تحلیل داده‌ها و گزارش کردن می‌باشد که به زبان جاوا نوشته شده و مبتنی بر Eclipse است.
KNIME
 از طریق مفهوم pipeline کردن داده، اجزای مختلف یادگیری ماشین و داده‌کاوی را ترکیب کرده است. در سال 2006 از KNIME در تحقیقات دارویی استفاده شد و بعدتر در زمینه‌های دیگر مانند تحلیل داده‌ها در مدیریت ارتباط با مشتری مانند تحلیل و پیش‌بینی ریزش مشتری، هوش تجاری و تحلیل داده‌ی مالی مانند رتبه‌بندی اعتبار، تحلیل شبکه‌های اجتماعی مانند تجزیه و تحلیل تمایلات و ... نیز مورد استفاده قرار گرفت.

ویژگی‌های KNIME چیست؟
- به کاربران اجازه می‌دهد که به صورت بصری جریانات داده را بسازند.
یکی از کلیدهای موفقیت KNIME همین فرایند Workflowمی‌باشد که فرایند تحلیل را همان‌طوری که درک و پیاده‌سازی شده، ذخیره می‌کند.

-  مقیاس‌پذیری بالا از طریق مدیریت داده‌ها و catching خودکار آن‌ها

 - امکان توسعه‌ی زیاد و ساده از طریق APIهاس خوش‌ساخت

- امکان ورودی دادن و خروجی گرفتن ازWorkflowها

- توانایی اجرای موازی روی سیستم‌های چند هسته‌ای

قابلیت‌های KNIME چیست؟

 ماژول‌های موجود در KNIME قابلیت‌های وسیعی را تحت پوشش قرار می‌دهند از جمله:
  1) امکان ورودی و خروجی گرفتن از یک فایل (با فرمت‌های متعدد) یا از یک پایگاه داده

 2) امکان پیش‌پردازش روی داده با اعمال فیلترها، دسته‌بندی، چرخش، نرمال‌سازی و ...

3) امکان مشاهده داده و خروجی‌ها از طریق نمایش‌های تعاملی مختلف

 4) با استفاده از الگوریتم‌های داده‌کاوی مانند خوشه‌بندی، استنتاج قوانین، درخت‌های تصمیم، قوانین انجمنی، شبکه‌های عصبی و ... به درک بهتر از داده‌ها کمک می‌کند.

@BigDataTechnology

 
فهرست کتاب مقاله های همایش داده های عظیم
زمینه های تحلیل کلان داده ها :

تحلیل داده های ساخت یافته
تحلیل داده های متنی
تحلیل داده های وب
تحلیل داده های چند رسانه ای
تحلیل داده های شبکه
تحلیل ترافیک سیار

در ادامه هر یک را بررسی خواهیم کرد.
تحلیل داده های ساخت یافته :

@BigDataTechnology

کاربرد تجاری و تحقیقات علمی ممکن است انبوهی از داده های ساخت یافته را تولید کنند که مدیریت و تحلیل آن ها بر فناوری های بلوغ یافته ی تجاری مانند RDBMS ،انبار داده ها ،BPM تکیه میکند.
تحلیل داده ها عمدتا بر اساس داده کاوی و تحلیل آماری است.
بهره برداری از ویژگی های داده ها ، کاوش زمان و مکان میتواند ساختارهای دانش پنهان در جریان داده های با سرعت بالا و شیوه ها و مدل های حسگر را استخراج کند.

منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی

@BigDataTechnology
دوستان عزیز ضمن عرض سلام و خسته نباشید.
طی هفته ی آینده آشنایی با مبانی بیگ دیتا را به اتمام میرسانیم و هدفی که این کانال در آینده دنبال میکند آموزش های عملی و کاربردی است.

دوستان جهت بهبود روند پروسه آموزش نظرات و انتقادات خود را به آی دی شخصی بنده
@GolnazArdeshiri
ارسال کنید.

در ابتدا با اصول بنیادی هدوپ با سر فصل های زیر آشنا خواهیم شد:

درک اجزای اصلی هدوپ
راه اندازی محیط توسعه هدوپ
کار با سیستم فایل هدوپ
تنظیم نگاشت کاهش
درک Hive و HBase

این روند با ویدیو های آموزشی همراه است.

دوستان عزیز لازم به ذکر است به دلیل سطوح مختلف دانشی اعضای این کانال بهتر است آموزش ها آهسته و پیوسته ادامه پیدا کند.

با ما همراه باشید.
@BigDataTechnology
زمینه تحلیل کلان داده ها :

تحلیل داده های متنی:

متن، رایج ترین قالب ذخیره سازی اطلاعات است.
به عنوان مثال، ارتباطات پست الکترونیک ، اسناد تجاری ، صفحات وب و رسانه های اجتماعی.

بنابراین تحلیل متن (داده ای غیر ساخت بافته) نسبت به داده کاوی ساخت یافته بیشتر بر ویژگی بالقوه مبتنی بر تجارت نزدیک است.
به طور کلی تحلیل متن، متن کاوی نامیده میشود.
اکثر سیستم های متن کاوی بر اساس عبارت متنی و پردازش زبان طبیعی (NLP) هستند.
در ادامه با پردازش زبان طبیعی آشنا خواهیم شد.
@BigDataTechnology
NLP
پردازش زبان های طبیعی (NLP)

پردازش زبان طبیعی چیست؟

در این زمینه، دو حیطه اصلی پژوهش وجود دارد: ادراک، که با فرایندهایی سر و کار دارد که اطلاعات را از زبان استخراج می‌کنند (مانند درک زبان طبیعی، بازیابی اطلاعات) و تولید، که با فرایندهایی سر و کار دارد که با استفاده از زبان به انتقال اطلاعات می‌پردازند. معمولاً کارهای مرتبط با گفتار را تحت عناوین جداگانه تشخیص گفتار و تولید گفتار قرار می‌دهند.

سطوح تحلیل زبانی:

آواشناسی/واج‌شناسی
ساختواژه(صرف)
نحو
معنی‌شناسی
کاربردشناسی
گفتمان

تکنیک‌های پردازش زبان طبیعی:

قطعه‌بندی و نرمال‌سازی متن
تحلیل ساختواژی
برچسب‌زنی جزء کلام
تجزیه یا پارس (تحلیل نحوی)
تحلیل معنایی
مدل‌سازی زبانی:یادگیری ماشین

کاربردهای پردازش زبان طبیعی:

درک زبان طبیعی
پردازش متون
بازیابی اطلاعات
ترجمۀ ماشینی:تولید متن
تصحیح املاء و دستور
بازشناسی گفتار:ساخت گفتار از روی متن
بازشناسی نویسه‌های نوری
سیستم‌های مکالمه گفتاری
سیستم‌های پرسش و پاسخ
ترجمه گفتار به گفتار

@BigDataTechnology
تحلیل داده وب :
Web Mining

اهداف تحلیل وب شامل :

بازیابی
استخراج
ارزیابی
اطلاعات خودکار اسناد و سرویس های وب برای کشف دانش مفید است.

تحلیل وب با چند زمینه تحقیقاتی از جمله پایگاه داده ، بازیابی اطلاعات و NLP  و متن کاوی مرتبط است.

با توجه به بخش های مختلف وب ، تحلیل آن به 3 زمینه مرتبط تقستم میشود :

Web Content Mining 
Web Structure Mining
Web Usage Mining

در ادامه در مورد هر یک بحث خواهیم کرد.

@BigDataTechnology
تحلیل  داده وب :

#web_mining
کاوش محتوای وب
#web_content_mining


 کاوش محتواي وب اولين گروه از طبقه بندي ارائه شده در وب کاوي مي باشد.
کاوش محتواي وب به کشف و استخراج اطلاعات مفيد و ناشناخته از محتواي مستندات وب مي پردازد.
محتواي مستندات وب بطور کلي شامل انواع مختلف اطلاعات از جمله داده هاي :
متني
صوتي
تصويري
فرا داده
و ...
 مي باشد و کاوش محتواي وب نوعي کاوش داده هاي چندرسانه اي نيز محسوب مي شود.
داده هاي وب عموماً شامل داده هاي غير ساخت يافته مثل متون آزاد يا نيمه ساخت يافته مثل صفحاتHTML  و تا حدي ساخت يافته تر مثل جداول يا صفحات HTML توليد شده توسط پايگاه داده هاست. اما در هر صورت بيشتر اطلاعات موجود در وب را  متون غير ساخت يافته تشکيل مي دهند.
کاوش محتوا در وب را مي توان از دو ديد بررسي کرد:
از ديد بازيابي اطلاعات
 از ديد پايگاه داده ها

 هدف کاوش محتوا در وب از نقطه نظر بازيابي اطلاعات تسهيل يا بهبود فرايند جستجوي اطلاعات يا فيلتر کردن اطلاعات براي کاربران است.
در حالي که از ديد پايگاه داده ها هدف کاوش محتوا، ارائه مدلي از داده هاي وب و يکپارچه سازي آنها است به طوي که پرس و جوهاي پيچيده تر از پرس و جوهاي مبتني بر کلمات کليدي قابل پردازش باشند.
کاوش محتوا از ديد پايگاه داده ها سعي در بدست آوردن ساختار سايت وب و يا تبديل سايت وب به يک پايگاه داده دارد تا بتواند مديريت و پرس و جوي اطلاعات موجود در وب را کاراتر انجام دهد. اين کار با کشف شماياسناد موجود در وب يا ساخت يک پايگاه داده مجازي قابل انجام است.

@BigDataTechnology
تحلیل داده های وب
#web_mining

 کاوش ساختار وب:
#web_structure_mining

کاوش ساختار وب، فرآيند کشف اطلاعات ساختاري از وب مي باشد.
اين نوع کاوش بر اساس آن که از چه نوع داده ساختاري استفاده مي کند، به دو دسته تقسيم مي شود:
پيوندها:
 يک پيوند، يک واحد ساختاري است که يک صفحه وب را به صفحه ديگر يا به بخش ديگري از همان صفحه متصل مي کند. به پيوند نوع اول، پيوند بين سند و به پيوند نوع دوم، پيوند درون سند گفته مي شود. به اين نوع کاوش ساختار وب که از پيوندها استفاده مي کند، تحليل پيوند گفته مي شود.

ساختار سند:
محتواي يک صفحه وب مي تواند بر اساس تگ هاي XML و HTML موجود در آن به صورت يک درخت بازنمايي شود. کاوش در اين جا بر استخراج مدل شيئ سند متمرکز مي شود. به اين نوع از کاوش ساختار وب، تحليل ساختار سند گفته مي شود.

@BigDataTechnology