تحلیل کلان داده ها در سطوح مختلف :
طبقه بندی سطوح:
Memory Level Analysis
Business Intelligence Level Analysis
Massive Level Analysis
در ادامه بررسی میکنیم.
طبقه بندی سطوح:
Memory Level Analysis
Business Intelligence Level Analysis
Massive Level Analysis
در ادامه بررسی میکنیم.
ذهن،
قدرت زیادی دارد، وقتی آن را پر از افکار مثبت میکنید، زندگی شروع به تغییر میکند.💡
درود بر دوستان بیگ دیتا🌷
صبح زیبای زمستانیتون گرم و دل انگیز❄🌞
امروز با یاد پروردگار مهربان ادامه بحث روزهای گذشته را با هم دنبال میکنیم.🙏
با تشکر از توجه شما
گلناز اردشیری
@BigDataTechnology
قدرت زیادی دارد، وقتی آن را پر از افکار مثبت میکنید، زندگی شروع به تغییر میکند.💡
درود بر دوستان بیگ دیتا🌷
صبح زیبای زمستانیتون گرم و دل انگیز❄🌞
امروز با یاد پروردگار مهربان ادامه بحث روزهای گذشته را با هم دنبال میکنیم.🙏
با تشکر از توجه شما
گلناز اردشیری
@BigDataTechnology
سطح حافظه :
Memory Level Analysis
موارد استفاده:
"مواردی که حجم کل داده ها در حدود بیشترین سطح از حافظه یک خوشه است. "
حافظه ی سرویس دهنده های خوشه ی فعلی از صدها گیگابایت نیز عبور کرده است.
اگر چه اکنون سطح ترابایت رایج است.
این روش برای تحلیل Real Time مناسب است.
MongoDB
بیانگر یک معماری تحلیلی سطح حافظه است.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
Memory Level Analysis
موارد استفاده:
"مواردی که حجم کل داده ها در حدود بیشترین سطح از حافظه یک خوشه است. "
حافظه ی سرویس دهنده های خوشه ی فعلی از صدها گیگابایت نیز عبور کرده است.
اگر چه اکنون سطح ترابایت رایج است.
این روش برای تحلیل Real Time مناسب است.
MongoDB
بیانگر یک معماری تحلیلی سطح حافظه است.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
Forwarded from Data Science
Most popular Predictive Analytics, Data Mining, Data Science software
https://www.kdnuggets.com/wp-content/uploads/kdnuggets-2014-software-poll-word-cloud.jpg
https://www.kdnuggets.com/wp-content/uploads/kdnuggets-2014-software-poll-word-cloud.jpg
تحلیل در سطح هوش تجاری
BI Level Analysis
مورد استفاده:
"میزان داده ها از سطح حافظه عبور کرده است و ممکن است به محیط تحلیل هوش تجاری وارد شده باشد."
"تحلیل داده های بالاتر از ترابایت "
------------------------
تحلیل در سطح انبوه:
Massive Level Analysis
مورد استفاده :
"میزان داده ها از ظرفیت های محصولات هوش تجاری و پایگاه داده های رابطه ای سنتی به کلی پیشی گرفته است."
این تحلیل برای ذخیره سازی از HDFSو برای تحلیل داده ها از MapReduce استفاده میکند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
BI Level Analysis
مورد استفاده:
"میزان داده ها از سطح حافظه عبور کرده است و ممکن است به محیط تحلیل هوش تجاری وارد شده باشد."
"تحلیل داده های بالاتر از ترابایت "
------------------------
تحلیل در سطح انبوه:
Massive Level Analysis
مورد استفاده :
"میزان داده ها از ظرفیت های محصولات هوش تجاری و پایگاه داده های رابطه ای سنتی به کلی پیشی گرفته است."
این تحلیل برای ذخیره سازی از HDFSو برای تحلیل داده ها از MapReduce استفاده میکند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
ابزارهایی برای تحلیل و کاوش کلان داده ها در دسترس هستند.
پنج نرم افزار برتر خدمتتان معرفی می شود :
R
Excel
Rapidminer
KNIME
Weka/Pentaho
در ادامه هر کدام به صورت مختصر با هم بررسی خواهیم کرد.
پنج نرم افزار برتر خدمتتان معرفی می شود :
R
Excel
Rapidminer
KNIME
Weka/Pentaho
در ادامه هر کدام به صورت مختصر با هم بررسی خواهیم کرد.
نحوه ای که روزتان را آغاز میکنید، می تواند روی کل آن روز تاثیر بگذارد.
هر روزتان را با یک لبخند ، آرامش خیال ، خونسردی و قلبی سرشار از قدردانی شروع کنید.
سلام و صبح بخیر خدمت دوستان عزیز بیگ دیتا.
روزی سرشار از انرژی و آرامش برایتان آرزومندم.
امروز با یاد پروردگار مهربان ،ابزارهای تحلیل و داده کاوی را با هم دنبال خواهیم کرد.🙏
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
هر روزتان را با یک لبخند ، آرامش خیال ، خونسردی و قلبی سرشار از قدردانی شروع کنید.
سلام و صبح بخیر خدمت دوستان عزیز بیگ دیتا.
روزی سرشار از انرژی و آرامش برایتان آرزومندم.
امروز با یاد پروردگار مهربان ،ابزارهای تحلیل و داده کاوی را با هم دنبال خواهیم کرد.🙏
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
تحلیل به کمک R :
یک زبان برنامهنویسی و محیط نرمافزاری برای محاسبات آماری و تحلیل داده است،
که بر اساس زبانهای اس و اسکیم پیادهسازی شده است.
این نرمافزار بازمتن، تحت اجازهنامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است.
زبان اس بجز R، توسط شرکت Insightful، در نرمافزار تجاری اسپلاس نیز پیادهسازی شده است.
اگرچه دستورات اسپلاس و R بسیار شبیه است لیکن این دو نرمافزار دارای هستههای متمایزی میباشند.
ویژگیها :
R
حاوی محدودهٔ گستردهای از تکنیکهای آماری (از جمله: مدلسازی خطی و غیرخطی، آزمونهای کلاسیک آماری، تحلیل سریهای زمانی، ردهبندی، خوشهبندی و غیره) و قابلیتهای گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره میتوانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.
یک زبان برنامهنویسی و محیط نرمافزاری برای محاسبات آماری و تحلیل داده است،
که بر اساس زبانهای اس و اسکیم پیادهسازی شده است.
این نرمافزار بازمتن، تحت اجازهنامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است.
زبان اس بجز R، توسط شرکت Insightful، در نرمافزار تجاری اسپلاس نیز پیادهسازی شده است.
اگرچه دستورات اسپلاس و R بسیار شبیه است لیکن این دو نرمافزار دارای هستههای متمایزی میباشند.
ویژگیها :
R
حاوی محدودهٔ گستردهای از تکنیکهای آماری (از جمله: مدلسازی خطی و غیرخطی، آزمونهای کلاسیک آماری، تحلیل سریهای زمانی، ردهبندی، خوشهبندی و غیره) و قابلیتهای گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره میتوانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.
تحلیل و کاوش به کمک Excel
اکسل از اجزای هسته آفیس ماکروسافت پردازش قدرتمند داده ها و قابلیت تحلیل آماری را فراهم میکند.
پلاگین های پیشرفته تحلیل:
Analysis ToolPak
Solver Add-im
در حالت عادی فعال نمیباشد و به منظور فعال سازی آن نیاز است از مسیر زیر آن را فعال نمود.
File -> Option -> Add-ins
با انتخاب Add-ins از منوی Option پنجرهای مطابق با پنجره زیر باز میشود.
با قرار دادن حالت Manage بر روی Excel Add-ins پنجرهی جدیدی باز میشود که در آن میتوانید تیک مربوط به Analysis Toolpak و Solver را فعال نموده و با تایید آن ابزارهای Analysis Toolpak و Solver به تب Data اضافه میشوند.
اکسل از اجزای هسته آفیس ماکروسافت پردازش قدرتمند داده ها و قابلیت تحلیل آماری را فراهم میکند.
پلاگین های پیشرفته تحلیل:
Analysis ToolPak
Solver Add-im
در حالت عادی فعال نمیباشد و به منظور فعال سازی آن نیاز است از مسیر زیر آن را فعال نمود.
File -> Option -> Add-ins
با انتخاب Add-ins از منوی Option پنجرهای مطابق با پنجره زیر باز میشود.
با قرار دادن حالت Manage بر روی Excel Add-ins پنجرهی جدیدی باز میشود که در آن میتوانید تیک مربوط به Analysis Toolpak و Solver را فعال نموده و با تایید آن ابزارهای Analysis Toolpak و Solver به تب Data اضافه میشوند.
RapidMiner
این نرمافزار یک ابزار دادهکاوی متن باز است که با زبان جاوا نوشته شدهاست و از سال 2001 تا به حال، توسعه داده شدهاست.
در این نرمافزار سعی تیم توسعهدهنده، بر آن بودهاست که تا حد امکان تمامی الگوریتمهای رایج دادهکاوی و همچنین یادگیری ماشین پوشش داده شوند.
به گونهای که حتی این امکان برای نرمافزار فراهم شدهاست تا بتوان سایر ابزارهای متن باز دادهکاوی را نیز به آن الحاق نمود.
رابط گرافیکی شکیل و کاربرپسند نرمافزار نیز آن را یک سر و گردن بالاتر از سایر ابزارهای رقیب قرار میدهد.
از نقاط قوت نرمافزار میتوان به موارد زیر اشاره کرد.
- ارائه گزارش و رونوشت از مراحل اجرای الگوریتم.
- ظاهر پرداخته و آراسته.
- نمای گرافیکی خوب
- قابلیت تطابق با فایلهای خروجی بسیاری از نرمافزارها مانند Excel.
- امکان تصحیح و خطایابی بسیار سریع.
-وجود آموزشهای ویدیویی مناسب که برای این نرمافزار تهیه شده و در وب قرار داده شدهاست.
- مستندات شامل راهنمای بسیاری از عملگرها در نرمافزار.
- امکان اجرای همزمان الگوریتمهای یادگیری متفاوت در نرمافزار و مقایسه آنها با یکدیگر در ابزار در نظر گرفته شدهاست.
امکانات ویژه در این ابزار:
- به دلیل پیاده سازی و توسعه این نرمافزار با استفاده از زبان جاوا، امکان کار در سیستمهای عامل مختلف از جمله ویندوز، لینوکس و سیستمهای مکینتاش برای این نرمافزار وجود دارد.
- امکانات متنکاوی نیز در این نرمافزار پیشبینی شدهاست.
- کلیه الگوریتمهای یادگیری مدل در نرمافزار دادهکاوی WEKA پس از به هنگامسازی RapidMiner به نرمافزار اضافه خواهند شد.
این نرمافزار یک ابزار دادهکاوی متن باز است که با زبان جاوا نوشته شدهاست و از سال 2001 تا به حال، توسعه داده شدهاست.
در این نرمافزار سعی تیم توسعهدهنده، بر آن بودهاست که تا حد امکان تمامی الگوریتمهای رایج دادهکاوی و همچنین یادگیری ماشین پوشش داده شوند.
به گونهای که حتی این امکان برای نرمافزار فراهم شدهاست تا بتوان سایر ابزارهای متن باز دادهکاوی را نیز به آن الحاق نمود.
رابط گرافیکی شکیل و کاربرپسند نرمافزار نیز آن را یک سر و گردن بالاتر از سایر ابزارهای رقیب قرار میدهد.
از نقاط قوت نرمافزار میتوان به موارد زیر اشاره کرد.
- ارائه گزارش و رونوشت از مراحل اجرای الگوریتم.
- ظاهر پرداخته و آراسته.
- نمای گرافیکی خوب
- قابلیت تطابق با فایلهای خروجی بسیاری از نرمافزارها مانند Excel.
- امکان تصحیح و خطایابی بسیار سریع.
-وجود آموزشهای ویدیویی مناسب که برای این نرمافزار تهیه شده و در وب قرار داده شدهاست.
- مستندات شامل راهنمای بسیاری از عملگرها در نرمافزار.
- امکان اجرای همزمان الگوریتمهای یادگیری متفاوت در نرمافزار و مقایسه آنها با یکدیگر در ابزار در نظر گرفته شدهاست.
امکانات ویژه در این ابزار:
- به دلیل پیاده سازی و توسعه این نرمافزار با استفاده از زبان جاوا، امکان کار در سیستمهای عامل مختلف از جمله ویندوز، لینوکس و سیستمهای مکینتاش برای این نرمافزار وجود دارد.
- امکانات متنکاوی نیز در این نرمافزار پیشبینی شدهاست.
- کلیه الگوریتمهای یادگیری مدل در نرمافزار دادهکاوی WEKA پس از به هنگامسازی RapidMiner به نرمافزار اضافه خواهند شد.
درست در همان لحظه که دیگران نا امید می شوند،
افراد موفق ادامه می دهند.
سلام و عرض ادب.
روز زمستانی زیباتون، گرم و شاد.
امروز با یاد پروردگار با معرفی دو ابزار تحلیلی و کاوش دیگر :
KNIME
و
Weka
در خدمت شما عزیزان هستم.
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
افراد موفق ادامه می دهند.
سلام و عرض ادب.
روز زمستانی زیباتون، گرم و شاد.
امروز با یاد پروردگار با معرفی دو ابزار تحلیلی و کاوش دیگر :
KNIME
و
Weka
در خدمت شما عزیزان هستم.
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
وکا
(Weka)
یک نرم افزار داده کاوی متنباز میباشد که بسیاری از الگوریتمهای یادگیری ماشین را پشتیبانی میکند.
تمام قسمتهای این نرمافزار به زبان جاوا نوشته شده است و در نتیجه میتواند بر روی هر پلتفرمی اجرا گردد.
این پکیج شامل چهار واسط کاربری متفاوت میباشد:
Explorer:
در این حالت شما میتوانید روشهای مختلف آمادهسازی، تبدیل و الگوریتمهای مدلسازی بر روی دادهها را اجرا کنید.
Experimenter:
در این حالت فقط امکان اجرای الگوریتمهای مختلف ردهبندی به صورت همزمان و مقایسه نتایج آنها وجود دارد.
تمامی شاخصهای مورد نیاز به منظور بررسی مدلهای رده بندی در این قسمت تعریف شده و قرار دارند و گزارشات مفصلی را از جمله آزمون T می توان در این قسمت پس از مدلسازی استخراج نمود.
Knowledge Flow:
در این قسمت یک واسط گرافیکی طراحی شده است که مانند نرم افزارهای IBM Modeler و رپیدماینر در آن می توان جریان های داده ای مختلف تولید نمود.
command line interface (CLI):
در این حالت امکان مدلسازی توسط کدنویسی خط به خط قرار دارد.
در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با دادهها به فرمت Arff میانه بهتری دارد.
@BigDataTechnology
(Weka)
یک نرم افزار داده کاوی متنباز میباشد که بسیاری از الگوریتمهای یادگیری ماشین را پشتیبانی میکند.
تمام قسمتهای این نرمافزار به زبان جاوا نوشته شده است و در نتیجه میتواند بر روی هر پلتفرمی اجرا گردد.
این پکیج شامل چهار واسط کاربری متفاوت میباشد:
Explorer:
در این حالت شما میتوانید روشهای مختلف آمادهسازی، تبدیل و الگوریتمهای مدلسازی بر روی دادهها را اجرا کنید.
Experimenter:
در این حالت فقط امکان اجرای الگوریتمهای مختلف ردهبندی به صورت همزمان و مقایسه نتایج آنها وجود دارد.
تمامی شاخصهای مورد نیاز به منظور بررسی مدلهای رده بندی در این قسمت تعریف شده و قرار دارند و گزارشات مفصلی را از جمله آزمون T می توان در این قسمت پس از مدلسازی استخراج نمود.
Knowledge Flow:
در این قسمت یک واسط گرافیکی طراحی شده است که مانند نرم افزارهای IBM Modeler و رپیدماینر در آن می توان جریان های داده ای مختلف تولید نمود.
command line interface (CLI):
در این حالت امکان مدلسازی توسط کدنویسی خط به خط قرار دارد.
در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با دادهها به فرمت Arff میانه بهتری دارد.
@BigDataTechnology
KNIME
یک پلتفورم متنباز و یکپارچه برای تجزیه و تحلیل دادهها و گزارش کردن میباشد که به زبان جاوا نوشته شده و مبتنی بر Eclipse است.
KNIME
از طریق مفهوم pipeline کردن داده، اجزای مختلف یادگیری ماشین و دادهکاوی را ترکیب کرده است. در سال 2006 از KNIME در تحقیقات دارویی استفاده شد و بعدتر در زمینههای دیگر مانند تحلیل دادهها در مدیریت ارتباط با مشتری مانند تحلیل و پیشبینی ریزش مشتری، هوش تجاری و تحلیل دادهی مالی مانند رتبهبندی اعتبار، تحلیل شبکههای اجتماعی مانند تجزیه و تحلیل تمایلات و ... نیز مورد استفاده قرار گرفت.
ویژگیهای KNIME چیست؟
- به کاربران اجازه میدهد که به صورت بصری جریانات داده را بسازند.
یکی از کلیدهای موفقیت KNIME همین فرایند Workflowمیباشد که فرایند تحلیل را همانطوری که درک و پیادهسازی شده، ذخیره میکند.
- مقیاسپذیری بالا از طریق مدیریت دادهها و catching خودکار آنها
- امکان توسعهی زیاد و ساده از طریق APIهاس خوشساخت
- امکان ورودی دادن و خروجی گرفتن ازWorkflowها
- توانایی اجرای موازی روی سیستمهای چند هستهای
قابلیتهای KNIME چیست؟
ماژولهای موجود در KNIME قابلیتهای وسیعی را تحت پوشش قرار میدهند از جمله:
1) امکان ورودی و خروجی گرفتن از یک فایل (با فرمتهای متعدد) یا از یک پایگاه داده
2) امکان پیشپردازش روی داده با اعمال فیلترها، دستهبندی، چرخش، نرمالسازی و ...
3) امکان مشاهده داده و خروجیها از طریق نمایشهای تعاملی مختلف
4) با استفاده از الگوریتمهای دادهکاوی مانند خوشهبندی، استنتاج قوانین، درختهای تصمیم، قوانین انجمنی، شبکههای عصبی و ... به درک بهتر از دادهها کمک میکند.
@BigDataTechnology
یک پلتفورم متنباز و یکپارچه برای تجزیه و تحلیل دادهها و گزارش کردن میباشد که به زبان جاوا نوشته شده و مبتنی بر Eclipse است.
KNIME
از طریق مفهوم pipeline کردن داده، اجزای مختلف یادگیری ماشین و دادهکاوی را ترکیب کرده است. در سال 2006 از KNIME در تحقیقات دارویی استفاده شد و بعدتر در زمینههای دیگر مانند تحلیل دادهها در مدیریت ارتباط با مشتری مانند تحلیل و پیشبینی ریزش مشتری، هوش تجاری و تحلیل دادهی مالی مانند رتبهبندی اعتبار، تحلیل شبکههای اجتماعی مانند تجزیه و تحلیل تمایلات و ... نیز مورد استفاده قرار گرفت.
ویژگیهای KNIME چیست؟
- به کاربران اجازه میدهد که به صورت بصری جریانات داده را بسازند.
یکی از کلیدهای موفقیت KNIME همین فرایند Workflowمیباشد که فرایند تحلیل را همانطوری که درک و پیادهسازی شده، ذخیره میکند.
- مقیاسپذیری بالا از طریق مدیریت دادهها و catching خودکار آنها
- امکان توسعهی زیاد و ساده از طریق APIهاس خوشساخت
- امکان ورودی دادن و خروجی گرفتن ازWorkflowها
- توانایی اجرای موازی روی سیستمهای چند هستهای
قابلیتهای KNIME چیست؟
ماژولهای موجود در KNIME قابلیتهای وسیعی را تحت پوشش قرار میدهند از جمله:
1) امکان ورودی و خروجی گرفتن از یک فایل (با فرمتهای متعدد) یا از یک پایگاه داده
2) امکان پیشپردازش روی داده با اعمال فیلترها، دستهبندی، چرخش، نرمالسازی و ...
3) امکان مشاهده داده و خروجیها از طریق نمایشهای تعاملی مختلف
4) با استفاده از الگوریتمهای دادهکاوی مانند خوشهبندی، استنتاج قوانین، درختهای تصمیم، قوانین انجمنی، شبکههای عصبی و ... به درک بهتر از دادهها کمک میکند.
@BigDataTechnology