تحلیل در سطح هوش تجاری
BI Level Analysis
مورد استفاده:
"میزان داده ها از سطح حافظه عبور کرده است و ممکن است به محیط تحلیل هوش تجاری وارد شده باشد."
"تحلیل داده های بالاتر از ترابایت "
------------------------
تحلیل در سطح انبوه:
Massive Level Analysis
مورد استفاده :
"میزان داده ها از ظرفیت های محصولات هوش تجاری و پایگاه داده های رابطه ای سنتی به کلی پیشی گرفته است."
این تحلیل برای ذخیره سازی از HDFSو برای تحلیل داده ها از MapReduce استفاده میکند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
BI Level Analysis
مورد استفاده:
"میزان داده ها از سطح حافظه عبور کرده است و ممکن است به محیط تحلیل هوش تجاری وارد شده باشد."
"تحلیل داده های بالاتر از ترابایت "
------------------------
تحلیل در سطح انبوه:
Massive Level Analysis
مورد استفاده :
"میزان داده ها از ظرفیت های محصولات هوش تجاری و پایگاه داده های رابطه ای سنتی به کلی پیشی گرفته است."
این تحلیل برای ذخیره سازی از HDFSو برای تحلیل داده ها از MapReduce استفاده میکند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
ابزارهایی برای تحلیل و کاوش کلان داده ها در دسترس هستند.
پنج نرم افزار برتر خدمتتان معرفی می شود :
R
Excel
Rapidminer
KNIME
Weka/Pentaho
در ادامه هر کدام به صورت مختصر با هم بررسی خواهیم کرد.
پنج نرم افزار برتر خدمتتان معرفی می شود :
R
Excel
Rapidminer
KNIME
Weka/Pentaho
در ادامه هر کدام به صورت مختصر با هم بررسی خواهیم کرد.
نحوه ای که روزتان را آغاز میکنید، می تواند روی کل آن روز تاثیر بگذارد.
هر روزتان را با یک لبخند ، آرامش خیال ، خونسردی و قلبی سرشار از قدردانی شروع کنید.
سلام و صبح بخیر خدمت دوستان عزیز بیگ دیتا.
روزی سرشار از انرژی و آرامش برایتان آرزومندم.
امروز با یاد پروردگار مهربان ،ابزارهای تحلیل و داده کاوی را با هم دنبال خواهیم کرد.🙏
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
هر روزتان را با یک لبخند ، آرامش خیال ، خونسردی و قلبی سرشار از قدردانی شروع کنید.
سلام و صبح بخیر خدمت دوستان عزیز بیگ دیتا.
روزی سرشار از انرژی و آرامش برایتان آرزومندم.
امروز با یاد پروردگار مهربان ،ابزارهای تحلیل و داده کاوی را با هم دنبال خواهیم کرد.🙏
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
تحلیل به کمک R :
یک زبان برنامهنویسی و محیط نرمافزاری برای محاسبات آماری و تحلیل داده است،
که بر اساس زبانهای اس و اسکیم پیادهسازی شده است.
این نرمافزار بازمتن، تحت اجازهنامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است.
زبان اس بجز R، توسط شرکت Insightful، در نرمافزار تجاری اسپلاس نیز پیادهسازی شده است.
اگرچه دستورات اسپلاس و R بسیار شبیه است لیکن این دو نرمافزار دارای هستههای متمایزی میباشند.
ویژگیها :
R
حاوی محدودهٔ گستردهای از تکنیکهای آماری (از جمله: مدلسازی خطی و غیرخطی، آزمونهای کلاسیک آماری، تحلیل سریهای زمانی، ردهبندی، خوشهبندی و غیره) و قابلیتهای گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره میتوانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.
یک زبان برنامهنویسی و محیط نرمافزاری برای محاسبات آماری و تحلیل داده است،
که بر اساس زبانهای اس و اسکیم پیادهسازی شده است.
این نرمافزار بازمتن، تحت اجازهنامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است.
زبان اس بجز R، توسط شرکت Insightful، در نرمافزار تجاری اسپلاس نیز پیادهسازی شده است.
اگرچه دستورات اسپلاس و R بسیار شبیه است لیکن این دو نرمافزار دارای هستههای متمایزی میباشند.
ویژگیها :
R
حاوی محدودهٔ گستردهای از تکنیکهای آماری (از جمله: مدلسازی خطی و غیرخطی، آزمونهای کلاسیک آماری، تحلیل سریهای زمانی، ردهبندی، خوشهبندی و غیره) و قابلیتهای گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره میتوانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.
تحلیل و کاوش به کمک Excel
اکسل از اجزای هسته آفیس ماکروسافت پردازش قدرتمند داده ها و قابلیت تحلیل آماری را فراهم میکند.
پلاگین های پیشرفته تحلیل:
Analysis ToolPak
Solver Add-im
در حالت عادی فعال نمیباشد و به منظور فعال سازی آن نیاز است از مسیر زیر آن را فعال نمود.
File -> Option -> Add-ins
با انتخاب Add-ins از منوی Option پنجرهای مطابق با پنجره زیر باز میشود.
با قرار دادن حالت Manage بر روی Excel Add-ins پنجرهی جدیدی باز میشود که در آن میتوانید تیک مربوط به Analysis Toolpak و Solver را فعال نموده و با تایید آن ابزارهای Analysis Toolpak و Solver به تب Data اضافه میشوند.
اکسل از اجزای هسته آفیس ماکروسافت پردازش قدرتمند داده ها و قابلیت تحلیل آماری را فراهم میکند.
پلاگین های پیشرفته تحلیل:
Analysis ToolPak
Solver Add-im
در حالت عادی فعال نمیباشد و به منظور فعال سازی آن نیاز است از مسیر زیر آن را فعال نمود.
File -> Option -> Add-ins
با انتخاب Add-ins از منوی Option پنجرهای مطابق با پنجره زیر باز میشود.
با قرار دادن حالت Manage بر روی Excel Add-ins پنجرهی جدیدی باز میشود که در آن میتوانید تیک مربوط به Analysis Toolpak و Solver را فعال نموده و با تایید آن ابزارهای Analysis Toolpak و Solver به تب Data اضافه میشوند.
RapidMiner
این نرمافزار یک ابزار دادهکاوی متن باز است که با زبان جاوا نوشته شدهاست و از سال 2001 تا به حال، توسعه داده شدهاست.
در این نرمافزار سعی تیم توسعهدهنده، بر آن بودهاست که تا حد امکان تمامی الگوریتمهای رایج دادهکاوی و همچنین یادگیری ماشین پوشش داده شوند.
به گونهای که حتی این امکان برای نرمافزار فراهم شدهاست تا بتوان سایر ابزارهای متن باز دادهکاوی را نیز به آن الحاق نمود.
رابط گرافیکی شکیل و کاربرپسند نرمافزار نیز آن را یک سر و گردن بالاتر از سایر ابزارهای رقیب قرار میدهد.
از نقاط قوت نرمافزار میتوان به موارد زیر اشاره کرد.
- ارائه گزارش و رونوشت از مراحل اجرای الگوریتم.
- ظاهر پرداخته و آراسته.
- نمای گرافیکی خوب
- قابلیت تطابق با فایلهای خروجی بسیاری از نرمافزارها مانند Excel.
- امکان تصحیح و خطایابی بسیار سریع.
-وجود آموزشهای ویدیویی مناسب که برای این نرمافزار تهیه شده و در وب قرار داده شدهاست.
- مستندات شامل راهنمای بسیاری از عملگرها در نرمافزار.
- امکان اجرای همزمان الگوریتمهای یادگیری متفاوت در نرمافزار و مقایسه آنها با یکدیگر در ابزار در نظر گرفته شدهاست.
امکانات ویژه در این ابزار:
- به دلیل پیاده سازی و توسعه این نرمافزار با استفاده از زبان جاوا، امکان کار در سیستمهای عامل مختلف از جمله ویندوز، لینوکس و سیستمهای مکینتاش برای این نرمافزار وجود دارد.
- امکانات متنکاوی نیز در این نرمافزار پیشبینی شدهاست.
- کلیه الگوریتمهای یادگیری مدل در نرمافزار دادهکاوی WEKA پس از به هنگامسازی RapidMiner به نرمافزار اضافه خواهند شد.
این نرمافزار یک ابزار دادهکاوی متن باز است که با زبان جاوا نوشته شدهاست و از سال 2001 تا به حال، توسعه داده شدهاست.
در این نرمافزار سعی تیم توسعهدهنده، بر آن بودهاست که تا حد امکان تمامی الگوریتمهای رایج دادهکاوی و همچنین یادگیری ماشین پوشش داده شوند.
به گونهای که حتی این امکان برای نرمافزار فراهم شدهاست تا بتوان سایر ابزارهای متن باز دادهکاوی را نیز به آن الحاق نمود.
رابط گرافیکی شکیل و کاربرپسند نرمافزار نیز آن را یک سر و گردن بالاتر از سایر ابزارهای رقیب قرار میدهد.
از نقاط قوت نرمافزار میتوان به موارد زیر اشاره کرد.
- ارائه گزارش و رونوشت از مراحل اجرای الگوریتم.
- ظاهر پرداخته و آراسته.
- نمای گرافیکی خوب
- قابلیت تطابق با فایلهای خروجی بسیاری از نرمافزارها مانند Excel.
- امکان تصحیح و خطایابی بسیار سریع.
-وجود آموزشهای ویدیویی مناسب که برای این نرمافزار تهیه شده و در وب قرار داده شدهاست.
- مستندات شامل راهنمای بسیاری از عملگرها در نرمافزار.
- امکان اجرای همزمان الگوریتمهای یادگیری متفاوت در نرمافزار و مقایسه آنها با یکدیگر در ابزار در نظر گرفته شدهاست.
امکانات ویژه در این ابزار:
- به دلیل پیاده سازی و توسعه این نرمافزار با استفاده از زبان جاوا، امکان کار در سیستمهای عامل مختلف از جمله ویندوز، لینوکس و سیستمهای مکینتاش برای این نرمافزار وجود دارد.
- امکانات متنکاوی نیز در این نرمافزار پیشبینی شدهاست.
- کلیه الگوریتمهای یادگیری مدل در نرمافزار دادهکاوی WEKA پس از به هنگامسازی RapidMiner به نرمافزار اضافه خواهند شد.
درست در همان لحظه که دیگران نا امید می شوند،
افراد موفق ادامه می دهند.
سلام و عرض ادب.
روز زمستانی زیباتون، گرم و شاد.
امروز با یاد پروردگار با معرفی دو ابزار تحلیلی و کاوش دیگر :
KNIME
و
Weka
در خدمت شما عزیزان هستم.
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
افراد موفق ادامه می دهند.
سلام و عرض ادب.
روز زمستانی زیباتون، گرم و شاد.
امروز با یاد پروردگار با معرفی دو ابزار تحلیلی و کاوش دیگر :
KNIME
و
Weka
در خدمت شما عزیزان هستم.
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
وکا
(Weka)
یک نرم افزار داده کاوی متنباز میباشد که بسیاری از الگوریتمهای یادگیری ماشین را پشتیبانی میکند.
تمام قسمتهای این نرمافزار به زبان جاوا نوشته شده است و در نتیجه میتواند بر روی هر پلتفرمی اجرا گردد.
این پکیج شامل چهار واسط کاربری متفاوت میباشد:
Explorer:
در این حالت شما میتوانید روشهای مختلف آمادهسازی، تبدیل و الگوریتمهای مدلسازی بر روی دادهها را اجرا کنید.
Experimenter:
در این حالت فقط امکان اجرای الگوریتمهای مختلف ردهبندی به صورت همزمان و مقایسه نتایج آنها وجود دارد.
تمامی شاخصهای مورد نیاز به منظور بررسی مدلهای رده بندی در این قسمت تعریف شده و قرار دارند و گزارشات مفصلی را از جمله آزمون T می توان در این قسمت پس از مدلسازی استخراج نمود.
Knowledge Flow:
در این قسمت یک واسط گرافیکی طراحی شده است که مانند نرم افزارهای IBM Modeler و رپیدماینر در آن می توان جریان های داده ای مختلف تولید نمود.
command line interface (CLI):
در این حالت امکان مدلسازی توسط کدنویسی خط به خط قرار دارد.
در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با دادهها به فرمت Arff میانه بهتری دارد.
@BigDataTechnology
(Weka)
یک نرم افزار داده کاوی متنباز میباشد که بسیاری از الگوریتمهای یادگیری ماشین را پشتیبانی میکند.
تمام قسمتهای این نرمافزار به زبان جاوا نوشته شده است و در نتیجه میتواند بر روی هر پلتفرمی اجرا گردد.
این پکیج شامل چهار واسط کاربری متفاوت میباشد:
Explorer:
در این حالت شما میتوانید روشهای مختلف آمادهسازی، تبدیل و الگوریتمهای مدلسازی بر روی دادهها را اجرا کنید.
Experimenter:
در این حالت فقط امکان اجرای الگوریتمهای مختلف ردهبندی به صورت همزمان و مقایسه نتایج آنها وجود دارد.
تمامی شاخصهای مورد نیاز به منظور بررسی مدلهای رده بندی در این قسمت تعریف شده و قرار دارند و گزارشات مفصلی را از جمله آزمون T می توان در این قسمت پس از مدلسازی استخراج نمود.
Knowledge Flow:
در این قسمت یک واسط گرافیکی طراحی شده است که مانند نرم افزارهای IBM Modeler و رپیدماینر در آن می توان جریان های داده ای مختلف تولید نمود.
command line interface (CLI):
در این حالت امکان مدلسازی توسط کدنویسی خط به خط قرار دارد.
در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با دادهها به فرمت Arff میانه بهتری دارد.
@BigDataTechnology
KNIME
یک پلتفورم متنباز و یکپارچه برای تجزیه و تحلیل دادهها و گزارش کردن میباشد که به زبان جاوا نوشته شده و مبتنی بر Eclipse است.
KNIME
از طریق مفهوم pipeline کردن داده، اجزای مختلف یادگیری ماشین و دادهکاوی را ترکیب کرده است. در سال 2006 از KNIME در تحقیقات دارویی استفاده شد و بعدتر در زمینههای دیگر مانند تحلیل دادهها در مدیریت ارتباط با مشتری مانند تحلیل و پیشبینی ریزش مشتری، هوش تجاری و تحلیل دادهی مالی مانند رتبهبندی اعتبار، تحلیل شبکههای اجتماعی مانند تجزیه و تحلیل تمایلات و ... نیز مورد استفاده قرار گرفت.
ویژگیهای KNIME چیست؟
- به کاربران اجازه میدهد که به صورت بصری جریانات داده را بسازند.
یکی از کلیدهای موفقیت KNIME همین فرایند Workflowمیباشد که فرایند تحلیل را همانطوری که درک و پیادهسازی شده، ذخیره میکند.
- مقیاسپذیری بالا از طریق مدیریت دادهها و catching خودکار آنها
- امکان توسعهی زیاد و ساده از طریق APIهاس خوشساخت
- امکان ورودی دادن و خروجی گرفتن ازWorkflowها
- توانایی اجرای موازی روی سیستمهای چند هستهای
قابلیتهای KNIME چیست؟
ماژولهای موجود در KNIME قابلیتهای وسیعی را تحت پوشش قرار میدهند از جمله:
1) امکان ورودی و خروجی گرفتن از یک فایل (با فرمتهای متعدد) یا از یک پایگاه داده
2) امکان پیشپردازش روی داده با اعمال فیلترها، دستهبندی، چرخش، نرمالسازی و ...
3) امکان مشاهده داده و خروجیها از طریق نمایشهای تعاملی مختلف
4) با استفاده از الگوریتمهای دادهکاوی مانند خوشهبندی، استنتاج قوانین، درختهای تصمیم، قوانین انجمنی، شبکههای عصبی و ... به درک بهتر از دادهها کمک میکند.
@BigDataTechnology
یک پلتفورم متنباز و یکپارچه برای تجزیه و تحلیل دادهها و گزارش کردن میباشد که به زبان جاوا نوشته شده و مبتنی بر Eclipse است.
KNIME
از طریق مفهوم pipeline کردن داده، اجزای مختلف یادگیری ماشین و دادهکاوی را ترکیب کرده است. در سال 2006 از KNIME در تحقیقات دارویی استفاده شد و بعدتر در زمینههای دیگر مانند تحلیل دادهها در مدیریت ارتباط با مشتری مانند تحلیل و پیشبینی ریزش مشتری، هوش تجاری و تحلیل دادهی مالی مانند رتبهبندی اعتبار، تحلیل شبکههای اجتماعی مانند تجزیه و تحلیل تمایلات و ... نیز مورد استفاده قرار گرفت.
ویژگیهای KNIME چیست؟
- به کاربران اجازه میدهد که به صورت بصری جریانات داده را بسازند.
یکی از کلیدهای موفقیت KNIME همین فرایند Workflowمیباشد که فرایند تحلیل را همانطوری که درک و پیادهسازی شده، ذخیره میکند.
- مقیاسپذیری بالا از طریق مدیریت دادهها و catching خودکار آنها
- امکان توسعهی زیاد و ساده از طریق APIهاس خوشساخت
- امکان ورودی دادن و خروجی گرفتن ازWorkflowها
- توانایی اجرای موازی روی سیستمهای چند هستهای
قابلیتهای KNIME چیست؟
ماژولهای موجود در KNIME قابلیتهای وسیعی را تحت پوشش قرار میدهند از جمله:
1) امکان ورودی و خروجی گرفتن از یک فایل (با فرمتهای متعدد) یا از یک پایگاه داده
2) امکان پیشپردازش روی داده با اعمال فیلترها، دستهبندی، چرخش، نرمالسازی و ...
3) امکان مشاهده داده و خروجیها از طریق نمایشهای تعاملی مختلف
4) با استفاده از الگوریتمهای دادهکاوی مانند خوشهبندی، استنتاج قوانین، درختهای تصمیم، قوانین انجمنی، شبکههای عصبی و ... به درک بهتر از دادهها کمک میکند.
@BigDataTechnology
زمینه های تحلیل کلان داده ها :
تحلیل داده های ساخت یافته
تحلیل داده های متنی
تحلیل داده های وب
تحلیل داده های چند رسانه ای
تحلیل داده های شبکه
تحلیل ترافیک سیار
در ادامه هر یک را بررسی خواهیم کرد.
تحلیل داده های ساخت یافته
تحلیل داده های متنی
تحلیل داده های وب
تحلیل داده های چند رسانه ای
تحلیل داده های شبکه
تحلیل ترافیک سیار
در ادامه هر یک را بررسی خواهیم کرد.
تحلیل داده های ساخت یافته :
@BigDataTechnology
کاربرد تجاری و تحقیقات علمی ممکن است انبوهی از داده های ساخت یافته را تولید کنند که مدیریت و تحلیل آن ها بر فناوری های بلوغ یافته ی تجاری مانند RDBMS ،انبار داده ها ،BPM تکیه میکند.
تحلیل داده ها عمدتا بر اساس داده کاوی و تحلیل آماری است.
بهره برداری از ویژگی های داده ها ، کاوش زمان و مکان میتواند ساختارهای دانش پنهان در جریان داده های با سرعت بالا و شیوه ها و مدل های حسگر را استخراج کند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
@BigDataTechnology
@BigDataTechnology
کاربرد تجاری و تحقیقات علمی ممکن است انبوهی از داده های ساخت یافته را تولید کنند که مدیریت و تحلیل آن ها بر فناوری های بلوغ یافته ی تجاری مانند RDBMS ،انبار داده ها ،BPM تکیه میکند.
تحلیل داده ها عمدتا بر اساس داده کاوی و تحلیل آماری است.
بهره برداری از ویژگی های داده ها ، کاوش زمان و مکان میتواند ساختارهای دانش پنهان در جریان داده های با سرعت بالا و شیوه ها و مدل های حسگر را استخراج کند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
@BigDataTechnology
دوستان عزیز ضمن عرض سلام و خسته نباشید.
طی هفته ی آینده آشنایی با مبانی بیگ دیتا را به اتمام میرسانیم و هدفی که این کانال در آینده دنبال میکند آموزش های عملی و کاربردی است.
دوستان جهت بهبود روند پروسه آموزش نظرات و انتقادات خود را به آی دی شخصی بنده
@GolnazArdeshiri
ارسال کنید.
در ابتدا با اصول بنیادی هدوپ با سر فصل های زیر آشنا خواهیم شد:
درک اجزای اصلی هدوپ
راه اندازی محیط توسعه هدوپ
کار با سیستم فایل هدوپ
تنظیم نگاشت کاهش
درک Hive و HBase
این روند با ویدیو های آموزشی همراه است.
دوستان عزیز لازم به ذکر است به دلیل سطوح مختلف دانشی اعضای این کانال بهتر است آموزش ها آهسته و پیوسته ادامه پیدا کند.
با ما همراه باشید.
@BigDataTechnology
طی هفته ی آینده آشنایی با مبانی بیگ دیتا را به اتمام میرسانیم و هدفی که این کانال در آینده دنبال میکند آموزش های عملی و کاربردی است.
دوستان جهت بهبود روند پروسه آموزش نظرات و انتقادات خود را به آی دی شخصی بنده
@GolnazArdeshiri
ارسال کنید.
در ابتدا با اصول بنیادی هدوپ با سر فصل های زیر آشنا خواهیم شد:
درک اجزای اصلی هدوپ
راه اندازی محیط توسعه هدوپ
کار با سیستم فایل هدوپ
تنظیم نگاشت کاهش
درک Hive و HBase
این روند با ویدیو های آموزشی همراه است.
دوستان عزیز لازم به ذکر است به دلیل سطوح مختلف دانشی اعضای این کانال بهتر است آموزش ها آهسته و پیوسته ادامه پیدا کند.
با ما همراه باشید.
@BigDataTechnology
زمینه تحلیل کلان داده ها :
تحلیل داده های متنی:
متن، رایج ترین قالب ذخیره سازی اطلاعات است.
به عنوان مثال، ارتباطات پست الکترونیک ، اسناد تجاری ، صفحات وب و رسانه های اجتماعی.
بنابراین تحلیل متن (داده ای غیر ساخت بافته) نسبت به داده کاوی ساخت یافته بیشتر بر ویژگی بالقوه مبتنی بر تجارت نزدیک است.
به طور کلی تحلیل متن، متن کاوی نامیده میشود.
اکثر سیستم های متن کاوی بر اساس عبارت متنی و پردازش زبان طبیعی (NLP) هستند.
در ادامه با پردازش زبان طبیعی آشنا خواهیم شد.
@BigDataTechnology
تحلیل داده های متنی:
متن، رایج ترین قالب ذخیره سازی اطلاعات است.
به عنوان مثال، ارتباطات پست الکترونیک ، اسناد تجاری ، صفحات وب و رسانه های اجتماعی.
بنابراین تحلیل متن (داده ای غیر ساخت بافته) نسبت به داده کاوی ساخت یافته بیشتر بر ویژگی بالقوه مبتنی بر تجارت نزدیک است.
به طور کلی تحلیل متن، متن کاوی نامیده میشود.
اکثر سیستم های متن کاوی بر اساس عبارت متنی و پردازش زبان طبیعی (NLP) هستند.
در ادامه با پردازش زبان طبیعی آشنا خواهیم شد.
@BigDataTechnology