تحلیل به کمک R :
یک زبان برنامهنویسی و محیط نرمافزاری برای محاسبات آماری و تحلیل داده است،
که بر اساس زبانهای اس و اسکیم پیادهسازی شده است.
این نرمافزار بازمتن، تحت اجازهنامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است.
زبان اس بجز R، توسط شرکت Insightful، در نرمافزار تجاری اسپلاس نیز پیادهسازی شده است.
اگرچه دستورات اسپلاس و R بسیار شبیه است لیکن این دو نرمافزار دارای هستههای متمایزی میباشند.
ویژگیها :
R
حاوی محدودهٔ گستردهای از تکنیکهای آماری (از جمله: مدلسازی خطی و غیرخطی، آزمونهای کلاسیک آماری، تحلیل سریهای زمانی، ردهبندی، خوشهبندی و غیره) و قابلیتهای گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره میتوانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.
یک زبان برنامهنویسی و محیط نرمافزاری برای محاسبات آماری و تحلیل داده است،
که بر اساس زبانهای اس و اسکیم پیادهسازی شده است.
این نرمافزار بازمتن، تحت اجازهنامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است.
زبان اس بجز R، توسط شرکت Insightful، در نرمافزار تجاری اسپلاس نیز پیادهسازی شده است.
اگرچه دستورات اسپلاس و R بسیار شبیه است لیکن این دو نرمافزار دارای هستههای متمایزی میباشند.
ویژگیها :
R
حاوی محدودهٔ گستردهای از تکنیکهای آماری (از جمله: مدلسازی خطی و غیرخطی، آزمونهای کلاسیک آماری، تحلیل سریهای زمانی، ردهبندی، خوشهبندی و غیره) و قابلیتهای گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره میتوانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.
تحلیل و کاوش به کمک Excel
اکسل از اجزای هسته آفیس ماکروسافت پردازش قدرتمند داده ها و قابلیت تحلیل آماری را فراهم میکند.
پلاگین های پیشرفته تحلیل:
Analysis ToolPak
Solver Add-im
در حالت عادی فعال نمیباشد و به منظور فعال سازی آن نیاز است از مسیر زیر آن را فعال نمود.
File -> Option -> Add-ins
با انتخاب Add-ins از منوی Option پنجرهای مطابق با پنجره زیر باز میشود.
با قرار دادن حالت Manage بر روی Excel Add-ins پنجرهی جدیدی باز میشود که در آن میتوانید تیک مربوط به Analysis Toolpak و Solver را فعال نموده و با تایید آن ابزارهای Analysis Toolpak و Solver به تب Data اضافه میشوند.
اکسل از اجزای هسته آفیس ماکروسافت پردازش قدرتمند داده ها و قابلیت تحلیل آماری را فراهم میکند.
پلاگین های پیشرفته تحلیل:
Analysis ToolPak
Solver Add-im
در حالت عادی فعال نمیباشد و به منظور فعال سازی آن نیاز است از مسیر زیر آن را فعال نمود.
File -> Option -> Add-ins
با انتخاب Add-ins از منوی Option پنجرهای مطابق با پنجره زیر باز میشود.
با قرار دادن حالت Manage بر روی Excel Add-ins پنجرهی جدیدی باز میشود که در آن میتوانید تیک مربوط به Analysis Toolpak و Solver را فعال نموده و با تایید آن ابزارهای Analysis Toolpak و Solver به تب Data اضافه میشوند.
RapidMiner
این نرمافزار یک ابزار دادهکاوی متن باز است که با زبان جاوا نوشته شدهاست و از سال 2001 تا به حال، توسعه داده شدهاست.
در این نرمافزار سعی تیم توسعهدهنده، بر آن بودهاست که تا حد امکان تمامی الگوریتمهای رایج دادهکاوی و همچنین یادگیری ماشین پوشش داده شوند.
به گونهای که حتی این امکان برای نرمافزار فراهم شدهاست تا بتوان سایر ابزارهای متن باز دادهکاوی را نیز به آن الحاق نمود.
رابط گرافیکی شکیل و کاربرپسند نرمافزار نیز آن را یک سر و گردن بالاتر از سایر ابزارهای رقیب قرار میدهد.
از نقاط قوت نرمافزار میتوان به موارد زیر اشاره کرد.
- ارائه گزارش و رونوشت از مراحل اجرای الگوریتم.
- ظاهر پرداخته و آراسته.
- نمای گرافیکی خوب
- قابلیت تطابق با فایلهای خروجی بسیاری از نرمافزارها مانند Excel.
- امکان تصحیح و خطایابی بسیار سریع.
-وجود آموزشهای ویدیویی مناسب که برای این نرمافزار تهیه شده و در وب قرار داده شدهاست.
- مستندات شامل راهنمای بسیاری از عملگرها در نرمافزار.
- امکان اجرای همزمان الگوریتمهای یادگیری متفاوت در نرمافزار و مقایسه آنها با یکدیگر در ابزار در نظر گرفته شدهاست.
امکانات ویژه در این ابزار:
- به دلیل پیاده سازی و توسعه این نرمافزار با استفاده از زبان جاوا، امکان کار در سیستمهای عامل مختلف از جمله ویندوز، لینوکس و سیستمهای مکینتاش برای این نرمافزار وجود دارد.
- امکانات متنکاوی نیز در این نرمافزار پیشبینی شدهاست.
- کلیه الگوریتمهای یادگیری مدل در نرمافزار دادهکاوی WEKA پس از به هنگامسازی RapidMiner به نرمافزار اضافه خواهند شد.
این نرمافزار یک ابزار دادهکاوی متن باز است که با زبان جاوا نوشته شدهاست و از سال 2001 تا به حال، توسعه داده شدهاست.
در این نرمافزار سعی تیم توسعهدهنده، بر آن بودهاست که تا حد امکان تمامی الگوریتمهای رایج دادهکاوی و همچنین یادگیری ماشین پوشش داده شوند.
به گونهای که حتی این امکان برای نرمافزار فراهم شدهاست تا بتوان سایر ابزارهای متن باز دادهکاوی را نیز به آن الحاق نمود.
رابط گرافیکی شکیل و کاربرپسند نرمافزار نیز آن را یک سر و گردن بالاتر از سایر ابزارهای رقیب قرار میدهد.
از نقاط قوت نرمافزار میتوان به موارد زیر اشاره کرد.
- ارائه گزارش و رونوشت از مراحل اجرای الگوریتم.
- ظاهر پرداخته و آراسته.
- نمای گرافیکی خوب
- قابلیت تطابق با فایلهای خروجی بسیاری از نرمافزارها مانند Excel.
- امکان تصحیح و خطایابی بسیار سریع.
-وجود آموزشهای ویدیویی مناسب که برای این نرمافزار تهیه شده و در وب قرار داده شدهاست.
- مستندات شامل راهنمای بسیاری از عملگرها در نرمافزار.
- امکان اجرای همزمان الگوریتمهای یادگیری متفاوت در نرمافزار و مقایسه آنها با یکدیگر در ابزار در نظر گرفته شدهاست.
امکانات ویژه در این ابزار:
- به دلیل پیاده سازی و توسعه این نرمافزار با استفاده از زبان جاوا، امکان کار در سیستمهای عامل مختلف از جمله ویندوز، لینوکس و سیستمهای مکینتاش برای این نرمافزار وجود دارد.
- امکانات متنکاوی نیز در این نرمافزار پیشبینی شدهاست.
- کلیه الگوریتمهای یادگیری مدل در نرمافزار دادهکاوی WEKA پس از به هنگامسازی RapidMiner به نرمافزار اضافه خواهند شد.
درست در همان لحظه که دیگران نا امید می شوند،
افراد موفق ادامه می دهند.
سلام و عرض ادب.
روز زمستانی زیباتون، گرم و شاد.
امروز با یاد پروردگار با معرفی دو ابزار تحلیلی و کاوش دیگر :
KNIME
و
Weka
در خدمت شما عزیزان هستم.
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
افراد موفق ادامه می دهند.
سلام و عرض ادب.
روز زمستانی زیباتون، گرم و شاد.
امروز با یاد پروردگار با معرفی دو ابزار تحلیلی و کاوش دیگر :
KNIME
و
Weka
در خدمت شما عزیزان هستم.
با تشکر از توجه شما 🌷
گلناز اردشیری
@BigDataTechnology
وکا
(Weka)
یک نرم افزار داده کاوی متنباز میباشد که بسیاری از الگوریتمهای یادگیری ماشین را پشتیبانی میکند.
تمام قسمتهای این نرمافزار به زبان جاوا نوشته شده است و در نتیجه میتواند بر روی هر پلتفرمی اجرا گردد.
این پکیج شامل چهار واسط کاربری متفاوت میباشد:
Explorer:
در این حالت شما میتوانید روشهای مختلف آمادهسازی، تبدیل و الگوریتمهای مدلسازی بر روی دادهها را اجرا کنید.
Experimenter:
در این حالت فقط امکان اجرای الگوریتمهای مختلف ردهبندی به صورت همزمان و مقایسه نتایج آنها وجود دارد.
تمامی شاخصهای مورد نیاز به منظور بررسی مدلهای رده بندی در این قسمت تعریف شده و قرار دارند و گزارشات مفصلی را از جمله آزمون T می توان در این قسمت پس از مدلسازی استخراج نمود.
Knowledge Flow:
در این قسمت یک واسط گرافیکی طراحی شده است که مانند نرم افزارهای IBM Modeler و رپیدماینر در آن می توان جریان های داده ای مختلف تولید نمود.
command line interface (CLI):
در این حالت امکان مدلسازی توسط کدنویسی خط به خط قرار دارد.
در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با دادهها به فرمت Arff میانه بهتری دارد.
@BigDataTechnology
(Weka)
یک نرم افزار داده کاوی متنباز میباشد که بسیاری از الگوریتمهای یادگیری ماشین را پشتیبانی میکند.
تمام قسمتهای این نرمافزار به زبان جاوا نوشته شده است و در نتیجه میتواند بر روی هر پلتفرمی اجرا گردد.
این پکیج شامل چهار واسط کاربری متفاوت میباشد:
Explorer:
در این حالت شما میتوانید روشهای مختلف آمادهسازی، تبدیل و الگوریتمهای مدلسازی بر روی دادهها را اجرا کنید.
Experimenter:
در این حالت فقط امکان اجرای الگوریتمهای مختلف ردهبندی به صورت همزمان و مقایسه نتایج آنها وجود دارد.
تمامی شاخصهای مورد نیاز به منظور بررسی مدلهای رده بندی در این قسمت تعریف شده و قرار دارند و گزارشات مفصلی را از جمله آزمون T می توان در این قسمت پس از مدلسازی استخراج نمود.
Knowledge Flow:
در این قسمت یک واسط گرافیکی طراحی شده است که مانند نرم افزارهای IBM Modeler و رپیدماینر در آن می توان جریان های داده ای مختلف تولید نمود.
command line interface (CLI):
در این حالت امکان مدلسازی توسط کدنویسی خط به خط قرار دارد.
در وکا داده ها می توانند به فرمت های مختلف از جمله Excel، CSV و Arff باشند. اما به طور کلی این نرم افزار با دادهها به فرمت Arff میانه بهتری دارد.
@BigDataTechnology
KNIME
یک پلتفورم متنباز و یکپارچه برای تجزیه و تحلیل دادهها و گزارش کردن میباشد که به زبان جاوا نوشته شده و مبتنی بر Eclipse است.
KNIME
از طریق مفهوم pipeline کردن داده، اجزای مختلف یادگیری ماشین و دادهکاوی را ترکیب کرده است. در سال 2006 از KNIME در تحقیقات دارویی استفاده شد و بعدتر در زمینههای دیگر مانند تحلیل دادهها در مدیریت ارتباط با مشتری مانند تحلیل و پیشبینی ریزش مشتری، هوش تجاری و تحلیل دادهی مالی مانند رتبهبندی اعتبار، تحلیل شبکههای اجتماعی مانند تجزیه و تحلیل تمایلات و ... نیز مورد استفاده قرار گرفت.
ویژگیهای KNIME چیست؟
- به کاربران اجازه میدهد که به صورت بصری جریانات داده را بسازند.
یکی از کلیدهای موفقیت KNIME همین فرایند Workflowمیباشد که فرایند تحلیل را همانطوری که درک و پیادهسازی شده، ذخیره میکند.
- مقیاسپذیری بالا از طریق مدیریت دادهها و catching خودکار آنها
- امکان توسعهی زیاد و ساده از طریق APIهاس خوشساخت
- امکان ورودی دادن و خروجی گرفتن ازWorkflowها
- توانایی اجرای موازی روی سیستمهای چند هستهای
قابلیتهای KNIME چیست؟
ماژولهای موجود در KNIME قابلیتهای وسیعی را تحت پوشش قرار میدهند از جمله:
1) امکان ورودی و خروجی گرفتن از یک فایل (با فرمتهای متعدد) یا از یک پایگاه داده
2) امکان پیشپردازش روی داده با اعمال فیلترها، دستهبندی، چرخش، نرمالسازی و ...
3) امکان مشاهده داده و خروجیها از طریق نمایشهای تعاملی مختلف
4) با استفاده از الگوریتمهای دادهکاوی مانند خوشهبندی، استنتاج قوانین، درختهای تصمیم، قوانین انجمنی، شبکههای عصبی و ... به درک بهتر از دادهها کمک میکند.
@BigDataTechnology
یک پلتفورم متنباز و یکپارچه برای تجزیه و تحلیل دادهها و گزارش کردن میباشد که به زبان جاوا نوشته شده و مبتنی بر Eclipse است.
KNIME
از طریق مفهوم pipeline کردن داده، اجزای مختلف یادگیری ماشین و دادهکاوی را ترکیب کرده است. در سال 2006 از KNIME در تحقیقات دارویی استفاده شد و بعدتر در زمینههای دیگر مانند تحلیل دادهها در مدیریت ارتباط با مشتری مانند تحلیل و پیشبینی ریزش مشتری، هوش تجاری و تحلیل دادهی مالی مانند رتبهبندی اعتبار، تحلیل شبکههای اجتماعی مانند تجزیه و تحلیل تمایلات و ... نیز مورد استفاده قرار گرفت.
ویژگیهای KNIME چیست؟
- به کاربران اجازه میدهد که به صورت بصری جریانات داده را بسازند.
یکی از کلیدهای موفقیت KNIME همین فرایند Workflowمیباشد که فرایند تحلیل را همانطوری که درک و پیادهسازی شده، ذخیره میکند.
- مقیاسپذیری بالا از طریق مدیریت دادهها و catching خودکار آنها
- امکان توسعهی زیاد و ساده از طریق APIهاس خوشساخت
- امکان ورودی دادن و خروجی گرفتن ازWorkflowها
- توانایی اجرای موازی روی سیستمهای چند هستهای
قابلیتهای KNIME چیست؟
ماژولهای موجود در KNIME قابلیتهای وسیعی را تحت پوشش قرار میدهند از جمله:
1) امکان ورودی و خروجی گرفتن از یک فایل (با فرمتهای متعدد) یا از یک پایگاه داده
2) امکان پیشپردازش روی داده با اعمال فیلترها، دستهبندی، چرخش، نرمالسازی و ...
3) امکان مشاهده داده و خروجیها از طریق نمایشهای تعاملی مختلف
4) با استفاده از الگوریتمهای دادهکاوی مانند خوشهبندی، استنتاج قوانین، درختهای تصمیم، قوانین انجمنی، شبکههای عصبی و ... به درک بهتر از دادهها کمک میکند.
@BigDataTechnology
زمینه های تحلیل کلان داده ها :
تحلیل داده های ساخت یافته
تحلیل داده های متنی
تحلیل داده های وب
تحلیل داده های چند رسانه ای
تحلیل داده های شبکه
تحلیل ترافیک سیار
در ادامه هر یک را بررسی خواهیم کرد.
تحلیل داده های ساخت یافته
تحلیل داده های متنی
تحلیل داده های وب
تحلیل داده های چند رسانه ای
تحلیل داده های شبکه
تحلیل ترافیک سیار
در ادامه هر یک را بررسی خواهیم کرد.
تحلیل داده های ساخت یافته :
@BigDataTechnology
کاربرد تجاری و تحقیقات علمی ممکن است انبوهی از داده های ساخت یافته را تولید کنند که مدیریت و تحلیل آن ها بر فناوری های بلوغ یافته ی تجاری مانند RDBMS ،انبار داده ها ،BPM تکیه میکند.
تحلیل داده ها عمدتا بر اساس داده کاوی و تحلیل آماری است.
بهره برداری از ویژگی های داده ها ، کاوش زمان و مکان میتواند ساختارهای دانش پنهان در جریان داده های با سرعت بالا و شیوه ها و مدل های حسگر را استخراج کند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
@BigDataTechnology
@BigDataTechnology
کاربرد تجاری و تحقیقات علمی ممکن است انبوهی از داده های ساخت یافته را تولید کنند که مدیریت و تحلیل آن ها بر فناوری های بلوغ یافته ی تجاری مانند RDBMS ،انبار داده ها ،BPM تکیه میکند.
تحلیل داده ها عمدتا بر اساس داده کاوی و تحلیل آماری است.
بهره برداری از ویژگی های داده ها ، کاوش زمان و مکان میتواند ساختارهای دانش پنهان در جریان داده های با سرعت بالا و شیوه ها و مدل های حسگر را استخراج کند.
منبع : کتاب کلان داده ها ترجمه دکتر امیر مسعود رحمانی
@BigDataTechnology
دوستان عزیز ضمن عرض سلام و خسته نباشید.
طی هفته ی آینده آشنایی با مبانی بیگ دیتا را به اتمام میرسانیم و هدفی که این کانال در آینده دنبال میکند آموزش های عملی و کاربردی است.
دوستان جهت بهبود روند پروسه آموزش نظرات و انتقادات خود را به آی دی شخصی بنده
@GolnazArdeshiri
ارسال کنید.
در ابتدا با اصول بنیادی هدوپ با سر فصل های زیر آشنا خواهیم شد:
درک اجزای اصلی هدوپ
راه اندازی محیط توسعه هدوپ
کار با سیستم فایل هدوپ
تنظیم نگاشت کاهش
درک Hive و HBase
این روند با ویدیو های آموزشی همراه است.
دوستان عزیز لازم به ذکر است به دلیل سطوح مختلف دانشی اعضای این کانال بهتر است آموزش ها آهسته و پیوسته ادامه پیدا کند.
با ما همراه باشید.
@BigDataTechnology
طی هفته ی آینده آشنایی با مبانی بیگ دیتا را به اتمام میرسانیم و هدفی که این کانال در آینده دنبال میکند آموزش های عملی و کاربردی است.
دوستان جهت بهبود روند پروسه آموزش نظرات و انتقادات خود را به آی دی شخصی بنده
@GolnazArdeshiri
ارسال کنید.
در ابتدا با اصول بنیادی هدوپ با سر فصل های زیر آشنا خواهیم شد:
درک اجزای اصلی هدوپ
راه اندازی محیط توسعه هدوپ
کار با سیستم فایل هدوپ
تنظیم نگاشت کاهش
درک Hive و HBase
این روند با ویدیو های آموزشی همراه است.
دوستان عزیز لازم به ذکر است به دلیل سطوح مختلف دانشی اعضای این کانال بهتر است آموزش ها آهسته و پیوسته ادامه پیدا کند.
با ما همراه باشید.
@BigDataTechnology
زمینه تحلیل کلان داده ها :
تحلیل داده های متنی:
متن، رایج ترین قالب ذخیره سازی اطلاعات است.
به عنوان مثال، ارتباطات پست الکترونیک ، اسناد تجاری ، صفحات وب و رسانه های اجتماعی.
بنابراین تحلیل متن (داده ای غیر ساخت بافته) نسبت به داده کاوی ساخت یافته بیشتر بر ویژگی بالقوه مبتنی بر تجارت نزدیک است.
به طور کلی تحلیل متن، متن کاوی نامیده میشود.
اکثر سیستم های متن کاوی بر اساس عبارت متنی و پردازش زبان طبیعی (NLP) هستند.
در ادامه با پردازش زبان طبیعی آشنا خواهیم شد.
@BigDataTechnology
تحلیل داده های متنی:
متن، رایج ترین قالب ذخیره سازی اطلاعات است.
به عنوان مثال، ارتباطات پست الکترونیک ، اسناد تجاری ، صفحات وب و رسانه های اجتماعی.
بنابراین تحلیل متن (داده ای غیر ساخت بافته) نسبت به داده کاوی ساخت یافته بیشتر بر ویژگی بالقوه مبتنی بر تجارت نزدیک است.
به طور کلی تحلیل متن، متن کاوی نامیده میشود.
اکثر سیستم های متن کاوی بر اساس عبارت متنی و پردازش زبان طبیعی (NLP) هستند.
در ادامه با پردازش زبان طبیعی آشنا خواهیم شد.
@BigDataTechnology
پردازش زبان های طبیعی (NLP)
پردازش زبان طبیعی چیست؟
در این زمینه، دو حیطه اصلی پژوهش وجود دارد: ادراک، که با فرایندهایی سر و کار دارد که اطلاعات را از زبان استخراج میکنند (مانند درک زبان طبیعی، بازیابی اطلاعات) و تولید، که با فرایندهایی سر و کار دارد که با استفاده از زبان به انتقال اطلاعات میپردازند. معمولاً کارهای مرتبط با گفتار را تحت عناوین جداگانه تشخیص گفتار و تولید گفتار قرار میدهند.
سطوح تحلیل زبانی:
آواشناسی/واجشناسی
ساختواژه(صرف)
نحو
معنیشناسی
کاربردشناسی
گفتمان
تکنیکهای پردازش زبان طبیعی:
قطعهبندی و نرمالسازی متن
تحلیل ساختواژی
برچسبزنی جزء کلام
تجزیه یا پارس (تحلیل نحوی)
تحلیل معنایی
مدلسازی زبانی:یادگیری ماشین
کاربردهای پردازش زبان طبیعی:
درک زبان طبیعی
پردازش متون
بازیابی اطلاعات
ترجمۀ ماشینی:تولید متن
تصحیح املاء و دستور
بازشناسی گفتار:ساخت گفتار از روی متن
بازشناسی نویسههای نوری
سیستمهای مکالمه گفتاری
سیستمهای پرسش و پاسخ
ترجمه گفتار به گفتار
@BigDataTechnology
پردازش زبان طبیعی چیست؟
در این زمینه، دو حیطه اصلی پژوهش وجود دارد: ادراک، که با فرایندهایی سر و کار دارد که اطلاعات را از زبان استخراج میکنند (مانند درک زبان طبیعی، بازیابی اطلاعات) و تولید، که با فرایندهایی سر و کار دارد که با استفاده از زبان به انتقال اطلاعات میپردازند. معمولاً کارهای مرتبط با گفتار را تحت عناوین جداگانه تشخیص گفتار و تولید گفتار قرار میدهند.
سطوح تحلیل زبانی:
آواشناسی/واجشناسی
ساختواژه(صرف)
نحو
معنیشناسی
کاربردشناسی
گفتمان
تکنیکهای پردازش زبان طبیعی:
قطعهبندی و نرمالسازی متن
تحلیل ساختواژی
برچسبزنی جزء کلام
تجزیه یا پارس (تحلیل نحوی)
تحلیل معنایی
مدلسازی زبانی:یادگیری ماشین
کاربردهای پردازش زبان طبیعی:
درک زبان طبیعی
پردازش متون
بازیابی اطلاعات
ترجمۀ ماشینی:تولید متن
تصحیح املاء و دستور
بازشناسی گفتار:ساخت گفتار از روی متن
بازشناسی نویسههای نوری
سیستمهای مکالمه گفتاری
سیستمهای پرسش و پاسخ
ترجمه گفتار به گفتار
@BigDataTechnology
تحلیل داده وب :
Web Mining
اهداف تحلیل وب شامل :
بازیابی
استخراج
ارزیابی
اطلاعات خودکار اسناد و سرویس های وب برای کشف دانش مفید است.
تحلیل وب با چند زمینه تحقیقاتی از جمله پایگاه داده ، بازیابی اطلاعات و NLP و متن کاوی مرتبط است.
با توجه به بخش های مختلف وب ، تحلیل آن به 3 زمینه مرتبط تقستم میشود :
Web Content Mining
Web Structure Mining
Web Usage Mining
در ادامه در مورد هر یک بحث خواهیم کرد.
@BigDataTechnology
Web Mining
اهداف تحلیل وب شامل :
بازیابی
استخراج
ارزیابی
اطلاعات خودکار اسناد و سرویس های وب برای کشف دانش مفید است.
تحلیل وب با چند زمینه تحقیقاتی از جمله پایگاه داده ، بازیابی اطلاعات و NLP و متن کاوی مرتبط است.
با توجه به بخش های مختلف وب ، تحلیل آن به 3 زمینه مرتبط تقستم میشود :
Web Content Mining
Web Structure Mining
Web Usage Mining
در ادامه در مورد هر یک بحث خواهیم کرد.
@BigDataTechnology
تحلیل داده وب :
#web_mining
کاوش محتوای وب
#web_content_mining
کاوش محتواي وب اولين گروه از طبقه بندي ارائه شده در وب کاوي مي باشد.
کاوش محتواي وب به کشف و استخراج اطلاعات مفيد و ناشناخته از محتواي مستندات وب مي پردازد.
محتواي مستندات وب بطور کلي شامل انواع مختلف اطلاعات از جمله داده هاي :
متني
صوتي
تصويري
فرا داده
و ...
مي باشد و کاوش محتواي وب نوعي کاوش داده هاي چندرسانه اي نيز محسوب مي شود.
داده هاي وب عموماً شامل داده هاي غير ساخت يافته مثل متون آزاد يا نيمه ساخت يافته مثل صفحاتHTML و تا حدي ساخت يافته تر مثل جداول يا صفحات HTML توليد شده توسط پايگاه داده هاست. اما در هر صورت بيشتر اطلاعات موجود در وب را متون غير ساخت يافته تشکيل مي دهند.
کاوش محتوا در وب را مي توان از دو ديد بررسي کرد:
از ديد بازيابي اطلاعات
از ديد پايگاه داده ها
هدف کاوش محتوا در وب از نقطه نظر بازيابي اطلاعات تسهيل يا بهبود فرايند جستجوي اطلاعات يا فيلتر کردن اطلاعات براي کاربران است.
در حالي که از ديد پايگاه داده ها هدف کاوش محتوا، ارائه مدلي از داده هاي وب و يکپارچه سازي آنها است به طوي که پرس و جوهاي پيچيده تر از پرس و جوهاي مبتني بر کلمات کليدي قابل پردازش باشند.
کاوش محتوا از ديد پايگاه داده ها سعي در بدست آوردن ساختار سايت وب و يا تبديل سايت وب به يک پايگاه داده دارد تا بتواند مديريت و پرس و جوي اطلاعات موجود در وب را کاراتر انجام دهد. اين کار با کشف شماياسناد موجود در وب يا ساخت يک پايگاه داده مجازي قابل انجام است.
@BigDataTechnology
#web_mining
کاوش محتوای وب
#web_content_mining
کاوش محتواي وب اولين گروه از طبقه بندي ارائه شده در وب کاوي مي باشد.
کاوش محتواي وب به کشف و استخراج اطلاعات مفيد و ناشناخته از محتواي مستندات وب مي پردازد.
محتواي مستندات وب بطور کلي شامل انواع مختلف اطلاعات از جمله داده هاي :
متني
صوتي
تصويري
فرا داده
و ...
مي باشد و کاوش محتواي وب نوعي کاوش داده هاي چندرسانه اي نيز محسوب مي شود.
داده هاي وب عموماً شامل داده هاي غير ساخت يافته مثل متون آزاد يا نيمه ساخت يافته مثل صفحاتHTML و تا حدي ساخت يافته تر مثل جداول يا صفحات HTML توليد شده توسط پايگاه داده هاست. اما در هر صورت بيشتر اطلاعات موجود در وب را متون غير ساخت يافته تشکيل مي دهند.
کاوش محتوا در وب را مي توان از دو ديد بررسي کرد:
از ديد بازيابي اطلاعات
از ديد پايگاه داده ها
هدف کاوش محتوا در وب از نقطه نظر بازيابي اطلاعات تسهيل يا بهبود فرايند جستجوي اطلاعات يا فيلتر کردن اطلاعات براي کاربران است.
در حالي که از ديد پايگاه داده ها هدف کاوش محتوا، ارائه مدلي از داده هاي وب و يکپارچه سازي آنها است به طوي که پرس و جوهاي پيچيده تر از پرس و جوهاي مبتني بر کلمات کليدي قابل پردازش باشند.
کاوش محتوا از ديد پايگاه داده ها سعي در بدست آوردن ساختار سايت وب و يا تبديل سايت وب به يک پايگاه داده دارد تا بتواند مديريت و پرس و جوي اطلاعات موجود در وب را کاراتر انجام دهد. اين کار با کشف شماياسناد موجود در وب يا ساخت يک پايگاه داده مجازي قابل انجام است.
@BigDataTechnology
تحلیل داده های وب
#web_mining
کاوش ساختار وب:
#web_structure_mining
کاوش ساختار وب، فرآيند کشف اطلاعات ساختاري از وب مي باشد.
اين نوع کاوش بر اساس آن که از چه نوع داده ساختاري استفاده مي کند، به دو دسته تقسيم مي شود:
پيوندها:
يک پيوند، يک واحد ساختاري است که يک صفحه وب را به صفحه ديگر يا به بخش ديگري از همان صفحه متصل مي کند. به پيوند نوع اول، پيوند بين سند و به پيوند نوع دوم، پيوند درون سند گفته مي شود. به اين نوع کاوش ساختار وب که از پيوندها استفاده مي کند، تحليل پيوند گفته مي شود.
ساختار سند:
محتواي يک صفحه وب مي تواند بر اساس تگ هاي XML و HTML موجود در آن به صورت يک درخت بازنمايي شود. کاوش در اين جا بر استخراج مدل شيئ سند متمرکز مي شود. به اين نوع از کاوش ساختار وب، تحليل ساختار سند گفته مي شود.
@BigDataTechnology
#web_mining
کاوش ساختار وب:
#web_structure_mining
کاوش ساختار وب، فرآيند کشف اطلاعات ساختاري از وب مي باشد.
اين نوع کاوش بر اساس آن که از چه نوع داده ساختاري استفاده مي کند، به دو دسته تقسيم مي شود:
پيوندها:
يک پيوند، يک واحد ساختاري است که يک صفحه وب را به صفحه ديگر يا به بخش ديگري از همان صفحه متصل مي کند. به پيوند نوع اول، پيوند بين سند و به پيوند نوع دوم، پيوند درون سند گفته مي شود. به اين نوع کاوش ساختار وب که از پيوندها استفاده مي کند، تحليل پيوند گفته مي شود.
ساختار سند:
محتواي يک صفحه وب مي تواند بر اساس تگ هاي XML و HTML موجود در آن به صورت يک درخت بازنمايي شود. کاوش در اين جا بر استخراج مدل شيئ سند متمرکز مي شود. به اين نوع از کاوش ساختار وب، تحليل ساختار سند گفته مي شود.
@BigDataTechnology