مهندسی داده
794 subscribers
112 photos
7 videos
24 files
315 links
BigData.ir کانال رسمی وب سایت
مطالبی راجع به مهندسی داده و طراحی زیرساخت‌های پردازش دیتا و ابزارهای مدرن دیتا
ارتباط با ادمین: @smbanaei
گروه تخصصی مهندسی داده 👇
https://t.iss.one/bigdata_ir_discussions2
کانال یوتیوب 👇
https://www.youtube.com/@irbigdata
Download Telegram
کلان داده چگونه باعث ایجاد بحرانی بزرگ در علم شده است؟ - https://is.gd/1NQDiL
اخبار
,
در این نوشتار با ذکر مثال‌هایی میبینیم چقدر احتمال دارد دانشمندان از روی بخت‌واقبال سیگنال‌های جالب، اما غیرواقعی را از مجموعه‌ی داده‌ها استخراج کنند. آن‌ها احتمالا براساس همین سیگنال‌ها فرضیه‌سازی و از همان مجموعه‌ی داده‌ی قبلی برای نتیجه‌گیری استفاده می‌کنند. درنهایت، احتمالا زمانی به‌طول خواهد انجامید تا آن‌ها متوجه تکرارپذیرنبودن یافته‌هایشان شوند. چنین مشکلی عموما در تحلیل‌هایی براساس کلان‌داده رخ می‌دهد. به‌طور خلاصه، به‌‌دلیل فراوانی حجم داده احتمال یافتنِ اتفاقی سیگنال‌های مثبت وجود دارد.
دست به کد: جمع آوری و تحلیل داده‌های توئیتر فارسی در چند دقیقه - https://is.gd/veI79O
پردازش زبان طبیعی, دست به کد
, #دست_به_کد, #شبکه_های_اجتماعی
اگر قصد جمع‌آوری و تحلیل داده‌های فارسی در شبکه‌های اجتماعی و بخصوص توئیتر را دارید، به کمک این آموزش گام به گام و به مدد امکانات آنلاین مایکروسافت، در چند دقیقه و بدون نیاز به نصب نرم افزار یا حتی آشنایی با برنامه‌نویسی، شروع به جمع آوری و تحلیل داده‌های توئیتر نمایید.
پیش‌بینی قیمت خودرو بر اساس دیتاست منتشر شده سایت دیوار - https://is.gd/9X05Gs
دست به کد
, #پایتون
مجموعه کافه‌بازار اخیراً دیتاستی حاوی حدود یک میلیون رکورد از خرید و فروش‌های سایت دیوار را به صورت عمومی منشتر کرده‌اند و سعید میرشکاری تحلیل ساده‌ای بر روی آنها انجام داده است که این مقاله، بازنشر مطلب ایشان است.
راه طی شده - چگونه از دکترای فیزیک به علم داده تغییر مسیر دادم؟ - https://is.gd/RtsU2f
آموزش و راهنمایی
, #تجربیات, #علم_داده, #علم_داده_در_ایران


علم نوپای داده در ایران از کمبود فراد باتجربه دست به قلمی که چراغی فرا راه علاقه‌مندان این حوزه روشن کنند و نوپویان این مسیر را به درستی راهنمایی کنند،رنج برده است. جناب سعید میرشکاری عزیز د ر سایت ویرگول به بیان تجربه خود در مسیر تبدیل شدن به یک دانشمند علم داده پرداخته است و سایت مهندسی داده این فرصت را غنیمت شمرده و با هدف جمع آوری مطالب مفید حوزه علم داده به معرفی و بازنشر آن پرداخته است.
مدلسازی داده در مانگودی‌بی: یک مثال کاربردی - https://is.gd/itr9At
بانکهای اطلاعاتی سندگرا
, #مدلسازی_داده
نمونه‌ای از یک طراحی بانک اطلاعاتی برای دیتابیس مانگو و ملزومات مورد نیاز برای مستندسازی طراحی آن، در این نوشتار به اشتراک گذاشته شده است.
دست به کد - استخراج متن وب سایتها با اسکرپی / استخراج اخبار سایت ایسنا Scrapy - https://is.gd/hCrVGC
پردازش زبان طبیعی, دست به کد
, #Scrapy, #اسکرپی, #پردازش_زبان_طبیعی, #پردازش_متن, #خزنده_وب, #دست_به_کد, #متن_کاوی, #مثال_عملی, #مثال_کاربردی
در این مقاله به نحوه ساخت یک خزنده وب برای استخراج اطلاعات سایتها به کمک کتابخانه معروف اسکرپی می‌پردازیم. با زدن یک مثال کاربردی برای استخراج اخبار سایت ایسنا، روند کار را به صورت مرحله به مرحله توضیح داده‌ایم.
دست به کد: جمع آوری و تحلیل اولیه آگهی‌های استخدام جابینجا - https://bit.ly/2OpbmMW
دست به کد
, #اسکرپی, #دست_به_کد
در این نوشتار، به استخراج داده‌های سایت کاریابی جابینجا به کمک کتابخانه اسکرپی و تحلیل داده‌های شرکتها با نرم افزار پاور بی آی پرداخته‌ایم.
آماده سازی داده‌ها برای پردازش، بیشترین زمان تحلیل بصری آنها را به خود اختصاص داده است.
علم داده، جامعه و اخلاق - https://is.gd/Vpb1Xb
اخلاق و جامعه
,
به عنوان دیتاساینتیست، چقدر به کارکرد درست الگوریتم و مدل تان فکر می کنید؟ مدلی که توسعه می دهید، چقدر از پیش داوری های ذهنی تان تاثیر می گیرد؟ آیا جایی برای دریافت بازخورد و اصلاح عملکرد مدلتان در نظر می گیرید؟ اگر مدل خطا داشته باشد، چه تبعاتی ممکن است برای کاربران آن ایجاد شود؟
دریمیو : راهکار یکپارچه سازی داده‌های سازمانی -https://bit.ly/2I0ZW1h
ابزار و کتابخانه ها, ابزار و کتابخانه ها, هدوپ و فناوریهای مرتبط
, #دریمیو, #هدوپ #راهکارهایـسازمانی #ابزارهایـهوشـتجاری
وجود منابع مختلف داده‌ در یک سازمان امروزه به امری رایج تبدیل شده است و وجود ابزاری که بتواند به تمام منابع داده‌ای موجود دنیا متصل شده، یک واسط استاندارد در اختیار تحلیل‌گران داده بگذارد، غنیمت بزرگی است که دریمیو، این رسالت را برعهده گرفته است.