آشنایی با استاندارد دادههای باز - https://is.gd/T83TAZ
ابزار و کتابخانه ها, استانداردها
, #استاندارد, #استانداردهای_داده, #داده_های_باز
حرکت به سمت یک جامعه پیشرو و توسعهیافته به ابزارهای مختلفی نیاز دارد که یکی از مهمترین آنها، شفافیت دادهها و آمار در حوزههای مختلف کشور است که به کمک آن، دانشمندان و برنامهریزان بتوانند با پایش و تحلیل درست این دادهها، راهکارهایی مناسب در حذف گلوگاهها و شناسایی نقاط ضعف و قوت جامعه، ارائه دهند. در این راستا، استاندارد دادههای باز در جهت گسترش فرهنگ به اشتراک گذاری دادهها توسط سازمانها و شرکتها، چندین سال است که در دنیای داده، رایج شده است. در این مقاله که توسط دکتر فرزاد مینویی در سایت وزین آنالیکا منتشر شده است، به بررسی این استاندارد میپردازیم.
ابزار و کتابخانه ها, استانداردها
, #استاندارد, #استانداردهای_داده, #داده_های_باز
حرکت به سمت یک جامعه پیشرو و توسعهیافته به ابزارهای مختلفی نیاز دارد که یکی از مهمترین آنها، شفافیت دادهها و آمار در حوزههای مختلف کشور است که به کمک آن، دانشمندان و برنامهریزان بتوانند با پایش و تحلیل درست این دادهها، راهکارهایی مناسب در حذف گلوگاهها و شناسایی نقاط ضعف و قوت جامعه، ارائه دهند. در این راستا، استاندارد دادههای باز در جهت گسترش فرهنگ به اشتراک گذاری دادهها توسط سازمانها و شرکتها، چندین سال است که در دنیای داده، رایج شده است. در این مقاله که توسط دکتر فرزاد مینویی در سایت وزین آنالیکا منتشر شده است، به بررسی این استاندارد میپردازیم.
مهندسی داده
آشنایی با استاندارد دادههای باز - مهندسی داده
در این مقاله که توسط دکتر فرزاد مینویی در سایت وزین آنالیکا منتشر شده است، به بررسی استاندارد دادههای باز به عنوان یکی از ضروریات حرکه به سمت جامعه توسعه یافته میپردازیم.
دست به کد: جمعآوری خودکار توئیتهای فارسی با استفاده از GitLab CI - https://is.gd/S7zPld
پردازش زبان طبیعی, دست به کد
, #پردازش_متون_فارسی, #توئیت, #توئیتر, #دست_به_کد, #گیت_لب, #گیت_هاب
در ادامه مباحث جمع آوری و پردازش توئیتهای فارسی، به عنوان یک منبع عالی برای پردازش متن، در این مقاله قصد داریم به ایجاد یک خط تولید ساده جمعآوری توئیت بپردازیم که روزانه و بدون پرداخت هیچ هزینهای، به جمع آوری توئیتهای فارسی بپردازد. این خط تولید را با امکانات گیتلب راهاندازی میکنیم و توئیتهای جمعآوری شده را روزانه در یک مخزن عمومی در گیتهاب به اشتراک میگذاریم.
پردازش زبان طبیعی, دست به کد
, #پردازش_متون_فارسی, #توئیت, #توئیتر, #دست_به_کد, #گیت_لب, #گیت_هاب
در ادامه مباحث جمع آوری و پردازش توئیتهای فارسی، به عنوان یک منبع عالی برای پردازش متن، در این مقاله قصد داریم به ایجاد یک خط تولید ساده جمعآوری توئیت بپردازیم که روزانه و بدون پرداخت هیچ هزینهای، به جمع آوری توئیتهای فارسی بپردازد. این خط تولید را با امکانات گیتلب راهاندازی میکنیم و توئیتهای جمعآوری شده را روزانه در یک مخزن عمومی در گیتهاب به اشتراک میگذاریم.
آیا هدوپ در حال انقراض است؟ - https://is.gd/O3eGKB
اخبار
,
در این مقاله، به بررسی این موضوع میپردازیم که چرا امروزه به نظر می رسد هدوپ دیگر کارآیی گذشته را ندارد و باهم دلایل رواج این باور را بررسی کرده و سعی می کنیم حقیقت ماجرا و اینکه امروزه دنیای کلانداده به کدامین سمت در حال حرکت است را بفهمیم.
اخبار
,
در این مقاله، به بررسی این موضوع میپردازیم که چرا امروزه به نظر می رسد هدوپ دیگر کارآیی گذشته را ندارد و باهم دلایل رواج این باور را بررسی کرده و سعی می کنیم حقیقت ماجرا و اینکه امروزه دنیای کلانداده به کدامین سمت در حال حرکت است را بفهمیم.
مهندسی داده
آیا هدوپ در حال انقراض است؟ - مهندسی داده
در این مقاله، به بررسی این موضوع میپردازیم که چرا امروزه به نظر می رسد هدوپ دیگر کارآیی گذشته را ندارد و باهم دلایل رواج این باور را بررسی کرده و سعی می کنیم حقیقت ماجرا و اینکه امروزه دنیای کلانداده به کدامین سمت در حال حرکت است را بفهمیم.
چگونه یک میلیون درخواست در ثانیه را با پایتون پاسخ دهیم ؟ - https://is.gd/BxsiZD
ابزار و کتابخانه ها
, #پایتون
در این نوشتار برای آنهایی که قصد دارند بخشی از کارهای یادگیری ماشین خود را از طریق وب سرویس به کاربران ارائه کنند، یک میکروفریمورک پایتون با نام Japronto معرفی شده است که طبق ادعای سازندگان آن، کارآیی آن بسیار بالاتر از سایر فریمورکها و زبانهای موجود در بازار است.
ابزار و کتابخانه ها
, #پایتون
در این نوشتار برای آنهایی که قصد دارند بخشی از کارهای یادگیری ماشین خود را از طریق وب سرویس به کاربران ارائه کنند، یک میکروفریمورک پایتون با نام Japronto معرفی شده است که طبق ادعای سازندگان آن، کارآیی آن بسیار بالاتر از سایر فریمورکها و زبانهای موجود در بازار است.
مهندسی داده
چگونه یک میلیون درخواست در ثانیه را با پایتون پاسخ دهیم ؟ - مهندسی داده
در این نوشتار برای آنهایی که قصد دارند بخشی از کارهای یادگیری ماشین خود را از طریق وب سرویس به کاربران ارائه کنند، یک میکروفریمورک پایتون با نام Japronto معرفی شده است که طبق ادعای سازندگان آن، کارآیی آن بسیار بالاتر از سایر فریمورکها و زبانهای موجود در…
ساختاری استاندارد برای پروژههای علم داده - https://is.gd/wm17AC
ابزار و کتابخانه ها
, #ابزارهای_پایتون, #استاندارد, #پایتون, #پروژه_های_مهندسی_داده, #پروژه_های_علم_داده
پروژههای علم داده در سراسر دنیا ساختاری مشابه دارد و اگر با دقت به آنها نگاه کنید، مولفه های زیر را در اکثر قریب به اتفاق آنها خواهید دید : دادهها . این دادهها معمولاً به دادههای خام، دادههای تست، دادههای آموزش و مانند آن تقسیم می شوند. کتابچهها : استفاده از Jupyrt Notebooks هم …
ابزار و کتابخانه ها
, #ابزارهای_پایتون, #استاندارد, #پایتون, #پروژه_های_مهندسی_داده, #پروژه_های_علم_داده
پروژههای علم داده در سراسر دنیا ساختاری مشابه دارد و اگر با دقت به آنها نگاه کنید، مولفه های زیر را در اکثر قریب به اتفاق آنها خواهید دید : دادهها . این دادهها معمولاً به دادههای خام، دادههای تست، دادههای آموزش و مانند آن تقسیم می شوند. کتابچهها : استفاده از Jupyrt Notebooks هم …
مهندسی داده
ساختاری استاندارد برای پروژههای علم داده - مهندسی داده
پروژههای علم داده در سراسر دنیا ساختاری مشابه دارد و اگر با دقت به آنها نگاه کنید، مولفه های زیر را در اکثر قریب به اتفاق آنها خواهید دید : دادهها . این دادهها معمولاً به دادههای خام، دادههای تست، دادههای آموزش و مانند آن تقسیم می شوند. کتابچهها…
خیلی از تیمها و استارتاپها با MySQL شروع میکنند و به مرور زمان و با افزایش تعداد درخواستها و دادهها با MySQL دچار چالش میشوندو مهاجرت از این دیتابیس و امتحان گزینههای دیگر، هزینه زیادی برای این شرکتها دارد.
با توجه به اینکه یوتیوب بخش بزرگی از خدماتش از این دیتابیس محبوب یعنی MySQL سرویس دهی می شود در این نوشتار با معرفی وایتس به راز مقیاس پذیری مای اسکیوال در این بستر آنلاین اشتراک فیلم می پردازیم .
https://plink.ir/ofrHc
با توجه به اینکه یوتیوب بخش بزرگی از خدماتش از این دیتابیس محبوب یعنی MySQL سرویس دهی می شود در این نوشتار با معرفی وایتس به راز مقیاس پذیری مای اسکیوال در این بستر آنلاین اشتراک فیلم می پردازیم .
https://plink.ir/ofrHc
ویژوال استودیو کد، عنوان محبوبترین محیط برنامه نویسی را در سال 2019 از آن خود کرده است(در نظرسنجی استک اورفلو) چندی پیش افزونه پایتون این محیط برنامه نویسی پشتیبانی از کتابچه های پایتون یا همان IPython Notebooks را به مجموعه امکانات خود اضافه کرد.
یعنی امروزه می توانید این کتابچه ها مستقیما درون این محیط ایجاد کرده ، آنها را ویرایش نموده و نهایتاً خروجی آنها را در همان محیط مشاهده کنید.
تجمیع کتابچه های پایتون با یک محیط برنامه نویسی قدرتمند امکانات متنوعی را در اختیار ما می گذارد مانند مشاهده سریع متغیرها و مقادیر لحظه ای آن، اشکالزدایی حرفه ای، تلفیق با گیت . مجموعه این عوامل باعث می شود ویژوال استودیو کد را محیطی بسیار مناسب برای انجام پروژه های علم داده بیابیم. با هم این امکانات را مرور می کنیم .
yun.ir/jw5
یعنی امروزه می توانید این کتابچه ها مستقیما درون این محیط ایجاد کرده ، آنها را ویرایش نموده و نهایتاً خروجی آنها را در همان محیط مشاهده کنید.
تجمیع کتابچه های پایتون با یک محیط برنامه نویسی قدرتمند امکانات متنوعی را در اختیار ما می گذارد مانند مشاهده سریع متغیرها و مقادیر لحظه ای آن، اشکالزدایی حرفه ای، تلفیق با گیت . مجموعه این عوامل باعث می شود ویژوال استودیو کد را محیطی بسیار مناسب برای انجام پروژه های علم داده بیابیم. با هم این امکانات را مرور می کنیم .
yun.ir/jw5
یون | yun.ir
کوتاه کننده لینک
سرویس کوتاه کننده لینک با قابلیت انتخاب آدرس دلخواه برای لینک کوتاه شده و همچنین رمز عبور جهت مشاهده، ارائه خدمات متنوع دیگری از قبیل ایجاد لینک لیست و کوتاه کردن متن و ایجاد نظر سنجی آنلاین علاوه بر قابلیت کوتاه کردن لینک در این وبسایت فراهم آمده است
به رسم هر ساله، سایت معتبر DB-Engines دیتابیس محبوب سال گذشته میلادی را معرفی می کند. این عنوان که بر اساس میزان محبوبیت بین کاربران و مبتنی بر داده های آماری مختلف و قابل استناد است، در سال جاری به MySQL رسیده است .
https://bit.ly/389sor3
https://bit.ly/389sor3
مهندسی داده
انتخاب MySQL به عنوان بانک اطلاعاتی 2019 - مهندسی داده
به رسم هرساله، سایت معتبر Db-Engines از بین بیش از سیصد بانک اطلاعاتی موجود دنیا، دیتابیسی که در سال گذشته بیشترین محبوبیت را در بین جامعه توسعه دهندگان و مهندسان داده داشته است در ابتدای سال جدید میلادی معرفی کرد. توضیح اینکه این سایت بر اساس عوامل مختلفی…
در این نوشتار به مرور سریع دیتابیس توزیع شده و مبتنی بر اسکیوال کاکروچدیبی میپردازیم که با الهام از گوگل اسپنر، اجازه مدیریت دادههای یک دیتابیس را عرصه جغرافیایی به راحتی به ما میدهد. فهرست امکانات و معماری آن را در این نوشتار با هم مرور می کنیم. https://bit.ly/2ZE2drp
مهندسی داده
قصه سوسک، تابآوری و Cockroachdb - مهندسی داده
نگاهی سریع به دیتابیس توزیع شده و مبتنی بر SQL نوظهور CockroachDB که با الهام از گوگل اسپنر و به رایگان، اجازه مدیریت و توزیع یک دیتابیس را در مناطق جغرافیایی مختلف به راحتی در اختیار ما می گذارد.
گروه دیتابیس دانشگاه کارنگی ملون آمریکا سایتی را با آدرس dbdb.io با عنوان دیتابیسی از بانکهای اطلاعاتی با هدف جمعآوری یکپارچه اطلاعات فنی دیتابیسها ایجاد نموده است. در این مقاله به مروری سریع بر امکانات این سایت می پردازیم.
https://www.bigdata.ir/1399/06/dbdb-io/
https://www.bigdata.ir/1399/06/dbdb-io/
مهندسی داده
معرفی سایت dbdb.io - مهندسی داده
گروه دیتابیس دانشگاه کارنگی ملون آمریکا سایتی را با آدرس dbdb.io با عنوان بانک اطلاعاتی از بانکهای اطلاعاتی با هدف جمعآوری یکپارچه اطلاعات فنی دیتابیسها ایجاد نموده است. در این مقاله به مروری سریع بر امکانات این سایت می پردازیم.
مایکروسافت که یکی از عظیم ترین مخازن کدهای زبان c دنیا را در اختیار دارد، در حال جایگزینی کدهای سی با زبان Rust است.
https://medium.com/the-innovation/how-microsoft-is-adopting-rust-e0f8816566ba
دلیل اصلی این موضوع هم مشکلات عدیده ای است که بحث مدیریت حافظه در c به مایکروسافت تحمیل کرده است و تعداد بالای باگهایی که به این دلیل در بروزرسانی های محصولات مایکروسافت باید رفع شوند.
زبان Rust که بسیار شبیه به زبان c و زبانی سطح پایین (مناسب برای کارهای سیستمی و سیستم عامل) است، گزینه اول مایکروسافت برای تغییر کدها و بازنویسی برخی از اصلی ترین ماژولهای ویندوز بوده است.
هر چند برخی قابلیت های زبان c هنوز در Rust وجود ندارد اما مهندسین مایکروسافت و اینتل به دنبال گسترش امکانات و کامپایلر این زبان هستند.
در چند سال آینده، شاهد گسترش این زبان سریع و محبوب خواهیم بود و اگر به دنبال یاد گرفتن زبانی برای انجام کارهای سیستمی هستید، بهتر است به جای C از زبان Rust استفاده کنید.
جهت یادآوری اینکه زبان Rust برای پنجمین سال پیاپی، محبوبترین زبان برنامه نویسی در بین کاربران سایت Stackoverflow بوده است.
https://medium.com/the-innovation/how-microsoft-is-adopting-rust-e0f8816566ba
دلیل اصلی این موضوع هم مشکلات عدیده ای است که بحث مدیریت حافظه در c به مایکروسافت تحمیل کرده است و تعداد بالای باگهایی که به این دلیل در بروزرسانی های محصولات مایکروسافت باید رفع شوند.
زبان Rust که بسیار شبیه به زبان c و زبانی سطح پایین (مناسب برای کارهای سیستمی و سیستم عامل) است، گزینه اول مایکروسافت برای تغییر کدها و بازنویسی برخی از اصلی ترین ماژولهای ویندوز بوده است.
هر چند برخی قابلیت های زبان c هنوز در Rust وجود ندارد اما مهندسین مایکروسافت و اینتل به دنبال گسترش امکانات و کامپایلر این زبان هستند.
در چند سال آینده، شاهد گسترش این زبان سریع و محبوب خواهیم بود و اگر به دنبال یاد گرفتن زبانی برای انجام کارهای سیستمی هستید، بهتر است به جای C از زبان Rust استفاده کنید.
جهت یادآوری اینکه زبان Rust برای پنجمین سال پیاپی، محبوبترین زبان برنامه نویسی در بین کاربران سایت Stackoverflow بوده است.
Medium
How Microsoft Is Adopting Rust
Microsoft is finally starting to shift away from C
با همکاری موسسه نیکآموز مجموعه آموزشهایی را در حوزه مهندسی داده به صورت کاملا کاربردی برنامه ریزی کردهایم.
برای آشنایی عملی با این دوره و مفاهیم و ابزاری که یک مهندس داده باید با آنها آشنا باشد، در وبیناری پنج شنبه ۸/۸ در یک جلسه حدود سه ساعته مطالب زیر را با هم مرور خواهیم کرد :
· آشنایی با رشته نوظهور مهندسی داده (مفاهیم/ابزار/مهارتها)
· بررسی مثال عملی تحلیل دادههای روزانه سازمان بورس ایران
· بررسی مثال عملی دریافت لحظهای توئیتهای بورس و تحلیل اولیه آنها
در مثال اول که با محوریت Apache Airflow انجام خواهد شد، با Docker/Airflow/Hadoop(HDFS)/Hive/Hue با دریافت روزانه و خودکار داده های سازمان بورس و تحلیل آنها، آشنا خواهیم شد.
در مثال دوم هم که با محوریت Apache Nifi به عنوان یک ابزار بصری و کاربردی در حوزه طراحی Data Flow، صورت خواهد گرفت با Docker/Spark/Kafka/Elasticsearch/Nifi به صورت عملی و با بررسی توئیتهای ارسالی به سایت سهامیاب در هر دقیقه، کار خواهیم کرد .
با توجه به اینکه این دو مثال درون محیط داکر انجام خواهند شد، میتوانید بعد از اتمام وبینار، فایل docke-compose آنها را دانلود کرده و خودتان، تمام مراحل را از ابتدا انجام دهید.
این وبینار، مرور سریعی بر وظایف یک مهندس داده و مجموعه ابزار و مهارتهایی است که باید داشته باشد. جهت مشاهده فیلم معرفی این وبینار و ثبت نام در آن ، از این لینک استفاده کنید.
https://nikamooz.com/product/data-engineering-workshop/
برای آشنایی عملی با این دوره و مفاهیم و ابزاری که یک مهندس داده باید با آنها آشنا باشد، در وبیناری پنج شنبه ۸/۸ در یک جلسه حدود سه ساعته مطالب زیر را با هم مرور خواهیم کرد :
· آشنایی با رشته نوظهور مهندسی داده (مفاهیم/ابزار/مهارتها)
· بررسی مثال عملی تحلیل دادههای روزانه سازمان بورس ایران
· بررسی مثال عملی دریافت لحظهای توئیتهای بورس و تحلیل اولیه آنها
در مثال اول که با محوریت Apache Airflow انجام خواهد شد، با Docker/Airflow/Hadoop(HDFS)/Hive/Hue با دریافت روزانه و خودکار داده های سازمان بورس و تحلیل آنها، آشنا خواهیم شد.
در مثال دوم هم که با محوریت Apache Nifi به عنوان یک ابزار بصری و کاربردی در حوزه طراحی Data Flow، صورت خواهد گرفت با Docker/Spark/Kafka/Elasticsearch/Nifi به صورت عملی و با بررسی توئیتهای ارسالی به سایت سهامیاب در هر دقیقه، کار خواهیم کرد .
با توجه به اینکه این دو مثال درون محیط داکر انجام خواهند شد، میتوانید بعد از اتمام وبینار، فایل docke-compose آنها را دانلود کرده و خودتان، تمام مراحل را از ابتدا انجام دهید.
این وبینار، مرور سریعی بر وظایف یک مهندس داده و مجموعه ابزار و مهارتهایی است که باید داشته باشد. جهت مشاهده فیلم معرفی این وبینار و ثبت نام در آن ، از این لینک استفاده کنید.
https://nikamooz.com/product/data-engineering-workshop/