427 subscribers
231 photos
7 videos
75 files
213 links
معرفی کلان داده ها و فناوری های مرتبط

📞ارتباط با ادمین :
فقط روز چهارشنبه ساعت ۲۲ الی ۲۳
@Golnazardeshiri
-
Download Telegram
Forwarded from DataScience.Media
هر آنچه که برای مدیریت پروژه های Big Data مورد نیاز است با استفاده از Hadoop در Microsoft Azure مهیّا است.
#DataMining_BigData
@SQL_DataMining
مقدمه ای بر پیکان (Apache Arrow) :

تحلیل درون حافظه داده های ستونی

#apache
#arrow
#bigData

پروژه متن باز پیکان ، علیرغم نوپا بودنش در اکو سیستم آپاچی، در حال تبدیل شدن به یک استاندارد در حوزه پردازش داده و ایجاد یک بستر مناسب برای تعامل بین فناوریهای مختلف کلان داده است.


توسعه گران ارشد ۱۳ پروژه متن باز اصلی دنیای کلان داده، یک تیم مشترک برای ایجاد و توسعه پیکان ، شکل داده اند و سایر شرکتها و پروژه ها هم در حال تطبیق دادن خود با آن هستند. این ۱۳ تا شرکت عبارتند از :

Calcite
Cassandra
Drill
Hadoop
HBase
Ibis
Impala
Kudu
Pandas
Parquet
Phoenix
Spark
Storm

تحلیل درون حافظه ای داده های ستونی :

پروژه پیکان، برآمده از چهار گرایش و نیاز جدید مهندسی داده امروز دنیاست :

داده های ستونی :
قبلاً در مقاله Kudu درباره مفهوم داده های ستونی توضیح داده شد اما به طور خلاصه ،امروزه فناوریهای کلان داده، ستونی شده اند. یعنی به جای ذخیره سطری داده ها ، آنها را به صورت ستونی ذخیره می کنند. با اینکار ، فیلترگذاری و جستجوی داده ها بسیار سریعتر و بهینه تر صورت میگیرد. مثال زیر گویای این مطلب است.البته پروژه Apache Parquet که مخصوص این نوع از ذخیره سازی ، ابداع شده است به رشد این گرایش کمک بزرگی کرد.

پردازش درون حافظه ای :
 اسپارک محبوبیت و رواج امروز خود را مدیون پردازش های درون حافظه ایست که باعث افزایش کارآیی قابل ملاحظه سیستم های نوین اطلاعاتی امروزی شده است .

داده های پیچیده و ساختارهای پویا :
داده های دنیای واقعی با ساختار سلسله مراتبی و تودرتو راحت نمایش داده می شوند که رشد قالب JSON و بانکهای اطلاعاتی سندگرا مانند مانگو دی بی، نشانگر این نیاز کسب و کار امروزی است . سیستم های مدرن تحلیلی معاصر باید بتواند این نوع از داده ها را به صورت پیش فرض پشتیبانی کند.

نیاز به تعامل و برقراری ارتباط بین فناوریهای مختلف حوزه کلان داده  :
در حال حاضر، فناوریها و کتابخانه های مختلف حوزه کلان داده، هر کدام روشی را برای ذخیره و پردازش داده ها ابداع کرده اند و برای برقراری ارتباط بین آنها و استفاده از داده ها به صورت مشترک، نیاز به فرآیندهای مختلف تبدیل داده داریم که هم زمان بر است و هم توسعه سامانه ها را با مشکل مواجه می کند. Apache Parquet ، Apache Avro تلاشهایی برای رفع این مشکل و استاندارد سازی تبادل داده هاست .

اغلب سیستم های پردازش داده معاصر، یک یا حداکثر دو مورد از موارد سه گانه فوق را دارا هستندو پیکان ، تلاشی است برای ساخت سامانه هایی با پشتیبانی از تمام نیازهای نوین مورد اشاره به صورت استاندارد و متن باز.

این مطلب ادامه دارد....

نویسنده :
استاد گران قدر جناب آقای سید مجتبی بنائی

www.bigdata.ir
مولفه های تشکیل دهنده پیکان

Apache Arrow

#apache

پیکان، مجموعه ای مولفه ها و فناوریهاییست که موتورهای اجرایی کلان داده (مانند اسپارک، توزیع و تجمیع) و کتابخانه های ذخیره ساز داده ها (مانند HDFS) از آنها به عنوان لایه های میانی خود استفاده خواهند کرد . این فناوریها و الگوریتم ها عبارتند از :

- مجموعه ای از نوع داده های استاندارد شامل نوع داده های SQL و JSON مانند
 Decimal,Int,BigInt

- ساختار داده ستونی برای نمایش درون حافظه رکوردهای اطلاعاتی که بر روی نوع داده های استاندارد بنا نهاده شده است.

- ساختمان داده های رایج مورد نیاز برای کار با داده های ستونی مانند صفها و جداول درهم سازی به صورت بهینه و موثر با سی پی یو های امروزی.

- اIPC از طریق حافظه مشترک ، TCP/IP و RDMA

- کتابخانه هایی برای خواندن و نوشتن داده های ستونی به زبانهای مختلفالگوریتم های SIMD (یک دستور، چندین منبع داده) و مطابق با رهیافت خط تولید (PipeLine) برای عملیاتی مانند مرتب سازی ، جستجو ، تطبیق الگو و … که به صورت موثر از حافظه و سی پی یو استفاده کند .

- تکنیکهای فشرده سازی داده های ستونی برای بهینه سازی حافظه .

- ابزارهایی برای ذخیره موقت داده ها در حافظه های پایدار مانند HDD و SSD

مطلب ادامه دارد....
Apache Arrow

#BigData

البته نکته مهمی که باید مد نظر داشت این است که پیکان، به تنهایی نه یک موتور پردازش داده مانند اسپارک است و نه یک کتابخانه ذخیره و توزیع داده مانند HDFS بلکه طراحی شده است که به عنوان یک بستر مشترک و استاندارد برای موارد زیر به کار رود :

1. موتورهای اجرای SQL مانند SparkSQL ، Drill و Impala

2. سیستم های تحلیل و پردازش داده مانند Pandas و اسپارک
3. سیستم های پردازش جریان و مدیریت صف مانند کافکا و استرم .
4.سیستم های ذخیره ساز کلان داده مانند کاساندرا ، HBASE ، Kudu و Parquet

بنابراین پروژه پیکان ، در تقابل و رقابت با هیچ کدام از این سیستم های فوق نیست بلکه سرویس دهنده ای به آنهاست تا کارآیی و اشتراک داده به صورت استاندارد را برای آنها ممکن کند .


منبع :
Bigdata.ir
Forwarded from Hadoop.ir
اگر علاقه به تبادل نظر و گفتگو پیرامون فریم ورک هدوپ دارید به گروه «هدوپ ایران» بپیوندید.

لینک عضویت: https://telegram.me/joinchat/An8qwj6CGwg0WS-2dTi-Dw

مرجع هدوپ ایران
www.hadoop.ir
@hadoop
Forwarded from مفتا - ناشنیده‌های تکنولوژی
عجله شرکت های شیمیایی برای استفاده از بیگ دیتا و محاسبات ابری
سرمایه‌گذاری شرکت های شیمیایی در فناوری های دیجیتال به سرعت در حال افزایش است و انتظار می رود در سه سال آینده، با محاسبات ابری(cloud computing) و تجزیه و تحلیل بیگ دیتا(big data analytics)، بازگشت سرمایه به بالاترین حد خود برسد. بیش از سه چهارم (۷۷ درصد) از مدیران صنایع شیمیایی بر این باورند که بهترین میزان بازگشت سرمایه، بوسیله استفاده از محاسبات ابری(۴۴ درصد) و بیگ دیتا و تجزیه و تحلیل آن(۳۳ درصد) بدست می آید.

🌍: https://mfta.ir/data-science/chemical-companies-rushing-to-big-data-analytics

🆔: @mfta_ir
📍Cloud Computing and Big Data :
Data/streams
associated retrieval
processing techniques
 Security architectures
Cloudera Security
#امنیت
#هدوپ
#hadoop
#security


Facets of Hadoop Security:

Hadoop security can be viewed as a series of business and operational capabilities, including:

• Perimeter Security, which focuses on guarding access to the cluster, its data, and its various services. In
information security, this translates to Authentication.


• Data Protection, which comprises the protection of data from unauthorized access, at rest and in transit. In
information security, this translates to Encryption.


• Entitlement, which includes the definition and enforcement of what users and applications can do with data.
In information security, this translates to Authorization.


• Transparency, which consists of the reporting and monitoring on the where, when, and how of data usage.
In information security, this translates to Auditing.

@BigDataTechnology
Hadoop security
جهت کسب اطلاعات بیشتر کاربرد بیگ دیتا در حوزه سلامت و بهداشت به لینک زیر مراجعه فرمایید.

@BigDataTechnology

- Big Data in Healthcare Made Simple

- Hadoop in Healthcare

- How will Hadoop impact and/or change healthcare analytics?

- Big Data in Healthcare: Separating The Hype From The Reality

- Healthcare Analytics and Deeper Insight

- Healthcare Big Data:
Volume
Velocity
Variety


- Successful Predictive Analytics in Healthcare: 4 Reasons Why Predictive Analytics Does Not Depend on Big Data

@BigDataTechnology

 https://www.healthcatalyst.com/predictive-analytics-big-data-big-mess
اسلاید زیر توضیحات جامعی در رابطه با کاربرد هدوپ در حوزه سلامت و پزشکی برای شما ارائه میکنه.

آشنایی با پلتفرم های نوین ، معماری و تجزیه و تحلیل


@BigDataTechnology

https://www.slideshare.net/Hadoop_Summit/hadoop-enabled-healthcare?from_m_app=android
Forwarded from Hadoop.ir
مقاله جدید مرجع هدوپ ایران:

«آیا آپاچی اسپارک باعث مرگ هدوپ خواهد شد؟»

این موضوع یکی از داغ ترین موضوعات مورد بحث در حوزه کلان داده است و افراد زیادی به دنبال جواب آن هستند. بسیاری از آن‌ها همواره اسپارک و هدوپ را با هم مقایسه می‌کنند و یا به دنبال برتری هرکدام هستند.
مدت‌ها پیش این سؤال ذهن من را هم به خود مشغول کرده بود. پیش از اینکه خود به تشریح پاسخ این پرسش بپردازم میخواهم پاسخی که شاون اون(Sean Owen) مسئول تحقیقات علوم داده شرکت Cloudera به سؤال من داد را در اینجا نقل قول کنم.

ادامه در https://hadoop.ir/?p=646

مرجع هدوپ ایران
www.hadoop.ir
@hadoop
Forwarded from Hadoop.ir
پیغام داگ کاتینگ(Doug Cutting) ، خالق هدوپ ، به مرجع هدوپ ایران

www.hadoop.ir
@hadoop
اگر علاقه به تبادل نظر و گفتگو پیرامون فریم ورک هدوپ دارید به گروه «هدوپ ایران» بپیوندید.

لینک عضویت: https://telegram.me/joinchat/An8qwj6CGwg0WS-2dTi-Dw

مرجع هدوپ ایران
www.hadoop.ir
@hadoop