BigData

هر آنچه که برای مدیریت پروژه های Big Data مورد نیاز است با استفاده از Hadoop در Microsoft Azure مهیّا است.
#DataMining_BigData
@SQL_DataMining

9 views08:57

BigData

مقدمه ای بر پیکان (Apache Arrow) :

تحلیل درون حافظه داده های ستونی

#apache
#arrow
#bigData

پروژه متن باز پیکان ، علیرغم نوپا بودنش در اکو سیستم آپاچی، در حال تبدیل شدن به یک استاندارد در حوزه پردازش داده و ایجاد یک بستر مناسب برای تعامل بین فناوریهای مختلف کلان داده است.

توسعه گران ارشد ۱۳ پروژه متن باز اصلی دنیای کلان داده، یک تیم مشترک برای ایجاد و توسعه پیکان ، شکل داده اند و سایر شرکتها و پروژه ها هم در حال تطبیق دادن خود با آن هستند. این ۱۳ تا شرکت عبارتند از :

Calcite
Cassandra
Drill
Hadoop
HBase
Ibis
Impala
Kudu
Pandas
Parquet
Phoenix
Spark
Storm

تحلیل درون حافظه ای داده های ستونی :

پروژه پیکان، برآمده از چهار گرایش و نیاز جدید مهندسی داده امروز دنیاست :

داده های ستونی :
قبلاً در مقاله Kudu درباره مفهوم داده های ستونی توضیح داده شد اما به طور خلاصه ،امروزه فناوریهای کلان داده، ستونی شده اند. یعنی به جای ذخیره سطری داده ها ، آنها را به صورت ستونی ذخیره می کنند. با اینکار ، فیلترگذاری و جستجوی داده ها بسیار سریعتر و بهینه تر صورت میگیرد. مثال زیر گویای این مطلب است.البته پروژه Apache Parquet که مخصوص این نوع از ذخیره سازی ، ابداع شده است به رشد این گرایش کمک بزرگی کرد.

پردازش درون حافظه ای :
اسپارک محبوبیت و رواج امروز خود را مدیون پردازش های درون حافظه ایست که باعث افزایش کارآیی قابل ملاحظه سیستم های نوین اطلاعاتی امروزی شده است .

داده های پیچیده و ساختارهای پویا :
داده های دنیای واقعی با ساختار سلسله مراتبی و تودرتو راحت نمایش داده می شوند که رشد قالب JSON و بانکهای اطلاعاتی سندگرا مانند مانگو دی بی، نشانگر این نیاز کسب و کار امروزی است . سیستم های مدرن تحلیلی معاصر باید بتواند این نوع از داده ها را به صورت پیش فرض پشتیبانی کند.

نیاز به تعامل و برقراری ارتباط بین فناوریهای مختلف حوزه کلان داده :
در حال حاضر، فناوریها و کتابخانه های مختلف حوزه کلان داده، هر کدام روشی را برای ذخیره و پردازش داده ها ابداع کرده اند و برای برقراری ارتباط بین آنها و استفاده از داده ها به صورت مشترک، نیاز به فرآیندهای مختلف تبدیل داده داریم که هم زمان بر است و هم توسعه سامانه ها را با مشکل مواجه می کند. Apache Parquet ، Apache Avro تلاشهایی برای رفع این مشکل و استاندارد سازی تبادل داده هاست .

اغلب سیستم های پردازش داده معاصر، یک یا حداکثر دو مورد از موارد سه گانه فوق را دارا هستندو پیکان ، تلاشی است برای ساخت سامانه هایی با پشتیبانی از تمام نیازهای نوین مورد اشاره به صورت استاندارد و متن باز.

این مطلب ادامه دارد....

نویسنده :
استاد گران قدر جناب آقای سید مجتبی بنائی

www.bigdata.ir

مهندسی داده

کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است - مهندسی داده

وب سایت مهندسی داده : کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است

615 views09:45

BigData

531 views09:46

BigData

مولفه های تشکیل دهنده پیکان

Apache Arrow

#apache

پیکان، مجموعه ای مولفه ها و فناوریهاییست که موتورهای اجرایی کلان داده (مانند اسپارک، توزیع و تجمیع) و کتابخانه های ذخیره ساز داده ها (مانند HDFS) از آنها به عنوان لایه های میانی خود استفاده خواهند کرد . این فناوریها و الگوریتم ها عبارتند از :

- مجموعه ای از نوع داده های استاندارد شامل نوع داده های SQL و JSON مانند
Decimal,Int,BigInt

- ساختار داده ستونی برای نمایش درون حافظه رکوردهای اطلاعاتی که بر روی نوع داده های استاندارد بنا نهاده شده است.

- ساختمان داده های رایج مورد نیاز برای کار با داده های ستونی مانند صفها و جداول درهم سازی به صورت بهینه و موثر با سی پی یو های امروزی.

- اIPC از طریق حافظه مشترک ، TCP/IP و RDMA

- کتابخانه هایی برای خواندن و نوشتن داده های ستونی به زبانهای مختلفالگوریتم های SIMD (یک دستور، چندین منبع داده) و مطابق با رهیافت خط تولید (PipeLine) برای عملیاتی مانند مرتب سازی ، جستجو ، تطبیق الگو و … که به صورت موثر از حافظه و سی پی یو استفاده کند .

- تکنیکهای فشرده سازی داده های ستونی برای بهینه سازی حافظه .

- ابزارهایی برای ذخیره موقت داده ها در حافظه های پایدار مانند HDD و SSD

مطلب ادامه دارد....

1.13K views09:55

BigData

Apache Arrow

#BigData

البته نکته مهمی که باید مد نظر داشت این است که پیکان، به تنهایی نه یک موتور پردازش داده مانند اسپارک است و نه یک کتابخانه ذخیره و توزیع داده مانند HDFS بلکه طراحی شده است که به عنوان یک بستر مشترک و استاندارد برای موارد زیر به کار رود :

1. موتورهای اجرای SQL مانند SparkSQL ، Drill و Impala

2. سیستم های تحلیل و پردازش داده مانند Pandas و اسپارک
3. سیستم های پردازش جریان و مدیریت صف مانند کافکا و استرم .
4.سیستم های ذخیره ساز کلان داده مانند کاساندرا ، HBASE ، Kudu و Parquet

بنابراین پروژه پیکان ، در تقابل و رقابت با هیچ کدام از این سیستم های فوق نیست بلکه سرویس دهنده ای به آنهاست تا کارآیی و اشتراک داده به صورت استاندارد را برای آنها ممکن کند .

منبع :
Bigdata.ir

مهندسی داده

کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است - مهندسی داده

وب سایت مهندسی داده : کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است

607 views10:07

BigData

613 views10:07

BigData

Forwarded from Hadoop.ir

اگر علاقه به تبادل نظر و گفتگو پیرامون فریم ورک هدوپ دارید به گروه «هدوپ ایران» بپیوندید.

لینک عضویت: https://telegram.me/joinchat/An8qwj6CGwg0WS-2dTi-Dw

مرجع هدوپ ایران
www.hadoop.ir
@hadoop

8 views10:13

BigData

Forwarded from مفتا - ناشنیده‌های تکنولوژی

✅ عجله شرکت های شیمیایی برای استفاده از بیگ دیتا و محاسبات ابری
سرمایه‌گذاری شرکت های شیمیایی در فناوری های دیجیتال به سرعت در حال افزایش است و انتظار می رود در سه سال آینده، با محاسبات ابری(cloud computing) و تجزیه و تحلیل بیگ دیتا(big data analytics)، بازگشت سرمایه به بالاترین حد خود برسد. بیش از سه چهارم (۷۷ درصد) از مدیران صنایع شیمیایی بر این باورند که بهترین میزان بازگشت سرمایه، بوسیله استفاده از محاسبات ابری(۴۴ درصد) و بیگ دیتا و تجزیه و تحلیل آن(۳۳ درصد) بدست می آید.

🌍: https://mfta.ir/data-science/chemical-companies-rushing-to-big-data-analytics

🆔: @mfta_ir

مفتا

عجله شرکت های شیمیایی برای استفاده از بیگ دیتا و محاسبات ابری

انتظار می رود در سه سال آینده، با محاسبات ابری(cloud computing) و تجزیه و تحلیل بیگ دیتا(big data analytics)، بازگشت سرمایه به بالاترین حد خود برسد

10 views11:54

BigData

📍Cloud Computing and Big Data :
Data/streams
associated retrieval
processing techniques
Security architectures

618 views03:24

BigData

S3P6-Zièd-Choukair.pptx

2.1 MB

612 views03:24

BigData

Cloudera Security

602 views03:33

BigData

cloudera-security.pdf

3.3 MB

615 views03:34

BigData

#امنیت
#هدوپ
#hadoop
#security

Facets of Hadoop Security:

Hadoop security can be viewed as a series of business and operational capabilities, including:

• Perimeter Security, which focuses on guarding access to the cluster, its data, and its various services. In
information security, this translates to Authentication.

• Data Protection, which comprises the protection of data from unauthorized access, at rest and in transit. In
information security, this translates to Encryption.

• Entitlement, which includes the definition and enforcement of what users and applications can do with data.
In information security, this translates to Authorization.

• Transparency, which consists of the reporting and monitoring on the where, when, and how of data usage.
In information security, this translates to Auditing.

@BigDataTechnology

631 views03:44

BigData

Hadoop security

561 views03:46

BigData

جهت کسب اطلاعات بیشتر کاربرد بیگ دیتا در حوزه سلامت و بهداشت به لینک زیر مراجعه فرمایید.

@BigDataTechnology

- Big Data in Healthcare Made Simple

- Hadoop in Healthcare

- How will Hadoop impact and/or change healthcare analytics?

- Big Data in Healthcare: Separating The Hype From The Reality

- Healthcare Analytics and Deeper Insight

- Healthcare Big Data:
Volume
Velocity
Variety

- Successful Predictive Analytics in Healthcare: 4 Reasons Why Predictive Analytics Does Not Depend on Big Data

@BigDataTechnology

https://www.healthcatalyst.com/predictive-analytics-big-data-big-mess

Health Catalyst

In Healthcare Predictive Analytics, Big Data is Sometimes a Big Mess

Is Big Data necessary for predictive analytics in healthcare? It turns out there are 4 keys that are much more important…

642 views21:03

BigData

Forwarded from Golnaz Ardeshiri

https://www.civilica.com/modules.php?name=PaperSearchISI&op=Abs&DOI=10.1089%2Fbig.2013.0018

Civilica

مقاله Real-Time Analytics for the Healthcare Industry: Arrhythmia Detection

بانک جامع مقالات تمام متن کنفرانس و همایش های ایران در زمینه علوم فیزیکی و مهندسی، علوم زیستی و علوم اجتماعی

553 views05:22

BigData

کاربرد بیگ دیتا و هدوپ در حوزه سلامت
#hadoop
#healthcare
#bigData

@BigDataTechnology

Big Data and Apache Hadoop for Healthcare and Life Sciences

https://www.mapr.com/solutions/industry/big-data-and-apache-hadoop-healthcare-and-life-sciences

Mapr

Healthcare and Life Science Use Cases | MapR

Unstructured data forms close to 80% of information in the healthcare industry and is growing exponentially. Getting access to this unstructured data—such as output from medical devices, doctor’s notes, lab results, imaging reports, medical correspondence…

1.12K views05:26

BigData

اسلاید زیر توضیحات جامعی در رابطه با کاربرد هدوپ در حوزه سلامت و پزشکی برای شما ارائه میکنه.

آشنایی با پلتفرم های نوین ، معماری و تجزیه و تحلیل

@BigDataTechnology

https://www.slideshare.net/Hadoop_Summit/hadoop-enabled-healthcare?from_m_app=android

www.slideshare.net

Hadoop Enabled Healthcare

HADOOP ENABLED HEALTHCARE Charles Boicey, MS, RN-BC, CPHIMS Enterprise Analytics Architect Stony Brook Medicine Suffolk Care Collaborative

839 views05:33

BigData

Forwarded from Hadoop.ir

مقاله جدید مرجع هدوپ ایران:

«آیا آپاچی اسپارک باعث مرگ هدوپ خواهد شد؟»

این موضوع یکی از داغ ترین موضوعات مورد بحث در حوزه کلان داده است و افراد زیادی به دنبال جواب آن هستند. بسیاری از آن‌ها همواره اسپارک و هدوپ را با هم مقایسه می‌کنند و یا به دنبال برتری هرکدام هستند.
مدت‌ها پیش این سؤال ذهن من را هم به خود مشغول کرده بود. پیش از اینکه خود به تشریح پاسخ این پرسش بپردازم میخواهم پاسخی که شاون اون(Sean Owen) مسئول تحقیقات علوم داده شرکت Cloudera به سؤال من داد را در اینجا نقل قول کنم.

ادامه در https://hadoop.ir/?p=646

مرجع هدوپ ایران
www.hadoop.ir
@hadoop

مرجع هدوپ ایران

آیا آپاچی اسپارک باعث مرگ هدوپ خواهد شد؟

این موضوع یکی از داغ ترین موضوعات مورد بحث در حوزه کلان داده است و افراد زیادی به دنبال جواب آن هستند. بسیاری از آن‌ها همواره اسپارک و هدوپ را با هم مقایسه می‌کنند و یا به دنبال برتری هرکدام هستند.

8 views09:09

BigData

Forwarded from Hadoop.ir

پیغام داگ کاتینگ(Doug Cutting) ، خالق هدوپ ، به مرجع هدوپ ایران

www.hadoop.ir
@hadoop

7 views10:10

BigData

4.96K views10:20

About

Blog

Apps

Platform