مقدمه ای بر پیکان (Apache Arrow) :
تحلیل درون حافظه داده های ستونی
#apache
#arrow
#bigData
پروژه متن باز پیکان ، علیرغم نوپا بودنش در اکو سیستم آپاچی، در حال تبدیل شدن به یک استاندارد در حوزه پردازش داده و ایجاد یک بستر مناسب برای تعامل بین فناوریهای مختلف کلان داده است.
توسعه گران ارشد ۱۳ پروژه متن باز اصلی دنیای کلان داده، یک تیم مشترک برای ایجاد و توسعه پیکان ، شکل داده اند و سایر شرکتها و پروژه ها هم در حال تطبیق دادن خود با آن هستند. این ۱۳ تا شرکت عبارتند از :
Calcite
Cassandra
Drill
Hadoop
HBase
Ibis
Impala
Kudu
Pandas
Parquet
Phoenix
Spark
Storm
تحلیل درون حافظه ای داده های ستونی :
پروژه پیکان، برآمده از چهار گرایش و نیاز جدید مهندسی داده امروز دنیاست :
داده های ستونی :
قبلاً در مقاله Kudu درباره مفهوم داده های ستونی توضیح داده شد اما به طور خلاصه ،امروزه فناوریهای کلان داده، ستونی شده اند. یعنی به جای ذخیره سطری داده ها ، آنها را به صورت ستونی ذخیره می کنند. با اینکار ، فیلترگذاری و جستجوی داده ها بسیار سریعتر و بهینه تر صورت میگیرد. مثال زیر گویای این مطلب است.البته پروژه Apache Parquet که مخصوص این نوع از ذخیره سازی ، ابداع شده است به رشد این گرایش کمک بزرگی کرد.
پردازش درون حافظه ای :
اسپارک محبوبیت و رواج امروز خود را مدیون پردازش های درون حافظه ایست که باعث افزایش کارآیی قابل ملاحظه سیستم های نوین اطلاعاتی امروزی شده است .
داده های پیچیده و ساختارهای پویا :
داده های دنیای واقعی با ساختار سلسله مراتبی و تودرتو راحت نمایش داده می شوند که رشد قالب JSON و بانکهای اطلاعاتی سندگرا مانند مانگو دی بی، نشانگر این نیاز کسب و کار امروزی است . سیستم های مدرن تحلیلی معاصر باید بتواند این نوع از داده ها را به صورت پیش فرض پشتیبانی کند.
نیاز به تعامل و برقراری ارتباط بین فناوریهای مختلف حوزه کلان داده :
در حال حاضر، فناوریها و کتابخانه های مختلف حوزه کلان داده، هر کدام روشی را برای ذخیره و پردازش داده ها ابداع کرده اند و برای برقراری ارتباط بین آنها و استفاده از داده ها به صورت مشترک، نیاز به فرآیندهای مختلف تبدیل داده داریم که هم زمان بر است و هم توسعه سامانه ها را با مشکل مواجه می کند. Apache Parquet ، Apache Avro تلاشهایی برای رفع این مشکل و استاندارد سازی تبادل داده هاست .
اغلب سیستم های پردازش داده معاصر، یک یا حداکثر دو مورد از موارد سه گانه فوق را دارا هستندو پیکان ، تلاشی است برای ساخت سامانه هایی با پشتیبانی از تمام نیازهای نوین مورد اشاره به صورت استاندارد و متن باز.
این مطلب ادامه دارد....
نویسنده :
استاد گران قدر جناب آقای سید مجتبی بنائی
www.bigdata.ir
تحلیل درون حافظه داده های ستونی
#apache
#arrow
#bigData
پروژه متن باز پیکان ، علیرغم نوپا بودنش در اکو سیستم آپاچی، در حال تبدیل شدن به یک استاندارد در حوزه پردازش داده و ایجاد یک بستر مناسب برای تعامل بین فناوریهای مختلف کلان داده است.
توسعه گران ارشد ۱۳ پروژه متن باز اصلی دنیای کلان داده، یک تیم مشترک برای ایجاد و توسعه پیکان ، شکل داده اند و سایر شرکتها و پروژه ها هم در حال تطبیق دادن خود با آن هستند. این ۱۳ تا شرکت عبارتند از :
Calcite
Cassandra
Drill
Hadoop
HBase
Ibis
Impala
Kudu
Pandas
Parquet
Phoenix
Spark
Storm
تحلیل درون حافظه ای داده های ستونی :
پروژه پیکان، برآمده از چهار گرایش و نیاز جدید مهندسی داده امروز دنیاست :
داده های ستونی :
قبلاً در مقاله Kudu درباره مفهوم داده های ستونی توضیح داده شد اما به طور خلاصه ،امروزه فناوریهای کلان داده، ستونی شده اند. یعنی به جای ذخیره سطری داده ها ، آنها را به صورت ستونی ذخیره می کنند. با اینکار ، فیلترگذاری و جستجوی داده ها بسیار سریعتر و بهینه تر صورت میگیرد. مثال زیر گویای این مطلب است.البته پروژه Apache Parquet که مخصوص این نوع از ذخیره سازی ، ابداع شده است به رشد این گرایش کمک بزرگی کرد.
پردازش درون حافظه ای :
اسپارک محبوبیت و رواج امروز خود را مدیون پردازش های درون حافظه ایست که باعث افزایش کارآیی قابل ملاحظه سیستم های نوین اطلاعاتی امروزی شده است .
داده های پیچیده و ساختارهای پویا :
داده های دنیای واقعی با ساختار سلسله مراتبی و تودرتو راحت نمایش داده می شوند که رشد قالب JSON و بانکهای اطلاعاتی سندگرا مانند مانگو دی بی، نشانگر این نیاز کسب و کار امروزی است . سیستم های مدرن تحلیلی معاصر باید بتواند این نوع از داده ها را به صورت پیش فرض پشتیبانی کند.
نیاز به تعامل و برقراری ارتباط بین فناوریهای مختلف حوزه کلان داده :
در حال حاضر، فناوریها و کتابخانه های مختلف حوزه کلان داده، هر کدام روشی را برای ذخیره و پردازش داده ها ابداع کرده اند و برای برقراری ارتباط بین آنها و استفاده از داده ها به صورت مشترک، نیاز به فرآیندهای مختلف تبدیل داده داریم که هم زمان بر است و هم توسعه سامانه ها را با مشکل مواجه می کند. Apache Parquet ، Apache Avro تلاشهایی برای رفع این مشکل و استاندارد سازی تبادل داده هاست .
اغلب سیستم های پردازش داده معاصر، یک یا حداکثر دو مورد از موارد سه گانه فوق را دارا هستندو پیکان ، تلاشی است برای ساخت سامانه هایی با پشتیبانی از تمام نیازهای نوین مورد اشاره به صورت استاندارد و متن باز.
این مطلب ادامه دارد....
نویسنده :
استاد گران قدر جناب آقای سید مجتبی بنائی
www.bigdata.ir
مهندسی داده
کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است - مهندسی داده
وب سایت مهندسی داده : کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است
مولفه های تشکیل دهنده پیکان
Apache Arrow
#apache
پیکان، مجموعه ای مولفه ها و فناوریهاییست که موتورهای اجرایی کلان داده (مانند اسپارک، توزیع و تجمیع) و کتابخانه های ذخیره ساز داده ها (مانند HDFS) از آنها به عنوان لایه های میانی خود استفاده خواهند کرد . این فناوریها و الگوریتم ها عبارتند از :
- مجموعه ای از نوع داده های استاندارد شامل نوع داده های SQL و JSON مانند
Decimal,Int,BigInt
- ساختار داده ستونی برای نمایش درون حافظه رکوردهای اطلاعاتی که بر روی نوع داده های استاندارد بنا نهاده شده است.
- ساختمان داده های رایج مورد نیاز برای کار با داده های ستونی مانند صفها و جداول درهم سازی به صورت بهینه و موثر با سی پی یو های امروزی.
- اIPC از طریق حافظه مشترک ، TCP/IP و RDMA
- کتابخانه هایی برای خواندن و نوشتن داده های ستونی به زبانهای مختلفالگوریتم های SIMD (یک دستور، چندین منبع داده) و مطابق با رهیافت خط تولید (PipeLine) برای عملیاتی مانند مرتب سازی ، جستجو ، تطبیق الگو و … که به صورت موثر از حافظه و سی پی یو استفاده کند .
- تکنیکهای فشرده سازی داده های ستونی برای بهینه سازی حافظه .
- ابزارهایی برای ذخیره موقت داده ها در حافظه های پایدار مانند HDD و SSD
مطلب ادامه دارد....
Apache Arrow
#apache
پیکان، مجموعه ای مولفه ها و فناوریهاییست که موتورهای اجرایی کلان داده (مانند اسپارک، توزیع و تجمیع) و کتابخانه های ذخیره ساز داده ها (مانند HDFS) از آنها به عنوان لایه های میانی خود استفاده خواهند کرد . این فناوریها و الگوریتم ها عبارتند از :
- مجموعه ای از نوع داده های استاندارد شامل نوع داده های SQL و JSON مانند
Decimal,Int,BigInt
- ساختار داده ستونی برای نمایش درون حافظه رکوردهای اطلاعاتی که بر روی نوع داده های استاندارد بنا نهاده شده است.
- ساختمان داده های رایج مورد نیاز برای کار با داده های ستونی مانند صفها و جداول درهم سازی به صورت بهینه و موثر با سی پی یو های امروزی.
- اIPC از طریق حافظه مشترک ، TCP/IP و RDMA
- کتابخانه هایی برای خواندن و نوشتن داده های ستونی به زبانهای مختلفالگوریتم های SIMD (یک دستور، چندین منبع داده) و مطابق با رهیافت خط تولید (PipeLine) برای عملیاتی مانند مرتب سازی ، جستجو ، تطبیق الگو و … که به صورت موثر از حافظه و سی پی یو استفاده کند .
- تکنیکهای فشرده سازی داده های ستونی برای بهینه سازی حافظه .
- ابزارهایی برای ذخیره موقت داده ها در حافظه های پایدار مانند HDD و SSD
مطلب ادامه دارد....
Apache Arrow
#BigData
البته نکته مهمی که باید مد نظر داشت این است که پیکان، به تنهایی نه یک موتور پردازش داده مانند اسپارک است و نه یک کتابخانه ذخیره و توزیع داده مانند HDFS بلکه طراحی شده است که به عنوان یک بستر مشترک و استاندارد برای موارد زیر به کار رود :
1. موتورهای اجرای SQL مانند SparkSQL ، Drill و Impala
2. سیستم های تحلیل و پردازش داده مانند Pandas و اسپارک
3. سیستم های پردازش جریان و مدیریت صف مانند کافکا و استرم .
4.سیستم های ذخیره ساز کلان داده مانند کاساندرا ، HBASE ، Kudu و Parquet
بنابراین پروژه پیکان ، در تقابل و رقابت با هیچ کدام از این سیستم های فوق نیست بلکه سرویس دهنده ای به آنهاست تا کارآیی و اشتراک داده به صورت استاندارد را برای آنها ممکن کند .
منبع :
Bigdata.ir
#BigData
البته نکته مهمی که باید مد نظر داشت این است که پیکان، به تنهایی نه یک موتور پردازش داده مانند اسپارک است و نه یک کتابخانه ذخیره و توزیع داده مانند HDFS بلکه طراحی شده است که به عنوان یک بستر مشترک و استاندارد برای موارد زیر به کار رود :
1. موتورهای اجرای SQL مانند SparkSQL ، Drill و Impala
2. سیستم های تحلیل و پردازش داده مانند Pandas و اسپارک
3. سیستم های پردازش جریان و مدیریت صف مانند کافکا و استرم .
4.سیستم های ذخیره ساز کلان داده مانند کاساندرا ، HBASE ، Kudu و Parquet
بنابراین پروژه پیکان ، در تقابل و رقابت با هیچ کدام از این سیستم های فوق نیست بلکه سرویس دهنده ای به آنهاست تا کارآیی و اشتراک داده به صورت استاندارد را برای آنها ممکن کند .
منبع :
Bigdata.ir
مهندسی داده
کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است - مهندسی داده
وب سایت مهندسی داده : کلان داده (بیگ دیتا)، علم داده و هر آنچه راجع به داده است
Forwarded from Hadoop.ir
اگر علاقه به تبادل نظر و گفتگو پیرامون فریم ورک هدوپ دارید به گروه «هدوپ ایران» بپیوندید.
لینک عضویت: https://telegram.me/joinchat/An8qwj6CGwg0WS-2dTi-Dw
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
لینک عضویت: https://telegram.me/joinchat/An8qwj6CGwg0WS-2dTi-Dw
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
Forwarded from مفتا - ناشنیدههای تکنولوژی
✅ عجله شرکت های شیمیایی برای استفاده از بیگ دیتا و محاسبات ابری
سرمایهگذاری شرکت های شیمیایی در فناوری های دیجیتال به سرعت در حال افزایش است و انتظار می رود در سه سال آینده، با محاسبات ابری(cloud computing) و تجزیه و تحلیل بیگ دیتا(big data analytics)، بازگشت سرمایه به بالاترین حد خود برسد. بیش از سه چهارم (۷۷ درصد) از مدیران صنایع شیمیایی بر این باورند که بهترین میزان بازگشت سرمایه، بوسیله استفاده از محاسبات ابری(۴۴ درصد) و بیگ دیتا و تجزیه و تحلیل آن(۳۳ درصد) بدست می آید.
🌍: https://mfta.ir/data-science/chemical-companies-rushing-to-big-data-analytics
🆔: @mfta_ir
سرمایهگذاری شرکت های شیمیایی در فناوری های دیجیتال به سرعت در حال افزایش است و انتظار می رود در سه سال آینده، با محاسبات ابری(cloud computing) و تجزیه و تحلیل بیگ دیتا(big data analytics)، بازگشت سرمایه به بالاترین حد خود برسد. بیش از سه چهارم (۷۷ درصد) از مدیران صنایع شیمیایی بر این باورند که بهترین میزان بازگشت سرمایه، بوسیله استفاده از محاسبات ابری(۴۴ درصد) و بیگ دیتا و تجزیه و تحلیل آن(۳۳ درصد) بدست می آید.
🌍: https://mfta.ir/data-science/chemical-companies-rushing-to-big-data-analytics
🆔: @mfta_ir
مفتا
عجله شرکت های شیمیایی برای استفاده از بیگ دیتا و محاسبات ابری
انتظار می رود در سه سال آینده، با محاسبات ابری(cloud computing) و تجزیه و تحلیل بیگ دیتا(big data analytics)، بازگشت سرمایه به بالاترین حد خود برسد
📍Cloud Computing and Big Data :
Data/streams
associated retrieval
processing techniques
Security architectures
Data/streams
associated retrieval
processing techniques
Security architectures
#امنیت
#هدوپ
#hadoop
#security
Facets of Hadoop Security:
Hadoop security can be viewed as a series of business and operational capabilities, including:
• Perimeter Security, which focuses on guarding access to the cluster, its data, and its various services. In
information security, this translates to Authentication.
• Data Protection, which comprises the protection of data from unauthorized access, at rest and in transit. In
information security, this translates to Encryption.
• Entitlement, which includes the definition and enforcement of what users and applications can do with data.
In information security, this translates to Authorization.
• Transparency, which consists of the reporting and monitoring on the where, when, and how of data usage.
In information security, this translates to Auditing.
@BigDataTechnology
#هدوپ
#hadoop
#security
Facets of Hadoop Security:
Hadoop security can be viewed as a series of business and operational capabilities, including:
• Perimeter Security, which focuses on guarding access to the cluster, its data, and its various services. In
information security, this translates to Authentication.
• Data Protection, which comprises the protection of data from unauthorized access, at rest and in transit. In
information security, this translates to Encryption.
• Entitlement, which includes the definition and enforcement of what users and applications can do with data.
In information security, this translates to Authorization.
• Transparency, which consists of the reporting and monitoring on the where, when, and how of data usage.
In information security, this translates to Auditing.
@BigDataTechnology
جهت کسب اطلاعات بیشتر کاربرد بیگ دیتا در حوزه سلامت و بهداشت به لینک زیر مراجعه فرمایید.
@BigDataTechnology
- Big Data in Healthcare Made Simple
- Hadoop in Healthcare
- How will Hadoop impact and/or change healthcare analytics?
- Big Data in Healthcare: Separating The Hype From The Reality
- Healthcare Analytics and Deeper Insight
- Healthcare Big Data:
Volume
Velocity
Variety
- Successful Predictive Analytics in Healthcare: 4 Reasons Why Predictive Analytics Does Not Depend on Big Data
@BigDataTechnology
https://www.healthcatalyst.com/predictive-analytics-big-data-big-mess
@BigDataTechnology
- Big Data in Healthcare Made Simple
- Hadoop in Healthcare
- How will Hadoop impact and/or change healthcare analytics?
- Big Data in Healthcare: Separating The Hype From The Reality
- Healthcare Analytics and Deeper Insight
- Healthcare Big Data:
Volume
Velocity
Variety
- Successful Predictive Analytics in Healthcare: 4 Reasons Why Predictive Analytics Does Not Depend on Big Data
@BigDataTechnology
https://www.healthcatalyst.com/predictive-analytics-big-data-big-mess
Health Catalyst
In Healthcare Predictive Analytics, Big Data is Sometimes a Big Mess
Is Big Data necessary for predictive analytics in healthcare? It turns out there are 4 keys that are much more important…
کاربرد بیگ دیتا و هدوپ در حوزه سلامت
#hadoop
#healthcare
#bigData
@BigDataTechnology
Big Data and Apache Hadoop for Healthcare and Life Sciences
https://www.mapr.com/solutions/industry/big-data-and-apache-hadoop-healthcare-and-life-sciences
#hadoop
#healthcare
#bigData
@BigDataTechnology
Big Data and Apache Hadoop for Healthcare and Life Sciences
https://www.mapr.com/solutions/industry/big-data-and-apache-hadoop-healthcare-and-life-sciences
Mapr
Healthcare and Life Science Use Cases | MapR
Unstructured data forms close to 80% of information in the healthcare industry and is growing exponentially. Getting access to this unstructured data—such as output from medical devices, doctor’s notes, lab results, imaging reports, medical correspondence…
اسلاید زیر توضیحات جامعی در رابطه با کاربرد هدوپ در حوزه سلامت و پزشکی برای شما ارائه میکنه.
آشنایی با پلتفرم های نوین ، معماری و تجزیه و تحلیل
@BigDataTechnology
https://www.slideshare.net/Hadoop_Summit/hadoop-enabled-healthcare?from_m_app=android
آشنایی با پلتفرم های نوین ، معماری و تجزیه و تحلیل
@BigDataTechnology
https://www.slideshare.net/Hadoop_Summit/hadoop-enabled-healthcare?from_m_app=android
www.slideshare.net
Hadoop Enabled Healthcare
HADOOP ENABLED HEALTHCARE Charles Boicey, MS, RN-BC, CPHIMS Enterprise Analytics Architect Stony Brook Medicine Suffolk Care Collaborative
Forwarded from Hadoop.ir
مقاله جدید مرجع هدوپ ایران:
«آیا آپاچی اسپارک باعث مرگ هدوپ خواهد شد؟»
این موضوع یکی از داغ ترین موضوعات مورد بحث در حوزه کلان داده است و افراد زیادی به دنبال جواب آن هستند. بسیاری از آنها همواره اسپارک و هدوپ را با هم مقایسه میکنند و یا به دنبال برتری هرکدام هستند.
مدتها پیش این سؤال ذهن من را هم به خود مشغول کرده بود. پیش از اینکه خود به تشریح پاسخ این پرسش بپردازم میخواهم پاسخی که شاون اون(Sean Owen) مسئول تحقیقات علوم داده شرکت Cloudera به سؤال من داد را در اینجا نقل قول کنم.
ادامه در https://hadoop.ir/?p=646
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
«آیا آپاچی اسپارک باعث مرگ هدوپ خواهد شد؟»
این موضوع یکی از داغ ترین موضوعات مورد بحث در حوزه کلان داده است و افراد زیادی به دنبال جواب آن هستند. بسیاری از آنها همواره اسپارک و هدوپ را با هم مقایسه میکنند و یا به دنبال برتری هرکدام هستند.
مدتها پیش این سؤال ذهن من را هم به خود مشغول کرده بود. پیش از اینکه خود به تشریح پاسخ این پرسش بپردازم میخواهم پاسخی که شاون اون(Sean Owen) مسئول تحقیقات علوم داده شرکت Cloudera به سؤال من داد را در اینجا نقل قول کنم.
ادامه در https://hadoop.ir/?p=646
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
مرجع هدوپ ایران
آیا آپاچی اسپارک باعث مرگ هدوپ خواهد شد؟
این موضوع یکی از داغ ترین موضوعات مورد بحث در حوزه کلان داده است و افراد زیادی به دنبال جواب آن هستند. بسیاری از آنها همواره اسپارک و هدوپ را با هم مقایسه میکنند و یا به دنبال برتری هرکدام هستند.
Forwarded from Hadoop.ir
اگر علاقه به تبادل نظر و گفتگو پیرامون فریم ورک هدوپ دارید به گروه «هدوپ ایران» بپیوندید.
لینک عضویت: https://telegram.me/joinchat/An8qwj6CGwg0WS-2dTi-Dw
مرجع هدوپ ایران
www.hadoop.ir
@hadoop
لینک عضویت: https://telegram.me/joinchat/An8qwj6CGwg0WS-2dTi-Dw
مرجع هدوپ ایران
www.hadoop.ir
@hadoop