چرا مایکروسافت برای Clarity, دیتابیس تحلیلی کلیکهوس را برگزید؟
این پست ترجمهای است از پست رسمی تیم ClickHouse درباره انتخاب این پایگاه داده قدرتمند توسط مایکروسافت.
پست اصلی :
https://www.linkedin.com/posts/clickhouseinc_when-microsoft-made-clarity-free-for-everyone-activity-7325580280390451200-fV_M
زمانی که مایکروسافت ابزار Clarity را بهصورت رایگان برای عموم عرضه کرد، میدانست که باید این سرویس را به سرعت و در مقیاسی عظیم گسترش دهد — پردازش صدها تریلیون رویداد، صدها پتابایت داده، و میلیونها پروژه در سطح جهانی.
برای چنین زیرساختی، انتخاب موتور تحلیلی بسیار مهم بود.
مایکروسافت پس از ارزیابی گزینههایی مانند Elasticsearch و Apache Spark، در نهایت با تحقیقاتی گسترده و تستهای متعدد، ClickHouse را برگزید.
چرا ClickHouse؟
در اکتبر ۲۰۲۰، Clarity با ClickHouse در قلب خود راهاندازی شد. این تصمیم حاصل هفتهها آزمایش، بررسیهای عمیق، سنجش هزینهها و عملکردها، و انتخابی مبتنی بر داده بود.
دلایل اصلی:
📥 عملکرد بارگذاری (Ingestion): موتور MergeTree در ClickHouse، نرخ ورودی بسیار بالایی را پشتیبانی میکند که کاملاً با نیاز بار عظیم Clarity همخوانی دارد.
⚡ عملکرد کوئری: پرسوجو روی میلیاردها ردیف در کسری از ثانیه، با کارایی فوقالعاده. این عملکرد سریع، نیاز به منابع پردازشی بیشتر را حذف و هزینهها را کاهش میدهد.
💾 بهرهوری در ذخیرهسازی: ساختار ستونی و فشردهسازی پیشرفته، موجب صرفهجویی چشمگیر در فضای دیسک میشود. امکان تعریف دیسکهای گرم و سرد نیز برای کاهش بیشتر هزینهها فراهم است.
📈 مقیاسپذیری افقی: ClickHouse بهصورت master-master توزیع شده و از replication پشتیبانی میکند. این یعنی مقیاسپذیری روان و آسان هنگام افزایش ترافیک.
🤝 جامعهی متنباز و فعال: انتشار منظم نسخهها، پاسخگویی سریع در GitHub و تلگرام، و پشتیبانی قدرتمند. جالبتر اینکه تیم مایکروسافت نیز به پروژه کمک کرده و نام خود را در جدول system.contributors ثبت کردهاند!
و در نهایت، همانطور که در گزارش رسمی مایکروسافت آمده است:
> Compared to our POC system, ClickHouse outperformed Elastic Search and Spark in every aspect. Heat map generation became an instantaneous task to do, and it was even orders of magnitude cheaper to run. This is the reason why many products have migrated from Elastic Search to ClickHouse, experiencing significant enhancements in their services as a result.
آدرس مقاله اصلی مایکروسافت :
https://clarity-blogs-hbh0gkgebxgwfkgd.westus2-01.azurewebsites.net/why-microsoft-clarity-chose-clickhouse/
#ClickHouse #Microsoft #Clarity #داده_های_انبوه #تحلیل_داده #پایگاه_داده #BigData #DataEngineering #ElasticSearch #Spark #CloudArchitecture #OpenSource #مقیاسپذیری #StorageOptimization #DatabasePerformance #DistributedSystems
این پست ترجمهای است از پست رسمی تیم ClickHouse درباره انتخاب این پایگاه داده قدرتمند توسط مایکروسافت.
پست اصلی :
https://www.linkedin.com/posts/clickhouseinc_when-microsoft-made-clarity-free-for-everyone-activity-7325580280390451200-fV_M
زمانی که مایکروسافت ابزار Clarity را بهصورت رایگان برای عموم عرضه کرد، میدانست که باید این سرویس را به سرعت و در مقیاسی عظیم گسترش دهد — پردازش صدها تریلیون رویداد، صدها پتابایت داده، و میلیونها پروژه در سطح جهانی.
برای چنین زیرساختی، انتخاب موتور تحلیلی بسیار مهم بود.
مایکروسافت پس از ارزیابی گزینههایی مانند Elasticsearch و Apache Spark، در نهایت با تحقیقاتی گسترده و تستهای متعدد، ClickHouse را برگزید.
چرا ClickHouse؟
در اکتبر ۲۰۲۰، Clarity با ClickHouse در قلب خود راهاندازی شد. این تصمیم حاصل هفتهها آزمایش، بررسیهای عمیق، سنجش هزینهها و عملکردها، و انتخابی مبتنی بر داده بود.
دلایل اصلی:
📥 عملکرد بارگذاری (Ingestion): موتور MergeTree در ClickHouse، نرخ ورودی بسیار بالایی را پشتیبانی میکند که کاملاً با نیاز بار عظیم Clarity همخوانی دارد.
⚡ عملکرد کوئری: پرسوجو روی میلیاردها ردیف در کسری از ثانیه، با کارایی فوقالعاده. این عملکرد سریع، نیاز به منابع پردازشی بیشتر را حذف و هزینهها را کاهش میدهد.
💾 بهرهوری در ذخیرهسازی: ساختار ستونی و فشردهسازی پیشرفته، موجب صرفهجویی چشمگیر در فضای دیسک میشود. امکان تعریف دیسکهای گرم و سرد نیز برای کاهش بیشتر هزینهها فراهم است.
📈 مقیاسپذیری افقی: ClickHouse بهصورت master-master توزیع شده و از replication پشتیبانی میکند. این یعنی مقیاسپذیری روان و آسان هنگام افزایش ترافیک.
🤝 جامعهی متنباز و فعال: انتشار منظم نسخهها، پاسخگویی سریع در GitHub و تلگرام، و پشتیبانی قدرتمند. جالبتر اینکه تیم مایکروسافت نیز به پروژه کمک کرده و نام خود را در جدول system.contributors ثبت کردهاند!
و در نهایت، همانطور که در گزارش رسمی مایکروسافت آمده است:
> Compared to our POC system, ClickHouse outperformed Elastic Search and Spark in every aspect. Heat map generation became an instantaneous task to do, and it was even orders of magnitude cheaper to run. This is the reason why many products have migrated from Elastic Search to ClickHouse, experiencing significant enhancements in their services as a result.
آدرس مقاله اصلی مایکروسافت :
https://clarity-blogs-hbh0gkgebxgwfkgd.westus2-01.azurewebsites.net/why-microsoft-clarity-chose-clickhouse/
#ClickHouse #Microsoft #Clarity #داده_های_انبوه #تحلیل_داده #پایگاه_داده #BigData #DataEngineering #ElasticSearch #Spark #CloudArchitecture #OpenSource #مقیاسپذیری #StorageOptimization #DatabasePerformance #DistributedSystems
Linkedin
When Microsoft made Clarity free for everyone, they knew it had to scale -… | ClickHouse
When Microsoft made Clarity free for everyone, they knew it had to scale - fast - to hundreds of trillions of events, hundreds of petabytes of data, and millions of projects.
Their choice to power these workloads? ClickHouse. After testing Elasticsearch…
Their choice to power these workloads? ClickHouse. After testing Elasticsearch…
❤3🔥1
تولد OpenSearch و قدرت بیمثال جامعه متنباز
در دنیای نرمافزارهای متنباز، گاهی تصمیمات تجاری یک شرکت میتوانند موجی از تغییرات ساختاری در کل اکوسیستم ایجاد کنند. داستان #OpenSearch یکی از بارزترین نمونههای این تحولات است؛ نمونهای که نشان میدهد چگونه جامعه، با تکیه بر اصول متنباز، مسیر خود را از دل یک بحران تعریف میکند.
تغییر لایسنس #Elasticsearch: نقطهی آغاز بحران اعتماد
الستیکسرچ سالها بهعنوان یکی از محبوبترین ابزارهای جستوجوی متنی و تحلیل دادههای لاگ شناخته میشد. بسیاری از تیمهای فنی در سراسر جهان، آن را بهعنوان بخش اصلی زیرساختهای observability، جستوجو درونسیستمی و تحلیل رفتار کاربران بهکار گرفته بودند.
⚙️ اپنسرچ: پاسخی جامعهمحور به محدودیت
در واکنش، AWS نسخه ۷.۱۰ Elasticsearch را فورک کرد و پروژه متنباز OpenSearch را راهاندازی نمود. OpenSearch کاملاً آزاد است، با مجوز Apache 2.0 و سازگار با Elasticsearch 7.10. این پروژه شامل OpenSearch Dashboards به عنوان جایگزین Kibana نیز میشود.
امروزه، اپنسرچ با حمایت بنیاد لینوکس و مشارکت فعال شرکتهایی مانند SAP، Uber، Canonical و ByteDance، به یک پلتفرم متنباز واقعی و پایدار تبدیل شده است. این یک نمونه بارز از قدرت جامعه متنباز است که توانست پس از بحران، مسیر جدیدی را برای زیرساختهای جستوجو و تحلیل داده تعریف کند.
🧩 قابلیتهای متنباز در دسترس همه
اپنسرچ بسیاری از امکاناتی را که قبلاً صرفاً در نسخههای پولی الستیکسرچ بود، بهصورت رایگان و باز در اختیار کاربران قرار میدهد:
✅مدیریت چرخه عمر ایندکسها (ISM)
✅قابلیتهای یادگیری ماشین برای تشخیص ناهنجاری و پیشبینی
✅داشبوردهای قابل تنظیم و هشداردهی بدون قفلهای افزونهای
✅ امنیت دقیق سطح ایندکس و کنترل دسترسی
✅پشتیبانی از جستوجوی برداری و تحلیلهای معنایی (نسخه ۳.۰ در سال ۲۰۲۵)
📊 مهاجرت آسان و تاثیر مثبت
تجربه بسیاری از سازمانها نشان میدهد مهاجرت از Elasticsearch 7.10 به OpenSearch بدون تغییر کد و با صرف کمترین زمان انجام میشود. این مهاجرت علاوه بر کاهش هزینههای زیرساختی تا حدود ۳۸٪، عملکرد بهتری مانند افزایش ۲۵٪ سرعت پردازش دادهها و کاهش مصرف حافظه را به همراه داشته است.
🚀 چشمانداز آینده: همگرایی جستوجو، هوش مصنوعی و جامعه
با نسخه ۳.۰ منتشر شده در ۲۰۲۵، OpenSearch علاوه بر امکانات سنتی، پشتیبانی قوی از جستوجوی برداری، ترکیب جستوجوی متنی و معنایی و یکپارچگی با مدلهای زبان بزرگ (LLM) را ارائه میدهد. این تحولات نشاندهنده مسیر رو به رشد پروژه است که جامعه متنباز آن را هدایت میکند.
📌 جمعبندی: متنباز یعنی آزادی و پایداری
اپنسرچ فراتر از یک جایگزین فنی است؛ این پروژه تجسم قدرت جامعه متنباز است که با همکاری و شفافیت توانسته ابزارهایی را فراهم کند که نه تنها رایگان بلکه قابل توسعه و پایدارند.
این پروژه نشان داد که قدرت واقعی در اکوسیستم متنباز، نه در مالکیت شرکتها، بلکه در توان جمعی توسعهدهندگان و کاربران است و نشاندهنده مسیری مبتنی بر حق انتخاب، توسعه پایدار، و کنترل کامل زیرساخت.
در دنیای نرمافزارهای متنباز، گاهی تصمیمات تجاری یک شرکت میتوانند موجی از تغییرات ساختاری در کل اکوسیستم ایجاد کنند. داستان #OpenSearch یکی از بارزترین نمونههای این تحولات است؛ نمونهای که نشان میدهد چگونه جامعه، با تکیه بر اصول متنباز، مسیر خود را از دل یک بحران تعریف میکند.
تغییر لایسنس #Elasticsearch: نقطهی آغاز بحران اعتماد
الستیکسرچ سالها بهعنوان یکی از محبوبترین ابزارهای جستوجوی متنی و تحلیل دادههای لاگ شناخته میشد. بسیاری از تیمهای فنی در سراسر جهان، آن را بهعنوان بخش اصلی زیرساختهای observability، جستوجو درونسیستمی و تحلیل رفتار کاربران بهکار گرفته بودند.
اما در ژانویه ۲۰۲۱، شرکت Elastic تصمیم گرفت مجوز پروژه را از Apache 2.0 به SSPL تغییر دهد، تصمیمی که عملاً آن را از دایرهی پروژههای کاملاً متنباز خارج کرد. این تغییر، نگرانیهای جدی درباره آینده توسعه، وابستگی به فروشنده (vendor lock-in) و پایداری بلندمدت این ابزار ایجاد کرد.
⚙️ اپنسرچ: پاسخی جامعهمحور به محدودیت
در واکنش، AWS نسخه ۷.۱۰ Elasticsearch را فورک کرد و پروژه متنباز OpenSearch را راهاندازی نمود. OpenSearch کاملاً آزاد است، با مجوز Apache 2.0 و سازگار با Elasticsearch 7.10. این پروژه شامل OpenSearch Dashboards به عنوان جایگزین Kibana نیز میشود.
امروزه، اپنسرچ با حمایت بنیاد لینوکس و مشارکت فعال شرکتهایی مانند SAP، Uber، Canonical و ByteDance، به یک پلتفرم متنباز واقعی و پایدار تبدیل شده است. این یک نمونه بارز از قدرت جامعه متنباز است که توانست پس از بحران، مسیر جدیدی را برای زیرساختهای جستوجو و تحلیل داده تعریف کند.
🧩 قابلیتهای متنباز در دسترس همه
اپنسرچ بسیاری از امکاناتی را که قبلاً صرفاً در نسخههای پولی الستیکسرچ بود، بهصورت رایگان و باز در اختیار کاربران قرار میدهد:
✅مدیریت چرخه عمر ایندکسها (ISM)
✅قابلیتهای یادگیری ماشین برای تشخیص ناهنجاری و پیشبینی
✅داشبوردهای قابل تنظیم و هشداردهی بدون قفلهای افزونهای
✅ امنیت دقیق سطح ایندکس و کنترل دسترسی
✅پشتیبانی از جستوجوی برداری و تحلیلهای معنایی (نسخه ۳.۰ در سال ۲۰۲۵)
📊 مهاجرت آسان و تاثیر مثبت
تجربه بسیاری از سازمانها نشان میدهد مهاجرت از Elasticsearch 7.10 به OpenSearch بدون تغییر کد و با صرف کمترین زمان انجام میشود. این مهاجرت علاوه بر کاهش هزینههای زیرساختی تا حدود ۳۸٪، عملکرد بهتری مانند افزایش ۲۵٪ سرعت پردازش دادهها و کاهش مصرف حافظه را به همراه داشته است.
🚀 چشمانداز آینده: همگرایی جستوجو، هوش مصنوعی و جامعه
با نسخه ۳.۰ منتشر شده در ۲۰۲۵، OpenSearch علاوه بر امکانات سنتی، پشتیبانی قوی از جستوجوی برداری، ترکیب جستوجوی متنی و معنایی و یکپارچگی با مدلهای زبان بزرگ (LLM) را ارائه میدهد. این تحولات نشاندهنده مسیر رو به رشد پروژه است که جامعه متنباز آن را هدایت میکند.
📌 جمعبندی: متنباز یعنی آزادی و پایداری
اپنسرچ فراتر از یک جایگزین فنی است؛ این پروژه تجسم قدرت جامعه متنباز است که با همکاری و شفافیت توانسته ابزارهایی را فراهم کند که نه تنها رایگان بلکه قابل توسعه و پایدارند.
این پروژه نشان داد که قدرت واقعی در اکوسیستم متنباز، نه در مالکیت شرکتها، بلکه در توان جمعی توسعهدهندگان و کاربران است و نشاندهنده مسیری مبتنی بر حق انتخاب، توسعه پایدار، و کنترل کامل زیرساخت.
👍6
لیکهوس در مسیر بلوغ: نگاهی به نسخه جدید #RisingWave و ادغام عمیق آن با #Iceberg
در دنیای امروز که هر سازمان مجموعهای از سرویسها و جریانهای دادهای متنوع دارد، نیاز به بستری متمرکز برای ذخیره و مدیریت «خودِ دادهها» بیش از همیشه احساس میشود: بستری مستقل از ابزارها و موتورهای پردازشی، جایی که دادهها بهصورت خام و ساختیافته نگهداری شوند.
این معماری نهتنها نظم دادهها را تضمین میکند، بلکه بستر ایدهآلی برای توسعه سامانههای هوش مصنوعی و مدلهای یادگیری ماشین فراهم میسازد؛ زیرا دادههای تمیز و استاندارد، پایهی هر سیستم هوشمند هستند.
🚀با این حال، فناوریهایی چون Iceberg هنوز در مدیریت متادیتا، snapshotها و عملیات نگهداری، چالشهایی دارند. در همین نقطه است که نسخهی جدید #RisingWave v2.6 میتواند فرآیند به کارگیری و مدیریت لیکهوس را تسهیل کند ✨
⚡️ترکیب #RisingWave + #ApacheIceberg + #Lakekeeper = ترکیب برنده!
✅ در این نسخه، RisingWave، بهعنوان یک پایگاه داده جریانی سازگار با #PostgreSQL، بهصورت بومی با Iceberg ادغام شده است. دادهها بهصورت لحظهای از #Kafka دریافت، در RisingWave پردازش، و سپس به شکل استاندارد در Lakehouse ذخیره میشوند.
✅این ارتباط از طریق #Lakekeeper برقرار میشود: یک #REST Catalog استاندارد که رابط رسمی میان RisingWave و Iceberg است.
✅ کتابخانه Lakekeeper علاوه بر مدیریت متادیتا و کنترل دسترسیها (با پشتیبانی از #OpenFGA)، امکان راهاندازی و تنظیم #Lakehouse را بهدلخواه شما فراهم میکند؛ مثلاً با استفاده از #MinIO یا هر فایلسیستم دیگر.
✅ سپس RisingWave با تنظیمات شما و در «لیکهوس شما» شروع به درج دادهها میکند.
✅ دادههای غیرجریانی سازمان نیز میتوانند با ابزارهایی مانند #ApacheSpark یا #PyIceberg به این بستر منتقل شوند تا یک Lakehouse کامل شکل گیرد: جایی که RisingWave بخش دادههای جریانی را مدیریت میکند.
این ترکیب، از نظر فنی استاندارد و از نظر معماری، منعطف و آیندهنگر است.
همچنین، عملیات نگهداشت و بهینهسازی دادهها مستقیماً در خود RisingWave انجام میشود، و بار سنگین مدیریت #Lakehouse از دوش تیمهای داده برداشته میشود. 💪
🧠 ویژگیهای کلیدی نسخهی RisingWave ۲.۶
🔰 پشتیبانی از دادههای برداری (Vector) برای جستوجوی شباهت
🔰حالت جدید Copy-on-Write برای snapshotهای تمیزتر در Iceberg
🔰دستور VACUUM FULL برای پاکسازی و فشردهسازی دادهها
🔰سازگاری کامل با #Lakekeeper REST Catalog
🔰تنوع sinkهای جدید برای #Snowflake، #Redshift، #Elasticsearch
🔰حالت Memory-Only برای پردازشهای فوقسریع
🎥 بهزودی ویدیویی منتشر میکنم که در آن ساخت یک #Lakehouse عملی با
#MinIO + #Lakekeeper + #Spark + #Trino + #StarRocks
را گامبهگام بررسی میکنیم. 🚀
به باور من، مسیر آیندهی زیرساختهای داده بهسمتی پیش میرود که #Lakehouse بستر اصلی ذخیره و تحلیل دادهها شود،
و ترکیب #RisingWave + #ApacheIceberg + #Lakekeeper یکی از گزینههای خوب سازمانی برای شروع این مسیر است. 🌟
در دنیای امروز که هر سازمان مجموعهای از سرویسها و جریانهای دادهای متنوع دارد، نیاز به بستری متمرکز برای ذخیره و مدیریت «خودِ دادهها» بیش از همیشه احساس میشود: بستری مستقل از ابزارها و موتورهای پردازشی، جایی که دادهها بهصورت خام و ساختیافته نگهداری شوند.
این معماری نهتنها نظم دادهها را تضمین میکند، بلکه بستر ایدهآلی برای توسعه سامانههای هوش مصنوعی و مدلهای یادگیری ماشین فراهم میسازد؛ زیرا دادههای تمیز و استاندارد، پایهی هر سیستم هوشمند هستند.
📌 اینجا همان جایی است که مفهوم #Lakehouse اهمیت خود را نشان میدهد: ترکیبی از دادههای ساختیافتهی خام به همراه یک استاندارد سازماندهی مانند #ApacheIceberg که باعث میشود دادهها در مقیاس وسیع قابل ذخیرهسازی، مدیریت و تحلیل باشند.
🚀با این حال، فناوریهایی چون Iceberg هنوز در مدیریت متادیتا، snapshotها و عملیات نگهداری، چالشهایی دارند. در همین نقطه است که نسخهی جدید #RisingWave v2.6 میتواند فرآیند به کارگیری و مدیریت لیکهوس را تسهیل کند ✨
⚡️ترکیب #RisingWave + #ApacheIceberg + #Lakekeeper = ترکیب برنده!
✅ در این نسخه، RisingWave، بهعنوان یک پایگاه داده جریانی سازگار با #PostgreSQL، بهصورت بومی با Iceberg ادغام شده است. دادهها بهصورت لحظهای از #Kafka دریافت، در RisingWave پردازش، و سپس به شکل استاندارد در Lakehouse ذخیره میشوند.
✅این ارتباط از طریق #Lakekeeper برقرار میشود: یک #REST Catalog استاندارد که رابط رسمی میان RisingWave و Iceberg است.
✅ کتابخانه Lakekeeper علاوه بر مدیریت متادیتا و کنترل دسترسیها (با پشتیبانی از #OpenFGA)، امکان راهاندازی و تنظیم #Lakehouse را بهدلخواه شما فراهم میکند؛ مثلاً با استفاده از #MinIO یا هر فایلسیستم دیگر.
✅ سپس RisingWave با تنظیمات شما و در «لیکهوس شما» شروع به درج دادهها میکند.
✅ دادههای غیرجریانی سازمان نیز میتوانند با ابزارهایی مانند #ApacheSpark یا #PyIceberg به این بستر منتقل شوند تا یک Lakehouse کامل شکل گیرد: جایی که RisingWave بخش دادههای جریانی را مدیریت میکند.
این ترکیب، از نظر فنی استاندارد و از نظر معماری، منعطف و آیندهنگر است.
همچنین، عملیات نگهداشت و بهینهسازی دادهها مستقیماً در خود RisingWave انجام میشود، و بار سنگین مدیریت #Lakehouse از دوش تیمهای داده برداشته میشود. 💪
🧠 ویژگیهای کلیدی نسخهی RisingWave ۲.۶
🔰 پشتیبانی از دادههای برداری (Vector) برای جستوجوی شباهت
🔰حالت جدید Copy-on-Write برای snapshotهای تمیزتر در Iceberg
🔰دستور VACUUM FULL برای پاکسازی و فشردهسازی دادهها
🔰سازگاری کامل با #Lakekeeper REST Catalog
🔰تنوع sinkهای جدید برای #Snowflake، #Redshift، #Elasticsearch
🔰حالت Memory-Only برای پردازشهای فوقسریع
🎥 بهزودی ویدیویی منتشر میکنم که در آن ساخت یک #Lakehouse عملی با
#MinIO + #Lakekeeper + #Spark + #Trino + #StarRocks
را گامبهگام بررسی میکنیم. 🚀
به باور من، مسیر آیندهی زیرساختهای داده بهسمتی پیش میرود که #Lakehouse بستر اصلی ذخیره و تحلیل دادهها شود،
و ترکیب #RisingWave + #ApacheIceberg + #Lakekeeper یکی از گزینههای خوب سازمانی برای شروع این مسیر است. 🌟
👍3