🌟 یک مقاله مروری درباره دیتاستهای اوپن ML در Hugging Face منتشر شد.
📝 نویسندهی رسانهی Daily Dose of Data Science جالبترین دیتاستها و مدلهای اوپن اخیر را گردآوری کرده است. یکی از برجستهترینها Yambda-5B از تیم Yandex است؛ بزرگترین دیتاست اوپن در دنیا برای سیستمهای توصیهگر موسیقی.
🎵 دیتاست Yambda-5B شامل ۴.۷۹ میلیارد تعامل ناشناس (گوش دادن به آهنگ، لایک و دیسلایک) است. این دیتاست توجه پژوهشگران جهانی را جلب کرده و نویدبخش توسعهی نسل جدید سیستمهای پیشنهاددهنده میباشد.
🔗 مطالعهی بیشتر
@rss_ai_ir
#AI #ML #Dataset #RecommendationSystem #Yandex #OpenSource
📝 نویسندهی رسانهی Daily Dose of Data Science جالبترین دیتاستها و مدلهای اوپن اخیر را گردآوری کرده است. یکی از برجستهترینها Yambda-5B از تیم Yandex است؛ بزرگترین دیتاست اوپن در دنیا برای سیستمهای توصیهگر موسیقی.
🎵 دیتاست Yambda-5B شامل ۴.۷۹ میلیارد تعامل ناشناس (گوش دادن به آهنگ، لایک و دیسلایک) است. این دیتاست توجه پژوهشگران جهانی را جلب کرده و نویدبخش توسعهی نسل جدید سیستمهای پیشنهاددهنده میباشد.
🔗 مطالعهی بیشتر
@rss_ai_ir
#AI #ML #Dataset #RecommendationSystem #Yandex #OpenSource
👍20🎉17😁16🔥14❤12👏7🥰5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
❤9🎉7🔥4😁3
🌍📊 OmniWorld:
مجموعهداده چندمنظوره برای مدلسازی 4D
✳️مجموعه OmniWorld یک مجموعهداده عظیم و چندوجهی است که برای مدلسازی 4D طراحی شده و حوزههایی چون بازسازی هندسی و تولید ویدئو را پوشش میدهد. این دیتاست، دامنهها و فرمتهای متنوعی را در بر میگیرد و چندوجهی بودن غنی را تضمین میکند.
🚀 ویژگیهای کلیدی:
✅بیش از 4000 ساعت داده، 600 هزار توالی و 300 میلیون فریم
✅منابع متنوع: شبیهسازها، رباتها، انسانها و اینترنت
✅کیفیت بالای برچسبگذاری برای مدلسازی 4D و تولید ویدئو
📌 GitHub: OmniWorld
@rss_ai_ir
#OmniWorld #هوش_مصنوعی #مدل_سازی #GenerativeAI #Dataset #4D
مجموعهداده چندمنظوره برای مدلسازی 4D
✳️مجموعه OmniWorld یک مجموعهداده عظیم و چندوجهی است که برای مدلسازی 4D طراحی شده و حوزههایی چون بازسازی هندسی و تولید ویدئو را پوشش میدهد. این دیتاست، دامنهها و فرمتهای متنوعی را در بر میگیرد و چندوجهی بودن غنی را تضمین میکند.
🚀 ویژگیهای کلیدی:
✅بیش از 4000 ساعت داده، 600 هزار توالی و 300 میلیون فریم
✅منابع متنوع: شبیهسازها، رباتها، انسانها و اینترنت
✅کیفیت بالای برچسبگذاری برای مدلسازی 4D و تولید ویدئو
📌 GitHub: OmniWorld
@rss_ai_ir
#OmniWorld #هوش_مصنوعی #مدل_سازی #GenerativeAI #Dataset #4D
😁8🔥7🎉7👍4👏4❤3🥰3🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 PlanarTrack:
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱
👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرندهی ۱۰۰۰ ویدیو کوتاهمدت و ۱۵۰ ویدیو بلندمدت است.
این مجموعه برای آموزش و ارزیابی الگوریتمهای رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدلهای بینایی ماشین محسوب میشود. 💙
🔗 مرجعها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset
#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱
👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرندهی ۱۰۰۰ ویدیو کوتاهمدت و ۱۵۰ ویدیو بلندمدت است.
این مجموعه برای آموزش و ارزیابی الگوریتمهای رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدلهای بینایی ماشین محسوب میشود. 💙
🔗 مرجعها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset
#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
This media is not supported in your browser
VIEW IN TELEGRAM
🔪 Tracking Object Transformations (Track Any State) 🔪
📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییراتشان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگیهای فیزیکی آنها.
✨ مدل میتواند:
♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛
♻️تغییر حالت را توصیف و طبقهبندی نماید؛
♻️از دادههای واقعی و شبیهسازی برای درک پویاییهای فیزیکی استفاده کند.
🔍 منابع باز و آماده تست:
📄 Paper: lnkd.in/d4pA3bXJ
🌐 Project: lnkd.in/dgbNfCuj
💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph
📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییراتشان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگیهای فیزیکی آنها.
✨ مدل میتواند:
♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛
♻️تغییر حالت را توصیف و طبقهبندی نماید؛
♻️از دادههای واقعی و شبیهسازی برای درک پویاییهای فیزیکی استفاده کند.
🔍 منابع باز و آماده تست:
📄 Paper: lnkd.in/d4pA3bXJ
🌐 Project: lnkd.in/dgbNfCuj
💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph
📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Smell Like Vision Spirit 🔥
@rss_ai_ir
👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و دادههای بویایی است که امکان یادگیری کراسمودال بین بو و بینایی را فراهم میکند.
👉 با چراغ خاموش هم شاید «کمخطرتر» باشد، اما حالا AI میتواند بو را هم بفهمد!
👉 دیتاست در دسترس است.
🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/
#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
@rss_ai_ir
👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و دادههای بویایی است که امکان یادگیری کراسمودال بین بو و بینایی را فراهم میکند.
👉 با چراغ خاموش هم شاید «کمخطرتر» باشد، اما حالا AI میتواند بو را هم بفهمد!
👉 دیتاست در دسترس است.
🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/
#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
👍3🔥1👏1
🌟 دیتاست OMC25: یک دیتاست عظیم برای شیمی محاسباتی
🔬 دیتاست OMC25 بزرگترین مجموعهدادهی بلورهای مولکولی است که با روش DFT و با استفاده از بستهی VASP محاسبه شده است.
🧪 پایهی این دیتاست بر ساختارهایی استوار است که از مسیرهای ریلکسیشن بلورهای مولکولی بهدست آمدهاند. بلورهای اولیه با ابزار Genarris 3.0 تولید شدهاند؛ ابزاری که خود از مولکولهای دیتاست شناختهشدهی OE62 استفاده میکند. این موضوع هم تداوم علمی دادهها را تضمین میکند و هم آنها را به ساختارهای شیمیایی معتبر پیوند میزند — البته در مقیاسی بسیار بزرگتر.
📊 مقیاس دادهها واقعاً چشمگیر است:
بخش آموزشی شامل حدود ۲۵ میلیون فریم
مربوط به ۲۰۷ هزار بلور مولکولی
مشتقشده از ۴۴ هزار مولکول منحصربهفرد
🧾 بخش اعتبارسنجی (Validation) کوچکتر است اما همچنان سنگین: حدود ۱.۴ میلیون فریم.
دادهها در قالب ase-db و بهصورت LMDBDatabase بستهبندی شدهاند که در یادگیری ماشینِ شیمی محاسباتی یک استاندارد رایج محسوب میشود.
⚙️ کار با این دیتاست از طریق کتابخانهی fairchem انجام میشود. هر ساختار بهصورت یک شیء ASE Atoms ذخیره شده که برای پژوهشگران مدلسازی اتمی کاملاً آشناست.
📐 برچسبهای کلیدی برای آموزش مدلها شامل:
انرژی کل DFT
نیروهای وارد بر اتمها
تانسور تنش
این سهگانه، هستهی اصلی آموزش پتانسیلهای بیناتمی را تشکیل میدهد. علاوه بر این، متادیتاهای حیاتی در بخش atoms.info ذخیره شدهاند.
🤖 در کنار دیتاست، نویسندگان یک چکپوینت پایه به نام eSEN-S را هم منتشر کردهاند که روی کل OMC25 آموزش دیده است.
📌 لایسنس: CC-BY-4.0
https://huggingface.co/datasets/facebook/OMC25
🟡 دیتاست
🟡 مدل
🖥 GitHub
@ai_machinelearning_big_data
#AI #ML #Dataset #FAIR #Chemistry
🔬 دیتاست OMC25 بزرگترین مجموعهدادهی بلورهای مولکولی است که با روش DFT و با استفاده از بستهی VASP محاسبه شده است.
🧪 پایهی این دیتاست بر ساختارهایی استوار است که از مسیرهای ریلکسیشن بلورهای مولکولی بهدست آمدهاند. بلورهای اولیه با ابزار Genarris 3.0 تولید شدهاند؛ ابزاری که خود از مولکولهای دیتاست شناختهشدهی OE62 استفاده میکند. این موضوع هم تداوم علمی دادهها را تضمین میکند و هم آنها را به ساختارهای شیمیایی معتبر پیوند میزند — البته در مقیاسی بسیار بزرگتر.
📊 مقیاس دادهها واقعاً چشمگیر است:
بخش آموزشی شامل حدود ۲۵ میلیون فریم
مربوط به ۲۰۷ هزار بلور مولکولی
مشتقشده از ۴۴ هزار مولکول منحصربهفرد
🧾 بخش اعتبارسنجی (Validation) کوچکتر است اما همچنان سنگین: حدود ۱.۴ میلیون فریم.
دادهها در قالب ase-db و بهصورت LMDBDatabase بستهبندی شدهاند که در یادگیری ماشینِ شیمی محاسباتی یک استاندارد رایج محسوب میشود.
⚙️ کار با این دیتاست از طریق کتابخانهی fairchem انجام میشود. هر ساختار بهصورت یک شیء ASE Atoms ذخیره شده که برای پژوهشگران مدلسازی اتمی کاملاً آشناست.
📐 برچسبهای کلیدی برای آموزش مدلها شامل:
انرژی کل DFT
نیروهای وارد بر اتمها
تانسور تنش
این سهگانه، هستهی اصلی آموزش پتانسیلهای بیناتمی را تشکیل میدهد. علاوه بر این، متادیتاهای حیاتی در بخش atoms.info ذخیره شدهاند.
🤖 در کنار دیتاست، نویسندگان یک چکپوینت پایه به نام eSEN-S را هم منتشر کردهاند که روی کل OMC25 آموزش دیده است.
📌 لایسنس: CC-BY-4.0
https://huggingface.co/datasets/facebook/OMC25
🟡 دیتاست
🟡 مدل
🖥 GitHub
@ai_machinelearning_big_data
#AI #ML #Dataset #FAIR #Chemistry