This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir
🔥 گوگل کولب بالاخره با VSCode یکپارچه شد!
از این به بعد میتونی نوتبوکهای محلی VSCode رو مستقیم به Colab وصل کنی و داخل IDE خودت از GPU / TPU کولب استفاده کنی — بدون هیچ دردسری! 💥🧠
این یعنی:
⚡ سرعت بیشتر
⚡ محیط کدنویسی حرفهایتر
⚡ اتصال بیواسطه VSCode → Colab Runtime
روش فعالسازی:
1️⃣ توی VSCode وارد Extensions شو و افزونه Google Colab رو نصب کن.
2️⃣ یک فایل .ipynb بساز یا وارد کن.
3️⃣ از گوشه بالا راست روی Select Kernel کلیک کن → گزینه Colab رو بزن → یک Runtime انتخاب کن.
4️⃣ وارد حساب گوگلت شو و تمام!
حالا بهصورت مستقیم از VSCode داری روی Colab کار میکنی 😍
Happy coding 🐝✨
https://developers.googleblog.com/en/google-colab-is-coming-to-vs-code/
#هوش_مصنوعی #GoogleColab #VSCode #برنامهنویسی #DeepLearning
@rss_ai_ir
🔥 گوگل کولب بالاخره با VSCode یکپارچه شد!
از این به بعد میتونی نوتبوکهای محلی VSCode رو مستقیم به Colab وصل کنی و داخل IDE خودت از GPU / TPU کولب استفاده کنی — بدون هیچ دردسری! 💥🧠
این یعنی:
⚡ سرعت بیشتر
⚡ محیط کدنویسی حرفهایتر
⚡ اتصال بیواسطه VSCode → Colab Runtime
روش فعالسازی:
1️⃣ توی VSCode وارد Extensions شو و افزونه Google Colab رو نصب کن.
2️⃣ یک فایل .ipynb بساز یا وارد کن.
3️⃣ از گوشه بالا راست روی Select Kernel کلیک کن → گزینه Colab رو بزن → یک Runtime انتخاب کن.
4️⃣ وارد حساب گوگلت شو و تمام!
حالا بهصورت مستقیم از VSCode داری روی Colab کار میکنی 😍
Happy coding 🐝✨
https://developers.googleblog.com/en/google-colab-is-coming-to-vs-code/
#هوش_مصنوعی #GoogleColab #VSCode #برنامهنویسی #DeepLearning
@rss_ai_ir
❤5🔥3👍1
سامانه تشخیص گفتار چندزبانه Omnilingual ASR 🌍🗣️
بیش از ۱۶۰۰ زبان (حتی زبانهای کممنبع و محلی) را پشتیبانی میکند و سعی دارد شکاف زبانی در فناوری گفتار به متن را از بین ببرد.
✨ ویژگیها:
✳️پشتیبانی از زبانهای بسیار متنوع، از رایج تا کاملاً نادر
✳️امکان اضافه کردن زبانهای جدید با دادهی آموزشی بسیار کم (few-shot / zero-shot)
✳️طراحیشده برای دسترسپذیری و شمول جوامع مختلف زبانی
✳️قابل تست و استفاده روی Hugging Face و در دسترس روی گیتهاب
لینک گیتهاب 🔗
https://github.com/facebookresearch/omnilingual-asr
@rss_ai_ir
#هوش_مصنوعی #تشخیص_گفتار #ASR #Multilingual #DeepLearning #SpeechToText
بیش از ۱۶۰۰ زبان (حتی زبانهای کممنبع و محلی) را پشتیبانی میکند و سعی دارد شکاف زبانی در فناوری گفتار به متن را از بین ببرد.
✨ ویژگیها:
✳️پشتیبانی از زبانهای بسیار متنوع، از رایج تا کاملاً نادر
✳️امکان اضافه کردن زبانهای جدید با دادهی آموزشی بسیار کم (few-shot / zero-shot)
✳️طراحیشده برای دسترسپذیری و شمول جوامع مختلف زبانی
✳️قابل تست و استفاده روی Hugging Face و در دسترس روی گیتهاب
لینک گیتهاب 🔗
https://github.com/facebookresearch/omnilingual-asr
@rss_ai_ir
#هوش_مصنوعی #تشخیص_گفتار #ASR #Multilingual #DeepLearning #SpeechToText
GitHub
GitHub - facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages
Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages - facebookresearch/omnilingual-asr
❤1🔥1👏1
✨ سینتتیک-دیتا که بهتر از دادههای واقعی آموزش میدهد!
✅پژوهشگران MIT یک نتیجه عجیب اما فوقالعاده مهم منتشر کردهاند:
گاهی چند تصویر کاملاً مصنوعی میتوانند linear probe ها را بهتر از هزاران تصویر واقعی آموزش دهند.
ایده با روش تازهای بهنام Linear Gradient Matching (LGM) اجرا شده است. روش کار چنین است:
1️⃣ مدل بینایی بزرگ (مثل DINO یا CLIP) را فریز میکنند.
2️⃣ بررسی میکنند که این مدل روی تصاویر واقعی چه گرادیانهایی تولید میکند.
3️⃣ مجموعهای از تصاویر سینتتیک تولید میکنند که دقیقاً همین گرادیانها را بازتولید کنند.
4️⃣ یک linear classifier روی این تصاویر آموزش میدهند — و نتیجه شگفتانگیز است:
عملکرد بهتر از آموزش روی دادههای واقعی!
🔍 چرا این مهم است؟
• سازگار میان مدلهاست: سینتتیکدیتا تولیدشده برای DINO در CLIP هم بهخوبی کار میکند.
• مخصوصاً روی classification های ظریف عملکرد فوقالعاده دارد.
• کمک میکند بفهمیم مدل واقعاً دنبال چه ویژگیهایی میگردد — کلاسترها، همبستگیهای انحرافی، ساختار embedding-space و …
این یافته، تعریف «داده خوب» را عوض میکند.
🟩 گذشته: «برای آموزش باید میلیونها تصویر جمع کنیم.»
🟩 اکنون: «کافی است چند تصویر درست و هدفمند بسازیم.»
@rss_ai_ir
لینک مقاله:
arxiv.org/abs/2511.16674
---
🏷 هشتگها
#داده #دیتاسینتتیک #هوش_مصنوعی #بینایی_ماشین #ML #CLIP #DINO #LGM #DeepLearning #AI
✅پژوهشگران MIT یک نتیجه عجیب اما فوقالعاده مهم منتشر کردهاند:
گاهی چند تصویر کاملاً مصنوعی میتوانند linear probe ها را بهتر از هزاران تصویر واقعی آموزش دهند.
ایده با روش تازهای بهنام Linear Gradient Matching (LGM) اجرا شده است. روش کار چنین است:
1️⃣ مدل بینایی بزرگ (مثل DINO یا CLIP) را فریز میکنند.
2️⃣ بررسی میکنند که این مدل روی تصاویر واقعی چه گرادیانهایی تولید میکند.
3️⃣ مجموعهای از تصاویر سینتتیک تولید میکنند که دقیقاً همین گرادیانها را بازتولید کنند.
4️⃣ یک linear classifier روی این تصاویر آموزش میدهند — و نتیجه شگفتانگیز است:
عملکرد بهتر از آموزش روی دادههای واقعی!
🔍 چرا این مهم است؟
• سازگار میان مدلهاست: سینتتیکدیتا تولیدشده برای DINO در CLIP هم بهخوبی کار میکند.
• مخصوصاً روی classification های ظریف عملکرد فوقالعاده دارد.
• کمک میکند بفهمیم مدل واقعاً دنبال چه ویژگیهایی میگردد — کلاسترها، همبستگیهای انحرافی، ساختار embedding-space و …
این یافته، تعریف «داده خوب» را عوض میکند.
🟩 گذشته: «برای آموزش باید میلیونها تصویر جمع کنیم.»
🟩 اکنون: «کافی است چند تصویر درست و هدفمند بسازیم.»
@rss_ai_ir
لینک مقاله:
arxiv.org/abs/2511.16674
---
🏷 هشتگها
#داده #دیتاسینتتیک #هوش_مصنوعی #بینایی_ماشین #ML #CLIP #DINO #LGM #DeepLearning #AI
👍2❤1👏1
🔥 بحران انرژیِ هوش مصنوعی جدیتر از همیشه شده است
گزارشهای جدید نشان میدهند که مصرف انرژی OpenAI طی پنج سال آینده از بریتانیا یا آلمان بیشتر خواهد شد و طی هشت سال آینده حتی از هند فراتر میرود.
این فقط مصرف یک شرکت است — نه کل صنعت هوش مصنوعی.
در چنین شرایطی یک سؤال بنیادین مطرح میشود:
⚡ کشورهایی مانند بریتانیا و آلمان چطور قرار است «سیاره را نجات دهند»، وقتی رشد شتابان مدلهای عظیم در حال مصرف انرژی در ابعادی فراتر از کل این کشورهاست؟
از سوی دیگر، تصمیمهای سختگیرانه برای کاهش مصرف انرژی در اروپا منجر به:
• تضعیف صنایع محلی
• کاهش رقابتپذیری جهانی
• مهاجرت شرکتها به مناطقی با انرژی ارزانتر
• از دست رفتن مشاغل و سرمایهگذاری صنعتی
واقعیت این است که بحران انرژیِ آینده دیگر فقط به صنایع فولاد، خودرو یا شیمی محدود نیست.
اکنون ابرمدلهای هوش مصنوعی در حال بلعیدن منابع انرژیاند و بحث «توسعه پایدار» بدون درنظرگرفتن آنها عملاً بیمعناست.
⛔️این تناقض بزرگ سیاستگذاری جهانی را آشکار میکند:
❌کشورهایی که برای اقتصادشان محدودیتهای سنگین وضع کردهاند، شاید در نهایت شاهد مصرف انرژیِ بسیار بیشتری از سمت شرکتهای فناوری خارج از مرزهایشان باشند.
@rss_ai_ir
---
🏷 هشتگها
#هوش_مصنوعی #انرژی #سیاستگذاری #OpenAI #پایداری #اقتصاد #AI #DeepLearning #TechPolicy #Industry4_0
گزارشهای جدید نشان میدهند که مصرف انرژی OpenAI طی پنج سال آینده از بریتانیا یا آلمان بیشتر خواهد شد و طی هشت سال آینده حتی از هند فراتر میرود.
این فقط مصرف یک شرکت است — نه کل صنعت هوش مصنوعی.
در چنین شرایطی یک سؤال بنیادین مطرح میشود:
⚡ کشورهایی مانند بریتانیا و آلمان چطور قرار است «سیاره را نجات دهند»، وقتی رشد شتابان مدلهای عظیم در حال مصرف انرژی در ابعادی فراتر از کل این کشورهاست؟
از سوی دیگر، تصمیمهای سختگیرانه برای کاهش مصرف انرژی در اروپا منجر به:
• تضعیف صنایع محلی
• کاهش رقابتپذیری جهانی
• مهاجرت شرکتها به مناطقی با انرژی ارزانتر
• از دست رفتن مشاغل و سرمایهگذاری صنعتی
واقعیت این است که بحران انرژیِ آینده دیگر فقط به صنایع فولاد، خودرو یا شیمی محدود نیست.
اکنون ابرمدلهای هوش مصنوعی در حال بلعیدن منابع انرژیاند و بحث «توسعه پایدار» بدون درنظرگرفتن آنها عملاً بیمعناست.
⛔️این تناقض بزرگ سیاستگذاری جهانی را آشکار میکند:
❌کشورهایی که برای اقتصادشان محدودیتهای سنگین وضع کردهاند، شاید در نهایت شاهد مصرف انرژیِ بسیار بیشتری از سمت شرکتهای فناوری خارج از مرزهایشان باشند.
@rss_ai_ir
---
🏷 هشتگها
#هوش_مصنوعی #انرژی #سیاستگذاری #OpenAI #پایداری #اقتصاد #AI #DeepLearning #TechPolicy #Industry4_0
🔥2👍1👏1
⚡️ مدل HunyuanOCR؛ کوچک، سریع و شکستدهندهٔ بنچمارکها
تنسنت نسخهٔ متنباز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدلهای چندین برابر بزرگتر است. این سیستم بهصورت End-to-End کار میکند و تقریباً همهٔ نیازهای OCR مدرن را پوشش میدهد.
✨ برتری در بنچمارکها
امتیاز 860 در OCRBench بین تمام مدلهای کوچکتر از 3B
امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده
🧠 قابلیتها
مدل برای طیف گستردهای از سناریوهای OCR بهینه شده است:
✳️متن محیطی: تابلو، ویترین، بنر، خیابان
✳️دستخط و فونتهای هنری
✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX
✳️زیرنویس ویدیو
✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحلهای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.
🔗 لینکها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR
• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@rss_ai_ir
#OCR #مدل_متنباز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
تنسنت نسخهٔ متنباز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدلهای چندین برابر بزرگتر است. این سیستم بهصورت End-to-End کار میکند و تقریباً همهٔ نیازهای OCR مدرن را پوشش میدهد.
✨ برتری در بنچمارکها
امتیاز 860 در OCRBench بین تمام مدلهای کوچکتر از 3B
امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده
🧠 قابلیتها
مدل برای طیف گستردهای از سناریوهای OCR بهینه شده است:
✳️متن محیطی: تابلو، ویترین، بنر، خیابان
✳️دستخط و فونتهای هنری
✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX
✳️زیرنویس ویدیو
✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحلهای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.
🔗 لینکها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR
• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@rss_ai_ir
#OCR #مدل_متنباز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
🔥1
✨ مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتارشده
@rss_ai_ir
تشخیص اشیایی که عمداً در محیط «محو» شدهاند همیشه یکی از سختترین چالشهای بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارکها به State-of-the-Art برسد.
🔍 چرا MSRNet مهم است؟
✳️عملکرد عالی روی اجسام کوچک و چندگانه
✳️تقویت چندمرحلهای ویژگیها با معماری بازگشتی
✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدلهای قبلی
✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیاتوحش
📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810
🤗 مدلهای منتشرشده:
https://huggingface.co/linaa98/MSRNet
---
#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
@rss_ai_ir
تشخیص اشیایی که عمداً در محیط «محو» شدهاند همیشه یکی از سختترین چالشهای بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارکها به State-of-the-Art برسد.
🔍 چرا MSRNet مهم است؟
✳️عملکرد عالی روی اجسام کوچک و چندگانه
✳️تقویت چندمرحلهای ویژگیها با معماری بازگشتی
✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدلهای قبلی
✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیاتوحش
📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810
🤗 مدلهای منتشرشده:
https://huggingface.co/linaa98/MSRNet
---
#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
🔥1🙏1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir
🍓 مدل MotionV2V — ویرایش حرکت در ویدئو با دقت بیسابقه 🍓
گوگل سیستم MotionV2V را معرفی کرد؛ روشی نوین برای ویرایش حرکت در ویدئو که بهجای تغییر کل فریم، مستقیماً تفاوت حرکت بین ویدئوی اصلی و نسخه ویرایششده را کنترل میکند.
این مدل بر پایه دیفیوشن کار میکند و امکان میدهد که:
✨ حرکت یک فرد تغییر کند، بدون تغییر ظاهر
✨ سرعت، جهت، یا شدت حرکت اصلاح شود
✨ حرکت کاملاً جدید روی ویدئو اعمال شود
✨ ویدئوهای ادیتشده، طبیعی و منسجم باقی بمانند
نتیجه؟
ویدئوهایی با حرکتهای کاملاً کنترلشده، بدون artifacts و بدون پرشهای عجیب.
🔗 لینکها:
👉 Paper:
https://arxiv.org/pdf/2511.20640
👉 Project Page:
https://ryanndagreat.github.io/MotionV2V/
👉 GitHub (بهزودی):
https://github.com/RyannDaGreat/MotionV2V
#MotionEditing #VideoAI #DiffusionModels #GoogleAI #GenerativeAI #DeepLearning
🍓 مدل MotionV2V — ویرایش حرکت در ویدئو با دقت بیسابقه 🍓
گوگل سیستم MotionV2V را معرفی کرد؛ روشی نوین برای ویرایش حرکت در ویدئو که بهجای تغییر کل فریم، مستقیماً تفاوت حرکت بین ویدئوی اصلی و نسخه ویرایششده را کنترل میکند.
این مدل بر پایه دیفیوشن کار میکند و امکان میدهد که:
✨ حرکت یک فرد تغییر کند، بدون تغییر ظاهر
✨ سرعت، جهت، یا شدت حرکت اصلاح شود
✨ حرکت کاملاً جدید روی ویدئو اعمال شود
✨ ویدئوهای ادیتشده، طبیعی و منسجم باقی بمانند
نتیجه؟
ویدئوهایی با حرکتهای کاملاً کنترلشده، بدون artifacts و بدون پرشهای عجیب.
🔗 لینکها:
👉 Paper:
https://arxiv.org/pdf/2511.20640
👉 Project Page:
https://ryanndagreat.github.io/MotionV2V/
👉 GitHub (بهزودی):
https://github.com/RyannDaGreat/MotionV2V
#MotionEditing #VideoAI #DiffusionModels #GoogleAI #GenerativeAI #DeepLearning
👍1🔥1
@rss_ai_ir
✨ تشخیص تصاویر مصنوعی با گرادیانفیلدها — یک روش ساده و شگفتانگیز! 💡
در دنیایی که مدلهای دیفیوشن هر روز واقعیتر میشوند، پیدا کردن یک روش ساده، سبک و قابلتوضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را میکند 👇
🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:
📸 عکسهای واقعی
🎨 تصاویر ساختهشده با دیفیوشن
بهدست میآید.
🧠 چرا جواب میدهد؟
تصاویر واقعی، گرادیانهایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.
تصاویر دیفیوشن بهدلیل فرآیند denoising دارای جزئیات ناپایدار و بافتهای فرکانسبالا هستند که ساختگی بودن را لو میدهد.
🧮 مراحل کار (فقط چند قدم ساده):
1. تبدیل RGB → luminance
2. محاسبه spatial gradients
3. تبدیل گرادیانها به ماتریس فلتشده
4. محاسبه covariance
5. انجام PCA و مشاهده جداسازی واضح در یک تصویر
🎯 نتیجه
بدون مدل طبقهبندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیانها میتوان بهراحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بیناییماشین و متخصصان امنیت داده.
#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
✨ تشخیص تصاویر مصنوعی با گرادیانفیلدها — یک روش ساده و شگفتانگیز! 💡
در دنیایی که مدلهای دیفیوشن هر روز واقعیتر میشوند، پیدا کردن یک روش ساده، سبک و قابلتوضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را میکند 👇
🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:
📸 عکسهای واقعی
🎨 تصاویر ساختهشده با دیفیوشن
بهدست میآید.
🧠 چرا جواب میدهد؟
تصاویر واقعی، گرادیانهایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.
تصاویر دیفیوشن بهدلیل فرآیند denoising دارای جزئیات ناپایدار و بافتهای فرکانسبالا هستند که ساختگی بودن را لو میدهد.
🧮 مراحل کار (فقط چند قدم ساده):
1. تبدیل RGB → luminance
2. محاسبه spatial gradients
3. تبدیل گرادیانها به ماتریس فلتشده
4. محاسبه covariance
5. انجام PCA و مشاهده جداسازی واضح در یک تصویر
🎯 نتیجه
بدون مدل طبقهبندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیانها میتوان بهراحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بیناییماشین و متخصصان امنیت داده.
#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
❤5👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Smell Like Vision Spirit 🔥
@rss_ai_ir
👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و دادههای بویایی است که امکان یادگیری کراسمودال بین بو و بینایی را فراهم میکند.
👉 با چراغ خاموش هم شاید «کمخطرتر» باشد، اما حالا AI میتواند بو را هم بفهمد!
👉 دیتاست در دسترس است.
🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/
#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
@rss_ai_ir
👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و دادههای بویایی است که امکان یادگیری کراسمودال بین بو و بینایی را فراهم میکند.
👉 با چراغ خاموش هم شاید «کمخطرتر» باشد، اما حالا AI میتواند بو را هم بفهمد!
👉 دیتاست در دسترس است.
🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/
#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
👍3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ STARFlow-V:
نسل تازه مدلهای ویدئو با Normalizing Flow
@rss_ai_ir 🎥⚡
مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایهی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده میشود، اما حالا نتایج فوقالعادهای نشان داده است.
🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیشبینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen
📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow
#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
نسل تازه مدلهای ویدئو با Normalizing Flow
@rss_ai_ir 🎥⚡
مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایهی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده میشود، اما حالا نتایج فوقالعادهای نشان داده است.
🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیشبینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen
📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow
#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
🥰1