VIRSUN
8.65K subscribers
1.33K photos
756 videos
5 files
843 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir

🔥 گوگل کولب بالاخره با VSCode یکپارچه شد!

از این به بعد می‌تونی نوت‌بوک‌های محلی VSCode رو مستقیم به Colab وصل کنی و داخل IDE خودت از GPU / TPU کولب استفاده کنی — بدون هیچ دردسری! 💥🧠

این یعنی:
سرعت بیشتر
محیط کدنویسی حرفه‌ای‌تر
اتصال بی‌واسطه VSCode → Colab Runtime

روش فعال‌سازی:
1️⃣ توی VSCode وارد Extensions شو و افزونه Google Colab رو نصب کن.
2️⃣ یک فایل ‎.ipynb‎ بساز یا وارد کن.
3️⃣ از گوشه بالا راست روی Select Kernel کلیک کن → گزینه Colab رو بزن → یک Runtime انتخاب کن.
4️⃣ وارد حساب گوگلت شو و تمام!

حالا به‌صورت مستقیم از VSCode داری روی Colab کار می‌کنی 😍
Happy coding 🐝

https://developers.googleblog.com/en/google-colab-is-coming-to-vs-code/


#هوش_مصنوعی #GoogleColab #VSCode #برنامه‌نویسی #DeepLearning
@rss_ai_ir
5🔥3👍1
سامانه تشخیص گفتار چندزبانه Omnilingual ASR 🌍🗣️
بیش از ۱۶۰۰ زبان (حتی زبان‌های کم‌منبع و محلی) را پشتیبانی می‌کند و سعی دارد شکاف زبانی در فناوری گفتار به متن را از بین ببرد.

ویژگی‌ها:

✳️پشتیبانی از زبان‌های بسیار متنوع، از رایج تا کاملاً نادر

✳️امکان اضافه کردن زبان‌های جدید با داده‌ی آموزشی بسیار کم (few-shot / zero-shot)

✳️طراحی‌شده برای دسترس‌پذیری و شمول جوامع مختلف زبانی

✳️قابل تست و استفاده روی Hugging Face و در دسترس روی گیت‌هاب


لینک گیت‌هاب 🔗
https://github.com/facebookresearch/omnilingual-asr

@rss_ai_ir
#هوش_مصنوعی #تشخیص_گفتار #ASR #Multilingual #DeepLearning #SpeechToText
1🔥1👏1
سینتتیک‌-دیتا که بهتر از داده‌های واقعی آموزش می‌دهد!

پژوهشگران MIT یک نتیجه عجیب اما فوق‌العاده مهم منتشر کرده‌اند:
گاهی چند تصویر کاملاً مصنوعی می‌توانند linear probe‌ ها را بهتر از هزاران تصویر واقعی آموزش دهند.

ایده با روش تازه‌ای به‌نام Linear Gradient Matching (LGM) اجرا شده است. روش کار چنین است:

1️⃣ مدل بینایی بزرگ (مثل DINO یا CLIP) را فریز می‌کنند.
2️⃣ بررسی می‌کنند که این مدل روی تصاویر واقعی چه گرادیان‌هایی تولید می‌کند.
3️⃣ مجموعه‌ای از تصاویر سینتتیک تولید می‌کنند که دقیقاً همین گرادیان‌ها را بازتولید کنند.
4️⃣ یک linear classifier روی این تصاویر آموزش می‌دهند — و نتیجه شگفت‌انگیز است:
عملکرد بهتر از آموزش روی داده‌های واقعی!

🔍 چرا این مهم است؟
• سازگار میان مدل‌هاست: سینتتیک‌دیتا تولیدشده برای DINO در CLIP هم به‌خوبی کار می‌کند.
• مخصوصاً روی classification‌ های ظریف عملکرد فوق‌العاده دارد.
• کمک می‌کند بفهمیم مدل واقعاً دنبال چه ویژگی‌هایی می‌گردد — کلاسترها، همبستگی‌های انحرافی، ساختار embedding-space و …

این یافته، تعریف «داده خوب» را عوض می‌کند.
🟩 گذشته: «برای آموزش باید میلیون‌ها تصویر جمع کنیم.»
🟩 اکنون: «کافی است چند تصویر درست و هدفمند بسازیم.»

@rss_ai_ir

لینک مقاله:
arxiv.org/abs/2511.16674
---
🏷 هشتگ‌ها
#داده #دیتاسینتتیک #هوش_مصنوعی #بینایی_ماشین #ML #CLIP #DINO #LGM #DeepLearning #AI
👍21👏1
🔥 بحران انرژیِ هوش مصنوعی جدی‌تر از همیشه شده است

گزارش‌های جدید نشان می‌دهند که مصرف انرژی OpenAI طی پنج سال آینده از بریتانیا یا آلمان بیشتر خواهد شد و طی هشت سال آینده حتی از هند فراتر می‌رود.
این فقط مصرف یک شرکت است — نه کل صنعت هوش مصنوعی.

در چنین شرایطی یک سؤال بنیادین مطرح می‌شود:
کشورهایی مانند بریتانیا و آلمان چطور قرار است «سیاره را نجات دهند»، وقتی رشد شتابان مدل‌های عظیم در حال مصرف انرژی در ابعادی فراتر از کل این کشورهاست؟

از سوی دیگر، تصمیم‌های سختگیرانه برای کاهش مصرف انرژی در اروپا منجر به:
• تضعیف صنایع محلی
• کاهش رقابت‌پذیری جهانی
• مهاجرت شرکت‌ها به مناطقی با انرژی ارزان‌تر
• از دست رفتن مشاغل و سرمایه‌گذاری صنعتی

واقعیت این است که بحران انرژیِ آینده دیگر فقط به صنایع فولاد، خودرو یا شیمی محدود نیست.
اکنون ابرمدل‌های هوش مصنوعی در حال بلعیدن منابع انرژی‌اند و بحث «توسعه پایدار» بدون درنظرگرفتن آن‌ها عملاً بی‌معناست.

⛔️این تناقض بزرگ سیاست‌گذاری جهانی را آشکار می‌کند:
کشورهایی که برای اقتصادشان محدودیت‌های سنگین وضع کرده‌اند، شاید در نهایت شاهد مصرف انرژیِ بسیار بیشتری از سمت شرکت‌های فناوری خارج از مرزهایشان باشند.

@rss_ai_ir
---

🏷 هشتگ‌ها

#هوش_مصنوعی #انرژی #سیاستگذاری #OpenAI #پایداری #اقتصاد #AI #DeepLearning #TechPolicy #Industry4_0
🔥2👍1👏1
⚡️ مدل HunyuanOCR؛ کوچک، سریع و شکست‌دهندهٔ بنچمارک‌ها

تنسنت نسخهٔ متن‌باز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدل‌های چندین برابر بزرگ‌تر است. این سیستم به‌صورت End-to-End کار می‌کند و تقریباً همهٔ نیازهای OCR مدرن را پوشش می‌دهد.

برتری در بنچمارک‌ها

امتیاز 860 در OCRBench بین تمام مدل‌های کوچک‌تر از 3B

امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده


🧠 قابلیت‌ها
مدل برای طیف گسترده‌ای از سناریوهای OCR بهینه شده است:

✳️متن محیطی: تابلو، ویترین، بنر، خیابان

✳️دست‌خط و فونت‌های هنری

✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX

✳️زیرنویس ویدیو

✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحله‌ای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.


🔗 لینک‌ها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR

• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf

@rss_ai_ir
#OCR #مدل_متن‌باز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
🔥1
مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتار‌شده
@rss_ai_ir

تشخیص اشیایی که عمداً در محیط «محو» شده‌اند همیشه یکی از سخت‌ترین چالش‌های بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارک‌ها به State-of-the-Art برسد.

🔍 چرا MSRNet مهم است؟

✳️عملکرد عالی روی اجسام کوچک و چندگانه

✳️تقویت چندمرحله‌ای ویژگی‌ها با معماری بازگشتی

✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدل‌های قبلی

✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیات‌وحش


📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810

🤗 مدل‌های منتشرشده:
https://huggingface.co/linaa98/MSRNet


---

#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
🔥1🙏1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir

🍓 مدل MotionV2V — ویرایش حرکت در ویدئو با دقت بی‌سابقه 🍓

گوگل سیستم MotionV2V را معرفی کرد؛ روشی نوین برای ویرایش حرکت در ویدئو که به‌جای تغییر کل فریم، مستقیماً تفاوت حرکت بین ویدئوی اصلی و نسخه ویرایش‌شده را کنترل می‌کند.

این مدل بر پایه دیفیوشن کار می‌کند و امکان می‌دهد که:
حرکت یک فرد تغییر کند، بدون تغییر ظاهر
سرعت، جهت، یا شدت حرکت اصلاح شود
حرکت کاملاً جدید روی ویدئو اعمال شود
ویدئوهای ادیت‌شده، طبیعی و منسجم باقی بمانند

نتیجه؟
ویدئوهایی با حرکت‌های کاملاً کنترل‌شده، بدون artifacts و بدون پرش‌های عجیب.

🔗 لینک‌ها:

👉 Paper:
https://arxiv.org/pdf/2511.20640
👉 Project Page:
https://ryanndagreat.github.io/MotionV2V/
👉 GitHub (به‌زودی):
https://github.com/RyannDaGreat/MotionV2V

#MotionEditing #VideoAI #DiffusionModels #GoogleAI #GenerativeAI #DeepLearning
👍1🔥1
@rss_ai_ir

تشخیص تصاویر مصنوعی با گرادیان‌فیلدها — یک روش ساده و شگفت‌انگیز! 💡

در دنیایی که مدل‌های دیفیوشن هر روز واقعی‌تر می‌شوند، پیدا کردن یک روش ساده، سبک و قابل‌توضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را می‌کند 👇

🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:

📸 عکس‌های واقعی

🎨 تصاویر ساخته‌شده با دیفیوشن
به‌دست می‌آید.


🧠 چرا جواب می‌دهد؟

تصاویر واقعی، گرادیان‌هایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.

تصاویر دیفیوشن به‌دلیل فرآیند denoising دارای جزئیات ناپایدار و بافت‌های فرکانس‌بالا هستند که ساختگی بودن را لو می‌دهد.


🧮 مراحل کار (فقط چند قدم ساده):

1. تبدیل RGB → luminance


2. محاسبه spatial gradients


3. تبدیل گرادیان‌ها به ماتریس فلت‌شده


4. محاسبه covariance


5. انجام PCA و مشاهده جداسازی واضح در یک تصویر



🎯 نتیجه
بدون مدل طبقه‌بندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیان‌ها می‌توان به‌راحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بینایی‌ماشین و متخصصان امنیت داده.

#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
5👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Smell Like Vision Spirit 🔥
@rss_ai_ir

👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و داده‌های بویایی است که امکان یادگیری کراس‌مودال بین بو و بینایی را فراهم می‌کند.
👉 با چراغ خاموش هم شاید «کم‌خطرتر» باشد، اما حالا AI می‌تواند بو را هم بفهمد!
👉 دیتاست در دسترس است.


🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/

#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
👍3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
STARFlow-V:
نسل تازه مدل‌های ویدئو با Normalizing Flow
@rss_ai_ir 🎥

مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایه‌ی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده می‌شود، اما حالا نتایج فوق‌العاده‌ای نشان داده است.

🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیش‌بینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen

📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow

#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
🥰1