⚡️ انویدیا نسل جدید پلتفرمهای محاسباتی برای رباتیک را معرفی کرد — Jetson Thor
🔹 این سیستم بهعنوان «مغز» ماشینهای خودمختار معرفی شده که توانایی کار در دنیای واقعی رو دارن. قیمت این راهکارها از ۲۵۰۰ دلار شروع میشه.
🔸 در این رونمایی، علاوه بر کیت توسعه Jetson AGX Thor، ماژولهای محاسباتی T5000 و T4000 هم معرفی شدن. طبق گفته انویدیا، این پلتفرمها پایهی «هوش مصنوعی فیزیکی» در حوزههایی مثل تولید، لجستیک، سلامت و خردهفروشی خواهند بود.
🔹 جنسن هوانگ، مدیرعامل انویدیا، تأکید کرد که Jetson Thor با کارایی بالا و بهرهوری انرژی طراحی شده تا میلیونها توسعهدهنده بتونن رباتهایی بسازن که با جهان فیزیکی تعامل مستقیم دارن. مهمترین ویژگی این نسل، امکان اجرای محلی چندین مدل مولد هوش مصنوعی به صورت همزمانه.
📌 مشخصات فنی اصلی
🟧 مبتنی بر معماری Blackwell، با پردازنده ۱۴ هستهای Arm، GPU با ۲۵۶۰ هسته CUDA و ۱۲۸ گیگابایت حافظه. توان محاسباتی: ۲۰۷۰ TFLOPS با مصرف انرژی حداکثر ۱۳۰ وات (۷.۵ برابر قویتر از نسل قبل، Jetson Orin).
🟧 ماژول Jetson T4000: نسخه اقتصادیتر با پردازنده ۱۲ هستهای، GPU با ۱۵۳۶ هسته CUDA و ۶۴ گیگابایت حافظه. توان محاسباتی: ۱۲۰۰ TFLOPS.
این پلتفرم دادههای سنسورها رو در لحظه پردازش میکنه و به رباتها توانایی درک سریع محیط و واکنش بیدرنگ میده. همچنین بهطور کامل با استکهای نرمافزاری کلیدی انویدیا مثل Isaac، GR00T، Metropolis و Holoscan یکپارچه شده.
شرکتهای بزرگی مثل Boston Dynamics، Amazon Robotics، Figure و Medtronic هماکنون از این فناوری پشتیبانی میکنن.
#هوش_مصنوعی #رباتیک #NVIDIA #JetsonThor #AI_industrial
@rss_ai_ir
🔹 این سیستم بهعنوان «مغز» ماشینهای خودمختار معرفی شده که توانایی کار در دنیای واقعی رو دارن. قیمت این راهکارها از ۲۵۰۰ دلار شروع میشه.
🔸 در این رونمایی، علاوه بر کیت توسعه Jetson AGX Thor، ماژولهای محاسباتی T5000 و T4000 هم معرفی شدن. طبق گفته انویدیا، این پلتفرمها پایهی «هوش مصنوعی فیزیکی» در حوزههایی مثل تولید، لجستیک، سلامت و خردهفروشی خواهند بود.
🔹 جنسن هوانگ، مدیرعامل انویدیا، تأکید کرد که Jetson Thor با کارایی بالا و بهرهوری انرژی طراحی شده تا میلیونها توسعهدهنده بتونن رباتهایی بسازن که با جهان فیزیکی تعامل مستقیم دارن. مهمترین ویژگی این نسل، امکان اجرای محلی چندین مدل مولد هوش مصنوعی به صورت همزمانه.
📌 مشخصات فنی اصلی
🟧 مبتنی بر معماری Blackwell، با پردازنده ۱۴ هستهای Arm، GPU با ۲۵۶۰ هسته CUDA و ۱۲۸ گیگابایت حافظه. توان محاسباتی: ۲۰۷۰ TFLOPS با مصرف انرژی حداکثر ۱۳۰ وات (۷.۵ برابر قویتر از نسل قبل، Jetson Orin).
🟧 ماژول Jetson T4000: نسخه اقتصادیتر با پردازنده ۱۲ هستهای، GPU با ۱۵۳۶ هسته CUDA و ۶۴ گیگابایت حافظه. توان محاسباتی: ۱۲۰۰ TFLOPS.
این پلتفرم دادههای سنسورها رو در لحظه پردازش میکنه و به رباتها توانایی درک سریع محیط و واکنش بیدرنگ میده. همچنین بهطور کامل با استکهای نرمافزاری کلیدی انویدیا مثل Isaac، GR00T، Metropolis و Holoscan یکپارچه شده.
شرکتهای بزرگی مثل Boston Dynamics، Amazon Robotics، Figure و Medtronic هماکنون از این فناوری پشتیبانی میکنن.
#هوش_مصنوعی #رباتیک #NVIDIA #JetsonThor #AI_industrial
@rss_ai_ir
👍2🔥1👏1
🔥 انتشار دیتاست جدید VK-LSDV برای سیستمهای توصیهگر و ویدئوهای کوتاه
📊 جزئیات دیتاست:
♻️شامل ۴۰ میلیارد تعامل یکتا و ناشناس
♻️۲۰ میلیون آیتم محتوایی
♻️۱۰ میلیون کاربر
♻️بازهی زمانی: ژانویه تا ژوئن ۲۰۲۵
♻️دادهها: لایک، دیسلایک، اشتراکگذاری، مدتزمان تماشا، ریاکشنها، کانتکست پخش
🟢 فرصتها برای پژوهشگران و مهندسان:
♻️امکان سفارشیسازی نمونه داده متناسب با نیاز پروژه
♻️انتخاب روش نمونهگیری: تصادفی یا بر اساس محبوبیت
♻️قابلیت تطبیق حجم دیتاست با توان محاسباتی موجود
⚡️ چرا این مهم است؟
🟠 یکی از بزرگترین دیتاستهای باز در حوزه ویدئوهای کوتاه برای سیستمهای توصیهگر است.
🟠 به جای دادههای کوچک و مصنوعی، پژوهشگران میتوانند روی دادههای واقعی و باکیفیت مدل بسازند و تست کنند.
🟠 گام مهمی در ایجاد یک محیط پژوهشی کامل برای توسعه الگوریتمهای شخصیسازی و تست فرضیات است.
این منبع میتواند فرصتهای تازهای برای پژوهشگران و مهندسان در سراسر جهان ایجاد کند و استانداردهای توسعه سیستمهای توصیهگر را ارتقا دهد.
🟠 دیتاست در HuggingFace:
👉 https://huggingface.co/datasets/deepvk/VK-LSVD
#دیتاست #هوش_مصنوعی #سیستم_توصیه_گر #AI #RecommenderSystem #VK
@rss_ai_ir
📊 جزئیات دیتاست:
♻️شامل ۴۰ میلیارد تعامل یکتا و ناشناس
♻️۲۰ میلیون آیتم محتوایی
♻️۱۰ میلیون کاربر
♻️بازهی زمانی: ژانویه تا ژوئن ۲۰۲۵
♻️دادهها: لایک، دیسلایک، اشتراکگذاری، مدتزمان تماشا، ریاکشنها، کانتکست پخش
🟢 فرصتها برای پژوهشگران و مهندسان:
♻️امکان سفارشیسازی نمونه داده متناسب با نیاز پروژه
♻️انتخاب روش نمونهگیری: تصادفی یا بر اساس محبوبیت
♻️قابلیت تطبیق حجم دیتاست با توان محاسباتی موجود
⚡️ چرا این مهم است؟
🟠 یکی از بزرگترین دیتاستهای باز در حوزه ویدئوهای کوتاه برای سیستمهای توصیهگر است.
🟠 به جای دادههای کوچک و مصنوعی، پژوهشگران میتوانند روی دادههای واقعی و باکیفیت مدل بسازند و تست کنند.
🟠 گام مهمی در ایجاد یک محیط پژوهشی کامل برای توسعه الگوریتمهای شخصیسازی و تست فرضیات است.
این منبع میتواند فرصتهای تازهای برای پژوهشگران و مهندسان در سراسر جهان ایجاد کند و استانداردهای توسعه سیستمهای توصیهگر را ارتقا دهد.
🟠 دیتاست در HuggingFace:
👉 https://huggingface.co/datasets/deepvk/VK-LSVD
#دیتاست #هوش_مصنوعی #سیستم_توصیه_گر #AI #RecommenderSystem #VK
@rss_ai_ir
👍2🔥1👏1
⚠️ حمله ویروس PromptLock: وقتی بدافزار خودش فکر میکند
🔴 پژوهشگران ESET Research Labs از کشف نخستین ویروسی خبر دادهاند که به طور مستقیم از هوش مصنوعی استفاده میکند. این بدافزار با نام PromptLock شناخته میشود و توانایی آلودهسازی دستگاههای Windows، Linux و macOS را دارد.
❌ شیوه عملکرد:
✳️بدافزار شامل پرامپتهای از پیش تعریفشدهای است که به مدل هوش مصنوعی ارسال میشوند.
✳️مدل در لحظه اسکریپتهای Lua تولید میکند تا فایلسیستم را اسکن کند.
✳️دادهها یا به سرقت میروند یا با الگوریتمی رمزگذاری و قفل میشوند.
✳️هسته این بدافزار از مدل gpt-oss-20b (محصول تازه اوپناِیآی) قدرت میگیرد.
❌ وضعیت کنونی:
♻️کارشناسان معتقدند PromptLock هنوز در مراحل اولیه است.
♻️نشانهها: رمزنگاری ابتدایی و نبود برخی قابلیتها.
♻️انتشار گسترده تاکنون ثبت نشده است.
♻️در یکی از پرامپتها حتی آدرس بیتکوینی به نام ساتوشی ناکاموتو دیده شد، اما احتمالاً فقط یک «طعمه» موقت است.
⚡ این خبر نشان میدهد بدافزارهای آینده میتوانند با استفاده از هوش مصنوعی، تطبیقپذیرتر و خطرناکتر شوند.
#امنیت_سایبری #بدافزار #هوش_مصنوعی #AI_industrial_news #futuretech
@rss_ai_ir
🔴 پژوهشگران ESET Research Labs از کشف نخستین ویروسی خبر دادهاند که به طور مستقیم از هوش مصنوعی استفاده میکند. این بدافزار با نام PromptLock شناخته میشود و توانایی آلودهسازی دستگاههای Windows، Linux و macOS را دارد.
❌ شیوه عملکرد:
✳️بدافزار شامل پرامپتهای از پیش تعریفشدهای است که به مدل هوش مصنوعی ارسال میشوند.
✳️مدل در لحظه اسکریپتهای Lua تولید میکند تا فایلسیستم را اسکن کند.
✳️دادهها یا به سرقت میروند یا با الگوریتمی رمزگذاری و قفل میشوند.
✳️هسته این بدافزار از مدل gpt-oss-20b (محصول تازه اوپناِیآی) قدرت میگیرد.
❌ وضعیت کنونی:
♻️کارشناسان معتقدند PromptLock هنوز در مراحل اولیه است.
♻️نشانهها: رمزنگاری ابتدایی و نبود برخی قابلیتها.
♻️انتشار گسترده تاکنون ثبت نشده است.
♻️در یکی از پرامپتها حتی آدرس بیتکوینی به نام ساتوشی ناکاموتو دیده شد، اما احتمالاً فقط یک «طعمه» موقت است.
⚡ این خبر نشان میدهد بدافزارهای آینده میتوانند با استفاده از هوش مصنوعی، تطبیقپذیرتر و خطرناکتر شوند.
#امنیت_سایبری #بدافزار #هوش_مصنوعی #AI_industrial_news #futuretech
@rss_ai_ir
👍3🔥1👏1
Media is too big
VIEW IN TELEGRAM
🌟 مدل MiniCPM-V 4.5؛ رقیب جمعوجور غولهای چندمودالی
پروژه OpenBMB نسخه جدید MiniCPM-V 4.5 را معرفی کرد؛ مدلی چندمودالی بر پایه Qwen3-8B و SigLIP2-400M که توانایی درک تصویر، توالی تصاویر و ویدئو را دارد و حتی روی موبایل هم در بیش از ۳۰ زبان اجرا میشود.
این پروژه زیرمجموعه غیرتجاری شرکت ModelBest (زیر نظر دانشگاه Tsinghua چین) است. سرمایهگذاران ModelBest شامل هواوی (Habo)، Primavera Capital و صندوق دولتی Shenzhen Guozhong هستند.
---
🔑 ویژگی کلیدی: پردازش کارآمد ویدئو
✔️ استفاده از 3D-Resampler باعث فشردهسازی ۹۶ برابری ویدئو میشود: هر ۶ فریم در رزولوشن 448x448 فقط به ۶۴ توکن تبدیل میشوند (در حالی که اکثر MLLMها به 1536 توکن نیاز دارند).
✔️ این قابلیت امکان پردازش ویدئو با سرعت ۱۰ فریم بر ثانیه و کلیپهای طولانی را بدون افزایش هزینه محاسباتی فراهم میکند.
✔️ نتایج برتر روی دیتاستهای Video-MME، LVBench و MLVU تأییدکننده این کارایی است.
---
🖼 تواناییهای تصویری
با معماری LLaVA-UHD، مدل میتواند با تصاویر تا وضوح 1.8 مگاپیکسل و نسبت تصویر آزاد کار کند، آن هم با مصرف ۴ برابر کمتر توکنهای بصری.
---
⚡ انعطاف در استدلال
مدل دو حالت دارد:
Fast reasoning برای کارهای روزمره
Deep reasoning برای سناریوهای پیچیده
و کاربر میتواند بسته به نیاز بین آنها جابهجا شود.
---
📊 عملکرد
با داشتن ۸ میلیارد پارامتر، این مدل در بنچمارک OpenCompass امتیاز 77.0 کسب کرده؛ بالاتر از GPT-4o-latest و Gemini-2.0 Pro و حتی بهتر از مدل متنباز Qwen2.5-VL با ۷۲ میلیارد پارامتر. همچنین در OmniDocBench رکورد تازهای به نام خود ثبت کرده است.
---
💻 بدون مشکل در استقرار
♻️نسخه CPU با llama.cpp و ollama
♻️نسخههای کوانتیزه در فرمتهای int4، GGUF و AWQ
♻️پشتیبانی از SGLang و vLLM
♻️قابلیت Fine-tuning با Transformers و LLaMA-Factory
♻️رابط کاربری وب و اپ بهینهشده برای iOS
---
📌 لینکها
🟡 [Model]
🟡 [Demo]
🟡 [Community Discord]
🖥 [GitHub]
#هوش_مصنوعی #مدل_چندمودالی #MiniCPM #OpenBMB #MLLM #AI_industrial_news
@rss_ai_ir
پروژه OpenBMB نسخه جدید MiniCPM-V 4.5 را معرفی کرد؛ مدلی چندمودالی بر پایه Qwen3-8B و SigLIP2-400M که توانایی درک تصویر، توالی تصاویر و ویدئو را دارد و حتی روی موبایل هم در بیش از ۳۰ زبان اجرا میشود.
این پروژه زیرمجموعه غیرتجاری شرکت ModelBest (زیر نظر دانشگاه Tsinghua چین) است. سرمایهگذاران ModelBest شامل هواوی (Habo)، Primavera Capital و صندوق دولتی Shenzhen Guozhong هستند.
---
🔑 ویژگی کلیدی: پردازش کارآمد ویدئو
✔️ استفاده از 3D-Resampler باعث فشردهسازی ۹۶ برابری ویدئو میشود: هر ۶ فریم در رزولوشن 448x448 فقط به ۶۴ توکن تبدیل میشوند (در حالی که اکثر MLLMها به 1536 توکن نیاز دارند).
✔️ این قابلیت امکان پردازش ویدئو با سرعت ۱۰ فریم بر ثانیه و کلیپهای طولانی را بدون افزایش هزینه محاسباتی فراهم میکند.
✔️ نتایج برتر روی دیتاستهای Video-MME، LVBench و MLVU تأییدکننده این کارایی است.
---
🖼 تواناییهای تصویری
با معماری LLaVA-UHD، مدل میتواند با تصاویر تا وضوح 1.8 مگاپیکسل و نسبت تصویر آزاد کار کند، آن هم با مصرف ۴ برابر کمتر توکنهای بصری.
---
⚡ انعطاف در استدلال
مدل دو حالت دارد:
Fast reasoning برای کارهای روزمره
Deep reasoning برای سناریوهای پیچیده
و کاربر میتواند بسته به نیاز بین آنها جابهجا شود.
---
📊 عملکرد
با داشتن ۸ میلیارد پارامتر، این مدل در بنچمارک OpenCompass امتیاز 77.0 کسب کرده؛ بالاتر از GPT-4o-latest و Gemini-2.0 Pro و حتی بهتر از مدل متنباز Qwen2.5-VL با ۷۲ میلیارد پارامتر. همچنین در OmniDocBench رکورد تازهای به نام خود ثبت کرده است.
---
💻 بدون مشکل در استقرار
♻️نسخه CPU با llama.cpp و ollama
♻️نسخههای کوانتیزه در فرمتهای int4، GGUF و AWQ
♻️پشتیبانی از SGLang و vLLM
♻️قابلیت Fine-tuning با Transformers و LLaMA-Factory
♻️رابط کاربری وب و اپ بهینهشده برای iOS
---
📌 لینکها
🟡 [Model]
🟡 [Demo]
🟡 [Community Discord]
🖥 [GitHub]
#هوش_مصنوعی #مدل_چندمودالی #MiniCPM #OpenBMB #MLLM #AI_industrial_news
@rss_ai_ir
👍3👏1
🎨 پرامپت آماده: اسباببازی وینیل (Vinyl Toy)
🧸 اگر میخواهید فیگورهای سهبعدی کیوت و بامزه بسازید، این پرامپت مخصوص شماست.
با این دستور میتوانید هر شخصیت دلخواه خودتان را به یک عروسک وینیل کارتونی تبدیل کنید.
📌 نمونه خروجیها 👇
(همانند عکسهای بالا: دزد دریایی، نینجا، کاراکتر فانتزی...)
---
📝 Prompt (برای کپی در ابزار تصویرسازی):
✨ کافیست بهجای [subject] نام شخصیت (مثل pirate یا ninja)
و بهجای [color1] و [color2] رنگهای دلخواه خودتان (مثل blue و gold) را وارد کنید.
👾 نتیجه: یک عروسک سهبعدی با استایل چیبی (سر بزرگ، بدن کوچک) روی پسزمینه سفید و با نورپردازی نرم.
---
#Prompt #VinylToy #3D #AIart
@rss_ai_ir
🧸 اگر میخواهید فیگورهای سهبعدی کیوت و بامزه بسازید، این پرامپت مخصوص شماست.
با این دستور میتوانید هر شخصیت دلخواه خودتان را به یک عروسک وینیل کارتونی تبدیل کنید.
📌 نمونه خروجیها 👇
(همانند عکسهای بالا: دزد دریایی، نینجا، کاراکتر فانتزی...)
---
📝 Prompt (برای کپی در ابزار تصویرسازی):
Chibi-style 3D vinyl toy of [subject], rendered in [color1] and [color2] tones,
front-facing on a white background. Minimalist composition with soft shadows,
oversized head and tiny body proportions, clean OC renderer output in Cinema 4D.
✨ کافیست بهجای [subject] نام شخصیت (مثل pirate یا ninja)
و بهجای [color1] و [color2] رنگهای دلخواه خودتان (مثل blue و gold) را وارد کنید.
👾 نتیجه: یک عروسک سهبعدی با استایل چیبی (سر بزرگ، بدن کوچک) روی پسزمینه سفید و با نورپردازی نرم.
---
#Prompt #VinylToy #3D #AIart
@rss_ai_ir
🎉13🔥11😁11👍8❤6
This media is not supported in your browser
VIEW IN TELEGRAM
⚽ نتایج SoccerNet 2025! ⚽
🔹 رقابتهای SoccerNet 2025 Challenges یک بنچمارک باز برای پیشبرد تحقیقات در حوزه بینایی کامپیوتری و تحلیل ویدیوهای فوتبال است.
این چالشها روی درک رخدادها، شناسایی بازیکنان و تحلیل بازی تمرکز دارند و نتایج آن راه را برای سیستمهای هوشمند ورزشی بازتر میکنند.
📌 منابع:
👉 Paper (arXiv)
👉 Project Page
👉 GitHub Repo
#AI #ComputerVision #SoccerNet #FootballTech
🔹 رقابتهای SoccerNet 2025 Challenges یک بنچمارک باز برای پیشبرد تحقیقات در حوزه بینایی کامپیوتری و تحلیل ویدیوهای فوتبال است.
این چالشها روی درک رخدادها، شناسایی بازیکنان و تحلیل بازی تمرکز دارند و نتایج آن راه را برای سیستمهای هوشمند ورزشی بازتر میکنند.
📌 منابع:
👉 Paper (arXiv)
👉 Project Page
👉 GitHub Repo
#AI #ComputerVision #SoccerNet #FootballTech
❤16🎉11👍10🔥7😁4
📑 منظور از RFP در پروژههای صنعتی هوش مصنوعی
وقتی سازمانی تصمیم میگیرد یک پروژه هوش مصنوعی را اجرا کند، اولین گام انتشار RFP (Request For Proposal یا «درخواست پیشنهاد») است.
🔹 در این سند مشخص میشود:
1️⃣ هدف و مسئلهای که باید حل شود 🎯
2️⃣ نیازها و الزامات فنی ⚙️
3️⃣ زمانبندی و بودجه تقریبی ⏱💰
4️⃣ معیارهای انتخاب بهترین پیشنهاد 📊
🔹 تیمها و شرکتهای متخصص پس از مطالعه RFP، پروپوزالهای خود را ارائه میدهند. در نهایت سازمان میتواند بین گزینههای مختلف، بهترین راهحل را انتخاب کند.
✅ اهمیت RFP در صنعت این است که از همان ابتدا شفافیت ایجاد میکند و مانع اتلاف زمان و هزینه میشود.
⛔️⛔️⛔️در چند روز آینده RFP یکی از صنایع معدنی را قرار خواهیم داد تا بتوانید در صورتیکه شرکت دارید اقدام نمایید.
---
#هوش_مصنوعی #صنعت #RFP #پروژه #مدیریت_فنی
@rss_ai_ir
وقتی سازمانی تصمیم میگیرد یک پروژه هوش مصنوعی را اجرا کند، اولین گام انتشار RFP (Request For Proposal یا «درخواست پیشنهاد») است.
🔹 در این سند مشخص میشود:
1️⃣ هدف و مسئلهای که باید حل شود 🎯
2️⃣ نیازها و الزامات فنی ⚙️
3️⃣ زمانبندی و بودجه تقریبی ⏱💰
4️⃣ معیارهای انتخاب بهترین پیشنهاد 📊
🔹 تیمها و شرکتهای متخصص پس از مطالعه RFP، پروپوزالهای خود را ارائه میدهند. در نهایت سازمان میتواند بین گزینههای مختلف، بهترین راهحل را انتخاب کند.
✅ اهمیت RFP در صنعت این است که از همان ابتدا شفافیت ایجاد میکند و مانع اتلاف زمان و هزینه میشود.
⛔️⛔️⛔️در چند روز آینده RFP یکی از صنایع معدنی را قرار خواهیم داد تا بتوانید در صورتیکه شرکت دارید اقدام نمایید.
---
#هوش_مصنوعی #صنعت #RFP #پروژه #مدیریت_فنی
@rss_ai_ir
👍16🔥11😁9🎉9❤5
This media is not supported in your browser
VIEW IN TELEGRAM
📌 انواع روشهای عمقسنجی در بینایی ماشین و صنعت
🔹 ۱. روشهای سنتی (Geometric Methods):
استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سهبعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.
🔹 ۲. سنسوری (Sensor-based):
LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازهگیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازهگیری تغییر شکل آنها (مثل Kinect قدیمی).
Radar & mmWave:
بهویژه در خودروهای خودران و محیطهای صنعتی پر گردوغبار.
🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):
Monocular Depth Estimation:
آموزش شبکههای CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتمهای هندسی با شبکههای عصبی.
Depth Completion:
ترکیب دادههای ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سهبعدی از تصاویر چندگانه با استفاده از شبکههای عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریعتر و کارآمدتر برای بازسازی صحنهها.
🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):
Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).
Event Cameras + Depth:
استفاده از دوربینهای رویدادی برای تخمین عمق در صحنههای بسیار سریع.
AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشهبرداری و عمقسنجی با یادگیری عمیق.
✨ کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سهبعدی).
🔖 هشتگها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF
@rss_ai_ir
🔹 ۱. روشهای سنتی (Geometric Methods):
استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سهبعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.
🔹 ۲. سنسوری (Sensor-based):
LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازهگیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازهگیری تغییر شکل آنها (مثل Kinect قدیمی).
Radar & mmWave:
بهویژه در خودروهای خودران و محیطهای صنعتی پر گردوغبار.
🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):
Monocular Depth Estimation:
آموزش شبکههای CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتمهای هندسی با شبکههای عصبی.
Depth Completion:
ترکیب دادههای ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سهبعدی از تصاویر چندگانه با استفاده از شبکههای عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریعتر و کارآمدتر برای بازسازی صحنهها.
🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):
Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).
Event Cameras + Depth:
استفاده از دوربینهای رویدادی برای تخمین عمق در صحنههای بسیار سریع.
AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشهبرداری و عمقسنجی با یادگیری عمیق.
✨ کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سهبعدی).
🔖 هشتگها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF
@rss_ai_ir
🔥15❤11😁9👍8🎉6
🔰 فاصله کاری یا Working Distance در لنزهای صنعتی
🔻به فاصله میان لنز تا جسم اصطلاحاً فاصله کاری یا Working Distance میگویند.
🔻در لنزهای صنعتی یک پارامتر مهم به نام حداقل فاصله کاری (Minimum Working Distance) وجود دارد که نشان میدهد لنز تا چه حد میتواند به جسم نزدیک شود. بنابراین هنگام انتخاب لنز باید دقت کنیم که فاصله کاری موردنیاز ما بیشتر از حداقل فاصله کاری لنز باشد.
🔻گاهی به دلیل محدودیت فضا یا نیاز پروژه، تمایل داریم فاصله کاری را کاهش دهیم. اما کاهش این فاصله چالشهایی به همراه دارد:
1️⃣ پیچیدگی طراحی لنز افزایش مییابد.
2️⃣ قیمت لنز به دلیل طراحی خاص و استفاده از عدسیهای بیشتر بالا میرود.
3️⃣ کارایی سیستم (مثل نورگیری و عمق میدان) کاهش پیدا میکند.
✨ بنابراین انتخاب درست فاصله کاری، یک تعادل میان فضای فیزیکی، هزینه و کیفیت تصویر ایجاد میکند.
#تجهیزات_صنعتی #لنز_صنعتی #دوربین_صنعتی #اتوماسیون_صنعتی #پروژه_صنعتی
🆔 @rss_ai_ir
🔻به فاصله میان لنز تا جسم اصطلاحاً فاصله کاری یا Working Distance میگویند.
🔻در لنزهای صنعتی یک پارامتر مهم به نام حداقل فاصله کاری (Minimum Working Distance) وجود دارد که نشان میدهد لنز تا چه حد میتواند به جسم نزدیک شود. بنابراین هنگام انتخاب لنز باید دقت کنیم که فاصله کاری موردنیاز ما بیشتر از حداقل فاصله کاری لنز باشد.
🔻گاهی به دلیل محدودیت فضا یا نیاز پروژه، تمایل داریم فاصله کاری را کاهش دهیم. اما کاهش این فاصله چالشهایی به همراه دارد:
1️⃣ پیچیدگی طراحی لنز افزایش مییابد.
2️⃣ قیمت لنز به دلیل طراحی خاص و استفاده از عدسیهای بیشتر بالا میرود.
3️⃣ کارایی سیستم (مثل نورگیری و عمق میدان) کاهش پیدا میکند.
✨ بنابراین انتخاب درست فاصله کاری، یک تعادل میان فضای فیزیکی، هزینه و کیفیت تصویر ایجاد میکند.
#تجهیزات_صنعتی #لنز_صنعتی #دوربین_صنعتی #اتوماسیون_صنعتی #پروژه_صنعتی
🆔 @rss_ai_ir
🔥15🎉13❤8👍6😁6
This media is not supported in your browser
VIEW IN TELEGRAM
🌹 مدل ROSE: حذف اشیا و اثرات محیطی 🌹
یکی از چالشهای بزرگ در پردازش تصویر، حذف شیء ناخواسته به همراه اثرات محیطی آن است (مثل سایه، بازتاب، نور، شفافیت و آینه).
مدل جدید ROSE (Remove Objects & Effects) دقیقاً همین کار را انجام میدهد.
🔸 قابلیتها:
♻️حذف شیء ناخواسته همراه با سایهها و بازتابها
♻️اصلاح نور و شفافیت محیط
♻️پشتیبانی از آینه و سطوح انعکاسی
🔸 منابع در دسترس:
📄 مرور مقاله
📑 Paper
🌐 پروژه
🤖 مدل در HuggingFace
🖥 دمو
📊 دیتاست
این پیشرفت میتونه ابزار قدرتمندی برای طراحان گرافیک، فیلمسازان و کاربردهای صنعتی بینایی ماشین باشه. 🚀
#بینایی_ماشین #هوش_مصنوعی #پردازش_تصویر #ROSE #AI
@rss_ai_ir
یکی از چالشهای بزرگ در پردازش تصویر، حذف شیء ناخواسته به همراه اثرات محیطی آن است (مثل سایه، بازتاب، نور، شفافیت و آینه).
مدل جدید ROSE (Remove Objects & Effects) دقیقاً همین کار را انجام میدهد.
🔸 قابلیتها:
♻️حذف شیء ناخواسته همراه با سایهها و بازتابها
♻️اصلاح نور و شفافیت محیط
♻️پشتیبانی از آینه و سطوح انعکاسی
🔸 منابع در دسترس:
📄 مرور مقاله
📑 Paper
🌐 پروژه
🤖 مدل در HuggingFace
🖥 دمو
📊 دیتاست
این پیشرفت میتونه ابزار قدرتمندی برای طراحان گرافیک، فیلمسازان و کاربردهای صنعتی بینایی ماشین باشه. 🚀
#بینایی_ماشین #هوش_مصنوعی #پردازش_تصویر #ROSE #AI
@rss_ai_ir
👍15❤13🔥11😁7🎉6
This media is not supported in your browser
VIEW IN TELEGRAM
🐕 رباتسگها در حال پیشروی سریع!
دیگه فقط ابزار آزمایشگاهی نیستن؛ رباتسگها دارن وارد صنعت، امنیت، لجستیک و حتی زندگی روزمره میشن. 🚀
از گشتزنی در کارخانهها تا عملیات امداد و حتی همراهی در محیطهای خانگی.
🔸 پیشرفت در هوش مصنوعی و بینایی ماشین باعث شده این رباتها هوشمندتر، چابکتر و مستقلتر بشن.
🔸 شرکتهای بزرگی مثل Boston Dynamics و Unitree حالا با نسلهای جدید، توانایی حمل بار، شناسایی خطر و تعامل طبیعی با انسان رو به نمایش گذاشتن.
آیا این روند به معنای حضور گستردهی «سگهای رباتیک» در زندگی روزمره ماست؟ 🐾
#رباتیک #هوش_مصنوعی #اتوماسیون #صنعت
@rss_ai_ir
دیگه فقط ابزار آزمایشگاهی نیستن؛ رباتسگها دارن وارد صنعت، امنیت، لجستیک و حتی زندگی روزمره میشن. 🚀
از گشتزنی در کارخانهها تا عملیات امداد و حتی همراهی در محیطهای خانگی.
🔸 پیشرفت در هوش مصنوعی و بینایی ماشین باعث شده این رباتها هوشمندتر، چابکتر و مستقلتر بشن.
🔸 شرکتهای بزرگی مثل Boston Dynamics و Unitree حالا با نسلهای جدید، توانایی حمل بار، شناسایی خطر و تعامل طبیعی با انسان رو به نمایش گذاشتن.
آیا این روند به معنای حضور گستردهی «سگهای رباتیک» در زندگی روزمره ماست؟ 🐾
#رباتیک #هوش_مصنوعی #اتوماسیون #صنعت
@rss_ai_ir
👍15😁12🎉9❤8🔥7
🧠 هوش مصنوعی در خدمت تشخیص سریع خطرات مغزی نوزادان
🔹 یاندکس با همکاری پزشکان دانشگاه پزشکی کودکان سنپترزبورگ و دانشجویان شاد، سامانهای مبتنی بر هوش مصنوعی توسعه داده که تصاویر MRI مغز نوزادان را تنها در چند ثانیه تحلیل میکند.
🔹 این مدل میتواند خطر بروز فلج مغزی (Cerebral Palsy) را شناسایی کند؛ کاری که تا پیش از این تا ۳ روز طول میکشید. اکنون با کمک هوش مصنوعی، این زمان به ۳ ثانیه کاهش یافته است – یعنی ۵۰ برابر سریعتر!
⚙️ جزئیات فنی:
♻️الگوریتم بر پایهی U-Net با بَکبون ResNeXt-50 طراحی شده و از DiceLoss برای بهبود دقت استفاده میکند.
♻️تصاویر MRI ابتدا با BIBSNet پیشبرچسبگذاری شدند و سپس پزشکان صحت آن را تکمیل کردند.
♻️کل فرایند در Yandex Cloud اجرا شده و نیازی به GPU در کلینیکها ندارد.
📊 دقت مدل با شاخص IoU = 0.703 ارزیابی شد که آن را به یک ابزار مطمئن در تصمیمگیری بالینی تبدیل میکند.
🔗 کد این پروژه پس از تستهای بالینی به صورت اوپنسورس منتشر خواهد شد تا پژوهشگران و پزشکان در سراسر جهان بتوانند از آن استفاده کنند.
#هوش_مصنوعی #پزشکی #MRI #تشخیص_زودهنگام
@rss_ai_ir
🔹 یاندکس با همکاری پزشکان دانشگاه پزشکی کودکان سنپترزبورگ و دانشجویان شاد، سامانهای مبتنی بر هوش مصنوعی توسعه داده که تصاویر MRI مغز نوزادان را تنها در چند ثانیه تحلیل میکند.
🔹 این مدل میتواند خطر بروز فلج مغزی (Cerebral Palsy) را شناسایی کند؛ کاری که تا پیش از این تا ۳ روز طول میکشید. اکنون با کمک هوش مصنوعی، این زمان به ۳ ثانیه کاهش یافته است – یعنی ۵۰ برابر سریعتر!
⚙️ جزئیات فنی:
♻️الگوریتم بر پایهی U-Net با بَکبون ResNeXt-50 طراحی شده و از DiceLoss برای بهبود دقت استفاده میکند.
♻️تصاویر MRI ابتدا با BIBSNet پیشبرچسبگذاری شدند و سپس پزشکان صحت آن را تکمیل کردند.
♻️کل فرایند در Yandex Cloud اجرا شده و نیازی به GPU در کلینیکها ندارد.
📊 دقت مدل با شاخص IoU = 0.703 ارزیابی شد که آن را به یک ابزار مطمئن در تصمیمگیری بالینی تبدیل میکند.
🔗 کد این پروژه پس از تستهای بالینی به صورت اوپنسورس منتشر خواهد شد تا پژوهشگران و پزشکان در سراسر جهان بتوانند از آن استفاده کنند.
#هوش_مصنوعی #پزشکی #MRI #تشخیص_زودهنگام
@rss_ai_ir
🔥12😁11❤10👍9🎉9
This media is not supported in your browser
VIEW IN TELEGRAM
🔻 ربات Unitree A2 توانایی حمل بار تا ۲۵۰ کیلوگرم را دارد!
این ظرفیت بالا میتواند انقلابی در کاربردهای صنعتی و خدماتی ایجاد کند:
🔹 حمل بار در معادن و خطوط تولید
🔹 پشتیبانی لجستیکی در انبارها و بنادر
🔹 کمکرسانی در عملیات امداد و نجات
🔹 کاربردهای نظامی و امنیتی
❓ اما پرسش اصلی اینجاست: چه زمانی شاهد استفاده گسترده و واقعی از چنین رباتهایی در صنایع و شهرها خواهیم بود؟
#رباتیک #اتوماسیون #صنعت۴ #AI_industrial_news
@rss_ai_ir
این ظرفیت بالا میتواند انقلابی در کاربردهای صنعتی و خدماتی ایجاد کند:
🔹 حمل بار در معادن و خطوط تولید
🔹 پشتیبانی لجستیکی در انبارها و بنادر
🔹 کمکرسانی در عملیات امداد و نجات
🔹 کاربردهای نظامی و امنیتی
❓ اما پرسش اصلی اینجاست: چه زمانی شاهد استفاده گسترده و واقعی از چنین رباتهایی در صنایع و شهرها خواهیم بود؟
#رباتیک #اتوماسیون #صنعت۴ #AI_industrial_news
@rss_ai_ir
🎉11❤10👍10🔥9😁8
This media is not supported in your browser
VIEW IN TELEGRAM
🍌 نانو-بانانا، هوش مصنوعی ویرایش تصویر که رتبه ۱ را کسب کرده بود، حالا با نام Gemini 2.5 Flash Image توسط گوگل عرضه شد.
🔹 دارای قابلیت استدلال چندوجهی و استفاده از دانش دنیای واقعی
🔹 پشتیبانی از ویرایشهای چندمرحلهای (multi-turn edits) بهصورت پایدار
🔹 امکان ترکیب تصاویر و ایجاد خروجی منسجم
🔹 در دسترس برای کاربران رایگان و پولی Gemini
آیا این ابزار میتواند آینده ویرایش تصویر در صنعت خلاقیت و تبلیغات را متحول کند؟ 🎨✨
#هوش_مصنوعی #ویرایش_تصویر #Gemini #AI_industrial_news
@rss_ai_ir
🔹 دارای قابلیت استدلال چندوجهی و استفاده از دانش دنیای واقعی
🔹 پشتیبانی از ویرایشهای چندمرحلهای (multi-turn edits) بهصورت پایدار
🔹 امکان ترکیب تصاویر و ایجاد خروجی منسجم
🔹 در دسترس برای کاربران رایگان و پولی Gemini
آیا این ابزار میتواند آینده ویرایش تصویر در صنعت خلاقیت و تبلیغات را متحول کند؟ 🎨✨
#هوش_مصنوعی #ویرایش_تصویر #Gemini #AI_industrial_news
@rss_ai_ir
🔥14🎉13👍12❤9😁3👏1🙏1
🧠 مدل ThinkDial: کنترل باز و دقیق بر میزان استدلال در LLMها
پژوهشگران با معرفی ThinkDial اولین چارچوب بازمتن (Open-Recipe) برای کنترل سطح استدلال در مدلهای زبانی بزرگ (LLMها) را ارائه کردهاند. این چارچوب همان چیزی است که پیشتر در سیستمهای اختصاصی مثل GPT-OSS دیده بودیم، اما حالا به شکل باز در دسترس پژوهشگران قرار گرفته است.
🔑 ایده اصلی
به جای اینکه مدل همیشه با حداکثر توان استدلال کند (که هزینه محاسباتی بالایی دارد)، ThinkDial به شما اجازه میدهد بین حالتهای مختلف عملیات جابهجا شوید:
✳️حالت Medium: کاهش ۵۰٪ تعداد توکنها، با کمتر از ۱۰٪ افت کارایی
✳️حالت Low: کاهش ۷۵٪ توکنها، با کمتر از ۱۵٪ افت کارایی
✳️این یعنی شما میتوانید سطح استدلال را بر اساس نیاز پروژه (مثلاً چت سبک، تحلیل سریع یا پژوهش دقیق) تنظیم کنید.
⚡ نوآوریها
1. Budget-Mode Supervised Fine-tuning → تنظیم دقیق مدل برای سطوح مختلف مصرف محاسباتی.
2. Budget-Aware Reinforcement Learning → یادگیری تقویتی دومرحلهای برای هماهنگی دقت و هزینه.
3. Leak Penalty → مکانیزمی که مانع از آن میشود مدل استدلال را به بخش نهایی پاسخ منتقل کند (یعنی واقعاً تعداد توکنهای استدلال کاهش یابد).
📊 مزیتها برای صنعت
♻️کاهش هزینه اجرای مدلها در دیتاسنترها.
♻️امکان استقرار مدل روی دستگاههای با منابع محدود.
♻️انعطافپذیری بالا برای کاربردهای مختلف: از دستیارهای گفتوگویی سبک گرفته تا تحلیلهای پیچیده مالی یا علمی.
📄 مقاله: arXiv
🖥️ مدلها و کد: HuggingFace
#هوش_مصنوعی #LLM #بهینهسازی #استدلال_ماشین #ThinkDial
@rss_ai_ir
پژوهشگران با معرفی ThinkDial اولین چارچوب بازمتن (Open-Recipe) برای کنترل سطح استدلال در مدلهای زبانی بزرگ (LLMها) را ارائه کردهاند. این چارچوب همان چیزی است که پیشتر در سیستمهای اختصاصی مثل GPT-OSS دیده بودیم، اما حالا به شکل باز در دسترس پژوهشگران قرار گرفته است.
🔑 ایده اصلی
به جای اینکه مدل همیشه با حداکثر توان استدلال کند (که هزینه محاسباتی بالایی دارد)، ThinkDial به شما اجازه میدهد بین حالتهای مختلف عملیات جابهجا شوید:
✳️حالت Medium: کاهش ۵۰٪ تعداد توکنها، با کمتر از ۱۰٪ افت کارایی
✳️حالت Low: کاهش ۷۵٪ توکنها، با کمتر از ۱۵٪ افت کارایی
✳️این یعنی شما میتوانید سطح استدلال را بر اساس نیاز پروژه (مثلاً چت سبک، تحلیل سریع یا پژوهش دقیق) تنظیم کنید.
⚡ نوآوریها
1. Budget-Mode Supervised Fine-tuning → تنظیم دقیق مدل برای سطوح مختلف مصرف محاسباتی.
2. Budget-Aware Reinforcement Learning → یادگیری تقویتی دومرحلهای برای هماهنگی دقت و هزینه.
3. Leak Penalty → مکانیزمی که مانع از آن میشود مدل استدلال را به بخش نهایی پاسخ منتقل کند (یعنی واقعاً تعداد توکنهای استدلال کاهش یابد).
📊 مزیتها برای صنعت
♻️کاهش هزینه اجرای مدلها در دیتاسنترها.
♻️امکان استقرار مدل روی دستگاههای با منابع محدود.
♻️انعطافپذیری بالا برای کاربردهای مختلف: از دستیارهای گفتوگویی سبک گرفته تا تحلیلهای پیچیده مالی یا علمی.
📄 مقاله: arXiv
🖥️ مدلها و کد: HuggingFace
#هوش_مصنوعی #LLM #بهینهسازی #استدلال_ماشین #ThinkDial
@rss_ai_ir
👍1🔥1👏1
🧩 بیش از ۲۰۰ اسکریپت آماده برای n8n – رایگان و کاربردی
اگر با اتوماسیون سر و کار دارید، این ریپو گیتهاب پر از فلوهای آماده برای فروش، مارکتینگ، حسابداری، کدنویسی و بهرهوری شخصی به کارتان میآید.
🔎 مفهوم n8n چیست؟
✳️ابزار اتوماسیون اوپنسورس بدون کدنویسی
✳️سازندهی بصری (بلوکها را وصل کن = فرایند بساز)
✳️صدها اینتگریشن: ایمیل، CRM، شیتها، پیامرسانها، وبهوکها
✳️امکان افزودن منطق جاوااسکریپت
✳️اجرا بر اساس زمانبندی یا رویداد؛ روی کلاود یا سرور خودتان
🛠️ روش استفاده
1. فایل workflow.json را دانلود و در n8n ایمپورت کنید
2. کلیدهای API و کرِدنشیالها را داخل نودها قرار دهید
3. مراحل را تست و اجرای Cron/Webhook را فعال کنید
📂 ریپو مجموعه فلوها: (Github)
📦 آپدیت—بسته نصبی با ۳۰۰+ راهکار آماده: https://github.com/kossakovsky/n8n-installer
#اتوماسیون #n8n #بدون_کدنویسی #DevOps #بهرهوری #هوش_مصنوعی
@rss_ai_ir
اگر با اتوماسیون سر و کار دارید، این ریپو گیتهاب پر از فلوهای آماده برای فروش، مارکتینگ، حسابداری، کدنویسی و بهرهوری شخصی به کارتان میآید.
🔎 مفهوم n8n چیست؟
✳️ابزار اتوماسیون اوپنسورس بدون کدنویسی
✳️سازندهی بصری (بلوکها را وصل کن = فرایند بساز)
✳️صدها اینتگریشن: ایمیل، CRM، شیتها، پیامرسانها، وبهوکها
✳️امکان افزودن منطق جاوااسکریپت
✳️اجرا بر اساس زمانبندی یا رویداد؛ روی کلاود یا سرور خودتان
🛠️ روش استفاده
1. فایل workflow.json را دانلود و در n8n ایمپورت کنید
2. کلیدهای API و کرِدنشیالها را داخل نودها قرار دهید
3. مراحل را تست و اجرای Cron/Webhook را فعال کنید
📂 ریپو مجموعه فلوها: (Github)
📦 آپدیت—بسته نصبی با ۳۰۰+ راهکار آماده: https://github.com/kossakovsky/n8n-installer
#اتوماسیون #n8n #بدون_کدنویسی #DevOps #بهرهوری #هوش_مصنوعی
@rss_ai_ir
👍1🔥1👏1
🎙 مجموعه OpenAI و معرفی GPT-Realtime؛ پیشرفتهترین مدل گفتار به گفتار
مدل جدید gpt-realtime حالا استاندارد تازهای برای دستیارهای صوتی و باتهای تماس تعریف میکند.
💰 قیمتها:
🎧 ورودی صوتی: ۳۲ دلار به ازای هر ۱ میلیون توکن
🗂 ورودی کششده: ۰.۴ دلار به ازای هر ۱ میلیون توکن
🔊 خروجی صوتی: ۶۴ دلار به ازای هر ۱ میلیون توکن
📊 نتایج بنچمارکها:
MultiChallenge (Audio) – دقت در دنبالکردن دستورهای صوتی:
▫ gpt-realtime: %۳۰.۵
▫ gpt-4o-realtime-preview-2025-06-03: %۲۶.۵
▫ gpt-4o-realtime-preview-2024-12-17: %۲۰.۶
ComplexFuncBench (Audio) – دقت در اجرای دستورهای پیچیده:
▫ gpt-realtime: %۶۶.۵
▫ gpt-4o-realtime-preview-2025-06-03: %۵۸.۹
▫ gpt-4o-realtime-preview-2024-12-17: %۴۹.۷
🔑 چرا مهم است؟
درک بهتر و دقیقتر دستورهای صوتی 🎯
کاهش خطا در فهم گفتار 🗣
آماده برای استفاده واقعی در دستیارهای صوتی و مراکز تماس 📞
این مدل با دادههای باکیفیت و پاداشدهی تخصصی آموزش دیده و کیفیت صدای خروجی آن بسیار طبیعی است.
#هوش_مصنوعی #OpenAI #گفتار_به_گفتار #VoiceAI #GPTRealtime
@rss_ai_ir
مدل جدید gpt-realtime حالا استاندارد تازهای برای دستیارهای صوتی و باتهای تماس تعریف میکند.
💰 قیمتها:
🎧 ورودی صوتی: ۳۲ دلار به ازای هر ۱ میلیون توکن
🗂 ورودی کششده: ۰.۴ دلار به ازای هر ۱ میلیون توکن
🔊 خروجی صوتی: ۶۴ دلار به ازای هر ۱ میلیون توکن
📊 نتایج بنچمارکها:
MultiChallenge (Audio) – دقت در دنبالکردن دستورهای صوتی:
▫ gpt-realtime: %۳۰.۵
▫ gpt-4o-realtime-preview-2025-06-03: %۲۶.۵
▫ gpt-4o-realtime-preview-2024-12-17: %۲۰.۶
ComplexFuncBench (Audio) – دقت در اجرای دستورهای پیچیده:
▫ gpt-realtime: %۶۶.۵
▫ gpt-4o-realtime-preview-2025-06-03: %۵۸.۹
▫ gpt-4o-realtime-preview-2024-12-17: %۴۹.۷
🔑 چرا مهم است؟
درک بهتر و دقیقتر دستورهای صوتی 🎯
کاهش خطا در فهم گفتار 🗣
آماده برای استفاده واقعی در دستیارهای صوتی و مراکز تماس 📞
این مدل با دادههای باکیفیت و پاداشدهی تخصصی آموزش دیده و کیفیت صدای خروجی آن بسیار طبیعی است.
#هوش_مصنوعی #OpenAI #گفتار_به_گفتار #VoiceAI #GPTRealtime
@rss_ai_ir
👍1🔥1👏1