🌟 POINTS-Reader
؛ مدل جمعوجور OCR از Tencent
📌 شرکت Tencent پروژه جالبی منتشر کرده به نام POINTS-Reader؛ یک مدل زبانی-دیداری (VLM) برای OCR انگلیسی و چینی با تنها ۴ میلیارد پارامتر که بر پایه Qwen2.5-3B-Instruct ساخته شده و در OmniDocBench حتی از GPT-4o و Gemini بهتر عمل کرده است.
🔹 در معماری از Qwen2.5 کوچک و یک NaViT Vision Transformer با ۶۰۰M پارامتر استفاده شده که انتخابی آگاهانه برای سادگی و سرعت بوده است.
🔹 روش یادگیری مدل بر اساس دو مرحله:
1. آموزش اولیه با دادههای مصنوعی برای کسب مهارت OCR
2. یادگیری خود-تکاملی: مدل روی اسناد واقعی برچسبگذاری میکند، بهترین نمونهها دوباره به چرخه آموزش بازمیگردند.
⚠️ محدودیتها:
♻️در صفحهآراییهای پیچیده (مثل روزنامهها) دچار تکرار یا حذف محتوا میشود.
♻️دستنوشتهها (رسید یا یادداشت) همچنان چالشبرانگیزند.
♻️فعلاً فقط دو زبان انگلیسی و چینی پشتیبانی میشوند.
▶️ مدل آماده استفاده روی Transformers و SGLang است. پشتیبانی از vLLM بهزودی افزوده خواهد شد.
🟡 [Arxiv]
🟡 [GitHub]
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #OCR #Tencent #POINTSReader
؛ مدل جمعوجور OCR از Tencent
📌 شرکت Tencent پروژه جالبی منتشر کرده به نام POINTS-Reader؛ یک مدل زبانی-دیداری (VLM) برای OCR انگلیسی و چینی با تنها ۴ میلیارد پارامتر که بر پایه Qwen2.5-3B-Instruct ساخته شده و در OmniDocBench حتی از GPT-4o و Gemini بهتر عمل کرده است.
🔹 در معماری از Qwen2.5 کوچک و یک NaViT Vision Transformer با ۶۰۰M پارامتر استفاده شده که انتخابی آگاهانه برای سادگی و سرعت بوده است.
🔹 روش یادگیری مدل بر اساس دو مرحله:
1. آموزش اولیه با دادههای مصنوعی برای کسب مهارت OCR
2. یادگیری خود-تکاملی: مدل روی اسناد واقعی برچسبگذاری میکند، بهترین نمونهها دوباره به چرخه آموزش بازمیگردند.
⚠️ محدودیتها:
♻️در صفحهآراییهای پیچیده (مثل روزنامهها) دچار تکرار یا حذف محتوا میشود.
♻️دستنوشتهها (رسید یا یادداشت) همچنان چالشبرانگیزند.
♻️فعلاً فقط دو زبان انگلیسی و چینی پشتیبانی میشوند.
▶️ مدل آماده استفاده روی Transformers و SGLang است. پشتیبانی از vLLM بهزودی افزوده خواهد شد.
🟡 [Arxiv]
🟡 [GitHub]
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #OCR #Tencent #POINTSReader
👍1🔥1👏1🙏1
🌟 Genie Envisioner
؛ پلتفرمی که رباتها فقط با دیدن ویدیو یاد میگیرند عمل کنند
🔹 Genie Envisioner (GE)
محصول تیم AgiBot Genie است؛ یک پلتفرم یکپارچه که یادگیری، شبیهسازی و ارزیابی را در قالب یک مدل ویدیویی مولد ترکیب میکند.
🟡 GE-Base
هستهی سیستم، یک مدل دیفیوژن ویدیویی است که روی دیتاستی با ۱ میلیون اپیزود دستکاری واقعی (۳۰۰۰ ساعت فیلم چند-دوربینه) آموزش دیده. مدل یاد گرفته بر اساس دستور متنی و فریمهای قبلی، فریمهای بعدی را پیشبینی کند و از این طریق نمایش درونی از فیزیک دنیا و دینامیک اشیا بسازد.
🟡 GE-Act
اما پیشبینی ویدیو کافی نیست؛ باید عمل هم کرد. اینجا ماژول سبکوزن GE-Act (با ۱۶۰M پارامتر) وارد میشود که نمایشهای داخلی GE-Base را به دستورات حرکتی برای موتورها تبدیل میکند.
📊 سرعت: تولید ۵۴ گام کنترلی فقط در ۲۰۰ میلیثانیه روی NVIDIA RTX 4090 → قابل استفاده در زمان واقعی.
🟡 GE-Sim
سومین جزء، GE-Sim است؛ یک شبیهساز عصبی مبتنی بر GE-Base که امکان اجرای هزاران شبیهسازی در ساعت را برای تست پالیسیها بدون نیاز به سختافزار واقعی فراهم میکند.
📌 برای ارزیابی این شبیهسازها، بِنچمارک جدیدی به نام EWMBench طراحی شده که هم واقعگرایی بصری و هم سازگاری فیزیکی و پیروی از دستورالعملها را میسنجد.
نتیجه: GE-Base بالاتر از تمام مدلهای ویدیویی نسل جدید (مثل Kling، OpenSora و COSMOS) با امتیاز 4.70 در برابر 3.87 نزدیکترین رقیب.
🟡 [صفحه پروژه]
🟡 [مدل]
🟡 [Arxiv]
🖥 [GitHub]
#هوش_مصنوعی #یادگیری_ماشین #روباتیک #AgiBot
@rss_ai_ir
؛ پلتفرمی که رباتها فقط با دیدن ویدیو یاد میگیرند عمل کنند
🔹 Genie Envisioner (GE)
محصول تیم AgiBot Genie است؛ یک پلتفرم یکپارچه که یادگیری، شبیهسازی و ارزیابی را در قالب یک مدل ویدیویی مولد ترکیب میکند.
🟡 GE-Base
هستهی سیستم، یک مدل دیفیوژن ویدیویی است که روی دیتاستی با ۱ میلیون اپیزود دستکاری واقعی (۳۰۰۰ ساعت فیلم چند-دوربینه) آموزش دیده. مدل یاد گرفته بر اساس دستور متنی و فریمهای قبلی، فریمهای بعدی را پیشبینی کند و از این طریق نمایش درونی از فیزیک دنیا و دینامیک اشیا بسازد.
🟡 GE-Act
اما پیشبینی ویدیو کافی نیست؛ باید عمل هم کرد. اینجا ماژول سبکوزن GE-Act (با ۱۶۰M پارامتر) وارد میشود که نمایشهای داخلی GE-Base را به دستورات حرکتی برای موتورها تبدیل میکند.
📊 سرعت: تولید ۵۴ گام کنترلی فقط در ۲۰۰ میلیثانیه روی NVIDIA RTX 4090 → قابل استفاده در زمان واقعی.
🟡 GE-Sim
سومین جزء، GE-Sim است؛ یک شبیهساز عصبی مبتنی بر GE-Base که امکان اجرای هزاران شبیهسازی در ساعت را برای تست پالیسیها بدون نیاز به سختافزار واقعی فراهم میکند.
📌 برای ارزیابی این شبیهسازها، بِنچمارک جدیدی به نام EWMBench طراحی شده که هم واقعگرایی بصری و هم سازگاری فیزیکی و پیروی از دستورالعملها را میسنجد.
نتیجه: GE-Base بالاتر از تمام مدلهای ویدیویی نسل جدید (مثل Kling، OpenSora و COSMOS) با امتیاز 4.70 در برابر 3.87 نزدیکترین رقیب.
🟡 [صفحه پروژه]
🟡 [مدل]
🟡 [Arxiv]
🖥 [GitHub]
#هوش_مصنوعی #یادگیری_ماشین #روباتیک #AgiBot
@rss_ai_ir
❤2🔥1👏1🙏1
Media is too big
VIEW IN TELEGRAM
🧠 پیشرفت مدلهای زبانی بزرگ: از مفاهیم پایه تا کاربردهای واقعی
👤 اسحاق کارگر
⏺ دانشمند ارشد هوش مصنوعی در شرکت In_Parallel فنلاند
⏺ دانشجوی دکترای هوش مصنوعی رباتیک، دانشگاه آلتو فنلاند
📚 سرفصلها
🔹 مقدمه – مدلهای زبانی چیستند؟
🔹 مبانی معماری ترنسفورمر (به زبان ساده)
🔹 آموزش و تنظیم مدلهای زبانی بزرگ
🔹 کاربردهای کلیدی LLM
🔹 چالشها و محدودیتها
🔹 مسیرهای آینده و نکات پایانی
🔹 پرسش و پاسخ
🏛 برگزار شده توسط آکادمی
- شبکه نخبگان ایران
🌐 @rss_ai_ir
#هوش_مصنوعی #مدل_زبانی #LLM #یادگیری_عمیق #ترنسفورمر #AI #مدلسازی #علمی #آموزش
👤 اسحاق کارگر
⏺ دانشمند ارشد هوش مصنوعی در شرکت In_Parallel فنلاند
⏺ دانشجوی دکترای هوش مصنوعی رباتیک، دانشگاه آلتو فنلاند
📚 سرفصلها
🔹 مقدمه – مدلهای زبانی چیستند؟
🔹 مبانی معماری ترنسفورمر (به زبان ساده)
🔹 آموزش و تنظیم مدلهای زبانی بزرگ
🔹 کاربردهای کلیدی LLM
🔹 چالشها و محدودیتها
🔹 مسیرهای آینده و نکات پایانی
🔹 پرسش و پاسخ
🏛 برگزار شده توسط آکادمی
- شبکه نخبگان ایران
🌐 @rss_ai_ir
#هوش_مصنوعی #مدل_زبانی #LLM #یادگیری_عمیق #ترنسفورمر #AI #مدلسازی #علمی #آموزش
👍9❤6🎉6😁4🔥3👏1🙏1
⚙️ چرا پروژههای هوش مصنوعی صنعتی بدون متخصص فرآیند شکست میخورند؟
📌 تیم قوی در AI کافی نیست! اگر کسی نباشد که فرآیند صنعتی را بشناسد، پروژه به احتمال زیاد بینتیجه میماند.
🔹 دلایل:
1️⃣ مسئله درست تعریف نمیشود.
2️⃣ دادههای بیفایده جمعآوری میشوند.
3️⃣ خروجی مدل قابل تفسیر عملی نیست.
4️⃣ در محیط واقعی پیادهسازی سخت یا غیرممکن میشود.
✅ ترکیب دانش فنی (AI/ML) + دانش فرآیند شرط اصلی موفقیت است.
#هوش_مصنوعی #صنعت #اتوماسیون #AI_industrial
@rss_ai_ir
📌 تیم قوی در AI کافی نیست! اگر کسی نباشد که فرآیند صنعتی را بشناسد، پروژه به احتمال زیاد بینتیجه میماند.
🔹 دلایل:
1️⃣ مسئله درست تعریف نمیشود.
2️⃣ دادههای بیفایده جمعآوری میشوند.
3️⃣ خروجی مدل قابل تفسیر عملی نیست.
4️⃣ در محیط واقعی پیادهسازی سخت یا غیرممکن میشود.
✅ ترکیب دانش فنی (AI/ML) + دانش فرآیند شرط اصلی موفقیت است.
#هوش_مصنوعی #صنعت #اتوماسیون #AI_industrial
@rss_ai_ir
🔥8❤5😁4👍3🎉3🙏1
Media is too big
VIEW IN TELEGRAM
🤖 خیلی زود رباتها از مرحلهی پروژههای آزمایشی به استفادهی گسترده بهعنوان نیروی کار خواهند رسید.
ترکیب هوش مصنوعی و اتوماسیون با سرعتی بالا در حال دگرگون کردن صنایع مختلف است: از تولید و لجستیک گرفته تا کشاورزی و حتی حوزهی سلامت.
سؤال اصلی دیگر این نیست که آیا جایگزینی بخشی از نیروی کار رخ میدهد، بلکه این است که چهقدر زود و تحت چه سیاستهایی این تحول اتفاق خواهد افتاد.
@rss_ai_ir
#رباتیک #هوش_مصنوعی #اتوماسیون #آینده_کار #صنعت۴۰
ترکیب هوش مصنوعی و اتوماسیون با سرعتی بالا در حال دگرگون کردن صنایع مختلف است: از تولید و لجستیک گرفته تا کشاورزی و حتی حوزهی سلامت.
سؤال اصلی دیگر این نیست که آیا جایگزینی بخشی از نیروی کار رخ میدهد، بلکه این است که چهقدر زود و تحت چه سیاستهایی این تحول اتفاق خواهد افتاد.
@rss_ai_ir
#رباتیک #هوش_مصنوعی #اتوماسیون #آینده_کار #صنعت۴۰
😁9👍7🎉4❤3🔥3🙏1😨1
🔥 انویدیا از Universal Deep Research (UDR) رونمایی کرد
✳️همچنین UDR یک ایجنت قابلسفارشیسازی برای تحقیقات عمیق است که میتواند روی هر LLM قرار بگیرد و آن را هوشمندتر و منعطفتر کند.
📌 چرا مهم است؟
🟠 سفارشیسازی ایجنت بدون کدنویسی — بر خلاف بسیاری از ابزارها که سناریوهای محدودی دارند، UDR آزادی کامل برای طراحی استراتژی دارد.
🟠 میتوانید استراتژیهای جستجو و تحلیل را بسازید، ویرایش کنید و ترکیب کنید.
🟠 در ریپوی پروژه مثالهایی از استراتژیها (حداقلی، گسترده، فشرده) قرار داده شده، اما قدرت اصلی UDR در ساخت سناریوهای اختصاصی برای نیاز خودتان است.
✅ در واقع، با UDR میتوانید یک ایجنت تحقیقاتی انعطافپذیر بسازید که با هر جریان کاری (workflow) هماهنگ شود.
🟢 پروژه: https://research.nvidia.com/labs/lpr/udr
🟢 کد: https://github.com/NVlabs/UniversalDeepResearch
🟢 لَب: https://nv-dler.github.io
@rss_ai_ir
#NVIDIA #UDR #UniversalDeepResearch #AI #LLM #ResearchAgent #AIAgents #DeepResearch
✳️همچنین UDR یک ایجنت قابلسفارشیسازی برای تحقیقات عمیق است که میتواند روی هر LLM قرار بگیرد و آن را هوشمندتر و منعطفتر کند.
📌 چرا مهم است؟
🟠 سفارشیسازی ایجنت بدون کدنویسی — بر خلاف بسیاری از ابزارها که سناریوهای محدودی دارند، UDR آزادی کامل برای طراحی استراتژی دارد.
🟠 میتوانید استراتژیهای جستجو و تحلیل را بسازید، ویرایش کنید و ترکیب کنید.
🟠 در ریپوی پروژه مثالهایی از استراتژیها (حداقلی، گسترده، فشرده) قرار داده شده، اما قدرت اصلی UDR در ساخت سناریوهای اختصاصی برای نیاز خودتان است.
✅ در واقع، با UDR میتوانید یک ایجنت تحقیقاتی انعطافپذیر بسازید که با هر جریان کاری (workflow) هماهنگ شود.
🟢 پروژه: https://research.nvidia.com/labs/lpr/udr
🟢 کد: https://github.com/NVlabs/UniversalDeepResearch
🟢 لَب: https://nv-dler.github.io
@rss_ai_ir
#NVIDIA #UDR #UniversalDeepResearch #AI #LLM #ResearchAgent #AIAgents #DeepResearch
😁9👍6❤4🔥4🎉2🙏1
❓ در مدلهای زبانی بزرگ، تکنیک Retrieval-Augmented Generation (RAG) چه مشکلی را برطرف میکند؟
Anonymous Quiz
11%
کاهش تعداد پارامترهای مدل بدون افت دقت،
61%
دسترسی مدل به اطلاعات بهروز و خارج از دادههای آموزشی اولیه
9%
جلوگیری از ناپدید شدن گرادیان در لایههای عمیق
18%
جایگزینی کامل فرآیند Fine-tuning با یک ساختار سبکتر
🔥13❤5😁5👍3🎉2
🔥 یک ایده کاربردی برای کسانی که از نوشتن دستی پرامپتهای طولانی در ChatGPT خسته شدند!
👨💻 نویسنده یک ابزار کوچک ساخته:
👉 Agent Presets
حالا میتوانید پرامپتها را داخل یک لینک ذخیره کنید. کافیست روی لینک کلیک کنید و ایجنت بلافاصله همان دستورها را اجرا میکند.
📌 نکات مهم:
✳️همهچیز داخل مرورگر شما و خود لینکها ذخیره میشود.
✳️روی سرور چیزی ذخیره نمیشود.
✳️اما بهتر است رمز عبور یا اطلاعات حساس را آنجا وارد نکنید.
✳️طولانی بودن لینک طبیعی است چون محتوای پرامپت داخل آن کد میشود.
✏️ میتوانید پرامپتهای آماده (مثل خواندن اخبار هوش مصنوعی) را به دلخواه ویرایش کنید.
☕️ همچنین میتوانید لینک را با همکارانتان به اشتراک بگذارید تا همان workflow آماده را اجرا کنند.
♻️همچنین P.S. در آینده امکان جابجایی راحت بین Computer Use Agents در سرویسهای مختلف فراهم میشود.
لینک
@rss_ai_ir
#ابزار #پرامپت #ChatGPT #اتوماسیون
👨💻 نویسنده یک ابزار کوچک ساخته:
👉 Agent Presets
حالا میتوانید پرامپتها را داخل یک لینک ذخیره کنید. کافیست روی لینک کلیک کنید و ایجنت بلافاصله همان دستورها را اجرا میکند.
📌 نکات مهم:
✳️همهچیز داخل مرورگر شما و خود لینکها ذخیره میشود.
✳️روی سرور چیزی ذخیره نمیشود.
✳️اما بهتر است رمز عبور یا اطلاعات حساس را آنجا وارد نکنید.
✳️طولانی بودن لینک طبیعی است چون محتوای پرامپت داخل آن کد میشود.
✏️ میتوانید پرامپتهای آماده (مثل خواندن اخبار هوش مصنوعی) را به دلخواه ویرایش کنید.
☕️ همچنین میتوانید لینک را با همکارانتان به اشتراک بگذارید تا همان workflow آماده را اجرا کنند.
♻️همچنین P.S. در آینده امکان جابجایی راحت بین Computer Use Agents در سرویسهای مختلف فراهم میشود.
لینک
@rss_ai_ir
#ابزار #پرامپت #ChatGPT #اتوماسیون
🔥8👍6🎉6❤4😁2
🚀 گوگل از EmbeddingGemma رونمایی کرد؛ یک مدل سبک و اوپنسورس برای ایجاد امبدینگهای متنی.
📌 ویژگی مهم: این مدل را میتوان مستقیم روی موبایل یا لپتاپ اجرا کرد، بدون نیاز به اینترنت و با حفظ کامل حریم خصوصی.
🟢 چه چیزی داخلش هست؟
✳️308 میلیون پارامتر، اما از همه مدلهای زیر 500M در کیفیت بهتر عمل میکند (طبق MTEB)
✳️سرعت بسیار بالا: کمتر از 15 میلیثانیه روی EdgeTPU (برای 256 توکن)
✳️پشتیبانی از بیش از 100 زبان
✳️امکان کاهش ابعاد امبدینگ از 768 → 128 بدون افت کیفیت
✳️پشتیبانی از کانتکست تا 2000 توکن
✳️سازگار با Sentence-Transformers، LangChain، llama.cpp، transformers.js، Weaviate و دیگر ابزارهای محبوب
🟠 وبلاگ: https://developers.googleblog.com/en/introducing-embeddinggemma/
🟠 مدلها: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
@rss_ai_ir
#AI #Google #Gemma #EmbeddingGemma #ML #DeepLearning #LLM #NLP
📌 ویژگی مهم: این مدل را میتوان مستقیم روی موبایل یا لپتاپ اجرا کرد، بدون نیاز به اینترنت و با حفظ کامل حریم خصوصی.
🟢 چه چیزی داخلش هست؟
✳️308 میلیون پارامتر، اما از همه مدلهای زیر 500M در کیفیت بهتر عمل میکند (طبق MTEB)
✳️سرعت بسیار بالا: کمتر از 15 میلیثانیه روی EdgeTPU (برای 256 توکن)
✳️پشتیبانی از بیش از 100 زبان
✳️امکان کاهش ابعاد امبدینگ از 768 → 128 بدون افت کیفیت
✳️پشتیبانی از کانتکست تا 2000 توکن
✳️سازگار با Sentence-Transformers، LangChain، llama.cpp، transformers.js، Weaviate و دیگر ابزارهای محبوب
🟠 وبلاگ: https://developers.googleblog.com/en/introducing-embeddinggemma/
🟠 مدلها: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4
@rss_ai_ir
#AI #Google #Gemma #EmbeddingGemma #ML #DeepLearning #LLM #NLP
👍8❤6🔥5🎉5👏1😁1🙏1
🌟 یک مقاله مروری درباره دیتاستهای اوپن ML در Hugging Face منتشر شد.
📝 نویسندهی رسانهی Daily Dose of Data Science جالبترین دیتاستها و مدلهای اوپن اخیر را گردآوری کرده است. یکی از برجستهترینها Yambda-5B از تیم Yandex است؛ بزرگترین دیتاست اوپن در دنیا برای سیستمهای توصیهگر موسیقی.
🎵 دیتاست Yambda-5B شامل ۴.۷۹ میلیارد تعامل ناشناس (گوش دادن به آهنگ، لایک و دیسلایک) است. این دیتاست توجه پژوهشگران جهانی را جلب کرده و نویدبخش توسعهی نسل جدید سیستمهای پیشنهاددهنده میباشد.
🔗 مطالعهی بیشتر
@rss_ai_ir
#AI #ML #Dataset #RecommendationSystem #Yandex #OpenSource
📝 نویسندهی رسانهی Daily Dose of Data Science جالبترین دیتاستها و مدلهای اوپن اخیر را گردآوری کرده است. یکی از برجستهترینها Yambda-5B از تیم Yandex است؛ بزرگترین دیتاست اوپن در دنیا برای سیستمهای توصیهگر موسیقی.
🎵 دیتاست Yambda-5B شامل ۴.۷۹ میلیارد تعامل ناشناس (گوش دادن به آهنگ، لایک و دیسلایک) است. این دیتاست توجه پژوهشگران جهانی را جلب کرده و نویدبخش توسعهی نسل جدید سیستمهای پیشنهاددهنده میباشد.
🔗 مطالعهی بیشتر
@rss_ai_ir
#AI #ML #Dataset #RecommendationSystem #Yandex #OpenSource
👍8🔥7🎉6😁4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WebEyeTrack:
رهگیری چشم در وب، به صورت بلادرنگ 👁️💻
👉 فریم ورک WebEyeTrack یک فریمورک نوآورانه است که مدلهای سبک و پیشرفته تخمین نگاه (Gaze Estimation) را مستقیماً در مرورگر ادغام میکند. این ابزار رهگیری نگاه با هوش مصنوعی را به وب میآورد و به طور صریح وضعیت سر (Head Pose) را هم در نظر میگیرد.
🟢 کد منبع با لایسنس MIT منتشر شده است 💙
🔗 مقاله: https://arxiv.org/pdf/2508.19544
🔗 پروژه: redforestai.github.io/WebEyeTrack
🔗 ریپو: github.com/RedForestAi/WebEyeTrack
@rss_ai_ir
#AI #ML #GazeEstimation #WebAI #ComputerVision #WebEyeTrack #opensource
رهگیری چشم در وب، به صورت بلادرنگ 👁️💻
👉 فریم ورک WebEyeTrack یک فریمورک نوآورانه است که مدلهای سبک و پیشرفته تخمین نگاه (Gaze Estimation) را مستقیماً در مرورگر ادغام میکند. این ابزار رهگیری نگاه با هوش مصنوعی را به وب میآورد و به طور صریح وضعیت سر (Head Pose) را هم در نظر میگیرد.
🟢 کد منبع با لایسنس MIT منتشر شده است 💙
🔗 مقاله: https://arxiv.org/pdf/2508.19544
🔗 پروژه: redforestai.github.io/WebEyeTrack
🔗 ریپو: github.com/RedForestAi/WebEyeTrack
@rss_ai_ir
#AI #ML #GazeEstimation #WebAI #ComputerVision #WebEyeTrack #opensource
👍7❤5🔥5🎉5😁3🙏2👏1
🎮 Oasis 2.0
؛ دنیای بازی با هوش مصنوعی در لحظه تغییر میکند
@rss_ai_ir
🚀 شرکت Decart مدل Oasis 2.0 رو معرفی کرده؛ یک سیستم هوش مصنوعی که به بازیکنان اجازه میده دنیای بازی و سبک گرافیکی رو در لحظه تغییر بدن:
✨ اجرای همزمان در کیفیت 1080p و 30fps
✨ بدون نیاز به بارگذاری مجدد (on-the-fly)
🟢 نسخه آزمایشی آنلاین و مد برای ماینکرفت آماده استفاده است:
https://oasis2.decart.ai/demo
---
📌 جمعبندی:
این فناوری یک گام مهم در تلفیق هوش مصنوعی و دنیای بازیهاست؛ جایی که بازیکن میتواند نه فقط کاراکتر، بلکه کل جهان بازی را در لحظه بازطراحی کند.
#هوش_مصنوعی #بازی #Minecraft #Oasis2 #GameDev #AI
@rss_ai_ir
؛ دنیای بازی با هوش مصنوعی در لحظه تغییر میکند
@rss_ai_ir
🚀 شرکت Decart مدل Oasis 2.0 رو معرفی کرده؛ یک سیستم هوش مصنوعی که به بازیکنان اجازه میده دنیای بازی و سبک گرافیکی رو در لحظه تغییر بدن:
✨ اجرای همزمان در کیفیت 1080p و 30fps
✨ بدون نیاز به بارگذاری مجدد (on-the-fly)
🟢 نسخه آزمایشی آنلاین و مد برای ماینکرفت آماده استفاده است:
https://oasis2.decart.ai/demo
---
📌 جمعبندی:
این فناوری یک گام مهم در تلفیق هوش مصنوعی و دنیای بازیهاست؛ جایی که بازیکن میتواند نه فقط کاراکتر، بلکه کل جهان بازی را در لحظه بازطراحی کند.
#هوش_مصنوعی #بازی #Minecraft #Oasis2 #GameDev #AI
@rss_ai_ir
❤8🎉8👍6🔥4😁4
🚀 تیم Qwen از بزرگترین مدل خود تاکنون رونمایی کرد: Qwen3-Max-Preview (Instruct) با بیش از ۱ تریلیون پارامتر!
📊 طبق بنچمارکها، این مدل عملکردی بهتر از پرچمدار قبلی یعنی Qwen3-235B-A22B-2507 دارد.
🔹 نتایج آزمایشهای داخلی و بازخوردهای اولیه کاربران نشان میدهد:
♻️مدل در دیالوگها قویتر شده
♻️در وظایف عامل (agent tasks) بهتر عمل میکند
♻️در پیروی از دستورالعملها دقیقتر است
♻️و از دانش گستردهتری برخوردار است
🔮 تیم Qwen قول داده به زودی یک سورپرایز دیگر هم معرفی کند.
📌 این مدل همین حالا در Qwen Chat و از طریق Alibaba Cloud API در دسترس است.
🟢 Qwen Chat: chat.qwen.ai
🟢 Alibaba Cloud API: لینک
@rss_ai_ir
#هوش_مصنوعی #Qwen3 #مدل_زبانی #AlibabaCloud #QwenChat
📊 طبق بنچمارکها، این مدل عملکردی بهتر از پرچمدار قبلی یعنی Qwen3-235B-A22B-2507 دارد.
🔹 نتایج آزمایشهای داخلی و بازخوردهای اولیه کاربران نشان میدهد:
♻️مدل در دیالوگها قویتر شده
♻️در وظایف عامل (agent tasks) بهتر عمل میکند
♻️در پیروی از دستورالعملها دقیقتر است
♻️و از دانش گستردهتری برخوردار است
🔮 تیم Qwen قول داده به زودی یک سورپرایز دیگر هم معرفی کند.
📌 این مدل همین حالا در Qwen Chat و از طریق Alibaba Cloud API در دسترس است.
🟢 Qwen Chat: chat.qwen.ai
🟢 Alibaba Cloud API: لینک
@rss_ai_ir
#هوش_مصنوعی #Qwen3 #مدل_زبانی #AlibabaCloud #QwenChat
🔥3👏2❤1🙏1
🚨 ما وارد «منطقه تکینگی هوش مصنوعی» شدیم
یک گزارش جدید نشان میدهد که حتی برترین متخصصان جهان و سوپرفورکسترها درباره سرعت پیشرفت AI به شدت اشتباه کردهاند.
📊 اشتباهات فاجعهبار
♻️مهارتهای ریاضی: در سال ۲۰۲۴ به ۸۷.۸٪ رسید (پیشبینی کارشناسان: ۲۱٪، سوپرفورکسترها: ۹٪)
♻️دانش عمومی: در سال ۲۰۲۴ به ۸۸.۷٪ رسید (کارشناسان: ۲۵٪، سوپرفورکسترها: ۷٪)
♻️مدال طلای المپیاد ریاضی: در ۲۰۲۵ محقق شد (پیشبینی: بعد از ۲۰۳۰ و حتی بعد از ۲۰۳۵)
♻️رشد توان پردازشی: ۵ برابر کمتر تخمین زده شده بود
❗️ اگر بهترین مغزهای دنیا ۵ تا ۱۰ برابر سرعت AI را دستکم گرفته باشند، این یعنی شاید هوش مصنوعی همسطح انسان به جای ۲۰۳۰، در ۲۰۲۶ برسد!
🔮 سؤال:
آیا ما آمادهایم که تنها یک سال دیگر، نه پنج سال دیگر، با AI همسطح انسان روبهرو شویم؟ 🤔
@rss_ai_ir
#هوش_مصنوعی #AI #تکینگی #Singularity #آینده_فناوری
یک گزارش جدید نشان میدهد که حتی برترین متخصصان جهان و سوپرفورکسترها درباره سرعت پیشرفت AI به شدت اشتباه کردهاند.
📊 اشتباهات فاجعهبار
♻️مهارتهای ریاضی: در سال ۲۰۲۴ به ۸۷.۸٪ رسید (پیشبینی کارشناسان: ۲۱٪، سوپرفورکسترها: ۹٪)
♻️دانش عمومی: در سال ۲۰۲۴ به ۸۸.۷٪ رسید (کارشناسان: ۲۵٪، سوپرفورکسترها: ۷٪)
♻️مدال طلای المپیاد ریاضی: در ۲۰۲۵ محقق شد (پیشبینی: بعد از ۲۰۳۰ و حتی بعد از ۲۰۳۵)
♻️رشد توان پردازشی: ۵ برابر کمتر تخمین زده شده بود
❗️ اگر بهترین مغزهای دنیا ۵ تا ۱۰ برابر سرعت AI را دستکم گرفته باشند، این یعنی شاید هوش مصنوعی همسطح انسان به جای ۲۰۳۰، در ۲۰۲۶ برسد!
🔮 سؤال:
آیا ما آمادهایم که تنها یک سال دیگر، نه پنج سال دیگر، با AI همسطح انسان روبهرو شویم؟ 🤔
@rss_ai_ir
#هوش_مصنوعی #AI #تکینگی #Singularity #آینده_فناوری
👍4🔥3👎1👏1
📚 دیگه ChatGPT فقط برای نوشتن متن نیست!
کافیه از قفسه کتابخونه یه عکس بگیری و ازش بخوای فلان عنوان رو پیدا کنه؛ مثل یه کتابدار حرفهای برات مکان دقیق کتاب رو میگه. ✅
اینجا با عکس قفسه "New Fiction"، کتاب Atmosphere رو در ردیف بالا، سمت راست پیدا کرده.
هوش مصنوعی داره کمکم وارد جزئیترین کارای روزمره هم میشه... ✨
@rss_ai_ir
#هوش_مصنوعی #ChatGPT #کتاب #AI #فناوری
کافیه از قفسه کتابخونه یه عکس بگیری و ازش بخوای فلان عنوان رو پیدا کنه؛ مثل یه کتابدار حرفهای برات مکان دقیق کتاب رو میگه. ✅
اینجا با عکس قفسه "New Fiction"، کتاب Atmosphere رو در ردیف بالا، سمت راست پیدا کرده.
هوش مصنوعی داره کمکم وارد جزئیترین کارای روزمره هم میشه... ✨
@rss_ai_ir
#هوش_مصنوعی #ChatGPT #کتاب #AI #فناوری
🔥12👍7😁6🎉3❤2🤯1
🌟 InfoSeek:
نسل جدید دادهسازی برای تحقیقات عمیق با فرمالیزهسازی HCSP
مرکز BAAI از پروژه InfoSeek رونمایی کرد — یک متدولوژی باز برای سینتِز داده و حلقه آموزشی ویژهی تحقیقات عمیق (Deep Research).
🔹 چالش اصلی
در این سطح، مسئله فقط استخراج یک واقعیت ساده نیست؛ مدل باید پرسش را به زیرمسئلهها تجزیه کند، چندمرحلهای استدلال نماید و در نهایت پاسخها را با منابع واقعی اعتبارسنجی کند.
🔹 فرمالیزهسازی به HCSP
این مسائل بهصورت Hierarchical Constraint Satisfaction Problems (HCSP) مدل میشوند:
❌هر نود یک زیرمسئله یا حقیقت اتمی است.
❌یالها روابط قابلبررسی از ویکیپدیا یا منابع باز هستند.
❌پاسخ نهایی، ریشهی درخت است که تنها با تقاطع محدودیتها و زیرپرسشها بهدست میآید.
❌این رویکرد باعث میشود عمق و عرض استدلال بهروشنی مشخص شده و هر گام میانی قابل بررسی و صحتسنجی باشد.
🔹 معماری عاملها
دو عامل فرآیند را پیش میبرند:
1. Planner – انتخاب هدف و کنترل پیچیدگی کلّی.
2. Browser – استخراج داده و لینک از صفحات.
چهار عمل اصلی چرخه را میسازند:
✅شروع از «anchor»
Parent Blurring
✅(افزودن شرایط مستقل برای تعریف پاسخ یکتا)
✅عمقبخشی عمودی با دنبالکردن لینکها
✅تولید متن سؤال تنها پس از تکمیل قیود
🔹 نتایج و خروجیها
♻️دیتاست: ۵۰ هزار جفت پرسش–پاسخ و ۱۶.۵ هزار مسیر استدلال با برچسبهای استخراج.
♻️روی بنچمارک BrowseComp-Plus با ۱۰۰K صفحه و BM25، مدل InfoSeeker-3B به دقت ۱۶.۵٪ رسید — بالاتر از Gemini 2.5 Flash, Sonnet 4, GPT-4.1 و بهمراتب بهتر از Qwen3-32B و Search-R1-32B.
♻️جایگزینی دیتاست NQ+HQA با InfoSeek دقت را از ۳٪ به ۱۶.۵٪ افزایش داد.
🔹 مزایا
✳️عدم نیاز به Teacher Distillation
✳️خودبهبودی مداوم از دادههای واقعی
✳️کاربردپذیری در معماریهای مختلف
📌 لایسنس: Apache 2.0
📂 خروجیهای منتشرشده: دیتاست، گزارش فنی، سازنده درخت داده و کد آموزش SFT. (کد RL و وزنهای InfoSeeker-3B بهزودی منتشر میشوند.)
💢HuggingFace
📛GitHub
🛑Arxiv
@rss_ai_ir
#هوش_مصنوعی #یادگیری_عمیق #داده #AI #ML #DeepResearch #InfoSeek
نسل جدید دادهسازی برای تحقیقات عمیق با فرمالیزهسازی HCSP
مرکز BAAI از پروژه InfoSeek رونمایی کرد — یک متدولوژی باز برای سینتِز داده و حلقه آموزشی ویژهی تحقیقات عمیق (Deep Research).
🔹 چالش اصلی
در این سطح، مسئله فقط استخراج یک واقعیت ساده نیست؛ مدل باید پرسش را به زیرمسئلهها تجزیه کند، چندمرحلهای استدلال نماید و در نهایت پاسخها را با منابع واقعی اعتبارسنجی کند.
🔹 فرمالیزهسازی به HCSP
این مسائل بهصورت Hierarchical Constraint Satisfaction Problems (HCSP) مدل میشوند:
❌هر نود یک زیرمسئله یا حقیقت اتمی است.
❌یالها روابط قابلبررسی از ویکیپدیا یا منابع باز هستند.
❌پاسخ نهایی، ریشهی درخت است که تنها با تقاطع محدودیتها و زیرپرسشها بهدست میآید.
❌این رویکرد باعث میشود عمق و عرض استدلال بهروشنی مشخص شده و هر گام میانی قابل بررسی و صحتسنجی باشد.
🔹 معماری عاملها
دو عامل فرآیند را پیش میبرند:
1. Planner – انتخاب هدف و کنترل پیچیدگی کلّی.
2. Browser – استخراج داده و لینک از صفحات.
چهار عمل اصلی چرخه را میسازند:
✅شروع از «anchor»
Parent Blurring
✅(افزودن شرایط مستقل برای تعریف پاسخ یکتا)
✅عمقبخشی عمودی با دنبالکردن لینکها
✅تولید متن سؤال تنها پس از تکمیل قیود
🔹 نتایج و خروجیها
♻️دیتاست: ۵۰ هزار جفت پرسش–پاسخ و ۱۶.۵ هزار مسیر استدلال با برچسبهای استخراج.
♻️روی بنچمارک BrowseComp-Plus با ۱۰۰K صفحه و BM25، مدل InfoSeeker-3B به دقت ۱۶.۵٪ رسید — بالاتر از Gemini 2.5 Flash, Sonnet 4, GPT-4.1 و بهمراتب بهتر از Qwen3-32B و Search-R1-32B.
♻️جایگزینی دیتاست NQ+HQA با InfoSeek دقت را از ۳٪ به ۱۶.۵٪ افزایش داد.
🔹 مزایا
✳️عدم نیاز به Teacher Distillation
✳️خودبهبودی مداوم از دادههای واقعی
✳️کاربردپذیری در معماریهای مختلف
📌 لایسنس: Apache 2.0
📂 خروجیهای منتشرشده: دیتاست، گزارش فنی، سازنده درخت داده و کد آموزش SFT. (کد RL و وزنهای InfoSeeker-3B بهزودی منتشر میشوند.)
💢HuggingFace
📛GitHub
🛑Arxiv
@rss_ai_ir
#هوش_مصنوعی #یادگیری_عمیق #داده #AI #ML #DeepResearch #InfoSeek
👍7🔥7😁6🎉6❤5