VIRSUN

🔥 Smell Like Vision Spirit 🔥
@rss_ai_ir

👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و داده‌های بویایی است که امکان یادگیری کراس‌مودال بین بو و بینایی را فراهم می‌کند.
👉 با چراغ خاموش هم شاید «کم‌خطرتر» باشد، اما حالا AI می‌تواند بو را هم بفهمد!
👉 دیتاست در دسترس است.

🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/

#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir

👍3🔥1👏1

1.21K views17:00

VIRSUN

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

🦄 معرفی یک مدل چندوجهی یکپارچه از META

یک رویکرد نو به نام Native Unified Multimodal (UMM) معرفی شده که هدفش ساخت یک فضای بازنمایی یکپارچه و پیوسته برای تصویر و ویدیو است.

در این روش، یک VAE Encoder در کنار یک Representation Encoder قرار می‌گیرد و نتیجه آن یک فضای واحد است که اجازه می‌دهد مدل‌ها به‌صورت End-to-End هم برای درک تصویر/ویدیو و هم برای تولید آن‌ها عمل کنند — با کیفیت در حد مدل‌های SOTA.

کد فعلاً تحت بررسی حقوقی است، اما پروژه و مقاله منتشر شده‌اند و مسیر توسعه روشن است.

🔗 Paper: https://lnkd.in/djT4WGEU
🔗 Project: https://tuna-ai.org/
🔗 Repo: https://github.com/wren93/tuna

#AI #Multimodal #META #UMM #DeepLearning #VisionModels #GenerativeAI 🦄

1.46K views14:39

VIRSUN

2:50

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 گوگل یکی پس از دیگری سورپرایز می‌کند!

🎧 مدل Gemini 2.5 Flash Native Audio به‌روزرسانی بزرگی دریافت کرده و حالا مکالمه‌های زنده طبیعی‌تر، پیروی دقیق‌تر از دستورها و ترجمه گفتار‌به‌گفتار در لحظه را ارائه می‌دهد.

🗣️ تعامل صوتی روان‌تر
⚡ پاسخ‌دهی سریع‌تر در مکالمات زنده
🌍 ترجمه هم‌زمان بین زبان‌ها بدون وقفه
🤖 تجربه‌ای نزدیک‌تر به گفت‌وگوی انسانی

این آپدیت نشان می‌دهد گوگل به‌طور جدی روی آینده تعامل صوتی هوش مصنوعی سرمایه‌گذاری کرده است.

@rss_ai_ir

#Google #Gemini #AI #VoiceAI #SpeechToSpeech #Multimodal #ArtificialIntelligence

👍1🔥1

1.51K views14:34

About

Blog

Apps

Platform