This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Smell Like Vision Spirit 🔥
@rss_ai_ir
👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و دادههای بویایی است که امکان یادگیری کراسمودال بین بو و بینایی را فراهم میکند.
👉 با چراغ خاموش هم شاید «کمخطرتر» باشد، اما حالا AI میتواند بو را هم بفهمد!
👉 دیتاست در دسترس است.
🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/
#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
@rss_ai_ir
👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و دادههای بویایی است که امکان یادگیری کراسمودال بین بو و بینایی را فراهم میکند.
👉 با چراغ خاموش هم شاید «کمخطرتر» باشد، اما حالا AI میتواند بو را هم بفهمد!
👉 دیتاست در دسترس است.
🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/
#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
👍3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 معرفی یک مدل چندوجهی یکپارچه از META
یک رویکرد نو به نام Native Unified Multimodal (UMM) معرفی شده که هدفش ساخت یک فضای بازنمایی یکپارچه و پیوسته برای تصویر و ویدیو است.
در این روش، یک VAE Encoder در کنار یک Representation Encoder قرار میگیرد و نتیجه آن یک فضای واحد است که اجازه میدهد مدلها بهصورت End-to-End هم برای درک تصویر/ویدیو و هم برای تولید آنها عمل کنند — با کیفیت در حد مدلهای SOTA.
کد فعلاً تحت بررسی حقوقی است، اما پروژه و مقاله منتشر شدهاند و مسیر توسعه روشن است.
🔗 Paper: https://lnkd.in/djT4WGEU
🔗 Project: https://tuna-ai.org/
🔗 Repo: https://github.com/wren93/tuna
#AI #Multimodal #META #UMM #DeepLearning #VisionModels #GenerativeAI 🦄
یک رویکرد نو به نام Native Unified Multimodal (UMM) معرفی شده که هدفش ساخت یک فضای بازنمایی یکپارچه و پیوسته برای تصویر و ویدیو است.
در این روش، یک VAE Encoder در کنار یک Representation Encoder قرار میگیرد و نتیجه آن یک فضای واحد است که اجازه میدهد مدلها بهصورت End-to-End هم برای درک تصویر/ویدیو و هم برای تولید آنها عمل کنند — با کیفیت در حد مدلهای SOTA.
کد فعلاً تحت بررسی حقوقی است، اما پروژه و مقاله منتشر شدهاند و مسیر توسعه روشن است.
🔗 Paper: https://lnkd.in/djT4WGEU
🔗 Project: https://tuna-ai.org/
🔗 Repo: https://github.com/wren93/tuna
#AI #Multimodal #META #UMM #DeepLearning #VisionModels #GenerativeAI 🦄
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 گوگل یکی پس از دیگری سورپرایز میکند!
🎧 مدل Gemini 2.5 Flash Native Audio بهروزرسانی بزرگی دریافت کرده و حالا مکالمههای زنده طبیعیتر، پیروی دقیقتر از دستورها و ترجمه گفتاربهگفتار در لحظه را ارائه میدهد.
🗣️ تعامل صوتی روانتر
⚡ پاسخدهی سریعتر در مکالمات زنده
🌍 ترجمه همزمان بین زبانها بدون وقفه
🤖 تجربهای نزدیکتر به گفتوگوی انسانی
این آپدیت نشان میدهد گوگل بهطور جدی روی آینده تعامل صوتی هوش مصنوعی سرمایهگذاری کرده است.
@rss_ai_ir
#Google #Gemini #AI #VoiceAI #SpeechToSpeech #Multimodal #ArtificialIntelligence
🎧 مدل Gemini 2.5 Flash Native Audio بهروزرسانی بزرگی دریافت کرده و حالا مکالمههای زنده طبیعیتر، پیروی دقیقتر از دستورها و ترجمه گفتاربهگفتار در لحظه را ارائه میدهد.
🗣️ تعامل صوتی روانتر
⚡ پاسخدهی سریعتر در مکالمات زنده
🌍 ترجمه همزمان بین زبانها بدون وقفه
🤖 تجربهای نزدیکتر به گفتوگوی انسانی
این آپدیت نشان میدهد گوگل بهطور جدی روی آینده تعامل صوتی هوش مصنوعی سرمایهگذاری کرده است.
@rss_ai_ir
#Google #Gemini #AI #VoiceAI #SpeechToSpeech #Multimodal #ArtificialIntelligence
👍1🔥1