Liquid AI's LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices - MarkTechPost https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/
MarkTechPost
Liquid AI’s LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices
Explore Liquid AI's LFM2-VL-3B, a powerful vision language model enhancing accuracy and speed for image text tasks.
🔥9❤1
This media is not supported in your browser
VIEW IN TELEGRAM
مدلهای VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب میکنن و هدفشون درک یا توضیح صحنههاست.
اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اونها علاوه بر دیدن و فهمیدن، اقدام هم میکنن؛ یعنی میتونن در محیط واقعی تصمیم بگیرن و عمل کنن.
🔹 تازهترین نمونه این دسته، مدل GigaBrain-0 هست:
مدلی پایهای برای رباتهای هوشمند که با استفاده از دادههای ساختهشده توسط world model (مثل ویدیوهای مصنوعی، انتقال از انسان یا شبیهساز به واقعیت) یاد میگیره.
به لطف این روش، دیگه لازم نیست حجم زیادی داده واقعی از رباتها جمعآوری بشه.
📈 نتیجه:
تعمیم بهتر بین وظایف مختلف
عملکرد قویتر در کارهای پیچیده و بلندمدت
تصمیمگیری پایدارتر
نسخه سبکترش، GigaBrain-0-Small هم برای سختافزارهایی مثل NVIDIA Jetson AGX Orin بهینه شده.
💡 خلاصه: GigaBrain-0 گام بزرگیه به سمت رباتهایی که مثل انسان میبینن، میفهمن و عمل میکنن.
https://huggingface.co/open-gigaai
#vla #vlm
اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اونها علاوه بر دیدن و فهمیدن، اقدام هم میکنن؛ یعنی میتونن در محیط واقعی تصمیم بگیرن و عمل کنن.
🔹 تازهترین نمونه این دسته، مدل GigaBrain-0 هست:
مدلی پایهای برای رباتهای هوشمند که با استفاده از دادههای ساختهشده توسط world model (مثل ویدیوهای مصنوعی، انتقال از انسان یا شبیهساز به واقعیت) یاد میگیره.
به لطف این روش، دیگه لازم نیست حجم زیادی داده واقعی از رباتها جمعآوری بشه.
📈 نتیجه:
تعمیم بهتر بین وظایف مختلف
عملکرد قویتر در کارهای پیچیده و بلندمدت
تصمیمگیری پایدارتر
نسخه سبکترش، GigaBrain-0-Small هم برای سختافزارهایی مثل NVIDIA Jetson AGX Orin بهینه شده.
💡 خلاصه: GigaBrain-0 گام بزرگیه به سمت رباتهایی که مثل انسان میبینن، میفهمن و عمل میکنن.
https://huggingface.co/open-gigaai
#vla #vlm
👍12❤1
آموزش LLM و VLM
مدلهای VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب میکنن و هدفشون درک یا توضیح صحنههاست. اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اونها علاوه بر دیدن و فهمیدن، اقدام هم میکنن؛ یعنی میتونن در محیط واقعی تصمیم بگیرن و عمل کنن. 🔹 تازهترین…
اینم یکی از همراهان عزیز کانال تو نظرات پست قبلی معرفی کرده
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
https://autovla.github.io/
#vla
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
https://autovla.github.io/
#vla
❤8👍2
Forwarded from Tensorflow(@CVision)
🎉 فقط ۳ روز دیگه (۴ نوامبر) تولد ۹ سالگی کاناله!
به همین مناسبت، تخفیفهای ویژه روی همه دورهها در راهه 😍
هم دورههای کلاسویژن و هم مکتبخونه 🔥
منتظر باشید! 💫
به همین مناسبت، تخفیفهای ویژه روی همه دورهها در راهه 😍
هم دورههای کلاسویژن و هم مکتبخونه 🔥
منتظر باشید! 💫
❤6👍2
Forwarded from 🚀 کلاسویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته
This media is not supported in your browser
VIEW IN TELEGRAM
🎉🎂 تولد ۹ سالگی کانال Tensorflow مبارک! 🎂🎉
به مناسبت این اتفاق خاص، براتون یه تخفیف فوقالعاده در نظر گرفتیم 👇
🔥 ۷۰٪ تخفیف روی همه دورهها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین
📚 دورهها در مکتبخونه:
* 🤖 دوره یادگیری ماشین — کد تخفیف:
* 🧠 دوره دیپلرنینگ — کد تخفیف:
* 🦙 دوره LLM — کد تخفیف:
* 👁 دوره OpenCV — کد تخفیف:
* 📸 دوره Vision-Language Models (VLM) — کد تخفیف:
🎓 همچنین تمامی دورههای کلاسویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف:
⏰ فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀
به مناسبت این اتفاق خاص، براتون یه تخفیف فوقالعاده در نظر گرفتیم 👇
🔥 ۷۰٪ تخفیف روی همه دورهها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین
📚 دورهها در مکتبخونه:
* 🤖 دوره یادگیری ماشین — کد تخفیف:
happy9-ml* 🧠 دوره دیپلرنینگ — کد تخفیف:
happy9-dl* 🦙 دوره LLM — کد تخفیف:
happy9-llm* 👁 دوره OpenCV — کد تخفیف:
happy9-opencv* 📸 دوره Vision-Language Models (VLM) — کد تخفیف:
happy9-vlm🎓 همچنین تمامی دورههای کلاسویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف:
haapy9⏰ فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀
🔥8❤1
Forwarded from Tensorflow(@CVision) (𝘴𝘪𝘯𝘢)
🧠 Gemini 2.5 Computer Use
هوش مصنوعی پشت موس و کیبورد!
گوگل دیپمایند مدل جدیدی از خانواده Gemini معرفی کرده که میتونه مستقیماً با رابطهای کاربری کار کنه، یعنی خودش کلیک کنه، تایپ کنه، اسکرول کنه و از طریق مرورگر یا موبایل، کاربر رو در محیط واقعی نرمافزار شبیهسازی کنه.
این مدل با ابزار جدید computer_use در Gemini API عرضه شده و با دریافت اسکرینشات و دستور کاربر، اقدام بعدی رو پیشبینی میکنه. فعلاً تمرکز روی کنترل مرورگر و اپهای موبایل هست، اما بهزودی دامنهاش گستردهتر میشه.
💡 در بنچمارکهای Web و Android، Gemini 2.5 عملکرد بهتری از مدلهای قبلی نشون داده و از نظر ایمنی هم سیستم تأیید اقدامات حساس رو داره.
🔧 فعلاً در مرحلهی پیشنمایش (Preview) از طریق Google AI Studio و Vertex AI در دسترسه.
📎 جزئیات بیشتر در وبلاگ رسمی گوگل:
🔗 blog.google 🔗
🌀 @cvision 🌀
هوش مصنوعی پشت موس و کیبورد!
گوگل دیپمایند مدل جدیدی از خانواده Gemini معرفی کرده که میتونه مستقیماً با رابطهای کاربری کار کنه، یعنی خودش کلیک کنه، تایپ کنه، اسکرول کنه و از طریق مرورگر یا موبایل، کاربر رو در محیط واقعی نرمافزار شبیهسازی کنه.
این مدل با ابزار جدید computer_use در Gemini API عرضه شده و با دریافت اسکرینشات و دستور کاربر، اقدام بعدی رو پیشبینی میکنه. فعلاً تمرکز روی کنترل مرورگر و اپهای موبایل هست، اما بهزودی دامنهاش گستردهتر میشه.
💡 در بنچمارکهای Web و Android، Gemini 2.5 عملکرد بهتری از مدلهای قبلی نشون داده و از نظر ایمنی هم سیستم تأیید اقدامات حساس رو داره.
🔧 فعلاً در مرحلهی پیشنمایش (Preview) از طریق Google AI Studio و Vertex AI در دسترسه.
📎 جزئیات بیشتر در وبلاگ رسمی گوگل:
🔗 blog.google 🔗
🌀 @cvision 🌀
❤4👍1
🔥 یه انقلاب عجیب تو دنیای وب شروع شده!
تا حالا فکر کردید هوش مصنوعی رو بدون هیچ سرور و هیچ فریمورکی، تنها تو مرورگر اجرا کنید؟ 😱
🎯 قابلیت PromptAPI و مدلهای SLM (LLMهای کوچک) دارن رسماً راه رو برای یه نسل جدید از اپلیکیشنهای هوشمند باز میکنن!
🧠 مرورگرهای جدید مثل Chrome و Edge الآن به صورت نیتیو از مدلهای زبانی پشتیبانی میکنن! یعنی فقط با ۵ خط کد جاوااسکریپت ساده میتونی یه چتبات، مترجم، خلاصهساز، تحلیلگر متن یا هر ابزار هوشمند دیگه بسازی — اونم بدون فرستادن حتی یک بایت به سرور! 😳
چرا باید همین الآن یادش بگیری؟ 👇
⚡️ هیچ دیتایی به هیچ سروری نمیره — همهچی لوکال روی دستگاه خود کاربر
🔐 پرایوسی در اوج — حتی آفلاین هم کار میکنه!
💡 هیچ لایبرری لازم نیست؛ خود JS و مرورگر این قابلیت رو دارن
🌍 استاندارد شده توسط W3C و قرار آینده Web Development رو تغییر بده
🛠 ساخت اپهای هوش مصنوعی فقط با HTML + JS
🤖 خروجیهات رو میتونی قالبدار و قابل کنترل تحویل بگیری
💥 اگه وب دولوپری و اینو بلد نیستی، جدی به فکر یه آپدیت بزرگ باش!
😎 اگه وب کار نیستی هم نیستی هم عاشقش میشی چون به معنی واقعی کلمه فقط با یک فایل index.html میتونی یه مدل زبان داشته باشی 🤯
📚 خبر خوب!
همین هفته یه مینیدورهی ۳ ساعته در مورد همین موضوع منتشر میشه!
📘 حتی اگه جاوااسکریپت بلد نیستی، یه فصل 0 (مقدمه JS) برای مبتدیها داریم
🔁 اگه بلدی — مستقیم میری سراغ ساخت و تجربهاش!
📍 برای شروع فقط لازمه:
یه مرورگر آپدیتشده (Chrome یا Edge)
یه سیستم نسبتا خوب (حتی اگر کارت گرافیک نداری با CPU خوب)
یه فایل index.html
پنج خط کد ساده برای فراخوانی مدل زبانی 🤯
🧪 چی میتونی بسازی؟
چتبات تو بلاگ بدون بکاند
درک تصویر و OCR و تحلیل تصویر فقط تو مرورگر
مترجم، خلاصهساز، 🎭 تحلیلگر احساس
اپهای آفلاین با هوش مصنوعی
ابزارهای آموزشی تعاملی
اگر میخوای جزو اولین کسایی باشی که این قابلیت رو یاد میگیرن، منتظر انتشار دوره باش...
تا حالا فکر کردید هوش مصنوعی رو بدون هیچ سرور و هیچ فریمورکی، تنها تو مرورگر اجرا کنید؟ 😱
🎯 قابلیت PromptAPI و مدلهای SLM (LLMهای کوچک) دارن رسماً راه رو برای یه نسل جدید از اپلیکیشنهای هوشمند باز میکنن!
🧠 مرورگرهای جدید مثل Chrome و Edge الآن به صورت نیتیو از مدلهای زبانی پشتیبانی میکنن! یعنی فقط با ۵ خط کد جاوااسکریپت ساده میتونی یه چتبات، مترجم، خلاصهساز، تحلیلگر متن یا هر ابزار هوشمند دیگه بسازی — اونم بدون فرستادن حتی یک بایت به سرور! 😳
چرا باید همین الآن یادش بگیری؟ 👇
⚡️ هیچ دیتایی به هیچ سروری نمیره — همهچی لوکال روی دستگاه خود کاربر
🔐 پرایوسی در اوج — حتی آفلاین هم کار میکنه!
💡 هیچ لایبرری لازم نیست؛ خود JS و مرورگر این قابلیت رو دارن
🌍 استاندارد شده توسط W3C و قرار آینده Web Development رو تغییر بده
🛠 ساخت اپهای هوش مصنوعی فقط با HTML + JS
🤖 خروجیهات رو میتونی قالبدار و قابل کنترل تحویل بگیری
💥 اگه وب دولوپری و اینو بلد نیستی، جدی به فکر یه آپدیت بزرگ باش!
😎 اگه وب کار نیستی هم نیستی هم عاشقش میشی چون به معنی واقعی کلمه فقط با یک فایل index.html میتونی یه مدل زبان داشته باشی 🤯
📚 خبر خوب!
همین هفته یه مینیدورهی ۳ ساعته در مورد همین موضوع منتشر میشه!
📘 حتی اگه جاوااسکریپت بلد نیستی، یه فصل 0 (مقدمه JS) برای مبتدیها داریم
🔁 اگه بلدی — مستقیم میری سراغ ساخت و تجربهاش!
📍 برای شروع فقط لازمه:
یه مرورگر آپدیتشده (Chrome یا Edge)
یه سیستم نسبتا خوب (حتی اگر کارت گرافیک نداری با CPU خوب)
یه فایل index.html
پنج خط کد ساده برای فراخوانی مدل زبانی 🤯
🧪 چی میتونی بسازی؟
چتبات تو بلاگ بدون بکاند
درک تصویر و OCR و تحلیل تصویر فقط تو مرورگر
مترجم، خلاصهساز، 🎭 تحلیلگر احساس
اپهای آفلاین با هوش مصنوعی
ابزارهای آموزشی تعاملی
اگر میخوای جزو اولین کسایی باشی که این قابلیت رو یاد میگیرن، منتظر انتشار دوره باش...
🔥10👍1
This media is not supported in your browser
VIEW IN TELEGRAM
این یکی از خفنترین دموهای Hugging Face توی این روزهاست: «کنترل دوربین» که با LoRA روی مدل Qwen Image Edit آموزش داده شده 🤯
👀 چی کار میکنه؟
کافیه یه تصویر آپلود کنی، بعد میتونی با چند تا کلیک، زاویه دوربین رو عوض کنی و یه صحنه کاملاً جدید بسازی!
از چرخوندن دوربین به چپ و راست گرفته تا جلو رفتن، زوم کردن، یا حتی تغییر زاویه نگاه از دید پرنده تا دید کرم (bird’s-eye / worm’s-eye) – همهش با یه کلیک!
🎯 این یعنی چی؟
یه ویژگی بینظیر اضافه شده: کنترل کامل زاویه دوربین توی مدلهای ویرایش تصویر.
یه چیزی که حتی Google Nano Banana هنوز نداره!
🔧 تکنیک LoRA چیه؟
همون طور که تو فصل 4 کورس LLM دیدیم LoRA یا Low-Rank Adaptation یه تکنیکیه که فقط بخش کوچیکی از پارامترهای مدل رو آموزش میده، بدون اینکه کل مدل از صفر آموزش داده بشه.
اینجا هم LoRA روی مدل Qwen Image Edit بدون نیاز به آموزش دوباره کل مدل استفاده کردن
⚡️ نکته باحال:
این پروژه از نسخهای بهینه به نام Rapid-AIO استفاده میکنه که سرعت پردازش رو خیلی بالا برده — خروجی رو فقط تو چهار مرحله میگیری!
پست مرتبط در توئیتر | دمو در هاگینگ فیس
👀 چی کار میکنه؟
کافیه یه تصویر آپلود کنی، بعد میتونی با چند تا کلیک، زاویه دوربین رو عوض کنی و یه صحنه کاملاً جدید بسازی!
از چرخوندن دوربین به چپ و راست گرفته تا جلو رفتن، زوم کردن، یا حتی تغییر زاویه نگاه از دید پرنده تا دید کرم (bird’s-eye / worm’s-eye) – همهش با یه کلیک!
🎯 این یعنی چی؟
یه ویژگی بینظیر اضافه شده: کنترل کامل زاویه دوربین توی مدلهای ویرایش تصویر.
یه چیزی که حتی Google Nano Banana هنوز نداره!
🔧 تکنیک LoRA چیه؟
همون طور که تو فصل 4 کورس LLM دیدیم LoRA یا Low-Rank Adaptation یه تکنیکیه که فقط بخش کوچیکی از پارامترهای مدل رو آموزش میده، بدون اینکه کل مدل از صفر آموزش داده بشه.
اینجا هم LoRA روی مدل Qwen Image Edit بدون نیاز به آموزش دوباره کل مدل استفاده کردن
⚡️ نکته باحال:
این پروژه از نسخهای بهینه به نام Rapid-AIO استفاده میکنه که سرعت پردازش رو خیلی بالا برده — خروجی رو فقط تو چهار مرحله میگیری!
پست مرتبط در توئیتر | دمو در هاگینگ فیس
❤8😱1