آموزش LLM و VLM

Liquid AI's LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices - MarkTechPost https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/

MarkTechPost

Liquid AI’s LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices

Explore Liquid AI's LFM2-VL-3B, a powerful vision language model enhancing accuracy and speed for image text tasks.

🔥9❤1

1.47K views19:18

آموزش LLM و VLM

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

مدل‌های VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب می‌کنن و هدفشون درک یا توضیح صحنه‌هاست.
اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اون‌ها علاوه بر دیدن و فهمیدن، اقدام هم می‌کنن؛ یعنی می‌تونن در محیط واقعی تصمیم بگیرن و عمل کنن.

🔹 تازه‌ترین نمونه این دسته، مدل GigaBrain-0 هست:
مدلی پایه‌ای برای ربات‌های هوشمند که با استفاده از داده‌های ساخته‌شده توسط world model (مثل ویدیوهای مصنوعی، انتقال از انسان یا شبیه‌ساز به واقعیت) یاد می‌گیره.
به لطف این روش، دیگه لازم نیست حجم زیادی داده واقعی از ربات‌ها جمع‌آوری بشه.

📈 نتیجه:

تعمیم بهتر بین وظایف مختلف

عملکرد قوی‌تر در کارهای پیچیده و بلندمدت

تصمیم‌گیری پایدارتر

نسخه سبک‌ترش، GigaBrain-0-Small هم برای سخت‌افزارهایی مثل NVIDIA Jetson AGX Orin بهینه شده.

💡 خلاصه: GigaBrain-0 گام بزرگیه به سمت ربات‌هایی که مثل انسان می‌بینن، می‌فهمن و عمل می‌کنن.

https://huggingface.co/open-gigaai

#vla #vlm

👍12❤1

5.15K viewsedited 18:29

آموزش LLM و VLM

مدل‌های VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب می‌کنن و هدفشون درک یا توضیح صحنه‌هاست. اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اون‌ها علاوه بر دیدن و فهمیدن، اقدام هم می‌کنن؛ یعنی می‌تونن در محیط واقعی تصمیم بگیرن و عمل کنن. 🔹 تازه‌ترین…

اینم یکی از همراهان عزیز کانال تو نظرات پست قبلی معرفی کرده

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

https://autovla.github.io/

#vla

❤8👍2

6.25K viewsedited 19:32

آموزش LLM و VLM

Forwarded from Tensorflow(@CVision)

🎉 فقط ۳ روز دیگه (۴ نوامبر) تولد ۹ سالگی کاناله!
به همین مناسبت، تخفیف‌های ویژه روی همه دوره‌ها در راهه 😍
هم دوره‌های کلاس‌ویژن و هم مکتب‌خونه 🔥
منتظر باشید! 💫

❤6👍2

1.31K views17:17

آموزش LLM و VLM

Forwarded from 🚀 کلاس‌ویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

🎉🎂 تولد ۹ سالگی کانال Tensorflow مبارک! 🎂🎉
به مناسبت این اتفاق خاص، براتون یه تخفیف فوق‌العاده در نظر گرفتیم 👇

🔥 ۷۰٪ تخفیف روی همه دوره‌ها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین

📚 دوره‌ها در مکتب‌خونه:

* 🤖 دوره یادگیری ماشین — کد تخفیف: happy9-ml
* 🧠 دوره دیپ‌لرنینگ — کد تخفیف: happy9-dl
* 🦙 دوره LLM — کد تخفیف: happy9-llm
* 👁 دوره OpenCV — کد تخفیف: happy9-opencv
* 📸 دوره Vision-Language Models (VLM) — کد تخفیف: happy9-vlm

🎓 همچنین تمامی دوره‌های کلاس‌ویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف: haapy9

⏰ فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀

🔥8❤1

1.26K views12:42

آموزش LLM و VLM

Forwarded from Tensorflow(@CVision) (𝘴𝘪𝘯𝘢)

🧠 Gemini 2.5 Computer Use
هوش مصنوعی پشت موس و کیبورد!

گوگل دیپ‌مایند مدل جدیدی از خانواده Gemini معرفی کرده که می‌تونه مستقیماً با رابط‌های کاربری کار کنه، یعنی خودش کلیک کنه، تایپ کنه، اسکرول کنه و از طریق مرورگر یا موبایل، کاربر رو در محیط واقعی نرم‌افزار شبیه‌سازی کنه.

این مدل با ابزار جدید computer_use در Gemini API عرضه شده و با دریافت اسکرین‌شات و دستور کاربر، اقدام بعدی رو پیش‌بینی می‌کنه. فعلاً تمرکز روی کنترل مرورگر و اپ‌های موبایل هست، اما به‌زودی دامنه‌اش گسترده‌تر می‌شه.

💡 در بنچ‌مارک‌های Web و Android، Gemini 2.5 عملکرد بهتری از مدل‌های قبلی نشون داده و از نظر ایمنی هم سیستم تأیید اقدامات حساس رو داره.
🔧 فعلاً در مرحله‌ی پیش‌نمایش (Preview) از طریق Google AI Studio و Vertex AI در دسترسه.

📎 جزئیات بیشتر در وبلاگ رسمی گوگل:
🔗 blog.google 🔗

🌀 @cvision 🌀

❤4👍1

1.04K views13:38

آموزش LLM و VLM

🔥 یه انقلاب عجیب تو دنیای وب شروع شده!
تا حالا فکر کردید هوش مصنوعی رو بدون هیچ سرور و هیچ فریم‌ورکی، تنها تو مرورگر اجرا کنید؟ 😱

🎯 قابلیت‌ PromptAPI‌ و مدل‌های SLM (LLMهای کوچک) دارن رسماً راه رو برای یه نسل جدید از اپلیکیشن‌های هوشمند باز می‌کنن!

🧠 مرورگرهای جدید مثل Chrome و Edge الآن به صورت نیتیو از مدل‌های زبانی پشتیبانی می‌کنن! یعنی فقط با ۵ خط کد جاوااسکریپت ساده می‌تونی یه چت‌بات، مترجم، خلاصه‌ساز، تحلیل‌گر متن یا هر ابزار هوشمند دیگه بسازی — اونم بدون فرستادن حتی یک بایت به سرور! 😳

چرا باید همین الآن یادش بگیری؟ 👇

⚡️ هیچ دیتایی به هیچ سروری نمی‌ره — همه‌چی لوکال روی دستگاه خود کاربر
🔐 پرایوسی در اوج — حتی آفلاین هم کار می‌کنه!
💡 هیچ لایبرری لازم نیست؛ خود JS و مرورگر این قابلیت رو دارن
🌍 استاندارد شده توسط W3C و قرار آینده Web Development رو تغییر بده
🛠 ساخت اپ‌های هوش مصنوعی فقط با HTML + JS
🤖 خروجی‌هات رو می‌تونی قالب‌دار و قابل کنترل تحویل بگیری

💥 اگه وب دولوپری و اینو بلد نیستی، جدی به فکر یه آپدیت بزرگ باش!
😎 اگه وب کار نیستی هم نیستی هم عاشقش میشی چون به معنی واقعی کلمه فقط با یک فایل index.html می‌تونی یه مدل زبان داشته باشی 🤯

📚 خبر خوب!

همین هفته یه مینی‌دوره‌ی ۳ ساعته در مورد همین موضوع منتشر میشه!
📘 حتی اگه جاوااسکریپت بلد نیستی، یه فصل 0 (مقدمه JS) برای مبتدی‌ها داریم
🔁 اگه بلدی — مستقیم می‌ری سراغ ساخت و تجربه‌اش!

📍 برای شروع فقط لازمه:

یه مرورگر آپدیت‌شده (Chrome یا Edge)

یه سیستم نسبتا خوب (حتی اگر کارت گرافیک نداری با CPU خوب)

یه فایل index.html

پنج خط کد ساده برای فراخوانی مدل زبانی 🤯

🧪 چی می‌تونی بسازی؟

چت‌بات تو بلاگ بدون بک‌اند

درک تصویر و OCR و تحلیل تصویر فقط تو مرورگر

مترجم، خلاصه‌ساز، 🎭 تحلیل‌گر احساس

اپ‌های آفلاین با هوش مصنوعی

ابزارهای آموزشی تعاملی

اگر می‌خوای جزو اولین کسایی باشی که این قابلیت رو یاد می‌گیرن، منتظر انتشار دوره باش...

🔥10👍1

1.79K viewsedited 14:28

آموزش LLM و VLM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

این یکی از خفن‌ترین دموهای Hugging Face توی این روزهاست: «کنترل دوربین» که با LoRA روی مدل Qwen Image Edit آموزش داده شده 🤯

👀 چی کار می‌کنه؟
کافیه یه تصویر آپلود کنی، بعد می‌تونی با چند تا کلیک، زاویه دوربین رو عوض کنی و یه صحنه کاملاً جدید بسازی!
از چرخوندن دوربین به چپ و راست گرفته تا جلو رفتن، زوم کردن، یا حتی تغییر زاویه نگاه از دید پرنده تا دید کرم‌ (bird’s-eye / worm’s-eye) – همه‌ش با یه کلیک!

🎯 این یعنی چی؟
یه ویژگی بی‌نظیر اضافه شده: کنترل کامل زاویه دوربین توی مدل‌های ویرایش تصویر.
یه چیزی که حتی Google Nano Banana هنوز نداره!

🔧 تکنیک LoRA چیه؟
همون طور که تو فصل 4 کورس LLM دیدیم LoRA یا Low-Rank Adaptation یه تکنیکیه که فقط بخش کوچیکی از پارامترهای مدل رو آموزش میده، بدون اینکه کل مدل از صفر آموزش داده بشه.
اینجا هم LoRA روی مدل Qwen Image Edit بدون نیاز به آموزش دوباره کل مدل استفاده کردن

⚡️ نکته باحال:
این پروژه از نسخه‌ای بهینه به نام Rapid-AIO استفاده می‌کنه که سرعت پردازش رو خیلی بالا برده — خروجی رو فقط تو چهار مرحله می‌گیری!

پست مرتبط در توئیتر | دمو در هاگینگ فیس

❤8😱1

1.49K viewsedited 14:44

About

Blog

Apps

Platform