Tensorflow(@CVision)
توی این پست در پاسخ در جواب به نقد یکی از مخاطبین گفتم که مدلهای مبتنی بر زبان (مانند chatgpt) نمیتونن درک واقعی انسان از جهان رو بازسازی کنن، چرا که زبان تنها نشانه هایی آماری هست و ریشه در ساختار فیزیکی نداره. در واقع مدل های زبانی به جهان واژگان تکیه…
بیایم به یه شکل دیگه نگاه کنیم تا حالا به این موضوع فکر کردین که چطور یه موش حتی اگر در تمام عمرش موش دیگه ای رو ندیده باشه، برای بچه هاش لونه میسازه؟
یا موارد مشابه دیگه مثل یه عنکبوت که تار می تنه، یه کرم ابریشم که پیله میسازه، و یا یه سگ آبی که سد میسازه و ... حتی اگه هیچ کدوم از همنوعانشون هرگز به اونها نشون نداده باشن که چطور این کارهای پیچیده رو انجام میدن.
این سوالات به این معنا نیست که این رفتارها آموخته شده نیستن، بلکه به این معناست که این حیوانات اونها رو در طول یه عمر نیاموختن، بلکه در طول هزاران نسل یاد گرفتن.
تکامل رفتارهای حیوانی در واقع یک فرایند یادگیری محسوب میشه، اما این یادگیری توسط مجموعه گونه انجام میگیره، نه توسط یک فرد، و نتایج این فرایند یادگیری در DNA کد گذاری شدن.
در واقع موجودات زنده مدلهایی درونی از جهان و رفتار مناسب در اون رو دارن، که از طریق تکامل شکل گرفته. این مدل ها ممکنه آگاهانه نباشن، ولی وجود دارن و به حیوان اجازه میدن که بدون تجربه قبلی رفتارهایی مؤثر انجام بدن.
در واقع بخش مهمی از هوش، از طریق تجربه جمعی شکل میگیره، نه صرفاً تجربه شخصی. مدل های هوش مصنوعی هم باید مدلهای درونی از جهان داشته باشن، نه فقط آماری و مبتنی بر زبان.
یا موارد مشابه دیگه مثل یه عنکبوت که تار می تنه، یه کرم ابریشم که پیله میسازه، و یا یه سگ آبی که سد میسازه و ... حتی اگه هیچ کدوم از همنوعانشون هرگز به اونها نشون نداده باشن که چطور این کارهای پیچیده رو انجام میدن.
این سوالات به این معنا نیست که این رفتارها آموخته شده نیستن، بلکه به این معناست که این حیوانات اونها رو در طول یه عمر نیاموختن، بلکه در طول هزاران نسل یاد گرفتن.
تکامل رفتارهای حیوانی در واقع یک فرایند یادگیری محسوب میشه، اما این یادگیری توسط مجموعه گونه انجام میگیره، نه توسط یک فرد، و نتایج این فرایند یادگیری در DNA کد گذاری شدن.
در واقع موجودات زنده مدلهایی درونی از جهان و رفتار مناسب در اون رو دارن، که از طریق تکامل شکل گرفته. این مدل ها ممکنه آگاهانه نباشن، ولی وجود دارن و به حیوان اجازه میدن که بدون تجربه قبلی رفتارهایی مؤثر انجام بدن.
در واقع بخش مهمی از هوش، از طریق تجربه جمعی شکل میگیره، نه صرفاً تجربه شخصی. مدل های هوش مصنوعی هم باید مدلهای درونی از جهان داشته باشن، نه فقط آماری و مبتنی بر زبان.
👍25❤6🤔5
🚀 معرفی دستیار صوتی هوشمند 11ai از ElevenLabs
کمپانی ElevenLabs با معرفی 11ai، دستیار صوتی هوشمند خود، گام بزرگی در دنیای هوش مصنوعی برداشته است. این دستیار که بر پایه فناوری Conversational AI و Model Context Protocol (MCP) توسعه یافته، نه تنها به سوالات پاسخ میدهد، بلکه میتواند اقدامات عملی در ابزارهای روزمره شما انجام دهد. همه تنها با دستورات صوتی! این قابلیتها 11ai را از دستیارهای سنتی مثل الکسا یا گوگل اسیستنت متمایز میکند .
🔧 فناوری پیشرفته و یکپارچهسازی با ابزارهای کاری و روزمره
دستیار 11ai از MCP برای اتصال به ابزارهایی گوناگون استفاده میکند و امکان ایجاد گردشهای کاری سفارشی را فراهم میسازد. همچنین با پشتیبانی از 70+ زبان و تشخیص خودکار زبان، تعاملی طبیعی و چندزبانه را ممکن میسازد. این دستیار حتی میتواند با لحنهای مختلف (مثل خنده، زمزمه یا هیجان) صحبت کند، که آن را برای استفاده در محیطهای حرفهای و شخصی ایدهآل میکند .
این دستیار هماکنون در فاز آلفا قرار دارد و کاربران میتوانند به صورت رایگان آن را امتحان کنند.
https://elevenlabs.io/blog/introducing-11ai
🌀 @cvision 🌀
کمپانی ElevenLabs با معرفی 11ai، دستیار صوتی هوشمند خود، گام بزرگی در دنیای هوش مصنوعی برداشته است. این دستیار که بر پایه فناوری Conversational AI و Model Context Protocol (MCP) توسعه یافته، نه تنها به سوالات پاسخ میدهد، بلکه میتواند اقدامات عملی در ابزارهای روزمره شما انجام دهد. همه تنها با دستورات صوتی! این قابلیتها 11ai را از دستیارهای سنتی مثل الکسا یا گوگل اسیستنت متمایز میکند .
🔧 فناوری پیشرفته و یکپارچهسازی با ابزارهای کاری و روزمره
دستیار 11ai از MCP برای اتصال به ابزارهایی گوناگون استفاده میکند و امکان ایجاد گردشهای کاری سفارشی را فراهم میسازد. همچنین با پشتیبانی از 70+ زبان و تشخیص خودکار زبان، تعاملی طبیعی و چندزبانه را ممکن میسازد. این دستیار حتی میتواند با لحنهای مختلف (مثل خنده، زمزمه یا هیجان) صحبت کند، که آن را برای استفاده در محیطهای حرفهای و شخصی ایدهآل میکند .
این دستیار هماکنون در فاز آلفا قرار دارد و کاربران میتوانند به صورت رایگان آن را امتحان کنند.
https://elevenlabs.io/blog/introducing-11ai
🌀 @cvision 🌀
🤯9❤8
Forwarded from کلاس ویژن: یادگیری عمیق و بینایی کامپیوتر
🎉 تخفیف ویژه روی دورههای هوش مصنوعی مکتبخونه (تا ۷۰٪ تخفیف) 🎉
⏳ به مدت محدود و ظرفیت محدود ⏳
🎓 ۳ دورهی پرطرفدار با کد تخفیف ویژه:
1️⃣ دوره OpenCV با ۶۰٪ تخفیف
🔹 کد تخفیف:
🔗 لینک ثبتنام: mktb.me/81nt
2️⃣ دوره یادگیری عمیق با ۶۰٪ تخفیف
🔹 کد تخفیف:
🔗 لینک ثبتنام: mktb.me/2klm
3️⃣ دوره مبانی هوش مصنوعی و یادگیری ماشین با ۷۰٪ تخفیف
🔹 کد تخفیف:
🔗 لینک ثبتنام: mktb.me/tcsk
📌 کدها فقط برای تعداد محدودی فعال هستن، پس اگه قصد ثبتنام داری، عجله کن!
📤 این فرصت رو با دوستانت به اشتراک بذار 🌟
#هوش_مصنوعی #یادگیری_ماشین #یادگیری_عمیق #بینایی_ماشین #دوره_آموزشی #مکتبخونه #تخفیف_ویژه #کد_تخفیف #آموزش_آنلاین #هوش_مصنوعی_کاربردی #آموزش_رایگان
⏳ به مدت محدود و ظرفیت محدود ⏳
🎓 ۳ دورهی پرطرفدار با کد تخفیف ویژه:
1️⃣ دوره OpenCV با ۶۰٪ تخفیف
🔹 کد تخفیف:
COUPON-518f7
🔗 لینک ثبتنام: mktb.me/81nt
2️⃣ دوره یادگیری عمیق با ۶۰٪ تخفیف
🔹 کد تخفیف:
COUPON-dc73c
🔗 لینک ثبتنام: mktb.me/2klm
3️⃣ دوره مبانی هوش مصنوعی و یادگیری ماشین با ۷۰٪ تخفیف
🔹 کد تخفیف:
COUPON-8a508
🔗 لینک ثبتنام: mktb.me/tcsk
📌 کدها فقط برای تعداد محدودی فعال هستن، پس اگه قصد ثبتنام داری، عجله کن!
📤 این فرصت رو با دوستانت به اشتراک بذار 🌟
#هوش_مصنوعی #یادگیری_ماشین #یادگیری_عمیق #بینایی_ماشین #دوره_آموزشی #مکتبخونه #تخفیف_ویژه #کد_تخفیف #آموزش_آنلاین #هوش_مصنوعی_کاربردی #آموزش_رایگان
مکتبخونه
آموزش پردازش تصویر و بینایی ماشین با OpenCV
دوره آموزش پردازش تصویر و بینایی ماشین با opencv برای ایجاد یک پایه قوی در بینایی کامپیوتر طراحی شده است. در این دوره شما درک کاملی از تقریبا تمام ابزارهای OpenCV برای پردازش تصویر، بینایی کامپیوتری، پردازش ویدئو و اصول اولیه هوش مصنوعی خواهید داشت.
❤6
کلاس ویژن: یادگیری عمیق و بینایی کامپیوتر
🎉 تخفیف ویژه روی دورههای هوش مصنوعی مکتبخونه (تا ۷۰٪ تخفیف) 🎉 ⏳ به مدت محدود و ظرفیت محدود ⏳ 🎓 ۳ دورهی پرطرفدار با کد تخفیف ویژه: 1️⃣ دوره OpenCV با ۶۰٪ تخفیف 🔹 کد تخفیف: COUPON-518f7 🔗 لینک ثبتنام: mktb.me/81nt 2️⃣ دوره یادگیری عمیق با ۶۰٪ تخفیف 🔹…
کدهای تخفیف 15 روز تمدید شدند.
❤7🤔1
افشای اطلاعات جدید درباره Gemini توسط گوگل!
در این ویدیو، Ani Baddepudi، مدیر ارشد محصول رفتار مدلهای Gemini، در کانال رسمی توسعه دهندگان گوگل اطلاعات تازه ای منتشر کرد.
در گفت و گویی با Logan Kilpatrick (مدیر فعلی Google AI Studio و از اعضای پیشین OpenAI)، به سؤالات مهم و قدیمی کاربران درباره Gemini پاسخ میده:
سؤالات کلیدی که مطرح شد:
چرا Gemini از ابتدا به صورت چند رسانهای (Multimodal) طراحی شد؟
آیا تبدیل تصویر و ویدیو به توکن باعث از بین رفتن اطلاعات میشه؟
چرا نسخه ۲.۵ Gemini در درک ویدیو عملکرد فوق العادهای داره؟
و ده ها نکته فنی دیگه
گفت وگو تقریبا به طور کامل بر محور چند رسانهای بودن Gemini می چرخه، از فلسفه طراحی اولیه، تا کاربردهای فعلی و مسیر توسعه آینده
https://www.youtube.com/watch?v=K4vXvaRV0dw
در این ویدیو، Ani Baddepudi، مدیر ارشد محصول رفتار مدلهای Gemini، در کانال رسمی توسعه دهندگان گوگل اطلاعات تازه ای منتشر کرد.
در گفت و گویی با Logan Kilpatrick (مدیر فعلی Google AI Studio و از اعضای پیشین OpenAI)، به سؤالات مهم و قدیمی کاربران درباره Gemini پاسخ میده:
سؤالات کلیدی که مطرح شد:
چرا Gemini از ابتدا به صورت چند رسانهای (Multimodal) طراحی شد؟
آیا تبدیل تصویر و ویدیو به توکن باعث از بین رفتن اطلاعات میشه؟
چرا نسخه ۲.۵ Gemini در درک ویدیو عملکرد فوق العادهای داره؟
و ده ها نکته فنی دیگه
گفت وگو تقریبا به طور کامل بر محور چند رسانهای بودن Gemini می چرخه، از فلسفه طراحی اولیه، تا کاربردهای فعلی و مسیر توسعه آینده
https://www.youtube.com/watch?v=K4vXvaRV0dw
YouTube
Release Notes: Gemini's multimodality
Ani Baddepudi, Gemini Model Behavior Product Lead, joins host Logan Kilpatrick for a deep dive into Gemini's multimodal capabilities. Their conversation explores why Gemini was built as a natively multimodal model from day one, the future of proactive AI…
❤6👍1
Tensorflow(@CVision)
توی این پست در پاسخ در جواب به نقد یکی از مخاطبین گفتم که مدلهای مبتنی بر زبان (مانند chatgpt) نمیتونن درک واقعی انسان از جهان رو بازسازی کنن، چرا که زبان تنها نشانه هایی آماری هست و ریشه در ساختار فیزیکی نداره. در واقع مدل های زبانی به جهان واژگان تکیه…
مصاحبه کامل FEI FEI Li درباره wold models
ایشون معتقده بدون توانایی درک، مدل سازی و تعامل در دنیای سه بعدی، AGI ناقص خواهد بود.
https://www.youtube.com/watch?v=_PioN-CpOP0
ایشون معتقده بدون توانایی درک، مدل سازی و تعامل در دنیای سه بعدی، AGI ناقص خواهد بود.
https://www.youtube.com/watch?v=_PioN-CpOP0
YouTube
Fei-Fei Li: Spatial Intelligence is the Next Frontier in AI
A fireside with Dr. Fei-Fei Li on June 16, 2025 at AI Startup School in San Francisco.
Dr. Fei-Fei Li is often called the godmother of AI—and for good reason. Before the world had AI as we know it, she was helping build the foundation.
In this fireside…
Dr. Fei-Fei Li is often called the godmother of AI—and for good reason. Before the world had AI as we know it, she was helping build the foundation.
In this fireside…
❤7🔥1
🔍 معرفی داشبورد LLM Leaderboard از klu.ai
💡 اگر با مدلهای زبان بزرگ (LLM) سروکار دارید یا علاقهمند به مقایسه قدرت و عملکرد مدلهای مختلف هستید، داشبورد LLM Leaderboard از Klu یک ابزار فوقالعاده برای شماست.
📊 این داشبورد، یک نمای دقیق و بهروز از عملکرد مدلهای مطرح هوش مصنوعی (مثل GPT-4، Claude، Gemini، Mistral و غیره) ارائه میدهد. دادهها شامل ارزیابی کیفیت پاسخ، دقت، توانایی کدنویسی، استدلال و تطبیق با نیاز کاربران در سناریوهای واقعی هستند.
🧪 ارزیابیها بر پایه تستهای کاربردی و روزمره طراحی شدهاند، نه فقط بنچمارکهای مصنوعی، و شامل تحلیلهای دستهبندیشده برای کاربردهای مختلف (مثل برنامهنویسی، تحلیل متنی، خلاصهسازی و ...) هستند.
⚙️ ویژگیهای کلیدی: مقایسه لحظهای عملکرد مدلها - امکان فیلتر نتایج بر اساس تسکها - نمایش رتبهبندی مدلها بر اساس نوع کاربرد - دادههای قابل اعتماد با بهروزرسانی مداوم
🔗 مشاهده داشبورد 🔗
🌀 @cvision 🌀
💡 اگر با مدلهای زبان بزرگ (LLM) سروکار دارید یا علاقهمند به مقایسه قدرت و عملکرد مدلهای مختلف هستید، داشبورد LLM Leaderboard از Klu یک ابزار فوقالعاده برای شماست.
📊 این داشبورد، یک نمای دقیق و بهروز از عملکرد مدلهای مطرح هوش مصنوعی (مثل GPT-4، Claude، Gemini، Mistral و غیره) ارائه میدهد. دادهها شامل ارزیابی کیفیت پاسخ، دقت، توانایی کدنویسی، استدلال و تطبیق با نیاز کاربران در سناریوهای واقعی هستند.
🧪 ارزیابیها بر پایه تستهای کاربردی و روزمره طراحی شدهاند، نه فقط بنچمارکهای مصنوعی، و شامل تحلیلهای دستهبندیشده برای کاربردهای مختلف (مثل برنامهنویسی، تحلیل متنی، خلاصهسازی و ...) هستند.
⚙️ ویژگیهای کلیدی: مقایسه لحظهای عملکرد مدلها - امکان فیلتر نتایج بر اساس تسکها - نمایش رتبهبندی مدلها بر اساس نوع کاربرد - دادههای قابل اعتماد با بهروزرسانی مداوم
🔗 مشاهده داشبورد 🔗
🌀 @cvision 🌀
👌12❤2
🔎 مقایسه قیمت و کارایی مدلهای هوش مصنوعی – راحت و شفاف!
🧠💰 + 🤖 = ❓
اگه توی پروژههات با مدلهای زبانی (LLM) مثل GPT، Claude، Mistral یا ... کار میکنی، حتماً برات مهمه که بدونی کدوم مدل چقدر هزینه و ارزش خرج کردن رو داره.
اینجا ابزار llmpricecheck.com به کمکت میاد 👇
✨ ویژگیهای کلیدی:
📌 مقایسه مدلها از نظر قیمت بهازای توکن
📌 بررسی کیفیت پاسخ در سناریوهای واقعی
📌 تحلیل بهرهوری (quality per $) برای استفاده هوشمندانه از بودجه
📌 جدولهای قابل فیلتر و مرتبسازی برای تصمیمگیری دقیقتر
🔥 چه برنامهنویس باشی، چه تیم محصول یا پژوهشگر، این ابزار یه نگاه سریع و شفاف میده به اینکه پولتو کجا خرج کنی که بیشترین خروجی رو بگیری.
🔗 لینک مشاهده 🔗
🌀 @cvision 🌀
🧠💰 + 🤖 = ❓
اگه توی پروژههات با مدلهای زبانی (LLM) مثل GPT، Claude، Mistral یا ... کار میکنی، حتماً برات مهمه که بدونی کدوم مدل چقدر هزینه و ارزش خرج کردن رو داره.
اینجا ابزار llmpricecheck.com به کمکت میاد 👇
✨ ویژگیهای کلیدی:
📌 مقایسه مدلها از نظر قیمت بهازای توکن
📌 بررسی کیفیت پاسخ در سناریوهای واقعی
📌 تحلیل بهرهوری (quality per $) برای استفاده هوشمندانه از بودجه
📌 جدولهای قابل فیلتر و مرتبسازی برای تصمیمگیری دقیقتر
🔥 چه برنامهنویس باشی، چه تیم محصول یا پژوهشگر، این ابزار یه نگاه سریع و شفاف میده به اینکه پولتو کجا خرج کنی که بیشترین خروجی رو بگیری.
🔗 لینک مشاهده 🔗
🌀 @cvision 🌀
👍7❤3🔥1😱1
Forwarded from DLeX: AI Python (NaviD DariYa)
مدل اوپن سورس OCR که گفته می شه توانایی رقابت با Mistral OCR رو داره :
@ai_python
https://huggingface.co/nanonets/Nanonets-OCR-s
@ai_python
https://huggingface.co/nanonets/Nanonets-OCR-s
❤14👌1
🚀 ابزار AgentGPT — ایجنت هوش مصنوعی هدفمحور، در مرورگر شما
ابزار AgentGPT به شما این امکان رو میده که فقط با تعریف یک هدف، یک ایجنت هوشمند بسازید که خودش وظایف رو طراحی و اجرا کنه، مرحلهبهمرحله، تا رسیدن به نتیجه.
همه اینها بهصورت خودکار و در محیط مرورگر، بدون نیاز به نصب پیچیده.
🎯 مثال ساده:
«یه استراتژی بازاریابی برای اپلیکیشنم طراحی کن»
ایجنت خودش هدف رو به وظایف قابل اجرا تقسیم میکنه، تحلیل میکنه، تصمیم میگیره و پیش میره.
🧠 ویژگیها:
📍 اجرای مستقیم در وب: agentgpt.reworkd.ai
📍 اپن سورس و قابل توسعه: GitHub
📍 پشتیبانی از OpenAI API و سایر مدلهای LLM
📍 ساختهشده با React، Next.js و Tailwind
🔧 مناسب برای:
💢 ساخت ایجنتهای مولد و خودگردان
💢 تست توانایی LLM در حل مسائل واقعی
💢 توسعه ابزارهای مبتنی بر Auto-GPT و AGI
ابزار AgentGPT یک نمونه از ایجنتهای خودمختاره، جایی که هوش مصنوعی فقط جواب نمیده، عمل میکنه. 😉
🌀 @cvision 🌀
ابزار AgentGPT به شما این امکان رو میده که فقط با تعریف یک هدف، یک ایجنت هوشمند بسازید که خودش وظایف رو طراحی و اجرا کنه، مرحلهبهمرحله، تا رسیدن به نتیجه.
همه اینها بهصورت خودکار و در محیط مرورگر، بدون نیاز به نصب پیچیده.
🎯 مثال ساده:
«یه استراتژی بازاریابی برای اپلیکیشنم طراحی کن»
ایجنت خودش هدف رو به وظایف قابل اجرا تقسیم میکنه، تحلیل میکنه، تصمیم میگیره و پیش میره.
🧠 ویژگیها:
📍 اجرای مستقیم در وب: agentgpt.reworkd.ai
📍 اپن سورس و قابل توسعه: GitHub
📍 پشتیبانی از OpenAI API و سایر مدلهای LLM
📍 ساختهشده با React، Next.js و Tailwind
🔧 مناسب برای:
💢 ساخت ایجنتهای مولد و خودگردان
💢 تست توانایی LLM در حل مسائل واقعی
💢 توسعه ابزارهای مبتنی بر Auto-GPT و AGI
ابزار AgentGPT یک نمونه از ایجنتهای خودمختاره، جایی که هوش مصنوعی فقط جواب نمیده، عمل میکنه. 😉
🌀 @cvision 🌀
👍6🤯4❤1
Tensorflow(@CVision)
🚀 ابزار AgentGPT — ایجنت هوش مصنوعی هدفمحور، در مرورگر شما ابزار AgentGPT به شما این امکان رو میده که فقط با تعریف یک هدف، یک ایجنت هوشمند بسازید که خودش وظایف رو طراحی و اجرا کنه، مرحلهبهمرحله، تا رسیدن به نتیجه. همه اینها بهصورت خودکار و در محیط…
یه نکته مهم درباره ایجنتهای LLM (مثل همین AgentGPT) اینه که یکی از قویترین کاربردهاشون توی وظایفیـه که نیاز به برنامهریزی مرحلهبهمرحله (Planning) دارن.
چرا؟ چون مدلها میتونن خیلی خوب بین فکر کردن (Thought) و عمل کردن (Action) فرق بذارن.
یعنی چی؟ یعنی ایجنت اول فکر میکنه که «الان چی لازمه؟»، بعد تصمیم میگیره چه کاری انجام بده، و اون کار رو اجرا میکنه. (میشه توی خروجی گزینه Think for longer چتبات ها نمونه واقعی شو دید)
این جداسازی باعث میشه بتونه توی مسائل پیچیدهتر، مثل حل یک مشکل واقعی یا رسیدن به یک هدف خاص، مثل یا حداقل شبیه یه انسان منطقی عمل کنه: قدمبهقدم، نه همهچیز با یه پیام.
این همون چیزیه که Agent هارو از یه چتبات ساده جدا میکنه. «ایجنت واقعاً تصمیمگیری و اجرا رو با هم داره»
بهطور خلاصه: Agent فقط جواب نمیده، بلکه میفهمه، میچینه و انجام میده.
چرا؟ چون مدلها میتونن خیلی خوب بین فکر کردن (Thought) و عمل کردن (Action) فرق بذارن.
یعنی چی؟ یعنی ایجنت اول فکر میکنه که «الان چی لازمه؟»، بعد تصمیم میگیره چه کاری انجام بده، و اون کار رو اجرا میکنه. (میشه توی خروجی گزینه Think for longer چتبات ها نمونه واقعی شو دید)
این جداسازی باعث میشه بتونه توی مسائل پیچیدهتر، مثل حل یک مشکل واقعی یا رسیدن به یک هدف خاص، مثل یا حداقل شبیه یه انسان منطقی عمل کنه: قدمبهقدم، نه همهچیز با یه پیام.
این همون چیزیه که Agent هارو از یه چتبات ساده جدا میکنه. «ایجنت واقعاً تصمیمگیری و اجرا رو با هم داره»
بهطور خلاصه: Agent فقط جواب نمیده، بلکه میفهمه، میچینه و انجام میده.
❤5🔥5👍4🙏1
🔍 خبر جدید از گوگل!
گوگل مجموعهای از مدلهای هوشمصنوعی برای کاربردهای پزشکی رو بهصورت منبعباز منتشر کرده. مدل ۴ میلیارد پارامتری MedGamma میتونه متن و تصویر رو پردازش کنه و نسخه ۲۷ میلیارد پارامتری اون فقط در قالب متن و چند وجهیه. این مدلها میتونن در زمینههای رادیولوژی، چشمپزشکی و آسیبشناسی بافتی و پوستی، تشخیص پیشنهاد بدن.
مدل 4B تو بنچمارک MedQA به دقت ۶۴.۴ و مدل 27B به دقت ۸۷.۷ رسیده. تو بنچمارک MIMIC-CXR هم مدل 4B امتیاز F1 ماکرو ۸۸.۹ رو بهدست آورده که در مقایسه با مدل Gemma 3 حدود ۸ امتیاز پیشرفت داشته.
این مدلها از HuggingFace قابل دانلود و استفاده هستن و میشه از این راهنما برای شروع کار و بهینهسازیشون استفاده کرد.
🙏@crypto_logist1
گوگل مجموعهای از مدلهای هوشمصنوعی برای کاربردهای پزشکی رو بهصورت منبعباز منتشر کرده. مدل ۴ میلیارد پارامتری MedGamma میتونه متن و تصویر رو پردازش کنه و نسخه ۲۷ میلیارد پارامتری اون فقط در قالب متن و چند وجهیه. این مدلها میتونن در زمینههای رادیولوژی، چشمپزشکی و آسیبشناسی بافتی و پوستی، تشخیص پیشنهاد بدن.
مدل 4B تو بنچمارک MedQA به دقت ۶۴.۴ و مدل 27B به دقت ۸۷.۷ رسیده. تو بنچمارک MIMIC-CXR هم مدل 4B امتیاز F1 ماکرو ۸۸.۹ رو بهدست آورده که در مقایسه با مدل Gemma 3 حدود ۸ امتیاز پیشرفت داشته.
این مدلها از HuggingFace قابل دانلود و استفاده هستن و میشه از این راهنما برای شروع کار و بهینهسازیشون استفاده کرد.
🙏@crypto_logist1
❤30👍8
Forwarded from آموزش LLM
Media is too big
VIEW IN TELEGRAM
💡 دورهی جامع LLM (مدلهای زبانی بزرگ)
مدرس: علیرضا اخوانپور
📅 زمان انتشار: به زودی…
📍 منتشر میشود توسط کلاسویژن در مکتبخونه
🔥 برای اطلاع از انتشار و دریافت کد تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتبخونه
مدرس: علیرضا اخوانپور
📅 زمان انتشار: به زودی…
📍 منتشر میشود توسط کلاسویژن در مکتبخونه
🔥 برای اطلاع از انتشار و دریافت کد تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتبخونه
❤30🔥4👍1👌1
معماری جدید گوگل برای غلبه بر محدودیت های جدی معماری Transformer با سرعت دو برابری در استدلال و کاهش ۵۰ درصدی پارامتر ها
در حوزه هوش مصنوعی، از همون ابتدا مدلهای زبانی بزرگ به دلیل مشکل بزرگ و کند بودن مورد انتقاد بودن. با وجود افزایش بی وقفه تعداد پارامترها، مشکلاتی مانند کاهش کارایی در متون طولانی و مصرف بیهوده منابع محاسباتی همچنان به قوت خود باقی موندن.
معماری Transformer همیشه ستون فقرات مدل های بزرگ زبانی بوده، اما با افزایش طول متن ورودی، ضعف های اونها بیشتر آشکار میشه.
همچنین Transformer ها منابع محاسباتی رو به طور برابر و بدون توجه به پیچیدگی هر توکن تخصیص میدن، این موضوع باعث پردازش غیرضروری عبارات ساده میشه. از سوی دیگه، ذخیرهسازی مقادیر کلید و مقدار (KV Cache) برای پشتیبانی از طول های بالا، حافظه عظیمی مصرف میکنه.
توی این مقاله محققین گوگل با معماری جدید Mixture-of-Recursions (بهاختصار MoR)، دو مفهوم مهم، به اشتراک گذاری پارامتر و محاسبه تطبیقی رو در هم آمیختن تا مسیر جدیدی باز کنن.
گوگل دیپ مایند معماری جدیدی برای مدلهای زبانی بزرگ (LLM) با نام Mixture-of-Recursions (MoR) معرفی کرده، معماری که انقلابی توصیف شده و این پتانسیل رو داره که به «قاتل ترنسفورمرها» تبدیل شه
https://arxiv.org/abs/2507.10524
در حوزه هوش مصنوعی، از همون ابتدا مدلهای زبانی بزرگ به دلیل مشکل بزرگ و کند بودن مورد انتقاد بودن. با وجود افزایش بی وقفه تعداد پارامترها، مشکلاتی مانند کاهش کارایی در متون طولانی و مصرف بیهوده منابع محاسباتی همچنان به قوت خود باقی موندن.
معماری Transformer همیشه ستون فقرات مدل های بزرگ زبانی بوده، اما با افزایش طول متن ورودی، ضعف های اونها بیشتر آشکار میشه.
همچنین Transformer ها منابع محاسباتی رو به طور برابر و بدون توجه به پیچیدگی هر توکن تخصیص میدن، این موضوع باعث پردازش غیرضروری عبارات ساده میشه. از سوی دیگه، ذخیرهسازی مقادیر کلید و مقدار (KV Cache) برای پشتیبانی از طول های بالا، حافظه عظیمی مصرف میکنه.
توی این مقاله محققین گوگل با معماری جدید Mixture-of-Recursions (بهاختصار MoR)، دو مفهوم مهم، به اشتراک گذاری پارامتر و محاسبه تطبیقی رو در هم آمیختن تا مسیر جدیدی باز کنن.
گوگل دیپ مایند معماری جدیدی برای مدلهای زبانی بزرگ (LLM) با نام Mixture-of-Recursions (MoR) معرفی کرده، معماری که انقلابی توصیف شده و این پتانسیل رو داره که به «قاتل ترنسفورمرها» تبدیل شه
https://arxiv.org/abs/2507.10524
arXiv.org
Mixture-of-Recursions: Learning Dynamic Recursive Depths for...
Scaling language models unlocks impressive capabilities, but the accompanying computational and memory demands make both training and deployment expensive. Existing efficiency efforts typically...
👍13❤4🔥3
Tensorflow(@CVision)
معماری جدید گوگل برای غلبه بر محدودیت های جدی معماری Transformer با سرعت دو برابری در استدلال و کاهش ۵۰ درصدی پارامتر ها در حوزه هوش مصنوعی، از همون ابتدا مدلهای زبانی بزرگ به دلیل مشکل بزرگ و کند بودن مورد انتقاد بودن. با وجود افزایش بی وقفه تعداد پارامترها،…
برای مثال، زمانی که یک متن طولانی رو به یک مدل هوش مصنوعی میدیم، مدل میتونه به طور دقیق به سوالات در نیمهی اول متن پاسخ بده، اما در نیمهی دوم شروع به گفتن مطالب بی ربط یا نامفهوم میکنه. این مسئله تصادفی نیست. مطالعات اخیر نشون دادن که مدلهای بزرگ فعلی در پردازش متون طولانی با افت عملکرد قابلتوجهی مواجه میشن و این افت در مدلهای مختلف در نقاط متفاوتی رخ میده، برخی مدلها در هنگام خواندن صفحه دهم یه کتاب عملکردشون به طور چشمگیری کاهش میابه، در حالیکه برخی دیگه تا صفحهی صدم دوام میارن.
علت اصلی این کاهش عملکرد، نقصهای ذاتی در معماری ترنسفورمر (Transformer) سنتی هست.
ترنسفورمر با انباشتن لایه ها سعی در افزایش توانایی مدل دارن، اما این روش باعث میشه منابع محاسباتی بدون توجه به میزان پیچیدگی هر توکن به طور یکنواخت تخصیص یابن. توکنهای ساده (مانند حروف ربط و فعلهای کمکی) و توکنهای پیچیده (مانند اصطلاحات تخصصی و جملات بلند) به یک اندازه پردازش میشن، که این امر منجر به محاسبات زائد زیادی میشه.
در عین حال، مکانیزم (KV Cache) در مواجهه با متون طولانی حجم زیادی از حافظه رو اشغال میکنه و این موضوع نیز کارایی مدل رو بیشتر محدود میکنه.
علت اصلی این کاهش عملکرد، نقصهای ذاتی در معماری ترنسفورمر (Transformer) سنتی هست.
ترنسفورمر با انباشتن لایه ها سعی در افزایش توانایی مدل دارن، اما این روش باعث میشه منابع محاسباتی بدون توجه به میزان پیچیدگی هر توکن به طور یکنواخت تخصیص یابن. توکنهای ساده (مانند حروف ربط و فعلهای کمکی) و توکنهای پیچیده (مانند اصطلاحات تخصصی و جملات بلند) به یک اندازه پردازش میشن، که این امر منجر به محاسبات زائد زیادی میشه.
در عین حال، مکانیزم (KV Cache) در مواجهه با متون طولانی حجم زیادی از حافظه رو اشغال میکنه و این موضوع نیز کارایی مدل رو بیشتر محدود میکنه.
👍7❤2👌1
Tensorflow(@CVision)
برای مثال، زمانی که یک متن طولانی رو به یک مدل هوش مصنوعی میدیم، مدل میتونه به طور دقیق به سوالات در نیمهی اول متن پاسخ بده، اما در نیمهی دوم شروع به گفتن مطالب بی ربط یا نامفهوم میکنه. این مسئله تصادفی نیست. مطالعات اخیر نشون دادن که مدلهای بزرگ فعلی…
برای حل این مشکلات، پژوهشگران به طور فعال در دو مسیر مختلف تحقیق میکنن:
یکی افزایش بهره وری از پارامترها از طریق «اشتراک وزنها»، و دوم اختصاص پویا (دینامیک) منابع محاسباتی بر اساس میزان پیچیدگی ورودی، تا بتوان به نوعی «پردازش تطبیقی» دست پیدا کنه.
این معماری MoR (Mixture of Routing) به طور هوشمندانه این دو ایده رو با هم ترکیب کرده و مسیر تازهای رو برای توسعه مدلهای زبانی بزرگ گشوده.
اول اشتراک پارامترها:
در مدلهای معمولی، هر لایه مجموعهی مستقلی از پارامترها دارن که باعث افزایش حجم مدل میشه. اما با اشتراک گذاری پارامترها بین لایهها، میشه همون عملکرد رو با تعداد کمتری از پارامترها حفظ کرد. این کار باعث کاهش حافظه مورد نیاز و ساده تر شدن آموزش مدل میشه. MoR این ویژگی را از معماری های Recursive Transformer (ترنسفورمر بازگشتی) به ارث میبره، یعنی مدل چندین بار از یک بلوک ترنسفورمری تکرارشونده استفاده میکنه.
دوم محاسبه تطبیقی:
بهجای اینکه همهی توکنها (کلمات یا نشانهها) بهصورت مساوی پردازش شن، در این رویکرد مدل بر اساس پیچیدگی هر توکن تصمیم میگیره چقدر منابع محاسباتی به اون اختصاص بده. مثلاً ممکنه واژهای ساده مثل "and" خیلی سریع پردازش شه، اما عبارتی پیچیده یا تخصصی مثل "quantum entanglement" نیاز به پردازش عمیق تری داشته باشه.
سوم مسیردهی پویا در سطح توکن:
در این بخش از MoR، مدل بهصورت پویا تصمیم میگیره که هر توکن در کدام مسیر یا زیرشبکه (subnetwork) پردازش شه. این ایده شبیه به مفهوم Mixture of Experts هست، ولی در MoR به جای انتخاب بین چند "کارشناس" مجزا، مسیرهای محاسباتی با بازدهی بالا و اشتراکی در سطح توکنها طراحی شدن.
و مهمترین بخش چهارم معماری همافزا!
ترکیب این دو ویژگی (اشتراک پارامتر و محاسبه تطبیقی) در قالب یک فریم ورک واحد، باعث شده MoR یک معماری «همافزا» باشه؛ یعنی این دو رویکرد نهتنها تداخلی با هم ندارن، بلکه عملکرد یکدیگر رو تقویت می کنن
یکی افزایش بهره وری از پارامترها از طریق «اشتراک وزنها»، و دوم اختصاص پویا (دینامیک) منابع محاسباتی بر اساس میزان پیچیدگی ورودی، تا بتوان به نوعی «پردازش تطبیقی» دست پیدا کنه.
این معماری MoR (Mixture of Routing) به طور هوشمندانه این دو ایده رو با هم ترکیب کرده و مسیر تازهای رو برای توسعه مدلهای زبانی بزرگ گشوده.
اول اشتراک پارامترها:
در مدلهای معمولی، هر لایه مجموعهی مستقلی از پارامترها دارن که باعث افزایش حجم مدل میشه. اما با اشتراک گذاری پارامترها بین لایهها، میشه همون عملکرد رو با تعداد کمتری از پارامترها حفظ کرد. این کار باعث کاهش حافظه مورد نیاز و ساده تر شدن آموزش مدل میشه. MoR این ویژگی را از معماری های Recursive Transformer (ترنسفورمر بازگشتی) به ارث میبره، یعنی مدل چندین بار از یک بلوک ترنسفورمری تکرارشونده استفاده میکنه.
دوم محاسبه تطبیقی:
بهجای اینکه همهی توکنها (کلمات یا نشانهها) بهصورت مساوی پردازش شن، در این رویکرد مدل بر اساس پیچیدگی هر توکن تصمیم میگیره چقدر منابع محاسباتی به اون اختصاص بده. مثلاً ممکنه واژهای ساده مثل "and" خیلی سریع پردازش شه، اما عبارتی پیچیده یا تخصصی مثل "quantum entanglement" نیاز به پردازش عمیق تری داشته باشه.
سوم مسیردهی پویا در سطح توکن:
در این بخش از MoR، مدل بهصورت پویا تصمیم میگیره که هر توکن در کدام مسیر یا زیرشبکه (subnetwork) پردازش شه. این ایده شبیه به مفهوم Mixture of Experts هست، ولی در MoR به جای انتخاب بین چند "کارشناس" مجزا، مسیرهای محاسباتی با بازدهی بالا و اشتراکی در سطح توکنها طراحی شدن.
و مهمترین بخش چهارم معماری همافزا!
ترکیب این دو ویژگی (اشتراک پارامتر و محاسبه تطبیقی) در قالب یک فریم ورک واحد، باعث شده MoR یک معماری «همافزا» باشه؛ یعنی این دو رویکرد نهتنها تداخلی با هم ندارن، بلکه عملکرد یکدیگر رو تقویت می کنن
❤6👍4
استدلال تطبیقی در مدلهای زبانی بزرگ، روشی نوین برای «تفکر به اندازه نیاز» در هوش مصنوعی
در روند توسعه مدل های زبانی بزرگ نظیر GPT، LLaMA و مشابه های چینی اون، یکی از چالش های اساسی، دستیابی به تعادلی میان دقت و کارایی در پاسخگویی به سؤالات متنوع هست.
بهطور خاص، پرسش های ساده نیاز به پاسخ های سریع و مختصر دارن، در حالی که مسائل پیچیده مستلزم تحلیل و استدلال چند مرحلهای هستن. پیاده سازی یه رویکرد یکسان برای تمام پرسش ها منجر به اتلاف منابع محاسباتی یا موجب افت دقت پاسخ میشه.
برای حل این معضل، مفهوم نوینی به نام استدلال تطبیقی (Adaptive Reasoning) مطرح شده. در این رویکرد، مدل یاد میگیره که بسته به نوع و پیچیدگی سؤال، میزان «تفکر» مورد نیاز رو تنظیم کنه.
نکته قابل توجه اینجاست که پیادهسازی این قابلیت نیازی به باز آموزی کامل مدل پایه نداره و با بهرهگیری از روشهایی چون Fine-tuning، یادگیری تقویتی (Reinforcement Learning)، یا مهندسی پرامپت (Prompt Engineering) قابل انجامه.
https://arxiv.org/html/2507.09662v1
در روند توسعه مدل های زبانی بزرگ نظیر GPT، LLaMA و مشابه های چینی اون، یکی از چالش های اساسی، دستیابی به تعادلی میان دقت و کارایی در پاسخگویی به سؤالات متنوع هست.
بهطور خاص، پرسش های ساده نیاز به پاسخ های سریع و مختصر دارن، در حالی که مسائل پیچیده مستلزم تحلیل و استدلال چند مرحلهای هستن. پیاده سازی یه رویکرد یکسان برای تمام پرسش ها منجر به اتلاف منابع محاسباتی یا موجب افت دقت پاسخ میشه.
برای حل این معضل، مفهوم نوینی به نام استدلال تطبیقی (Adaptive Reasoning) مطرح شده. در این رویکرد، مدل یاد میگیره که بسته به نوع و پیچیدگی سؤال، میزان «تفکر» مورد نیاز رو تنظیم کنه.
نکته قابل توجه اینجاست که پیادهسازی این قابلیت نیازی به باز آموزی کامل مدل پایه نداره و با بهرهگیری از روشهایی چون Fine-tuning، یادگیری تقویتی (Reinforcement Learning)، یا مهندسی پرامپت (Prompt Engineering) قابل انجامه.
https://arxiv.org/html/2507.09662v1
❤4⚡3👍1
Tensorflow(@CVision)
استدلال تطبیقی در مدلهای زبانی بزرگ، روشی نوین برای «تفکر به اندازه نیاز» در هوش مصنوعی در روند توسعه مدل های زبانی بزرگ نظیر GPT، LLaMA و مشابه های چینی اون، یکی از چالش های اساسی، دستیابی به تعادلی میان دقت و کارایی در پاسخگویی به سؤالات متنوع هست.…
رویکردهای موجود در استدلال تطبیقی
1. روش مبتنی بر کنترل کاربر مثل مدل Qwen3
در این رویکرد، تصمیمگیری درخصوص میزان استدلال مورد نیاز به کاربر سپرده میشه. مدل از طریق علائمی مانند
و
تشخیص میده که پاسخ باید شامل استدلال چند مرحلهای باشه یا خیر.
با این روش، کاربر در تعیین سطح پاسخ نقش مستقیم داره. برای آموزش مدل، از مجموعه دادههایی شامل نمونه های دارای هر دو نوع پاسخ (ساده و تحلیلی) استفاده شده و از طریق fine-tuning، قابلیت تطبیق ایجاد میشه.
2. رویکرد مبتنی بر بهینهسازی هزینه،فایده مدل AdaCoT (توسعهیافته توسط ByteDance)
این روش از الگویی شبیه به تحلیل اقتصادی بهره میبره، مدل سعی میکنه با صرف حداقل منابع محاسباتی، حداکثر دقت پاسخ رو فراهم کنه. در ابتدا، داده ها برچسب گذاری میشن تا مشخص شه کدوم پرسش ها نیاز به تفکر دارن. سپس مدل از طریق fine-tuning و یادگیری تقویتی با معیارهایی مانند دقت پاسخ، اجتناب از تفکر غیر ضروری، و صرف زمان بهینه آموزش میبینه. برای رسیدن به این هدف، از روشهایی نظیر Selective Loss Masking استفاده میشه.
1. روش مبتنی بر کنترل کاربر مثل مدل Qwen3
در این رویکرد، تصمیمگیری درخصوص میزان استدلال مورد نیاز به کاربر سپرده میشه. مدل از طریق علائمی مانند
/think
و
/no_think
تشخیص میده که پاسخ باید شامل استدلال چند مرحلهای باشه یا خیر.
با این روش، کاربر در تعیین سطح پاسخ نقش مستقیم داره. برای آموزش مدل، از مجموعه دادههایی شامل نمونه های دارای هر دو نوع پاسخ (ساده و تحلیلی) استفاده شده و از طریق fine-tuning، قابلیت تطبیق ایجاد میشه.
2. رویکرد مبتنی بر بهینهسازی هزینه،فایده مدل AdaCoT (توسعهیافته توسط ByteDance)
این روش از الگویی شبیه به تحلیل اقتصادی بهره میبره، مدل سعی میکنه با صرف حداقل منابع محاسباتی، حداکثر دقت پاسخ رو فراهم کنه. در ابتدا، داده ها برچسب گذاری میشن تا مشخص شه کدوم پرسش ها نیاز به تفکر دارن. سپس مدل از طریق fine-tuning و یادگیری تقویتی با معیارهایی مانند دقت پاسخ، اجتناب از تفکر غیر ضروری، و صرف زمان بهینه آموزش میبینه. برای رسیدن به این هدف، از روشهایی نظیر Selective Loss Masking استفاده میشه.
👍6❤3
Tensorflow(@CVision)
رویکردهای موجود در استدلال تطبیقی 1. روش مبتنی بر کنترل کاربر مثل مدل Qwen3 در این رویکرد، تصمیمگیری درخصوص میزان استدلال مورد نیاز به کاربر سپرده میشه. مدل از طریق علائمی مانند /think و /no_think تشخیص میده که پاسخ باید شامل استدلال چند مرحلهای…
3. رویکرد تصمیمگیری خودکار مدل AdaptThink (توسعهیافته توسط دانشگاه Tsinghua چین)
در این رویکرد، مدل بدون مداخله کاربر یا تحلیل هزینه–فایده، به طور خودکار تصمیم میگیره که در چه زمانی نیاز به استدلال و تفکر چند مرحلهای وجود داره.
برای اطمینان از کیفیت پاسخ، در فرایند آموزش از قید هایی استفاده میشه که مدل رو ملزم میکنه در پاسخ های بدون استدلال نیز کیفیتی هم سطح پاسخ های تحلیلی ارائه بده. همچنین، مدل با بهرهگیری از تکنیکهایی نظیر یادگیری تقویتی (PPO) به تصمیم گیری هوشمندانه دست میابه.
در حال حاضر، تمرکز این رویکرد تنها بر تصمیمگیری ابتدایی در خصوص نیاز یا عدم نیاز به استدلال هست. اما در آینده انتظار میره قابلیت هایی نظیر موارد زیر به اون افزوده شه:
برنامهریزی استدلال چندمرحلهای: مدل قادر خواهد بود پیش بینی کنه چند مرحله استدلال لازمه و چگونه اون رو مدیریت کنه.
بازنگری و اصلاح پاسخ: در صورت تشخیص اشتباه، مدل میتونه برگرده و پاسخ خودش رو بهبود ببخشه.
ادغام با حافظه خارجی یا سیستمهای بازیابی اطلاعات (RAG): مدل بر اساس نیاز، اطلاعات مرتبط رو از پایگاههای داده یا منابع خارجی بازیابی و در فرآیند استدلال وارد میکنه.
در این رویکرد، مدل بدون مداخله کاربر یا تحلیل هزینه–فایده، به طور خودکار تصمیم میگیره که در چه زمانی نیاز به استدلال و تفکر چند مرحلهای وجود داره.
برای اطمینان از کیفیت پاسخ، در فرایند آموزش از قید هایی استفاده میشه که مدل رو ملزم میکنه در پاسخ های بدون استدلال نیز کیفیتی هم سطح پاسخ های تحلیلی ارائه بده. همچنین، مدل با بهرهگیری از تکنیکهایی نظیر یادگیری تقویتی (PPO) به تصمیم گیری هوشمندانه دست میابه.
در حال حاضر، تمرکز این رویکرد تنها بر تصمیمگیری ابتدایی در خصوص نیاز یا عدم نیاز به استدلال هست. اما در آینده انتظار میره قابلیت هایی نظیر موارد زیر به اون افزوده شه:
برنامهریزی استدلال چندمرحلهای: مدل قادر خواهد بود پیش بینی کنه چند مرحله استدلال لازمه و چگونه اون رو مدیریت کنه.
بازنگری و اصلاح پاسخ: در صورت تشخیص اشتباه، مدل میتونه برگرده و پاسخ خودش رو بهبود ببخشه.
ادغام با حافظه خارجی یا سیستمهای بازیابی اطلاعات (RAG): مدل بر اساس نیاز، اطلاعات مرتبط رو از پایگاههای داده یا منابع خارجی بازیابی و در فرآیند استدلال وارد میکنه.
❤5