Tensorflow(@CVision) – Telegram

Tensorflow(@CVision)

14.6K subscribers

1.25K photos

293 videos

71 files

2.45K links

اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت دوره
https://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

Download Telegram

About

Blog

Apps

Platform

Tensorflow(@CVision)

14.6K subscribers

Tensorflow(@CVision)

افشای اطلاعات جدید درباره Gemini توسط گوگل!

در این ویدیو، Ani Baddepudi، مدیر ارشد محصول رفتار مدل‌های Gemini، در کانال رسمی توسعه‌ دهندگان گوگل اطلاعات تازه‌ ای منتشر کرد.

در گفت‌ و گویی با Logan Kilpatrick (مدیر فعلی Google AI Studio و از اعضای پیشین OpenAI)، به سؤالات مهم و قدیمی کاربران درباره Gemini پاسخ میده:

سؤالات کلیدی که مطرح شد:

چرا Gemini از ابتدا به‌ صورت چند رسانه‌ای (Multimodal) طراحی شد؟

آیا تبدیل تصویر و ویدیو به توکن باعث از بین رفتن اطلاعات می‌شه؟

چرا نسخه ۲.۵ Gemini در درک ویدیو عملکرد فوق‌ العاده‌ای داره؟

و ده‌ ها نکته فنی دیگه

گفت‌ وگو تقریبا به طور کامل بر محور چند رسانه‌ای بودن Gemini می‌ چرخه، از فلسفه طراحی اولیه، تا کاربردهای فعلی و مسیر توسعه آینده

https://www.youtube.com/watch?v=K4vXvaRV0dw

Release Notes: Gemini's multimodality

Ani Baddepudi, Gemini Model Behavior Product Lead, joins host Logan Kilpatrick for a deep dive into Gemini's multimodal capabilities. Their conversation explores why Gemini was built as a natively multimodal model from day one, the future of proactive AI…

❤6👍1

4.31K viewsAlister☄️, edited 18:57

Tensorflow(@CVision)

Tensorflow(@CVision)

توی این پست در پاسخ در جواب به نقد یکی از مخاطبین گفتم که مدل‌های مبتنی بر زبان (مانند chatgpt) نمیتونن درک واقعی انسان از جهان رو بازسازی کنن، چرا که زبان تنها نشانه‌ هایی آماری هست و ریشه در ساختار فیزیکی نداره. در واقع مدل های زبانی به جهان واژگان تکیه…

مصاحبه کامل FEI FEI Li درباره wold models

ایشون معتقده بدون توانایی درک، مدل‌ سازی و تعامل در دنیای سه‌ بعدی، AGI ناقص خواهد بود.

https://www.youtube.com/watch?v=_PioN-CpOP0

Fei-Fei Li: Spatial Intelligence is the Next Frontier in AI

A fireside with Dr. Fei-Fei Li on June 16, 2025 at AI Startup School in San Francisco.

Dr. Fei-Fei Li is often called the godmother of AI—and for good reason. Before the world had AI as we know it, she was helping build the foundation.

In this fireside…

❤7🔥1

4.4K viewsAlister☄️, 19:10

Tensorflow(@CVision)

🔍 معرفی داشبورد LLM Leaderboard از klu.ai

💡 اگر با مدل‌های زبان بزرگ (LLM) سروکار دارید یا علاقه‌مند به مقایسه قدرت و عملکرد مدل‌های مختلف هستید، داشبورد LLM Leaderboard از Klu یک ابزار فوق‌العاده برای شماست.
📊 این داشبورد، یک نمای دقیق و به‌روز از عملکرد مدل‌های مطرح هوش مصنوعی (مثل GPT-4، Claude، Gemini، Mistral و غیره) ارائه می‌دهد. داده‌ها شامل ارزیابی کیفیت پاسخ، دقت، توانایی کدنویسی، استدلال و تطبیق با نیاز کاربران در سناریوهای واقعی هستند.
🧪 ارزیابی‌ها بر پایه تست‌های کاربردی و روزمره طراحی شده‌اند، نه فقط بنچمارک‌های مصنوعی، و شامل تحلیل‌های دسته‌بندی‌شده برای کاربردهای مختلف (مثل برنامه‌نویسی، تحلیل متنی، خلاصه‌سازی و ...) هستند.

⚙️ ویژگی‌های کلیدی: مقایسه‌ لحظه‌ای عملکرد مدل‌ها - امکان فیلتر نتایج بر اساس تسک‌ها - نمایش رتبه‌بندی مدل‌ها بر اساس نوع کاربرد - داده‌های قابل اعتماد با به‌روزرسانی مداوم

🔗 مشاهده داشبورد 🔗

🌀 @cvision 🌀

👌12❤2

3.99K views𝘴𝘪𝘯𝘢, edited 13:53

Tensorflow(@CVision)

🔎 مقایسه قیمت و کارایی مدل‌های هوش مصنوعی – راحت و شفاف!

🧠💰 + 🤖 = ❓

اگه توی پروژه‌هات با مدل‌های زبانی (LLM) مثل GPT، Claude، Mistral یا ... کار می‌کنی، حتماً برات مهمه که بدونی کدوم مدل چقدر هزینه و ارزش خرج کردن رو داره.
اینجا ابزار llmpricecheck.com به کمکت میاد 👇

✨ ویژگی‌های کلیدی:
📌 مقایسه مدل‌ها از نظر قیمت به‌ازای توکن
📌 بررسی کیفیت پاسخ در سناریوهای واقعی
📌 تحلیل بهره‌وری (quality per $) برای استفاده هوشمندانه از بودجه
📌 جدول‌های قابل فیلتر و مرتب‌سازی برای تصمیم‌گیری دقیق‌تر

🔥 چه برنامه‌نویس باشی، چه تیم محصول یا پژوهشگر، این ابزار یه نگاه سریع و شفاف می‌ده به اینکه پولتو کجا خرج کنی که بیشترین خروجی رو بگیری.

🔗 لینک مشاهده 🔗

🌀 @cvision 🌀

👍7❤3🔥1😱1

6.61K views𝘴𝘪𝘯𝘢, 15:18

Tensorflow(@CVision)

Forwarded from DLeX: AI Python (NaviD DariYa)

مدل اوپن سورس OCR که گفته می شه توانایی رقابت با Mistral OCR رو داره :

@ai_python

https://huggingface.co/nanonets/Nanonets-OCR-s

❤14👌1

3.65K views12:03

Tensorflow(@CVision)

🚀 ابزار AgentGPT — ایجنت هوش مصنوعی هدف‌محور، در مرورگر شما

ابزار ‌AgentGPT به شما این امکان رو می‌ده که فقط با تعریف یک هدف، یک ایجنت هوشمند بسازید که خودش وظایف رو طراحی و اجرا کنه، مرحله‌به‌مرحله، تا رسیدن به نتیجه.
همه این‌ها به‌صورت خودکار و در محیط مرورگر، بدون نیاز به نصب پیچیده.

🎯 مثال ساده:
«یه استراتژی بازاریابی برای اپلیکیشنم طراحی کن»
ایجنت خودش هدف رو به وظایف قابل اجرا تقسیم می‌کنه، تحلیل می‌کنه، تصمیم می‌گیره و پیش می‌ره.

🧠 ویژگی‌ها:
📍 اجرای مستقیم در وب: agentgpt.reworkd.ai
📍 اپن سورس و قابل توسعه: GitHub
📍 پشتیبانی از OpenAI API و سایر مدل‌های LLM
📍 ساخته‌شده با React، Next.js و Tailwind

🔧 مناسب برای:
💢 ساخت ایجنت‌های مولد و خودگردان
💢 تست توانایی LLM در حل مسائل واقعی
💢 توسعه ابزارهای مبتنی بر Auto-GPT و AGI

ابزار AgentGPT یک نمونه‌ از ایجنت‌های خودمختاره، جایی که هوش مصنوعی فقط جواب نمی‌ده، عمل می‌کنه. 😉

🌀 @cvision 🌀

👍6🤯4❤1

4.83K views𝘴𝘪𝘯𝘢, 19:26

Tensorflow(@CVision)

Tensorflow(@CVision)

🚀 ابزار AgentGPT — ایجنت هوش مصنوعی هدف‌محور، در مرورگر شما ابزار ‌AgentGPT به شما این امکان رو می‌ده که فقط با تعریف یک هدف، یک ایجنت هوشمند بسازید که خودش وظایف رو طراحی و اجرا کنه، مرحله‌به‌مرحله، تا رسیدن به نتیجه. همه این‌ها به‌صورت خودکار و در محیط…

یه نکته مهم درباره ایجنت‌های LLM (مثل همین AgentGPT) اینه که یکی از قوی‌ترین کاربردهاشون توی وظایفی‌ـه که نیاز به برنامه‌ریزی مرحله‌به‌مرحله (Planning) دارن.
چرا؟ چون مدل‌ها می‌تونن خیلی خوب بین فکر کردن (Thought) و عمل کردن (Action) فرق بذارن.

یعنی چی؟ یعنی ایجنت اول فکر می‌کنه که «الان چی لازمه؟»، بعد تصمیم می‌گیره چه کاری انجام بده، و اون کار رو اجرا می‌کنه. (میشه توی خروجی گزینه Think for longer چت‌بات ها نمونه واقعی شو دید)
این جداسازی باعث می‌شه بتونه توی مسائل پیچیده‌تر، مثل حل یک مشکل واقعی یا رسیدن به یک هدف خاص، مثل یا حداقل شبیه یه انسان منطقی عمل کنه: قدم‌به‌قدم، نه همه‌چیز با یه پیام.

این همون چیزیه که Agent هارو از یه چت‌بات ساده جدا می‌کنه. «ایجنت واقعاً تصمیم‌گیری و اجرا رو با هم داره»
به‌طور خلاصه: Agent فقط جواب نمی‌ده، بلکه می‌فهمه، می‌چینه و انجام می‌ده.

❤5🔥5👍4🙏1

5.7K views𝘴𝘪𝘯𝘢, 19:33

Tensorflow(@CVision)

🔍 خبر جدید از گوگل!

گوگل مجموعه‌ای از مدل‌های هوش‌مصنوعی برای کاربردهای پزشکی رو به‌صورت منبع‌باز منتشر کرده. مدل ۴ میلیارد پارامتری MedGamma می‌تونه متن و تصویر رو پردازش کنه و نسخه ۲۷ میلیارد پارامتری اون فقط در قالب متن و چند وجهیه. این مدل‌ها می‌تونن در زمینه‌های رادیولوژی، چشم‌پزشکی و آسیب‌شناسی بافتی و پوستی، تشخیص پیشنهاد بدن.

مدل 4B تو بنچمارک MedQA به دقت ۶۴.۴ و مدل 27B به دقت ۸۷.۷ رسیده. تو بنچمارک MIMIC-CXR هم مدل 4B امتیاز F1 ماکرو ۸۸.۹ رو به‌دست آورده که در مقایسه با مدل Gemma 3 حدود ۸ امتیاز پیشرفت داشته.

این مدل‌ها از HuggingFace قابل دانلود و استفاده هستن و می‌شه از این راهنما برای شروع کار و بهینه‌سازیشون استفاده کرد.

🙏@crypto_logist1

❤30👍8

5.25K viewsedited 06:50

Tensorflow(@CVision)

Forwarded from آموزش LLM

Media is too big

VIEW IN TELEGRAM

💡 دوره‌ی جامع LLM (مدل‌های زبانی بزرگ)
مدرس: علیرضا اخوان‌پور
📅 زمان انتشار: به زودی…
📍 منتشر می‌شود توسط کلاس‌ویژن در مکتب‌خونه

🔥 برای اطلاع از انتشار و دریافت کد تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه

❤30🔥4👍1👌1

2.7K views08:06

Tensorflow(@CVision)

معماری جدید گوگل برای غلبه بر محدودیت های جدی معماری Transformer با سرعت دو برابری در استدلال و کاهش ۵۰ درصدی پارامتر ها

در حوزه هوش مصنوعی، از همون ابتدا مدل‌های زبانی بزرگ به دلیل مشکل بزرگ و کند بودن مورد انتقاد بودن. با وجود افزایش بی‌ وقفه تعداد پارامترها، مشکلاتی مانند کاهش کارایی در متون طولانی و مصرف بیهوده منابع محاسباتی همچنان به قوت خود باقی موندن.

معماری Transformer همیشه ستون فقرات مدل های بزرگ زبانی بوده، اما با افزایش طول متن ورودی، ضعف‌ های اونها بیشتر آشکار میشه.

همچنین Transformer ها منابع محاسباتی رو به‌ طور برابر و بدون توجه به پیچیدگی هر توکن تخصیص میدن، این موضوع باعث پردازش غیرضروری عبارات ساده میشه. از سوی دیگه، ذخیره‌سازی مقادیر کلید و مقدار (KV Cache) برای پشتیبانی از طول‌ های بالا، حافظه عظیمی مصرف میکنه.

توی این مقاله محققین گوگل با معماری جدید Mixture-of-Recursions (به‌اختصار MoR)، دو مفهوم مهم، به اشتراک‌ گذاری پارامتر و محاسبه تطبیقی رو در هم آمیختن تا مسیر جدیدی باز کنن.

گوگل دیپ‌ مایند معماری جدیدی برای مدل‌های زبانی بزرگ (LLM) با نام Mixture-of-Recursions (MoR) معرفی کرده، معماری‌ که انقلابی توصیف شده و این پتانسیل رو داره که به «قاتل ترنسفورمرها» تبدیل شه

https://arxiv.org/abs/2507.10524

Mixture-of-Recursions: Learning Dynamic Recursive Depths for...

Scaling language models unlocks impressive capabilities, but the accompanying computational and memory demands make both training and deployment expensive. Existing efficiency efforts typically...

👍13❤4🔥3

2.98K viewsAlister☄️, edited 12:21

Tensorflow(@CVision)

Tensorflow(@CVision)

معماری جدید گوگل برای غلبه بر محدودیت های جدی معماری Transformer با سرعت دو برابری در استدلال و کاهش ۵۰ درصدی پارامتر ها در حوزه هوش مصنوعی، از همون ابتدا مدل‌های زبانی بزرگ به دلیل مشکل بزرگ و کند بودن مورد انتقاد بودن. با وجود افزایش بی‌ وقفه تعداد پارامترها،…

برای مثال، زمانی که یک متن طولانی رو به یک مدل هوش مصنوعی می‌دیم، مدل میتونه به‌ طور دقیق به سوالات در نیمه‌ی اول متن پاسخ بده، اما در نیمه‌ی دوم شروع به گفتن مطالب بی‌ ربط یا نامفهوم می‌کنه. این مسئله تصادفی نیست. مطالعات اخیر نشون دادن که مدل‌های بزرگ فعلی در پردازش متون طولانی با افت عملکرد قابل‌توجهی مواجه میشن و این افت در مدل‌های مختلف در نقاط متفاوتی رخ می‌ده، برخی مدل‌ها در هنگام خواندن صفحه‌ دهم یه کتاب عملکردشون به‌ طور چشمگیری کاهش میابه، در حالیکه برخی دیگه تا صفحه‌ی صدم دوام میارن.

علت اصلی این کاهش عملکرد، نقص‌های ذاتی در معماری ترنسفورمر (Transformer) سنتی هست.

ترنسفورمر با انباشتن لایه‌ ها سعی در افزایش توانایی مدل دارن، اما این روش باعث میشه منابع محاسباتی بدون توجه به میزان پیچیدگی هر توکن به‌ طور یکنواخت تخصیص یابن. توکن‌های ساده (مانند حروف ربط و فعل‌های کمکی) و توکن‌های پیچیده (مانند اصطلاحات تخصصی و جملات بلند) به یک اندازه پردازش میشن، که این امر منجر به محاسبات زائد زیادی می‌شه.

در عین حال، مکانیزم (KV Cache) در مواجهه با متون طولانی حجم زیادی از حافظه رو اشغال می‌کنه و این موضوع نیز کارایی مدل رو بیشتر محدود میکنه.

👍7❤2👌1

2.7K viewsAlister☄️, 12:28

Tensorflow(@CVision)

Tensorflow(@CVision)

برای مثال، زمانی که یک متن طولانی رو به یک مدل هوش مصنوعی می‌دیم، مدل میتونه به‌ طور دقیق به سوالات در نیمه‌ی اول متن پاسخ بده، اما در نیمه‌ی دوم شروع به گفتن مطالب بی‌ ربط یا نامفهوم می‌کنه. این مسئله تصادفی نیست. مطالعات اخیر نشون دادن که مدل‌های بزرگ فعلی…

برای حل این مشکلات، پژوهشگران به‌ طور فعال در دو مسیر مختلف تحقیق می‌کنن:

یکی افزایش بهره‌ وری از پارامترها از طریق «اشتراک وزن‌ها»، و دوم اختصاص پویا (دینامیک) منابع محاسباتی بر اساس میزان پیچیدگی ورودی، تا بتوان به نوعی «پردازش تطبیقی» دست پیدا کنه.

این معماری MoR (Mixture of Routing) به‌ طور هوشمندانه این دو ایده رو با هم ترکیب کرده و مسیر تازه‌ای رو برای توسعه‌ مدل‌های زبانی بزرگ گشوده.

اول اشتراک پارامترها:

در مدل‌های معمولی، هر لایه مجموعه‌ی مستقلی از پارامترها دارن که باعث افزایش حجم مدل میشه. اما با اشتراک‌ گذاری پارامترها بین لایه‌ها، میشه همون عملکرد رو با تعداد کمتری از پارامترها حفظ کرد. این کار باعث کاهش حافظه مورد نیاز و ساده تر شدن آموزش مدل میشه. MoR این ویژگی را از معماری‌ های Recursive Transformer (ترنسفورمر بازگشتی) به ارث میبره، یعنی مدل چندین بار از یک بلوک ترنسفورمری تکرارشونده استفاده می‌کنه.

دوم محاسبه تطبیقی:

به‌جای این‌که همه‌ی توکن‌ها (کلمات یا نشانه‌ها) به‌صورت مساوی پردازش شن، در این رویکرد مدل بر اساس پیچیدگی هر توکن تصمیم می‌گیره چقدر منابع محاسباتی به اون اختصاص بده. مثلاً ممکنه واژه‌ای ساده مثل "and" خیلی سریع پردازش شه، اما عبارتی پیچیده یا تخصصی مثل "quantum entanglement" نیاز به پردازش عمیق‌ تری داشته باشه.

سوم مسیردهی پویا در سطح توکن:

در این بخش از MoR، مدل به‌صورت پویا تصمیم میگیره که هر توکن در کدام مسیر یا زیرشبکه (subnetwork) پردازش شه. این ایده شبیه به مفهوم Mixture of Experts هست، ولی در MoR به‌ جای انتخاب بین چند "کارشناس" مجزا، مسیرهای محاسباتی با بازدهی بالا و اشتراکی در سطح توکن‌ها طراحی شدن.

و مهمترین بخش چهارم معماری هم‌افزا!

ترکیب این دو ویژگی (اشتراک پارامتر و محاسبه تطبیقی) در قالب یک فریم ورک واحد، باعث شده MoR یک معماری «هم‌افزا» باشه؛ یعنی این دو رویکرد نه‌تنها تداخلی با هم ندارن، بلکه عملکرد یکدیگر رو تقویت می‌ کنن

❤6👍4

3.11K viewsAlister☄️, edited 12:40

Tensorflow(@CVision)

معرفی ایجنت چت جی پی تی

🛑لایو

https://www.youtube.com/live/1jn_RpbPbEc?feature=shared

Introduction to ChatGPT agent

Sam Altman, Casey Chu, Isa Fulford, Yash Kumar, and Zhiqing Sun introduce and demo our unified agentic model in ChatGPT.

👍3❤1

3.25K viewsAlister☄️, 17:16

Tensorflow(@CVision)

استدلال تطبیقی در مدل‌های زبانی بزرگ، روشی نوین برای «تفکر به اندازه نیاز» در هوش مصنوعی

در روند توسعه مدل‌ های زبانی بزرگ نظیر GPT، LLaMA و مشابه‌ های چینی اون، یکی از چالش‌ های اساسی، دستیابی به تعادلی میان دقت و کارایی در پاسخ‌گویی به سؤالات متنوع هست.

به‌طور خاص، پرسش‌ های ساده نیاز به پاسخ‌ های سریع و مختصر دارن، در حالی‌ که مسائل پیچیده مستلزم تحلیل و استدلال چند مرحله‌ای هستن. پیاده‌ سازی یه رویکرد یکسان برای تمام پرسش‌ ها منجر به اتلاف منابع محاسباتی یا موجب افت دقت پاسخ میشه.

برای حل این معضل، مفهوم نوینی به‌ نام استدلال تطبیقی (Adaptive Reasoning) مطرح شده. در این رویکرد، مدل یاد میگیره که بسته به نوع و پیچیدگی سؤال، میزان «تفکر» مورد نیاز رو تنظیم کنه.

نکته قابل توجه اینجاست که پیاده‌سازی این قابلیت نیازی به باز آموزی کامل مدل پایه نداره و با بهره‌گیری از روش‌هایی چون Fine-tuning، یادگیری تقویتی (Reinforcement Learning)، یا مهندسی پرامپت (Prompt Engineering) قابل انجامه.

https://arxiv.org/html/2507.09662v1

❤4⚡3👍1

2.6K viewsAlister☄️, 17:13

Tensorflow(@CVision)

Tensorflow(@CVision)

استدلال تطبیقی در مدل‌های زبانی بزرگ، روشی نوین برای «تفکر به اندازه نیاز» در هوش مصنوعی در روند توسعه مدل‌ های زبانی بزرگ نظیر GPT، LLaMA و مشابه‌ های چینی اون، یکی از چالش‌ های اساسی، دستیابی به تعادلی میان دقت و کارایی در پاسخ‌گویی به سؤالات متنوع هست.…

رویکردهای موجود در استدلال تطبیقی

1. روش مبتنی بر کنترل کاربر مثل مدل Qwen3

در این رویکرد، تصمیم‌گیری درخصوص میزان استدلال مورد نیاز به کاربر سپرده میشه. مدل از طریق علائمی مانند

/think

و

/no_think

تشخیص میده که پاسخ باید شامل استدلال چند مرحله‌ای باشه یا خیر.

با این روش، کاربر در تعیین سطح پاسخ‌ نقش مستقیم داره. برای آموزش مدل، از مجموعه‌ داده‌هایی شامل نمونه‌ های دارای هر دو نوع پاسخ (ساده و تحلیلی) استفاده شده و از طریق fine-tuning، قابلیت تطبیق ایجاد میشه.

2. رویکرد مبتنی بر بهینه‌سازی هزینه،فایده مدل AdaCoT (توسعه‌یافته توسط ByteDance)

این روش از الگویی شبیه به تحلیل اقتصادی بهره می‌بره، مدل سعی میکنه با صرف حداقل منابع محاسباتی، حداکثر دقت پاسخ رو فراهم کنه. در ابتدا، داده‌ ها برچسب‌ گذاری میشن تا مشخص شه کدوم پرسش‌ ها نیاز به تفکر دارن. سپس مدل از طریق fine-tuning و یادگیری تقویتی با معیارهایی مانند دقت پاسخ، اجتناب از تفکر غیر ضروری، و صرف زمان بهینه آموزش میبینه. برای رسیدن به این هدف، از روش‌هایی نظیر Selective Loss Masking استفاده میشه.

👍6❤3

2.32K viewsAlister☄️, edited 17:21

Tensorflow(@CVision)

Tensorflow(@CVision)

رویکردهای موجود در استدلال تطبیقی 1. روش مبتنی بر کنترل کاربر مثل مدل Qwen3 در این رویکرد، تصمیم‌گیری درخصوص میزان استدلال مورد نیاز به کاربر سپرده میشه. مدل از طریق علائمی مانند /think و /no_think تشخیص میده که پاسخ باید شامل استدلال چند مرحله‌ای…

3. رویکرد تصمیم‌گیری خودکار مدل AdaptThink (توسعه‌یافته توسط دانشگاه Tsinghua چین)

در این رویکرد، مدل بدون مداخله کاربر یا تحلیل هزینه–فایده، به‌ طور خودکار تصمیم میگیره که در چه زمانی نیاز به استدلال و تفکر چند مرحله‌ای وجود داره.

برای اطمینان از کیفیت پاسخ، در فرایند آموزش از قید هایی استفاده میشه که مدل رو ملزم میکنه در پاسخ‌ های بدون استدلال نیز کیفیتی هم‌ سطح پاسخ‌ های تحلیلی ارائه بده. همچنین، مدل با بهره‌گیری از تکنیک‌هایی نظیر یادگیری تقویتی (PPO) به تصمیم‌ گیری هوشمندانه دست میابه.

در حال حاضر، تمرکز این رویکرد تنها بر تصمیم‌گیری ابتدایی در خصوص نیاز یا عدم نیاز به استدلال هست. اما در آینده انتظار میره قابلیت‌ هایی نظیر موارد زیر به اون افزوده شه:

برنامه‌ریزی استدلال چندمرحله‌ای: مدل قادر خواهد بود پیش‌ بینی کنه چند مرحله استدلال لازمه و چگونه اون رو مدیریت کنه.

بازنگری و اصلاح پاسخ: در صورت تشخیص اشتباه، مدل میتونه برگرده و پاسخ خودش رو بهبود ببخشه.

ادغام با حافظه خارجی یا سیستم‌های بازیابی اطلاعات (RAG): مدل بر اساس نیاز، اطلاعات مرتبط رو از پایگاه‌های داده یا منابع خارجی بازیابی و در فرآیند استدلال وارد می‌کنه.

❤5

2.94K viewsAlister☄️, 17:31

Tensorflow(@CVision)

Forwarded from Deep learning channel (Alister☄)

یکی از عمیق ترین حقایق یادگیری ماشین اینست که : همواره خوب نیست که از یک مدل “پیچیده تر” استفاده کرد، مدلی که فاکتور های بیشتری را به حساب می‌آورد. اما مسئله مهمتر اینست: چگونه پیچیدگی یک مدل را توجیه کنیم، و یا اینکه تا چه میزان پیچیدگی یک مدل قابل توجیه است؟

در این پست سعی شده یکی از مفاهیم پایه‌ای یادگیری ماشین، یعنی "بیش‌برارزش" و روشهای مقابله با آن از یک دیدگاه فلسفی بررسی شود . اساسا بیش برارزش نوعی “بت پرستی داده” است، با پیامد تمرکز بر روی آنچه که قادر به اندازه گیری هستیم نه آنچه که اهمیت دارد.

https://alisterta.github.io/2018-09-28/چه-وقت-کم-تر-فکر-کنیم!-بررسی-پاره-ای-از-مفاهیم-یادگیری-ماشینی-از-یک-دیدگاه-فلسفی/

alisterta.github.io

چه وقت کم تر فکر کنیم! بررسی پاره ای از مفاهیم یادگیری ماشینی از یک دیدگاه فلسفی

معلم ریاضی درس جدید رو شرو‌ع کرد و بدون مقدمه شرو‌ع به نوشتن فرمول کرد، اما من پافشاری کردم که قبل از ارائه فرمول فلسفه آن را شرح دهد، بعد از کمی کش‌مکش مجبور شدم کلاس را ترک کنیم.

❤3👍2

3.35K viewsAlister☄️, 18:23

Tensorflow(@CVision)

Deep learning channel

یکی از عمیق ترین حقایق یادگیری ماشین اینست که : همواره خوب نیست که از یک مدل “پیچیده تر” استفاده کرد، مدلی که فاکتور های بیشتری را به حساب می‌آورد. اما مسئله مهمتر اینست: چگونه پیچیدگی یک مدل را توجیه کنیم، و یا اینکه تا چه میزان پیچیدگی یک مدل قابل توجیه…

از دیرباز، این پرسش که «چقدر باید فکر کرد؟» دغدغه‌ ای بنیادین در فلسفه‌ی ذهن، معرفت و عمل بوده، پرسشی که در مقاله «چه وقت کمتر فکر کنیم، از منظر یادگیری ماشین» سعی کردم چند سال پیش به تفضیل پاسخش بدم، شاید خوندن مجدد اون خالی از لطف نباشه.

توی این مقاله سعی کردم با تکیه بر مسئله‌ بیش‌برازش، نشون بدم که افراط در تحلیل، الزاما به ادراک بهتر نمی انجامه، بلکه گاها ما رو در دام جزئیاتی میندازه و ما رو از حقیقت دور میکنه.

در اینجا، فکر کردن بی‌پایان به مثابه نوعی بازتولید بی‌ معنای پیچیدگی ظاهر میشه، جایی که الگوریتم‌ ها، و به‌ طور استعاری انسان‌ ها، به جای دیدن واقعیت، تنها بازتاب اغتشاش داده‌ها رو می‌بینن.

❤10👍3🔥1

3.77K viewsAlister☄️, edited 18:23

Tensorflow(@CVision)

Forwarded from آموزش LLM

Media is too big

VIEW IN TELEGRAM

💡 آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

مدرس: علیرضا اخوان‌پور
📅 زمان انتشار: به زودی…
📍 منتشر می‌شود توسط کلاس‌ویژن در مکتب‌خونه

سرفصلها: https://t.iss.one/llm_huggingface/18

🔥 برای اطلاع از انتشار و دریافت کد تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه

❤18🔥4

2.32K views16:00

Tensorflow(@CVision)

Forwarded from آموزش LLM

دوره منتشر شد.🎉
به زودی کدهای تخفیف در کانال قرار میگیرد...

🙏12❤3🤔2🔥1👀1

2.1K views13:45

Tensorflow(@CVision)

Forwarded from آموزش LLM

📢دوره‌ی "آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)" منتشر شد🎉🎊

https://mktb.me/04dr/

🎁10 کد تخفیف 60 درصدی برای 10 نفر اول

COUPON-a6296

🎁10 کد تخفیف 55 درصدی برای 10 نفر دوم

COUPON-c834a

🎁20 کد تخفیف 50 درصدی برای 20 نفر بعدی

COUPON-14e45

سرفصلهای دوره:
https://t.iss.one/llm_huggingface/18

مکتب‌خونه

آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

در این دوره ابتدا ساختار مدل‌های زبانی و مفاهیم پایه‌ای مانند زبان طبیعی، توکن‌سازی، ترنسفورمر و attention آموزش داده می‌شود. سپس مسیر آموزش این مدل‌ها از مرحله پیش‌تمرین (pretraining) تا ریزتنظیم (fine-tuning) بررسی می‌شود.

❤13🤯3

2.37K views17:30