ML & AI resources
171 subscribers
165 photos
13 videos
7 files
503 links
Explore AI & Deep Learning with us. Join our Telegram channel for the latest insights and tutorials, managed by CE students from Amirkabir University of Technology.

🆔 @ML_AI_resourses
Download Telegram
Forwarded from DeepMind AI Expert (Amir Mousavi)
#مقاله
میخوام در مورد Supervised Contrastive Learning حرف بزنم. کاری مشترک از Google Research، Boston University و MIT!

در چشم‌انداز در حال تکامل دیپ لرنینگ، درخت بارور برای classification models مدت‌ها cross entropy loss function بوده. با این حال، این loss بدون اشکال نیست - به ویژه، حساسیت به noisy labels و suboptimal margins که منجر به کاهش تعمیم میشه. اینجاست که کاوش ما شروع میشه، و وارد قلمرو supervised contrastive learning میشیم!

ماهیت supervised contrastive (SupCon) learning ریشه در اصول self-supervised contrastive learning داره. به طور مرسوم، self-supervised learning شامل نزدیک کردن یک anchor و یک positive sample (معمولا آگمنت همون دیتا) در embedding space بهم دیگه و دور کردن anchor از negative samples (دیتای دیگر) در این فضا هست! این یه رقص نزدیکی و جدایی هست که در embedding space رخ میده.

حالا، بیایید به متد SupCon بپردازیم، که به طرز درخشانی این استراتژی رو برای یک fully supervised context تطبیق میده. در اینجا، بازی تغییر می کنه: ما دیگه به data augmentation برای ساخت موارد مثبت محدود نمیشیم. درعوض، هر سمپل‌ای که لیبل کلاس یکسانی رو با anchor داره، یه سمپل "مثبت" میشه. این یه تغییر ظریف و در عین حال عمیقه. اینطور فکر کنید - اگه anchor ما تصویری از یک "گربه" هست، پس هر تصویر "گربه" دیگری در دیتاست ما، مثبته.

میشه اینطور گفت. جایی که self-supervised contrastive loss ممکنه فقط یک مورد مثبت رو در نظر بگیره (نمای متفاوتی از یک سمپل)، SupCon loss چندین مثبت رو برای هر anchor در نظر میگیره - به اصطلاح همه گربه های مختلف. این سمپل‌های مثبت در کنار بسیاری از موارد منفی هستن (مثلا تصاویر سگ، پرندگان و غیره). این بازنگری به چندین مثبت برای هر anchor به مدل اجازه میده تا بازنمایی های قوی تری رو یاد بگیره، چون باید تفاوت های ظریف رو در یک کلاس تشخیص بده و در عین حال بین کلاس ها تمایز قایل بشه.

از نظر تجربی، نتایج قانع کننده هستن. در معماری ResNet 200، این متد به top-1 accuracyی 81.4 درصد روی دیتاست ImageNet دست پیدا کرد- یک پیشرفت قابل توجه نسبت به cross entropy loss.

به طور خلاصه، متد SupCon فقط یک گام رو به جلوی دیگه در دیپ لرنینگ نیست. این بازنگری در نحوه فکر کردن ما به فرایند یادگیریه! درس‌هایی رو از self supervised learning یاد میگیریم و اونهارو به supervised setting بسط میدیم.

سعی کردم مفهوم رو برسونم. هر سوالی دارید بپرسید پاسخ میدم!

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍1
Forwarded from Quera
#هکاتون #هوش_مصنوعی

🧠 مدل بزرگ زبانی فارسی
Persian LLM | AI Hackathon


🔸 فرصتی جذاب برای علاقه‌مندان حوزه هوش مصنوعی، یادگیری ماشین و تحلیل داده

✔️ ۸۵ میلیون تومان جایزه نقدی
✔️ سخت‌افزار و داده‌های بزرگ
✔️ اهدای گواهینامه
✔️ اعطای امتیاز فعالیت نخبگانی
✔️ ۴ جلسه آموزش + فیلم و اسلاید
✔️ فرصت استخدام و همکاری در پروژه توسعه LLM فارسی

☑️مرحله انتخابی | فردی: ۱۹ و ۲۰ بهمن
☑️مرحله نهایی | تیمی: ۱۷ و ۱۸ اسفند

ثبت‌نام رایگان و اطلاعات بیشتر:

🔗 https://quera.org/r/4zufw

@Quera_ir
Forwarded from DLeX: AI Python (NaviD DariYa)
حدود 8 روز پیش ، یک لکچر جدید از دوره CS25 دانشگاه استفورد در یوتیوب منتشر شد که درباره Retrieval Augmented Language Models بود : لینک ویدیو در یوتیوب
@ai_python
فکر می کنم تقریبن هر کسی در حوزه ترنسفورمر کار می کنه با این دوره آشنایی داره. ولی برای کسانی که هنوز فرصت نداشتن تا این دوره رو دنبال کنن، این لینک صفحه اصلی دوره هست : https://web.stanford.edu/class/cs25/

در پلی لیست دوره در یوتیوب می تونید به ویدیو های ورژن 1 و 2 هم دسترسی داشته باشید : پلی لیست Transformers United

نوید داریا
👍1
Forwarded from 10th W‌SS ☃️
💠آغاز ثبت‌نام نهمین دوره سری سمینارهای زمستانه (9th WSS)

📆زمان برگزاری: ۱۰ تا ۱۳ اسفندماه
🕰مهلت ثبت‌نام: تا ۴ اسفندماه
⚙️نحوه برگزاری: حضوری و مجازی
⬅️برگزارکننده: دانشگاه صنعتی شریف

🏔سری سمینارهای زمستانه (WSS) هرساله اساتید و پژوهشگرانی برجسته از دانشگاه‌ها و شرکت‌های معتبر ایرانی و خارجی را گرد هم می‌آورد، تا دانش خود را در قالب سمینارها، لب‌تاک‌ها و میزگردها با شما به اشتراک بگذارند.

💬با حضور در این رویداد علاوه بر یادگیری از متخصصان و اطلاع از موضوعات تحقیقاتی به‌روز در زمینه علوم و مهندسی کامپیوتر، این فرصت را خواهید داشت تا در بحث‌های متنوع آکادمیک و صنعتی مشارکت کنید.

🎙افزون بر برنامه‌های فوق، کارگاه‌هایی با موضوعات یادگیری ماشین (ML)، مدل‌های زبانی بزرگ (LLM) و اینترنت اشیاء (IoT) نیز به صورت جداگانه برگزار خواهند شد که در صورت علاقه‌مندی می‌توانید با ثبت‌نام در هر یک از آن‌ها دانش خود را در این زمینه‌ها ارتقاء بخشید.

✔️برای دریافت اطلاعات بیشتر و ثبت‌نام به سایت رویداد مراجعه کنید:
🌐https://wss-sharif.com

▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️
🔗Zilink 🌐Telegram
🌐Instagram 🌐LinkedIn
🌐YouTube 🔗Twitter
☃️@WSS_SUT
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from شبکه داستانی عصبی (Blue Phoenix)
می‌دونستید LangChain یه بخشی داره به اسم PromptHub؟!
مثل HuggingFace ModelHub ولی برای پرامپت‌های LLM ها!!
پشمام!

https://smith.langchain.com/hub
Forwarded from Tensorflow(@CVision) (Alireza Akhavan)
Graph Convolutional Networks:
Unleashing the power of Deep Learning for Graph data

🗓زمان برگزاری (به صورت آنلاین): شنبه 28 بهمن ماه 1402
ساعت 17:30 الی 19

📍آدرس اتاق مجازی: https://vc.sharif.edu/ch/cognitive


@irandeeplearning | @cvision
حتما شما هم تا الان با اپراتور trace روی ماتریس آشنا شدین. ولی جدا از اینکه این اپراتور معادل مجموع عناصر روی قطر اصلی ماتریسه، چه معنی در عمل داره؟

https://youtu.be/B2PJh2K-jdU?si=C1BT6h22A74jwoi5
Forwarded from 10th W‌SS ☃️
💠کارگاه مدل‌های زبانی بزرگ | LLM Workshop

📆۲ تا ۹ اسفندماه
⬅️۸ جلسه
💻مجازی

💬در کارگاه مدل‌های زبانی بزرگ، تکنیک‌های یادگیری عمیق و پردازش زبان طبیعی با تمرکز بر کاربردهای عملی آموزش داده می‌شوند. شرکت‌کنندگان پس از حضور در جلسات کارگاه با ابزارهایی همچون PyTorch، روش‌هایی چون مکانیزم Attention و مدل‌های از پیش آموزش‌دیده‌ای مانند BERT و GPT آشنا می‌شوند. تمرینات عملی پیشنهادی نیز باعث تقویت فرآیند یادگیری در کارگاه‌ها خواهند شد.

📌این کارگاه در ۸ جلسه توسط دانش‌آموختگان دانشگاه صنعتی شریف به صورت مجازی برگزار می‌شود. کارگاه‌ها پیش از رویداد اصلی هستند و علاقه‌مندان باید جداگانه در هر کارگاه ثبت‌نام کنند. در صورت شرکت در این کارگاه گواهی حضور در کارگاه LLM در اختیار شما قرار خواهد گرفت.

✔️برای کسب اطلاعات بیشتر به صفحه‌ی کارگاه در سایت رویداد مراجعه کنید.


📆21 - 28 February
➡️8 sessions
💻Virtual

💬The workshop teaches Deep Learning (DL) and Natural Language Processing (NLP) techniques, focusing on practical applications. Participants learn about tools like PyTorch, Attention Mechanisms, and pre-trained models such as BERT and GPT. Recommended hands-on exercises throughout the workshop reinforce learning.

📌This workshop will be held online by graduates of Sharif University of Technology over 8 sessions. Workshops will be conducted before the event and those interested in participating should register for each workshop separately. By participating in this workshop, you will achieve the LLM Workshop Certificate.

✔️You can find additional details by visiting the Workshop Page on the event's website.

▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️
🌐 wss-sharif.com
🔗Zilink 🌐Telegram
🌐Instagram 🌐LinkedIn
🌐YouTube 🔗Twitter
☃️@WSS_SUT
Please open Telegram to view this post
VIEW IN TELEGRAM
سخنی طلایی از کارپثی بزرگ که حیف دیدم به اشتراک نذارم. من خودمم توی این حلقه باطل گیر افتادم و بهتره که تا زمانی که فرصتش هست راه رهایی رو پیدا کرد و فرار کرد ازش:

# on shortification of "learning"

There are a lot of videos on YouTube/TikTok etc. that give the appearance of education, but if you look closely they are really just entertainment. This is very convenient for everyone involved : the people watching enjoy thinking they are learning (but actually they are just having fun). The people creating this content also enjoy it because fun has a much larger audience, fame and revenue. But as far as learning goes, this is a trap. This content is an epsilon away from watching the Bachelorette. It's like snacking on those "Garden Veggie Straws", which feel like you're eating healthy vegetables until you look at the ingredients.

Learning is not supposed to be fun. It doesn't have to be actively not fun either, but the primary feeling should be that of effort. It should look a lot less like that "10 minute full body" workout from your local digital media creator and a lot more like a serious session at the gym. You want the mental equivalent of sweating. It's not that the quickie doesn't do anything, it's just that it is wildly suboptimal if you actually care to learn.

I find it helpful to explicitly declare your intent up front as a sharp, binary variable in your mind. If you are consuming content: are you trying to be entertained or are you trying to learn? And if you are creating content: are you trying to entertain or are you trying to teach? You'll go down a different path in each case. Attempts to seek the stuff in between actually clamp to zero.

So for those who actually want to learn. Unless you are trying to learn something narrow and specific, close those tabs with quick blog posts. Close those tabs of "Learn XYZ in 10 minutes". Consider the opportunity cost of snacking and seek the meal - the textbooks, docs, papers, manuals, longform. Allocate a 4 hour window. Don't just read, take notes, re-read, re-phrase, process, manipulate, learn.

And for those actually trying to educate, please consider writing/recording longform, designed for someone to get "sweaty", especially in today's era of quantity over quality. Give someone a real workout. This is what I aspire to in my own educational work too. My audience will decrease. The ones that remain might not even like it. But at least we'll learn something.
👌2
Forwarded from 10th W‌SS ☃️
💠آغاز ثبت‌نام نهمین دوره سری سمینارهای زمستانه (9th WSS)

📆زمان برگزاری: ۱۰ تا ۱۳ اسفندماه
🕰مهلت ثبت‌نام: تا ۴ اسفندماه
⚙️نحوه برگزاری: حضوری و مجازی
⬅️برگزارکننده: دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف

🏔سری سمینارهای زمستانه (WSS) هرساله اساتید و پژوهشگرانی برجسته از دانشگاه‌ها و شرکت‌های معتبر ایرانی و خارجی را گرد هم می‌آورد، تا دانش خود را در قالب سمینارها، لب‌تاک‌ها و میزگردها با شما به اشتراک بگذارند.

💬با حضور در این رویداد علاوه بر یادگیری از متخصصان و اطلاع از موضوعات تحقیقاتی به‌روز در زمینه علوم و مهندسی کامپیوتر، این فرصت را خواهید داشت تا در بحث‌های متنوع آکادمیک و صنعتی مشارکت کنید.

🎙افزون بر برنامه‌های فوق، کارگاه‌هایی با موضوعات یادگیری ماشین (ML)، مدل‌های زبانی بزرگ (LLM) و اینترنت اشیاء (IoT) نیز به صورت جداگانه برگزار خواهند شد که در صورت علاقه‌مندی می‌توانید با ثبت‌نام در هر یک از آن‌ها دانش خود را در این زمینه‌ها ارتقاء بخشید.

✔️برای دریافت اطلاعات بیشتر و ثبت‌نام به سایت رویداد مراجعه کنید:
🌐 wss-sharif.com

▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️
🔗Zilink 🌐Telegram
🌐Instagram 🌐LinkedIn
🌐YouTube 🔗Twitter
☃️@WSS_SUT
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.youtube.com/@lucidateAI/playlists

عجب کانالی! خصوصا پلی‌لیست Transformers & NLP رو توصیه می‌کنم. دید خوبی میده
🔥3
چت باتی برای ساده کردن فرایند نوشتن مقاله. ادعاهاشون جذاب به نظر میرسه اگه واقعا در عمل به همین شکل کار کنه :)

What is Yomu?

Our journey started with Sourcely, a research tool dedicated to finding references for essays. Responding to our users seeking more than finding citations, we have built Yomu AI: an AI-first writing assistant tailored for students and researchers.

Created by generative AI pioneers, expert web developers, and passionate designers. Guided by our student past, we built Yomu AI for today's scholars.


https://www.yomu.ai/about
👍1
یه ویدیو خیلی خوب با ساده‌سازی برای یاد گرفتن Vision Transformers یا به طور خلاصه‌تر ViT ها. اگه با مفهوم ترنسفورمر‌ها در متن آشنا باشین، خیلی در یادگیری این مدل خاص به مشکل نمیخورین :)

https://youtu.be/j3VNqtJUoz0?si=Q3k-A8gglVWVP-PW
3
Forwarded from DeepMind AI Expert (Farzad 🦅)
کورس کلاسی جدید از دانشگاه CMU

▪️ Neural code generation / Spring 2024
▪️ Foundations: Pretraining and scaling laws

#منابع #مقدماتی #کلاس_آموزشی

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
Media is too big
VIEW IN TELEGRAM
فیلم جلسه سخنرانی آقای مهندس علیرضا اخوان پور- Graph Neural Networks
در این بین که همگی در حال گذران آخر هفته بودیم، بچه‌های مایکروسافت، یه کار عجیب و باحال رو منتشر کردن که فقط میتونم بگم چه جالب :)

یکی از مفاهیمی که بعد از درخشش ChatGPT و باقی LLM ها خیلی برجسته شد، مفهوم Quantization برای افزایش سرعت inference و کاهش میزان حافظه مصرفی بود. به صورت پیش‌فرض، تمامی پارامترها ۳۲ بیتی هستند ولی میتونیم با کاهش دقت floating point و کاهش تعداد بیت مورد استفاده برای هر پارامتر شبکه، بدون از دست دادن چشمگیر performance اولیه، به مدلی سبک‌تر و سریع‌تر برای inference دست پیدا کنیم.

حالا بچه‌های مایکروسافت، پا رو فراتر گذاشتن و به دنبال این بودن که بررسی کنن که آیا با یک بیت به ازای هر پارامتر میتونیم تا چه حدی از performance اولیه رو حفظ کنیم. و خب تقریبا نتیجه قابل حدسه، عملکرد به شدت افت می‌کنه. ولی حرکت بعدی جالب و قابل توجه هست. میان این فرض رو در نظر میگیرند که به جای اینکه پارامترها رو به صورت تک bit داشته باشن، به صورت یک ternary bit در نظر گرفتن به صورتی که می‌تونه مقادیر {1, 0, 1-} رو به خودش بگیره و بعد از آموزش مدل با وزن های جدید، در نتیجه دیدن تا حد خوبی این روش در عین حال که مدل رو به شدت سبک و سریع میکنه، تونسته performance رو تا حد خوبی مشابه وزن های ۳۲ بیت نگه داره.

این حد از Quantization می‌تونه به شدت حجم و سرعت inference رو افزایش بده و دست ما رو برای اجرای این نوع از مدل‌ها روی هر دستگاهی باز بزاره. واقعا دستخوش

اگه دوست دارین بیشتر در رابطه با این مقاله بخونین، میتونین به لینک زیر سر بزنین تا جزییات کارایی که کردن رو خودتون بخونین.

https://huggingface.co/papers/2402.17764

https://www.linkedin.com/posts/andrew-iain-jardine_llm-llama2-llms-activity-7168989296845111299-D0pH
🔥3