Machine Learning NLP + CV
286 subscribers
223 photos
53 videos
42 files
474 links
مطالب مفید در حوزه های یادگیری ماشین و بینایی کامپیوتر
Download Telegram
فرصتی ایده‌آل برای دیده شدن طرح‌ها و ایده‌هایتان در حوزه هوش مصنوعی
فقط سه ۳ روز فرصت باقی‌ است.
طرح‌های برگزیده در فصل‌نامه مربوطه منتشر خواهد شد.
این رشته توییت نکات خیلی مهمی رو در مورد پیدا کردن کار در دنیای هوش مصنوعی میگه، اگر دنبال کار هستین یا به فکر تغییر شرکت هستین، حتما مطالعه کنید.

لینک رشته توییت

@ml_nlp_cv
این مقاله چند روزه منتشر شده با عنوان "چت‌بات‌ها بالاخره تست تورینگ را پاس کردند" و این‌که رفتار چت‌بات‌ها از average / میانگین انسان‌ها قابل تمایز نیست.

البته باید در نظر گرفت که این مدل‌ها بر روی اکثر دیتای اینترنت آموزش داده‌ شده‌اند. دیتایی که توسط آدمایی با ویژگی‌های متنوع تولید شده. پس دیدن چنین رفتاری از یک مدل زبانی خیلی هم عجیب نیست.

همچنین می‌دونیم رفتار این مدل‌ها به اون مراحل Instruction Tuning و RLHF (یا متد‌های دیگه‌ای که برای alignment این مدل‌ها استفاده می‌شه) که بعد از آموزش خود مدل زبانی خام انجام میشه کاملا حساس هستند و دیتایی که اون‌جا بهشون تحمیل میشه بخش بزرگی از رفتار این مدل‌ها رو تعیین می‌کنه. همچنین، تمام این رفتارها و نتایج تست‌ها که از مدل گرفتن، با تغییر پرامپت قبل سوال‌ها می‌تونه کاملا تغییر بکنه و رفتار به خصوصی را در مدل تقویت یا تضعیف کنه.

با این وجود این مقالات از دید افرادی که از قبل در فیلد ai بودند خیلی جالبه. از این لحاظ که می‌بینند آزمون تورینگ بالاخره بعد از چندین دهه داره پاس می‌شه !

https://www.pnas.org/doi/10.1073/pnas.2313925121
Forwarded from Onlinebme
Onlinebme-PyTorch-Optimizers.pdf
2.4 MB
☑️ مطالعه مروری روشهای بهینه‌سازی مبتنی بر گرادیان نزولی

💡روند تکامل گرادیان نزولی

⬛️ مباحثی که در این پست بررسی می‌کنیم:
    ▪️ یادگیری در شبکه عصبی
    ▫️تابع هزینه و نقش آن در یادگیری
    ▪️فلسفه گرادیان نزولی
    ▫️ محدودیت‌های گرادیان نزولی
    ▪️نرخ یادگیری متغیر با زمان
    ▫️گرادیان نزولی با ترم ممنتوم
    ▪️روش بهینه‌سازی AdaGrad
    ▫️روش بهینه‌سازی RMSprop
    ▪️روش بهینه‌سازی AdaDelta
    ▫️روش بهینه‌سازی Adam

🔘مطالعه در وبسایت
@Onlinebme
BV.pdf
6.2 MB
یک چیت‌شیت عالی برای یادگیری ماشین.

مفاهیم مختلف و بسیار مهمی نظیر نظریه بیز، مبادله بایاس واریانس، تنظیم، دسته‌بندی داده‌های نامتوازن، انواع رگرسیون، ساختارهای داده، شبکه‌های عصبی پیچشی و کلی مفهوم مهم و کلیدی دیگه رو پوشش داده و در انتها هم نکات مهمی در خصوص مصاحبه‌های کاری عرضه کرده. علی‌رغم صفحات کم، مطلب مفید زیادی رو شامل میشه.
@ml_nlp_cv
Forwarded from تاکچه
🛑 ارائه مجازی تاکچه با موضوع ریسرچ و مقاله‌نویسی

🔹پیپر (مقاله) نویسی چی هست و چطوریه؟ هر کسی میتونه پیپر بنویسه؟ اگه یه ایده دارم، چطور باید به پیپر تبدیلش کنم؟ چه کار باید بکنیم تا پیپرمون اکسپت شه؟ مقاله‌ها چطور داوری میشن؟ چطوری باید کنفرانس یا ژورنال معتبر مرتبط با فیلدمون رو پیدا کنیم؟
🔹اگه می‌خواین جواب این سوال‌ها رو بدونین، این تاک برای شماست!
🔹در این تاک، اول مفاهیم اولیه دنیای پیپرنویسی رو با هم یاد می‌گیریم
و بعد می‌بینیم که چطور میتونیم پیپرهای قبلی رو به شکل سیستماتیک مطالعه کرده و ایده‌ای که داریم رو به پیپر تبدیل و سابمیت کنیم.
🔹شرکت در این تاک به دانشجوهایی که می‌خوان فرایند ریسرچ و مقاله‌نویسی رو شروع کنن به شدت توصیه می‌شه :)

🔸 در این ارائه در خدمت پارسا نشایی، دانشجوی ورودی ۹۸ مقطع کارشناسی صنعتی شریف و ورودی ۰۲ مقطع دکتری EPFL هستیم.

زمان جلسه: سه‌شنبه ۲۱ فروردین، ساعت ۲۰

📍 محل ارائه مجازی: اتاق مجازی انجمن علمی

📆 اضافه کردن به تقویم گوگل

☕️ @cafe_ssc
📚 @ssc_talkche
مصاحبه فریدمن و آلتمن

دو هفته پیش لکس فریدمن مصاحبه‌ای با سم آلتمن داشت. مصاحبه طولانی هست و توش راجع به چیزهای مختلفی از قضیه اخراج از openai و رابطه‌اش با ilya sutskever گرفته تا GPT5 و AGI بحث شده. جایی که نظر من رو جلب کرد این تیکه بود:

Lex: can you speak to what Q-Star is?
Sam: we are not ready to talk about that

که نشون می‌ده که واقعا گویا خبرایی روی مدل Q-Star هست که قراره استدلال در سطح انسان داشته باشه.

یک جای دیگه هم فریدمن از آلتمن می‌پرسه که به نظرت کی به AGI می‌رسیم که آلتمن جواب می‌ده به نظرم در پایان این دهه یا زودتر شاید، به مدل‌هایی می‌رسیم که وقتی نگاهشون می‌کنیم می‌گیم wow این AGI هست. البته خود آلتمن هم می‌گه که AGI می‌تونه تعبیرهای متفاوت داشته باشه ولی اون چیزی که در ذهن من هست اینه که باید اولا هم تغییری در اقتصاد جهانی ایجاد کنه و هم این که بتونه فرآیند کشف‌های علمی رو تسریع ببخشه.

پ.ن: در این ویدئو هم عملکرد *Q توضیح داده شده.

@ml_nlp_cv
Forwarded from Machine Learning
2404.19756v2.pdf
12.3 MB
KAN:Kolmogorov–Arnold Networks

For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today's deep learning models which rely heavily on MLPs.

Telegram: https://t.iss.one/machine_learning_and_DL
بازگشت بعد از 30 سال، LSTM با قدرت برگشت!

⚠️ هفته گذشته یک مقاله ی جالبی منتشر شد. اگه محقق هستین پیشنهاد میشه حتما این مقاله رو دنبال کنید.

مدل #xLSTM ، نسخه جدیدی از #LSTM ، توسط Sepp Hochreiter، مخترع اصلی LSTM، منتشر شده که دارای نوآوری‌های مهمی هستش و در مقایسه با LSTM بهبودهای قابل توجهی داره، از جمله دروازه‌گذاری نمایی (sLSTM) و حافظه ماتریسی (mLSTM). این تغییرات باعث بهبود کارایی و عملکرد مدل شده.

رویکرد xLSTM میتونه رقیب مهمی برای #transformer باشه. اینا LSTM رو طوری توسعه دادن که قابلیت Scale شدن پیدا کنه. یعنی شبکه‌های LSTM بیلیون پارامتری هم داشته باشیم! مثل #LLM هایی که امروز استفاده میکنیم.

به‌صورت کلی، ساختار شبکه xLSTM در تصویر بالا نشون داده شده. سمت چپ که LSTM رو می‌بینید. با توسعه همون LSTM اصلی، دو تا Memory Cell با نام‌های sLSTM و mLSTM ساخته شده. وقتی sLSTM و mLSTM رو در ساختار Residual Block (همون شورتکات‌ها) قرار بدیم، xLSTM Block ساخته میشه. نهایتا با Stack کردن بلوک‌های xLSTM به معماری یا شبکه xLSTM می‌رسیم.
مقاله | گیتهاب | پیپرویدکد
@silicon_brain | از هوش مصنوعی عقب نمانید
Forwarded from Out of Distribution
توکنایزر‌ها چه قدر خوب شدند

مدل‌هایی مثل GPT و اینها با این که بعضا روی فارسی خیلی خوب جواب می‌دادند اما برای فارسی توکنایزر درست حسابی نداشتند، به این معنا که دنباله ورودی را به کاراکتر‌ها می‌شکستند و همین باعث می‌شد که هم بعضی اوقات جواب خوبی ندهند و هم به خاطر زیادشدن تعداد توکن‌ها هزینه اینفرنس گرفتن از آن‌ها زیاد شود. اما حالا مدل‌های جدید مثل Gemma و Llama3 به نظر توکنایزرهای فارسی‌فهم‌تر بهتری دارند و احتمالا به خاطر همین توکنایزرهای فارسی‌پذیرشان، عملکرد و آینده‌ بهتری در انتظار است.

از این جا می‌توانید امتحان کنید:
https://huggingface.co/spaces/Xenova/the-tokenizer-playground
Forwarded from PyTorch Howsam (Howsam Support)
تجربیات آرتین از سرویس‌های اجاره GPU داخلی و خارجی:

سلام، من سرویسای مختلفی رو برای اجاره GPU تست کردم و توی سرویس های ایرانی به مشکلات زیادی برخوردم که قبلا بهش اشاره شده.

ولی توی سرویس های خارجی، به نظرم اگه از کولب پرو استفاده میکنین، میتونید به جاش برید سراغ runpod

این سرویس هم قیمت کولب هست و سرویساش کلا pay as you go هست.

هم میتونید مدلاتونو باهاش هاست کنین، هم میتونین ازش GPU رو اجاره کنین و هم از طریق SSH هم یه سرور جوپیتر بهش دسترسی داشته باشین.
جای فایلاتونم همیشه محفوظه.

به نظرم ارزششو داره.