این رشته توییت نکات خیلی مهمی رو در مورد پیدا کردن کار در دنیای هوش مصنوعی میگه، اگر دنبال کار هستین یا به فکر تغییر شرکت هستین، حتما مطالعه کنید.
لینک رشته توییت
@ml_nlp_cv
لینک رشته توییت
@ml_nlp_cv
این مقاله چند روزه منتشر شده با عنوان "چتباتها بالاخره تست تورینگ را پاس کردند" و اینکه رفتار چتباتها از average / میانگین انسانها قابل تمایز نیست.
البته باید در نظر گرفت که این مدلها بر روی اکثر دیتای اینترنت آموزش داده شدهاند. دیتایی که توسط آدمایی با ویژگیهای متنوع تولید شده. پس دیدن چنین رفتاری از یک مدل زبانی خیلی هم عجیب نیست.
همچنین میدونیم رفتار این مدلها به اون مراحل Instruction Tuning و RLHF (یا متدهای دیگهای که برای alignment این مدلها استفاده میشه) که بعد از آموزش خود مدل زبانی خام انجام میشه کاملا حساس هستند و دیتایی که اونجا بهشون تحمیل میشه بخش بزرگی از رفتار این مدلها رو تعیین میکنه. همچنین، تمام این رفتارها و نتایج تستها که از مدل گرفتن، با تغییر پرامپت قبل سوالها میتونه کاملا تغییر بکنه و رفتار به خصوصی را در مدل تقویت یا تضعیف کنه.
با این وجود این مقالات از دید افرادی که از قبل در فیلد ai بودند خیلی جالبه. از این لحاظ که میبینند آزمون تورینگ بالاخره بعد از چندین دهه داره پاس میشه !
https://www.pnas.org/doi/10.1073/pnas.2313925121
البته باید در نظر گرفت که این مدلها بر روی اکثر دیتای اینترنت آموزش داده شدهاند. دیتایی که توسط آدمایی با ویژگیهای متنوع تولید شده. پس دیدن چنین رفتاری از یک مدل زبانی خیلی هم عجیب نیست.
همچنین میدونیم رفتار این مدلها به اون مراحل Instruction Tuning و RLHF (یا متدهای دیگهای که برای alignment این مدلها استفاده میشه) که بعد از آموزش خود مدل زبانی خام انجام میشه کاملا حساس هستند و دیتایی که اونجا بهشون تحمیل میشه بخش بزرگی از رفتار این مدلها رو تعیین میکنه. همچنین، تمام این رفتارها و نتایج تستها که از مدل گرفتن، با تغییر پرامپت قبل سوالها میتونه کاملا تغییر بکنه و رفتار به خصوصی را در مدل تقویت یا تضعیف کنه.
با این وجود این مقالات از دید افرادی که از قبل در فیلد ai بودند خیلی جالبه. از این لحاظ که میبینند آزمون تورینگ بالاخره بعد از چندین دهه داره پاس میشه !
https://www.pnas.org/doi/10.1073/pnas.2313925121
Forwarded from Onlinebme
Onlinebme-PyTorch-Optimizers.pdf
2.4 MB
☑️ مطالعه مروری روشهای بهینهسازی مبتنی بر گرادیان نزولی
💡روند تکامل گرادیان نزولی
⬛️ مباحثی که در این پست بررسی میکنیم:
▪️ یادگیری در شبکه عصبی
▫️تابع هزینه و نقش آن در یادگیری
▪️فلسفه گرادیان نزولی
▫️ محدودیتهای گرادیان نزولی
▪️نرخ یادگیری متغیر با زمان
▫️گرادیان نزولی با ترم ممنتوم
▪️روش بهینهسازی AdaGrad
▫️روش بهینهسازی RMSprop
▪️روش بهینهسازی AdaDelta
▫️روش بهینهسازی Adam
🔘مطالعه در وبسایت
@Onlinebme
💡روند تکامل گرادیان نزولی
⬛️ مباحثی که در این پست بررسی میکنیم:
▪️ یادگیری در شبکه عصبی
▫️تابع هزینه و نقش آن در یادگیری
▪️فلسفه گرادیان نزولی
▫️ محدودیتهای گرادیان نزولی
▪️نرخ یادگیری متغیر با زمان
▫️گرادیان نزولی با ترم ممنتوم
▪️روش بهینهسازی AdaGrad
▫️روش بهینهسازی RMSprop
▪️روش بهینهسازی AdaDelta
▫️روش بهینهسازی Adam
🔘مطالعه در وبسایت
@Onlinebme
BV.pdf
6.2 MB
یک چیتشیت عالی برای یادگیری ماشین.
مفاهیم مختلف و بسیار مهمی نظیر نظریه بیز، مبادله بایاس واریانس، تنظیم، دستهبندی دادههای نامتوازن، انواع رگرسیون، ساختارهای داده، شبکههای عصبی پیچشی و کلی مفهوم مهم و کلیدی دیگه رو پوشش داده و در انتها هم نکات مهمی در خصوص مصاحبههای کاری عرضه کرده. علیرغم صفحات کم، مطلب مفید زیادی رو شامل میشه.
@ml_nlp_cv
مفاهیم مختلف و بسیار مهمی نظیر نظریه بیز، مبادله بایاس واریانس، تنظیم، دستهبندی دادههای نامتوازن، انواع رگرسیون، ساختارهای داده، شبکههای عصبی پیچشی و کلی مفهوم مهم و کلیدی دیگه رو پوشش داده و در انتها هم نکات مهمی در خصوص مصاحبههای کاری عرضه کرده. علیرغم صفحات کم، مطلب مفید زیادی رو شامل میشه.
@ml_nlp_cv
Forwarded from تاکچه
🛑 ارائه مجازی تاکچه با موضوع ریسرچ و مقالهنویسی
🔹پیپر (مقاله) نویسی چی هست و چطوریه؟ هر کسی میتونه پیپر بنویسه؟ اگه یه ایده دارم، چطور باید به پیپر تبدیلش کنم؟ چه کار باید بکنیم تا پیپرمون اکسپت شه؟ مقالهها چطور داوری میشن؟ چطوری باید کنفرانس یا ژورنال معتبر مرتبط با فیلدمون رو پیدا کنیم؟
🔹اگه میخواین جواب این سوالها رو بدونین، این تاک برای شماست!
🔹در این تاک، اول مفاهیم اولیه دنیای پیپرنویسی رو با هم یاد میگیریم
و بعد میبینیم که چطور میتونیم پیپرهای قبلی رو به شکل سیستماتیک مطالعه کرده و ایدهای که داریم رو به پیپر تبدیل و سابمیت کنیم.
🔹شرکت در این تاک به دانشجوهایی که میخوان فرایند ریسرچ و مقالهنویسی رو شروع کنن به شدت توصیه میشه :)
🔸 در این ارائه در خدمت پارسا نشایی، دانشجوی ورودی ۹۸ مقطع کارشناسی صنعتی شریف و ورودی ۰۲ مقطع دکتری EPFL هستیم.
⏳ زمان جلسه: سهشنبه ۲۱ فروردین، ساعت ۲۰
📍 محل ارائه مجازی: اتاق مجازی انجمن علمی
📆 اضافه کردن به تقویم گوگل
☕️ @cafe_ssc
📚 @ssc_talkche
🔹پیپر (مقاله) نویسی چی هست و چطوریه؟ هر کسی میتونه پیپر بنویسه؟ اگه یه ایده دارم، چطور باید به پیپر تبدیلش کنم؟ چه کار باید بکنیم تا پیپرمون اکسپت شه؟ مقالهها چطور داوری میشن؟ چطوری باید کنفرانس یا ژورنال معتبر مرتبط با فیلدمون رو پیدا کنیم؟
🔹اگه میخواین جواب این سوالها رو بدونین، این تاک برای شماست!
🔹در این تاک، اول مفاهیم اولیه دنیای پیپرنویسی رو با هم یاد میگیریم
و بعد میبینیم که چطور میتونیم پیپرهای قبلی رو به شکل سیستماتیک مطالعه کرده و ایدهای که داریم رو به پیپر تبدیل و سابمیت کنیم.
🔹شرکت در این تاک به دانشجوهایی که میخوان فرایند ریسرچ و مقالهنویسی رو شروع کنن به شدت توصیه میشه :)
🔸 در این ارائه در خدمت پارسا نشایی، دانشجوی ورودی ۹۸ مقطع کارشناسی صنعتی شریف و ورودی ۰۲ مقطع دکتری EPFL هستیم.
⏳ زمان جلسه: سهشنبه ۲۱ فروردین، ساعت ۲۰
📍 محل ارائه مجازی: اتاق مجازی انجمن علمی
📆 اضافه کردن به تقویم گوگل
☕️ @cafe_ssc
📚 @ssc_talkche
مصاحبه فریدمن و آلتمن
دو هفته پیش لکس فریدمن مصاحبهای با سم آلتمن داشت. مصاحبه طولانی هست و توش راجع به چیزهای مختلفی از قضیه اخراج از openai و رابطهاش با ilya sutskever گرفته تا GPT5 و AGI بحث شده. جایی که نظر من رو جلب کرد این تیکه بود:
Lex: can you speak to what Q-Star is?
Sam: we are not ready to talk about that
که نشون میده که واقعا گویا خبرایی روی مدل Q-Star هست که قراره استدلال در سطح انسان داشته باشه.
یک جای دیگه هم فریدمن از آلتمن میپرسه که به نظرت کی به AGI میرسیم که آلتمن جواب میده به نظرم در پایان این دهه یا زودتر شاید، به مدلهایی میرسیم که وقتی نگاهشون میکنیم میگیم wow این AGI هست. البته خود آلتمن هم میگه که AGI میتونه تعبیرهای متفاوت داشته باشه ولی اون چیزی که در ذهن من هست اینه که باید اولا هم تغییری در اقتصاد جهانی ایجاد کنه و هم این که بتونه فرآیند کشفهای علمی رو تسریع ببخشه.
پ.ن: در این ویدئو هم عملکرد *Q توضیح داده شده.
@ml_nlp_cv
دو هفته پیش لکس فریدمن مصاحبهای با سم آلتمن داشت. مصاحبه طولانی هست و توش راجع به چیزهای مختلفی از قضیه اخراج از openai و رابطهاش با ilya sutskever گرفته تا GPT5 و AGI بحث شده. جایی که نظر من رو جلب کرد این تیکه بود:
Lex: can you speak to what Q-Star is?
Sam: we are not ready to talk about that
که نشون میده که واقعا گویا خبرایی روی مدل Q-Star هست که قراره استدلال در سطح انسان داشته باشه.
یک جای دیگه هم فریدمن از آلتمن میپرسه که به نظرت کی به AGI میرسیم که آلتمن جواب میده به نظرم در پایان این دهه یا زودتر شاید، به مدلهایی میرسیم که وقتی نگاهشون میکنیم میگیم wow این AGI هست. البته خود آلتمن هم میگه که AGI میتونه تعبیرهای متفاوت داشته باشه ولی اون چیزی که در ذهن من هست اینه که باید اولا هم تغییری در اقتصاد جهانی ایجاد کنه و هم این که بتونه فرآیند کشفهای علمی رو تسریع ببخشه.
پ.ن: در این ویدئو هم عملکرد *Q توضیح داده شده.
@ml_nlp_cv
YouTube
Sam Altman: OpenAI, GPT-5, Sora, Board Saga, Elon Musk, Ilya, Power & AGI | Lex Fridman Podcast #419
Sam Altman is the CEO of OpenAI, the company behind GPT-4, ChatGPT, Sora, and many other state-of-the-art AI technologies. Please support this podcast by checking out our sponsors:
- Cloaked: https://cloaked.com/lex and use code LexPod to get 25% off
- Shopify:…
- Cloaked: https://cloaked.com/lex and use code LexPod to get 25% off
- Shopify:…
Forwarded from Machine Learning
2404.19756v2.pdf
12.3 MB
KAN:Kolmogorov–Arnold Networks
For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today's deep learning models which rely heavily on MLPs.
✅ Telegram: https://t.iss.one/machine_learning_and_DL
For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today's deep learning models which rely heavily on MLPs.
✅ Telegram: https://t.iss.one/machine_learning_and_DL
Forwarded from video_aut
Forwarded from Silicon Brain | جامعه هوش مصنوعی
بازگشت بعد از 30 سال، LSTM با قدرت برگشت!
⚠️ هفته گذشته یک مقاله ی جالبی منتشر شد. اگه محقق هستین پیشنهاد میشه حتما این مقاله رو دنبال کنید.
مدل #xLSTM ، نسخه جدیدی از #LSTM ، توسط Sepp Hochreiter، مخترع اصلی LSTM، منتشر شده که دارای نوآوریهای مهمی هستش و در مقایسه با LSTM بهبودهای قابل توجهی داره، از جمله دروازهگذاری نمایی (sLSTM) و حافظه ماتریسی (mLSTM). این تغییرات باعث بهبود کارایی و عملکرد مدل شده.
رویکرد xLSTM میتونه رقیب مهمی برای #transformer باشه. اینا LSTM رو طوری توسعه دادن که قابلیت Scale شدن پیدا کنه. یعنی شبکههای LSTM بیلیون پارامتری هم داشته باشیم! مثل #LLM هایی که امروز استفاده میکنیم.
بهصورت کلی، ساختار شبکه xLSTM در تصویر بالا نشون داده شده. سمت چپ که LSTM رو میبینید. با توسعه همون LSTM اصلی، دو تا Memory Cell با نامهای sLSTM و mLSTM ساخته شده. وقتی sLSTM و mLSTM رو در ساختار Residual Block (همون شورتکاتها) قرار بدیم، xLSTM Block ساخته میشه. نهایتا با Stack کردن بلوکهای xLSTM به معماری یا شبکه xLSTM میرسیم.
مقاله | گیتهاب | پیپرویدکد
@silicon_brain | از هوش مصنوعی عقب نمانید
⚠️ هفته گذشته یک مقاله ی جالبی منتشر شد. اگه محقق هستین پیشنهاد میشه حتما این مقاله رو دنبال کنید.
مدل #xLSTM ، نسخه جدیدی از #LSTM ، توسط Sepp Hochreiter، مخترع اصلی LSTM، منتشر شده که دارای نوآوریهای مهمی هستش و در مقایسه با LSTM بهبودهای قابل توجهی داره، از جمله دروازهگذاری نمایی (sLSTM) و حافظه ماتریسی (mLSTM). این تغییرات باعث بهبود کارایی و عملکرد مدل شده.
رویکرد xLSTM میتونه رقیب مهمی برای #transformer باشه. اینا LSTM رو طوری توسعه دادن که قابلیت Scale شدن پیدا کنه. یعنی شبکههای LSTM بیلیون پارامتری هم داشته باشیم! مثل #LLM هایی که امروز استفاده میکنیم.
بهصورت کلی، ساختار شبکه xLSTM در تصویر بالا نشون داده شده. سمت چپ که LSTM رو میبینید. با توسعه همون LSTM اصلی، دو تا Memory Cell با نامهای sLSTM و mLSTM ساخته شده. وقتی sLSTM و mLSTM رو در ساختار Residual Block (همون شورتکاتها) قرار بدیم، xLSTM Block ساخته میشه. نهایتا با Stack کردن بلوکهای xLSTM به معماری یا شبکه xLSTM میرسیم.
مقاله | گیتهاب | پیپرویدکد
@silicon_brain | از هوش مصنوعی عقب نمانید
https://www.youtube.com/watch?v=y8NtMZ7VGmU&t=1s
(1) With Spatial Intelligence, AI Will Understand the Real World | Fei-Fei Li | TED - YouTube
(1) With Spatial Intelligence, AI Will Understand the Real World | Fei-Fei Li | TED - YouTube
YouTube
With Spatial Intelligence, AI Will Understand the Real World | Fei-Fei Li | TED
In the beginning of the universe, all was darkness — until the first organisms developed sight, which ushered in an explosion of life, learning and progress. AI pioneer Fei-Fei Li says a similar moment is about to happen for computers and robots. She shows…
Forwarded from Out of Distribution
توکنایزرها چه قدر خوب شدند
مدلهایی مثل GPT و اینها با این که بعضا روی فارسی خیلی خوب جواب میدادند اما برای فارسی توکنایزر درست حسابی نداشتند، به این معنا که دنباله ورودی را به کاراکترها میشکستند و همین باعث میشد که هم بعضی اوقات جواب خوبی ندهند و هم به خاطر زیادشدن تعداد توکنها هزینه اینفرنس گرفتن از آنها زیاد شود. اما حالا مدلهای جدید مثل Gemma و Llama3 به نظر توکنایزرهای فارسیفهمتر بهتری دارند و احتمالا به خاطر همین توکنایزرهای فارسیپذیرشان، عملکرد و آینده بهتری در انتظار است.
از این جا میتوانید امتحان کنید:
https://huggingface.co/spaces/Xenova/the-tokenizer-playground
مدلهایی مثل GPT و اینها با این که بعضا روی فارسی خیلی خوب جواب میدادند اما برای فارسی توکنایزر درست حسابی نداشتند، به این معنا که دنباله ورودی را به کاراکترها میشکستند و همین باعث میشد که هم بعضی اوقات جواب خوبی ندهند و هم به خاطر زیادشدن تعداد توکنها هزینه اینفرنس گرفتن از آنها زیاد شود. اما حالا مدلهای جدید مثل Gemma و Llama3 به نظر توکنایزرهای فارسیفهمتر بهتری دارند و احتمالا به خاطر همین توکنایزرهای فارسیپذیرشان، عملکرد و آینده بهتری در انتظار است.
از این جا میتوانید امتحان کنید:
https://huggingface.co/spaces/Xenova/the-tokenizer-playground
Forwarded from PyTorch Howsam (Howsam Support)
تجربیات آرتین از سرویسهای اجاره GPU داخلی و خارجی:
سلام، من سرویسای مختلفی رو برای اجاره GPU تست کردم و توی سرویس های ایرانی به مشکلات زیادی برخوردم که قبلا بهش اشاره شده.
ولی توی سرویس های خارجی، به نظرم اگه از کولب پرو استفاده میکنین، میتونید به جاش برید سراغ runpod
این سرویس هم قیمت کولب هست و سرویساش کلا pay as you go هست.
هم میتونید مدلاتونو باهاش هاست کنین، هم میتونین ازش GPU رو اجاره کنین و هم از طریق SSH هم یه سرور جوپیتر بهش دسترسی داشته باشین.
جای فایلاتونم همیشه محفوظه.
به نظرم ارزششو داره.