خبر دارید دیگه؟!
ابزاری بنام Cursor برای کدنویسی به کمک هوش مصنوعی معرفی شده که خیلی خیلی مورد توجه قرار گرفته. در واقع، رقیب Microsoft Copoliot هست. البته، به نظر میرسه کوپایلت رو ضربه فنی کرده!
بعد از نصب این ابزار، یک محیطی مشابه با VSCode براتون باز میشه که کلی امکانات داره. تصویر بالا رو ببینید...
مثلا، شبیه کولب یا کوپایلت بهتون کد پیشنهاد میده و شما با TAB توی کد خودتون اپلای میکنید.
همچنین، میتونید باهاش چت کنید (باکس آبی) و بهش بگید چی میخواید. اون هم کدی میده که میتونید روی کد خودتون اپلای کنید. نکته جالبش این هست که کد شما در فایل پایتونی رو میبینه و براساس چت و درخواست شما کدهاتون رو تغییر میده!
توی X (توییتر سابق) ویدئوهایی دیدم که بچههای کوچیک (8 9 ساله) با همین ابزار یک اپ (مثلا چت بات ساده) ساختن.
سه تا پلن داره که پلن اولش رایگانه. پلن بعدی که احتمالا برای خیلی از ماها کافی باشه، 20 دلار قیمتش هست. توی تصویر میتونید ببینید که فارسی هم ساپورت میکنه. نسخه ویندوز هم داره و به راحتی نصب میشه.
برای نصب به سایت cursor.com برید. حتما باهاش کار کنید...
@pytorch_howsam
ابزاری بنام Cursor برای کدنویسی به کمک هوش مصنوعی معرفی شده که خیلی خیلی مورد توجه قرار گرفته. در واقع، رقیب Microsoft Copoliot هست. البته، به نظر میرسه کوپایلت رو ضربه فنی کرده!
بعد از نصب این ابزار، یک محیطی مشابه با VSCode براتون باز میشه که کلی امکانات داره. تصویر بالا رو ببینید...
مثلا، شبیه کولب یا کوپایلت بهتون کد پیشنهاد میده و شما با TAB توی کد خودتون اپلای میکنید.
همچنین، میتونید باهاش چت کنید (باکس آبی) و بهش بگید چی میخواید. اون هم کدی میده که میتونید روی کد خودتون اپلای کنید. نکته جالبش این هست که کد شما در فایل پایتونی رو میبینه و براساس چت و درخواست شما کدهاتون رو تغییر میده!
توی X (توییتر سابق) ویدئوهایی دیدم که بچههای کوچیک (8 9 ساله) با همین ابزار یک اپ (مثلا چت بات ساده) ساختن.
سه تا پلن داره که پلن اولش رایگانه. پلن بعدی که احتمالا برای خیلی از ماها کافی باشه، 20 دلار قیمتش هست. توی تصویر میتونید ببینید که فارسی هم ساپورت میکنه. نسخه ویندوز هم داره و به راحتی نصب میشه.
برای نصب به سایت cursor.com برید. حتما باهاش کار کنید...
@pytorch_howsam
Forwarded from Deep Mind (SAD)
مدل های o1🍓 و کنکور ریاضی!
دیشب ۱۲ سپتامبر شرکت OpenAI سری جدید مدل های خودش رو با نام o1 معرفی کرد، این مدل ها با یه ویژگی خاص طراحی شده ان، اینکه قبل از پاسخ دادن فکر کنن.
اما چطوری؟ راز این مدل ها استدلال زنجیره ای آن ها یا CoT-Reasoning هست.
اما Chain of Tought یا CoT(استدلال زنجیره ای) دقیقا چیه؟
مدلهای فعلی مثل سری GPT به صورت end-to-end کار میکنن، یعنی ورودی رو به خروجی تبدیل میکنن بدون اینکه خیلی بهش فکر کنن. این به معنی اینه که به سرعت جواب میدن بدون اینکه فرآیند استدلالی پشت جواب رو نشون بدن.
این روش چند مشکل داره:
۱. خیلی از مسائل نیاز به چند مرحله محاسبه یا استدلال دارن که مدلهای عادی ممکنه نتونن همه این مراحل رو در یک گام انجام بدن.
۲. چون مدل مستقیم به خروجی میرسه بدون اینکه استدلال کنه، در مسائل پیچیده احتمال رسیدن به جواب درست کمتر میشه و دقت مدل پایین میاد.
۳. ما نمیدونیم مدل چطور به جواب رسیده و شفافیتی در منطق استفاده شده برای تولید جواب وجود نداره.
اما در استدلال زنجیرهای، مدل به جای اینکه جواب نهایی رو فوری تولید کنه، مراحل مختلفی رو که شامل فرآیند فکر کردن هستن به صورت زنجیرهای تولید میکنه. یعنی مسئله رو به بخشهای کوچکتر تقسیم میکنه و هر بخش رو جداگانه پردازش میکنه و این مراحل رو گام به گام پیش میبره. این شبیه به کاریه که انسان برای حل مسائل پیچیده انجام میده، یعنی تبدیل مسئله به بخشهای کوچکتر و حل مرحله به مرحله.
این روش مشکلات بالا رو حل میکنه چون با پردازش مسئله به صورت گام به گام، هر مرحله به طور مجزا مدیریت میشه و احتمال خطا و از دست دادن اطلاعات مهم کم میشه. همچنین، استدلال استفاده شده توسط مدل به صورت شفاف قابل مشاهده است و ما میفهمیم که چرا مدل به این جواب رسیده.
پس در استدلال زنجیرهای، ورودی اولیه به مدل داده میشه و مدل به جای تولید جواب فوری، ورودی رو به اجزای مختلف تقسیم میکنه. این اجزا به مدل کمک میکنن که استدلالش رو به طور شفافتر و به صورت مرحله به مرحله بیان کنه و به نتایج دقیقتر و بهتری برسه.
تیم OpenAI گفته که هرچی مدل تایم بیشتری رو به فکر کردن اختصاص بده، نتایج بهتری به دست میاد.
این مدل ها که در دو نسخه preview و mini برای حل مسائل سخت و پیچیده علمی و کد نویسی منتشر شدن، عملکرد خوبی نشون دادن.
مدل mini سریعتره و تو کد نویسی عملکرد خوبی داره.
مدل preview مدل بزرگتر و قوی تر هست که پیشرفت چشمگیری نسبت به GPT-4o داشته و توی بنچمارک هایی که خود تیم OpenAI انجام داده، پیشرفت های خیلی بزرگی تو زمینه های علمی به خصوص ریاضیات صورت گرفته، به عنوان مثال:
مدل GPT-4o تونسته به 13 درصد سوالات المپیاد جهانی ریاضیات پاسخ بده اما o1-preview تونسته به 56 درصد سوالات پاسخ بده که خیلی خفنه!
جالبه بدونید مدل اصلی سری یعنی خود o1 به 83 درصد سوالات پاسخ داده!
همچنین این مدل ها تونستن به سطح دانش اموزان PhD در علوم فیزیک، شیمی و زیست شناسی برسن!
در سوالات برنامه نویسی رقابتی جزو 89 درصد برتر واقع شده !
یکی از دوستان زحمت کشیدن سوالات کنکور ریاضی امسال رو به مدل preview دادن و مدل موفق شده بعد از 9 دقیقه به تمام سوالات پاسخ صحیح بده!
دسترسی این مدل ها فعلا فقط برای بخش محدودی از کاربران ChatGPT Plus به صورت خیلی محدود باز شده، تعداد پیام های مجاز نسخه preview 30 پیام در هفته ست و مدل mini ، 50 پیام در هفته که عدد خیلی کمی هست.
همچنین از طریق API هم این مدل ها به صورت محدود(20 ریکوست در ثانیه) فقط برای کاربران سطح 5 (tier 5) قابل دسترسی هست یعنی کاربرانی که حداقل هزار دلار استفاده از API داشته اند.
قیمت استفاده از این مدل ها در API هم زیاد هست و به ازای 1 میلیون توکن ورودی و خروجی مدل preview به ترتیب باید 15 و 60 دلار پرداخت کنین و برای مدل mini به ترتیب 3 و 12 دلار باید پرداخت کنین که 80 درصد نسبت به مدل preview ارزون تر هست.
شرکت OpenAI اعلام کرده که قراره مدل مینی به صورت رایگان در دسترس همه کاربرا قرار بگیره که خبر خوبیه.
دیشب ۱۲ سپتامبر شرکت OpenAI سری جدید مدل های خودش رو با نام o1 معرفی کرد، این مدل ها با یه ویژگی خاص طراحی شده ان، اینکه قبل از پاسخ دادن فکر کنن.
اما چطوری؟ راز این مدل ها استدلال زنجیره ای آن ها یا CoT-Reasoning هست.
اما Chain of Tought یا CoT(استدلال زنجیره ای) دقیقا چیه؟
مدلهای فعلی مثل سری GPT به صورت end-to-end کار میکنن، یعنی ورودی رو به خروجی تبدیل میکنن بدون اینکه خیلی بهش فکر کنن. این به معنی اینه که به سرعت جواب میدن بدون اینکه فرآیند استدلالی پشت جواب رو نشون بدن.
این روش چند مشکل داره:
۱. خیلی از مسائل نیاز به چند مرحله محاسبه یا استدلال دارن که مدلهای عادی ممکنه نتونن همه این مراحل رو در یک گام انجام بدن.
۲. چون مدل مستقیم به خروجی میرسه بدون اینکه استدلال کنه، در مسائل پیچیده احتمال رسیدن به جواب درست کمتر میشه و دقت مدل پایین میاد.
۳. ما نمیدونیم مدل چطور به جواب رسیده و شفافیتی در منطق استفاده شده برای تولید جواب وجود نداره.
اما در استدلال زنجیرهای، مدل به جای اینکه جواب نهایی رو فوری تولید کنه، مراحل مختلفی رو که شامل فرآیند فکر کردن هستن به صورت زنجیرهای تولید میکنه. یعنی مسئله رو به بخشهای کوچکتر تقسیم میکنه و هر بخش رو جداگانه پردازش میکنه و این مراحل رو گام به گام پیش میبره. این شبیه به کاریه که انسان برای حل مسائل پیچیده انجام میده، یعنی تبدیل مسئله به بخشهای کوچکتر و حل مرحله به مرحله.
این روش مشکلات بالا رو حل میکنه چون با پردازش مسئله به صورت گام به گام، هر مرحله به طور مجزا مدیریت میشه و احتمال خطا و از دست دادن اطلاعات مهم کم میشه. همچنین، استدلال استفاده شده توسط مدل به صورت شفاف قابل مشاهده است و ما میفهمیم که چرا مدل به این جواب رسیده.
پس در استدلال زنجیرهای، ورودی اولیه به مدل داده میشه و مدل به جای تولید جواب فوری، ورودی رو به اجزای مختلف تقسیم میکنه. این اجزا به مدل کمک میکنن که استدلالش رو به طور شفافتر و به صورت مرحله به مرحله بیان کنه و به نتایج دقیقتر و بهتری برسه.
تیم OpenAI گفته که هرچی مدل تایم بیشتری رو به فکر کردن اختصاص بده، نتایج بهتری به دست میاد.
این مدل ها که در دو نسخه preview و mini برای حل مسائل سخت و پیچیده علمی و کد نویسی منتشر شدن، عملکرد خوبی نشون دادن.
مدل mini سریعتره و تو کد نویسی عملکرد خوبی داره.
مدل preview مدل بزرگتر و قوی تر هست که پیشرفت چشمگیری نسبت به GPT-4o داشته و توی بنچمارک هایی که خود تیم OpenAI انجام داده، پیشرفت های خیلی بزرگی تو زمینه های علمی به خصوص ریاضیات صورت گرفته، به عنوان مثال:
مدل GPT-4o تونسته به 13 درصد سوالات المپیاد جهانی ریاضیات پاسخ بده اما o1-preview تونسته به 56 درصد سوالات پاسخ بده که خیلی خفنه!
جالبه بدونید مدل اصلی سری یعنی خود o1 به 83 درصد سوالات پاسخ داده!
همچنین این مدل ها تونستن به سطح دانش اموزان PhD در علوم فیزیک، شیمی و زیست شناسی برسن!
در سوالات برنامه نویسی رقابتی جزو 89 درصد برتر واقع شده !
یکی از دوستان زحمت کشیدن سوالات کنکور ریاضی امسال رو به مدل preview دادن و مدل موفق شده بعد از 9 دقیقه به تمام سوالات پاسخ صحیح بده!
دسترسی این مدل ها فعلا فقط برای بخش محدودی از کاربران ChatGPT Plus به صورت خیلی محدود باز شده، تعداد پیام های مجاز نسخه preview 30 پیام در هفته ست و مدل mini ، 50 پیام در هفته که عدد خیلی کمی هست.
همچنین از طریق API هم این مدل ها به صورت محدود(20 ریکوست در ثانیه) فقط برای کاربران سطح 5 (tier 5) قابل دسترسی هست یعنی کاربرانی که حداقل هزار دلار استفاده از API داشته اند.
قیمت استفاده از این مدل ها در API هم زیاد هست و به ازای 1 میلیون توکن ورودی و خروجی مدل preview به ترتیب باید 15 و 60 دلار پرداخت کنین و برای مدل mini به ترتیب 3 و 12 دلار باید پرداخت کنین که 80 درصد نسبت به مدل preview ارزون تر هست.
شرکت OpenAI اعلام کرده که قراره مدل مینی به صورت رایگان در دسترس همه کاربرا قرار بگیره که خبر خوبیه.
امروز، به خاطر یک ماجرایی درگیر Knowledge Distillation یا KD شدم. سرچ کردم و به یک Tutorial خیلی خوب در سایت پایتورچ برخوردم. چند نوع KD رو اجرا کرده، مثلا از نوع دستهبندی، رگرسیون، درگیر کردن لایههای میانی و ...
من در خیلی از کارها مثل مقاله و کار از این KD استفاده کردم و توی دورههای مختلف مثل دیپ لرنینگ و کامپیوتر ویژن هم آموزش دادم. کلا، تکنیک ساده، جذاب و کارآمدی هست. حتی، الان توی آموزش شبکههای بزرگ هم استفاده میشه. تا الان این نوتبوک آموزشی رو توی پایتورچ ندیده بودم. فکر کنم جدید باشه...
لینک
یه ویدئو درمورد KD ضبط کنیم تو یوتوب بذاریم نه؟! 🤔
آپدیت: دمتون گرم که استقبال کردید. چشم، ضبط یک آموزش برای KD در یوتوب رو گذاشتم توی برنامه...
@pytorch_howsam
من در خیلی از کارها مثل مقاله و کار از این KD استفاده کردم و توی دورههای مختلف مثل دیپ لرنینگ و کامپیوتر ویژن هم آموزش دادم. کلا، تکنیک ساده، جذاب و کارآمدی هست. حتی، الان توی آموزش شبکههای بزرگ هم استفاده میشه. تا الان این نوتبوک آموزشی رو توی پایتورچ ندیده بودم. فکر کنم جدید باشه...
لینک
یه ویدئو درمورد KD ضبط کنیم تو یوتوب بذاریم نه؟! 🤔
آپدیت: دمتون گرم که استقبال کردید. چشم، ضبط یک آموزش برای KD در یوتوب رو گذاشتم توی برنامه...
@pytorch_howsam
Super Study Guide: Transformers & Large Language Models
نظرهای مثبتی درباره این کتاب در اینترنت دیدم. رویکرد کتاب این هست که خیلی خلاصه و با شکلهای مختلف مباحث ترنسفورمر و LLM رو آموزش بده. من این کتاب رو نخوندم و فقط فهرست مطالب این کتاب رو دیدم. دوست دارم بیشتر بررسیش کنم.
کلا 200 صفحه هست و پنج بخش اصلی این کتاب اینها هستن:
1- شبکه عصبی
2- امبدینگ
3- ترنسفورمر
4- مدلهای زبانی بزرگ (LLM)
5- کاربردها
نویسندههای این کتاب Afshine Amidi و Shervine Amidi هستن. شاید بشناسید. چیتشیتهای پرطرفداری در حوزه هوش مصنوعی ساختن. مثلا، این چیتشیت Recurrent Neural Networks. چیتشیتهاشون رو از صفحه گوگل اسکالرشون میتونید دانلود کنید.
@pytorch_howsam
کتاب Hands-on LLMs از آقای Jay Alammar
اخیرا این کتاب معرفی شده و مطابق انتظار با استقبال خوبی مواجه شده. آقای Jay Alammar رو هم احتمالا میشناسید دیگه! همون کسی که بلاگ پستهای آموزشی با شکلها و انیمیشنهای متنوع داره. این کتاب هم پر از شکلهای جالب هست که فهم مطالب رو برای مخاطب ساده میکنه. فهرست مطالب و یک نمونه شکل ساده از فصل اول کتاب رو براتون گذاشتم.
امسال چند تا کتاب خوب درباره LLM از افراد معتبر معرفی کردم:
* کتاب Afshine & Shervine Amidi
* کتاب Louis-François Bouchard
* کتاب Sebastian Raschka
@pytorch_howsam
اخیرا این کتاب معرفی شده و مطابق انتظار با استقبال خوبی مواجه شده. آقای Jay Alammar رو هم احتمالا میشناسید دیگه! همون کسی که بلاگ پستهای آموزشی با شکلها و انیمیشنهای متنوع داره. این کتاب هم پر از شکلهای جالب هست که فهم مطالب رو برای مخاطب ساده میکنه. فهرست مطالب و یک نمونه شکل ساده از فصل اول کتاب رو براتون گذاشتم.
امسال چند تا کتاب خوب درباره LLM از افراد معتبر معرفی کردم:
* کتاب Afshine & Shervine Amidi
* کتاب Louis-François Bouchard
* کتاب Sebastian Raschka
@pytorch_howsam
PyTorch Howsam
دوستان، مدتی هست دوره رایگان پایتورچ رو در هوسم ارائه کردیم. مطالبش به صورت هفتگی منتشر میشه و تا الان چهار هفته (حدود 7.5 ساعت) رو منتشر کردیم. انتشار ویدئوها رو در کانال اصلی سایت هوسم اطلاعرسانی میکنیم: https://t.iss.one/howsam_org دسترسی به دوره: htt…
سلام
اگه خاطرتون باشه، امسال یک مینیدوره آموزش پایتورچ بهصورت رایگان رو استارت زده بودیم. این دوره رو با 13 ساعت آموزش بستیم. خدا رو شکر دوره خوبی شد و فیدبکهای مثبت و قشنگی هم دریافت کردیم.
توی این دوره هدفم این نبوده که همه چیز درباره پایتورچ رو آموزش بدم. هدفم این بوده که مفاهیم پایهای شبکه عصبی و پایتورچ رو آموزش بدم. در واقع، اسم واقعی دوره "یادگیری عمیق استارتر" باید باشه. چون هم تئوری و هم کدنویسی داره. اگه از یادگیری ماشین، شبکه عصبی و پایتورچ چیزی نمیدونید و دوست دارید یاد بگیرید، به این دوره نگاه بندازید. نگید که خب رایگانه حتما بدرد نمیخوره! باور کنید خیلی برای ضبطش وقت و انرژی گذاشتیم! اصلا شکل و قیافه ویدئوها رو ببینید متوجه میشید! 😁
اتفاقا، درحال برنامهریزی برای برگزاری یک دوره "یادگیری ماشین استارتر" هم هستیم...
دسترسی به دوره پایتورچ:
https://howsam.org/downloads/pytorch-course/
@pytorch_howsam
اگه خاطرتون باشه، امسال یک مینیدوره آموزش پایتورچ بهصورت رایگان رو استارت زده بودیم. این دوره رو با 13 ساعت آموزش بستیم. خدا رو شکر دوره خوبی شد و فیدبکهای مثبت و قشنگی هم دریافت کردیم.
توی این دوره هدفم این نبوده که همه چیز درباره پایتورچ رو آموزش بدم. هدفم این بوده که مفاهیم پایهای شبکه عصبی و پایتورچ رو آموزش بدم. در واقع، اسم واقعی دوره "یادگیری عمیق استارتر" باید باشه. چون هم تئوری و هم کدنویسی داره. اگه از یادگیری ماشین، شبکه عصبی و پایتورچ چیزی نمیدونید و دوست دارید یاد بگیرید، به این دوره نگاه بندازید. نگید که خب رایگانه حتما بدرد نمیخوره! باور کنید خیلی برای ضبطش وقت و انرژی گذاشتیم! اصلا شکل و قیافه ویدئوها رو ببینید متوجه میشید! 😁
اتفاقا، درحال برنامهریزی برای برگزاری یک دوره "یادگیری ماشین استارتر" هم هستیم...
دسترسی به دوره پایتورچ:
https://howsam.org/downloads/pytorch-course/
@pytorch_howsam
آکادمی هوش مصنوعی هوسم
آموزش پایتورچ (رایگان | 13 ساعت | 2024 🔥)
دوره آموزش پایتورچ رایگان شامل 13 ساعت آموزش کدنویسی عملی همراه با تئوری شبکه عصبی از صفر با پروژه دیپ لرنینگ که به صورت رایگان عرضه شده است.
آقای Sebastian Raschka توی کتاب LLMs from scratch اومده معماری شبکههای GPT-2 Llama-2 Llama-3 رو با هم مقایسه کرده. در تصویر بالا میتونید این مقایسه رو به صورت شکلی ببینید.
مدلهای Llama-2 و Llama-3 که خیلی مشابه هم هستن و تفاوت اصلیشون این هست که مدل Llama-3 از Grouped Query Attention استفاده میکنه.
مدلهای GPT-2 و Llama-2 تفاوتهایی جزئی در بخشهای دراپاوت، نرمالیزیشن، پوزیشن امبدینگ و اکتیویشن فانکشن ماژول MLP دارن.
جزئیات بیشتر رو میتونید در این نوتبوک ببینید: لینک
آپدیت: یک نفر برامون 5 تا ستاره زده. اولین ستاره این کانال هست! :) ممنون دوست مهربون...
@pytorch_howsam
مدلهای Llama-2 و Llama-3 که خیلی مشابه هم هستن و تفاوت اصلیشون این هست که مدل Llama-3 از Grouped Query Attention استفاده میکنه.
مدلهای GPT-2 و Llama-2 تفاوتهایی جزئی در بخشهای دراپاوت، نرمالیزیشن، پوزیشن امبدینگ و اکتیویشن فانکشن ماژول MLP دارن.
جزئیات بیشتر رو میتونید در این نوتبوک ببینید: لینک
آپدیت: یک نفر برامون 5 تا ستاره زده. اولین ستاره این کانال هست! :) ممنون دوست مهربون...
@pytorch_howsam
بهترین راهحلهای مسابقات Kaggle
ریپوی Kaggle Solutions لیست مسابقات مختلف Kaggle همراه با راه حل نفرات برتر هر مسابقه رو در اختیار شما قرار میده.
تصویر بالا راهحلهای یکسری از افراد برای مسابقه اخیر ISIC (سرطان پوست) رو لیست کرده. مخزن ارزشمندی هست، خصوصا برای کسانی که میخوان توی مسابقات کگل به رتبههای بالاتر برسن.
البته، این رو هم بگم که بعضی راهحلها واقعا بار آموزشی ندارن. مثلا، نفر 37 مسابقه سرطان پوست ISIC رو ببینید چیکار کرده:
خب، حالا شاید توی پیام بالا یک لایبرری، مدل/شبکه یا اصطلاح هم باشه که نشنیده باشید. اما، صرفا یکسری مدل قوی رو ترکیب کرده! اما، ایدههای جالب هم پیدا میشه. مثلا، نفر اول از Diffusion Models استفاده کرده!
گویا این Kaggle Solutions کار یک ایرانی بنام فرید رشیدی هست:
لینک Kaggle Solutions
@pytorch_howsam
ریپوی Kaggle Solutions لیست مسابقات مختلف Kaggle همراه با راه حل نفرات برتر هر مسابقه رو در اختیار شما قرار میده.
تصویر بالا راهحلهای یکسری از افراد برای مسابقه اخیر ISIC (سرطان پوست) رو لیست کرده. مخزن ارزشمندی هست، خصوصا برای کسانی که میخوان توی مسابقات کگل به رتبههای بالاتر برسن.
البته، این رو هم بگم که بعضی راهحلها واقعا بار آموزشی ندارن. مثلا، نفر 37 مسابقه سرطان پوست ISIC رو ببینید چیکار کرده:
I used catboost, xgboost and lgbm for tabular data and tabular + cnn features. (total 6 models). As stacking method I applied StackingCVClassifier from mlxtend with LogisiticRegression as a metaclassifier. CNNs densenet201 (224 x 224) and efficient_net_b0 (384, 384).
خب، حالا شاید توی پیام بالا یک لایبرری، مدل/شبکه یا اصطلاح هم باشه که نشنیده باشید. اما، صرفا یکسری مدل قوی رو ترکیب کرده! اما، ایدههای جالب هم پیدا میشه. مثلا، نفر اول از Diffusion Models استفاده کرده!
گویا این Kaggle Solutions کار یک ایرانی بنام فرید رشیدی هست:
لینک Kaggle Solutions
@pytorch_howsam
یک نفر در توییتر، سایتی بهنام primeintellect برای اجاره GPU با نرخ بهصرفه معرفی کرده بود. مشابه خیلی از سرویسهای دیگه هزینههاش ساعتی هست. من ازش استفاده نکردم و تازه باهاش آشنا شدم، اما نرخهاش خوبه. مثلا، H100 رو ساعتی 1.49 دلار میده. من زیر 2 دلار ندیده بودم. حالا H100 که خیلی قوی و گرونه، ولی ممکنه کارتون با GPU-های پایینتر هم راه بیفته. مثلا، P100 با 16 گیگ رم، 0.11 دلار؛ یعنی 100 ساعتش میشه 11 دلار.
لینک
بگو چی شده؟! برای اولین بار، تعداد کاربرای این کانال از کاربرای کانال هوسم (@howsam_org) بیشتر شده! 🥳
ممنون ❤️
@pytorch_howsam
لینک
بگو چی شده؟! برای اولین بار، تعداد کاربرای این کانال از کاربرای کانال هوسم (@howsam_org) بیشتر شده! 🥳
ممنون ❤️
@pytorch_howsam
www.primeintellect.ai
Prime Intellect - Commoditizing Compute & Intelligence
Prime Intellect democratizes AI development at scale. Our platform makes it easy to find global compute resources and train state-of-the-art models through distributed training across clusters. Collectively own the resulting open AI innovations, from language…
This media is not supported in your browser
VIEW IN TELEGRAM
احتمالا درمورد NotebookLM گوگل شنیدید. میتونی یکسری محتوا (مثلا PDF، وبسایت، یوتوب، گوگل داک و غیره) درباره یک موضوع بهش بدی و اون برای شما خلاصه میکنه!
امروز یک کورس 1 ساعته درباره NotebookLM دیدم که خیلی ساده و سریع کار با این ابزار رو آموزش میده.
لینک
@pytorch_howsam
امروز یک کورس 1 ساعته درباره NotebookLM دیدم که خیلی ساده و سریع کار با این ابزار رو آموزش میده.
لینک
@pytorch_howsam
PyTorch Howsam
اگه خاطرتون باشه، قبلا درمورد MobileLLM نوشته بودم. همچنین، گفتم تلاش میکنم بیشتر ازش بگم. خب اومدم که بگم، بالاخره آماده شد... یک پست نسبتا طولانی درمورد MobileLLM در هوسم نوشتم. از چالشها و ایدههای کار گفتم. امیدوارم، مفید باشه. همچنان کار و مطالعه…
بالاخره، متا وزن نسخههای 1.5B 1B 600M 300M 125M شبکه MobileLLM رو در هاگینگ فیس منتشر کرد.
مدل MobileLLM، یکی از بهترین شبکههای مدلسازی زبان در رده مگسوزنها (SLM) محسوب میشه. شبکهها انقدر سبک هستن که با یک سیستم نه چندان قوی هم میشه باهاشون کار کرد.
قبلا، شبکه MobileLLM رو معرفی کردم. همچنین، در وبلاگ هوسم مقاله این شبکه رو تشریح کردم.
مقاله | کد | وزنها | وبلاگ هوسم
@pytorch_howsam
مدل MobileLLM، یکی از بهترین شبکههای مدلسازی زبان در رده مگسوزنها (SLM) محسوب میشه. شبکهها انقدر سبک هستن که با یک سیستم نه چندان قوی هم میشه باهاشون کار کرد.
قبلا، شبکه MobileLLM رو معرفی کردم. همچنین، در وبلاگ هوسم مقاله این شبکه رو تشریح کردم.
مقاله | کد | وزنها | وبلاگ هوسم
@pytorch_howsam
در کارم زیاد پیش میاد که کارهای ماشین حسابی داشته باشم. کارهایی که کد نوشتنش کمی زمانبر هست و بعدا به کدهاش نیازی ندارم. مثلا، بخوام نمودار یک تابعی رو رسم کنم، عملیات ماتریسی انجام بدم و ...
برای این کارها من از سایت desmos.com استفاده میکنم. ابزارهای مختلفی برای ریاضیات داره؛ مثل محاسبات، نمودارها، ماتریسها، هندسه و ...
مثلا، در تصویر بالا دو تا نمودار کشیدم. میتونید خروجی کار رو به صورت تصویر با کیفیت خوب ذخیره کنید.
در همین راستا، بد نیست یکی از ابزارهایی که قبلا معرفی کرده بودیم رو یادآوری کنم. ابزار تبدیل عکس به فرمول Mathpix:
https://t.iss.one/pytorch_howsam/294
@pytorch_howsam
برای این کارها من از سایت desmos.com استفاده میکنم. ابزارهای مختلفی برای ریاضیات داره؛ مثل محاسبات، نمودارها، ماتریسها، هندسه و ...
مثلا، در تصویر بالا دو تا نمودار کشیدم. میتونید خروجی کار رو به صورت تصویر با کیفیت خوب ذخیره کنید.
در همین راستا، بد نیست یکی از ابزارهایی که قبلا معرفی کرده بودیم رو یادآوری کنم. ابزار تبدیل عکس به فرمول Mathpix:
https://t.iss.one/pytorch_howsam/294
@pytorch_howsam
Media is too big
VIEW IN TELEGRAM
ویدئوی بالا رو ببین؛ میتونی چنین پروژهای رو انجام بدی؟
این قابلیت رو دو سال پیش اپل روی تمام دیوایسهاش آورد. در یک بلاگ پست، درباره رهیافتش توضیح دادن. من آخر این پست لینک این بلاگ پست رو گذاشتم. اما، اگه وقت داشتی قبل از دیدنش، به راه حلش فکر کن. فقط به همون بخش هوش مصنوعی پروژه فکر کن.
اسم این وبلاگ Fast Class-Agnostic Salient Object Segmentation هست. عنوانش خیلی نکته داره! مثلا، منظورش از Class-Agnostic این هست که بدون نیاز به شناسایی کلاس شی، هر شی برجسته رو شناسایی میکنه. Salient Object هم اشاره میکنه به اشیای برجسته در تصویر که توجه بیشتری جلب میکنن.
لینک بلاگ پست:
https://machinelearning.apple.com/research/salient-object-segmentation
@pytorch_howsam
این قابلیت رو دو سال پیش اپل روی تمام دیوایسهاش آورد. در یک بلاگ پست، درباره رهیافتش توضیح دادن. من آخر این پست لینک این بلاگ پست رو گذاشتم. اما، اگه وقت داشتی قبل از دیدنش، به راه حلش فکر کن. فقط به همون بخش هوش مصنوعی پروژه فکر کن.
لینک بلاگ پست:
@pytorch_howsam
PyTorch Howsam
کتاب درباره LLM با عنوان Build a Large Language Model نویسنده این کتاب آقای سباستین راشکا (Sebastian Raschka) هست که فرد شناختهشدهای هست. همچنین، این کتاب در Manning منتشر شده. البته، هنوز کامل نشده و فصلهای ابتدایی کتاب منتشر شده. بهصورت آنلاین و البته…
اگه میخواید درباره Multimodal LLM بیشتر بدونید، بلاگ زیر از آقای Sebastian Raschka رو بهتون پیشنهاد میکنم. هم رهیافت پایهای رو گفته و هم مقالههای بروز ازجمله Llama 3.2 رو تشریح کرده. خودم شروع کردم به مطالعه این وبلاگ طولانی...
لینک وبلاگ Multimodal LLM
راستی، محض یادآوری، آقای Sebastian Raschka یک کتاب درباره LLM هم داره که قبلا معرفی کرده بودم. من مشغول مطالعه این کتاب هستم و تا اواسط فصل 4 این کتاب رو مطالعه کردم. کتاب منسجم و روانی هست. پست معرفی کتاب رو ریپلای کردم.
@pytorch_howsam
لینک وبلاگ Multimodal LLM
راستی، محض یادآوری، آقای Sebastian Raschka یک کتاب درباره LLM هم داره که قبلا معرفی کرده بودم. من مشغول مطالعه این کتاب هستم و تا اواسط فصل 4 این کتاب رو مطالعه کردم. کتاب منسجم و روانی هست. پست معرفی کتاب رو ریپلای کردم.
@pytorch_howsam
کانال یوتوب Umar Jamil یکی از بهترین کانالهای آموزش مباحث بروز و پیچیده یادگیری عمیق هست. به نظرم تعداد سابسکرایبرها و ویوهاش اصلا در حد محتواش نیست. فقط نگاه کن ویدئوهای آخر کانالش چه آموزشهایی هست:
- پیادهسازی Vision Language Model با پایتورچ از صفر
- تفسیرپذیری در ماشین لرنینگ
- شبکه KAN
- و ...
امروز یک ویدئوی 7 ساعته از آموزش و پیادهسازی Flash Attention منتشر کرده!
فلش اتنشن میدونید چیه؟
یک الگوریتم بهینهسازی شده برای محاسبه اتنشن در شبکههای ترنسفورمری هست که منجر به افزایش سرعت و کاهش مصرف حافظه میشه. به تصویر پایین نگاه کنید؛ سمت راست تصویر، یک نمودار مقایسه زمان محاسبات اتنشن با فلش اتنشن وجود داره. از فلش اتنشن در مدلهای ترنسفورمری کوچک و بزرگ استفاده میشه.
کانال یوتوب Umar Jamil
@pytorch_howsam
- پیادهسازی Vision Language Model با پایتورچ از صفر
- تفسیرپذیری در ماشین لرنینگ
- شبکه KAN
- و ...
امروز یک ویدئوی 7 ساعته از آموزش و پیادهسازی Flash Attention منتشر کرده!
فلش اتنشن میدونید چیه؟
یک الگوریتم بهینهسازی شده برای محاسبه اتنشن در شبکههای ترنسفورمری هست که منجر به افزایش سرعت و کاهش مصرف حافظه میشه. به تصویر پایین نگاه کنید؛ سمت راست تصویر، یک نمودار مقایسه زمان محاسبات اتنشن با فلش اتنشن وجود داره. از فلش اتنشن در مدلهای ترنسفورمری کوچک و بزرگ استفاده میشه.
کانال یوتوب Umar Jamil
@pytorch_howsam
The ChatGPT Desktop app for Windows is now available for all users.
Get faster access to ChatGPT with the Alt + Space shortcut, and use Advanced Voice Mode to chat with your computer and get hands-free answers while you work.
https://openai.com/chatgpt/desktop/
Get faster access to ChatGPT with the Alt + Space shortcut, and use Advanced Voice Mode to chat with your computer and get hands-free answers while you work.
https://openai.com/chatgpt/desktop/