Forwarded from Meysam
This media is not supported in your browser
VIEW IN TELEGRAM
مقاله خیلی جالب که با استفاده از تغییرات در تصویر با درگ، تصویر جدید میتونه جنریت کنه:
https://huggingface.co/papers/2305.10973
https://huggingface.co/papers/2305.10973
👍6🤯3
🔥2👍1
Forwarded from School of AI
YouTube
Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy
January 10, 2023
Introduction to Transformers
Andrej Karpathy: https://karpathy.ai/
Since their introduction in 2017, transformers have revolutionized Natural Language Processing (NLP). Now, transformers are finding applications all over Deep Learning, be…
Introduction to Transformers
Andrej Karpathy: https://karpathy.ai/
Since their introduction in 2017, transformers have revolutionized Natural Language Processing (NLP). Now, transformers are finding applications all over Deep Learning, be…
👍4
Ivy unifies all ML frameworks 💥 enabling you not only to write code that can be used with any of these frameworks as the backend, but also to convert 🔄 any function, model or library written in any of them to your preferred framework!
https://github.com/unifyai/ivy
https://github.com/unifyai/ivy
GitHub
GitHub - ivy-llc/ivy: Convert Machine Learning Code Between Frameworks
Convert Machine Learning Code Between Frameworks. Contribute to ivy-llc/ivy development by creating an account on GitHub.
🔥5
Forwarded from دستاوردهای یادگیری عمیق(InTec)
چی شد که اینطوری شد ؟
YouTube Link
این موارد برای تازهکارها خیلی خوبه
برای مصاحبه هم خیلی خوبه
۸۰٪ سوالات مصاحبه اینجا هست؛ برای تازهکار هم مطالبی که باید بلد باشید توی این ویدئو هست.
YouTube Link
این موارد برای تازهکارها خیلی خوبه
برای مصاحبه هم خیلی خوبه
۸۰٪ سوالات مصاحبه اینجا هست؛ برای تازهکار هم مطالبی که باید بلد باشید توی این ویدئو هست.
YouTube
10 years of NLP history explained in 50 concepts | From Word2Vec, RNNs to GPT
From RNNs to Transformers to GPT-4, the leap in intelligence in Deep Learning research for Language Modelling and NLP has been a steady and educational growth. In this video, I explain 50 concepts that cover the basics of NLP like Tokenization and Word Embeddings…
🔥3
Forwarded from Meysam
بالاخره یکی در اومد توضیح داد چت جی پی تی رو چطوری ساختند:
سخنرانی آندری کارپسی و توضیحاتش در مورد مدلهای جی پی تی:
https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2
ویدیوی طولانی بود و نتونستم بزارمش اینجا ولی وقت کردید حتما ببینید.
اطلاعات خیلی خوبی میده اگه میخواهید مدلتون رو ترین کنید.
سخنرانی آندری کارپسی و توضیحاتش در مورد مدلهای جی پی تی:
https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2
ویدیوی طولانی بود و نتونستم بزارمش اینجا ولی وقت کردید حتما ببینید.
اطلاعات خیلی خوبی میده اگه میخواهید مدلتون رو ترین کنید.
🔥1
Forwarded from DeepMind AI Expert (Farzad 🦅)
موقعیت کارآموزی در حوزه NLP
برنامه تحقیقات تابستانی دانشگاه کوچ به دانشجویان و علاقهمندان این فرصت را میدهد تا در کنار کسب تجربه تحقیقاتی خود را برای تحصیلات تکمیلی یا کار در حرفه مدنظر آماده کنند. با توجه به این برنامه گروه NLP دانشکده مهندسی کامپیوتر به سرپرستی Dr.Gözde Gül Sahin تصمیم دارد از علاقهمندان در زمینه پردازش زبان طبیعی دعوت به عمل آورد. دو پروژه در این زمینه وجود دارد که در صورت دعوت به مصاحبه برای داوطلبین تشریح میشوند.
از علاقهمندان درخواست میشود تا رزومه خود را به همراه چند نمونه کد پروژههای مرتبط را به آدرس ایمیل [email protected] بفرستند. (لطفا عنوان ایمیل را KUSRP Internship را قرار دهید.)
شرایط:
۱- علاقهمند به پژوهش در حوزه NLP و مخصوصا Large Language Models
۲- تعهد کامل در طول دوره کارآموزی و عدم اشتغال به کار یا پروژه دیگر
۲- مسلط به پایتون و تجربه کار با کتابخانههای مرتبط با Deep Learning مثل PyTorch
نوع همکاری: حضوری (اولویت) / دورکاری
نکات:
ادامه همکاری پس از پایان دوره رسمی کارآموزی در صورت توافق طرفین مطلوب است.
ارایه خوابگاه از طرف دانشگاه گارانتی نمیشود!
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
برنامه تحقیقات تابستانی دانشگاه کوچ به دانشجویان و علاقهمندان این فرصت را میدهد تا در کنار کسب تجربه تحقیقاتی خود را برای تحصیلات تکمیلی یا کار در حرفه مدنظر آماده کنند. با توجه به این برنامه گروه NLP دانشکده مهندسی کامپیوتر به سرپرستی Dr.Gözde Gül Sahin تصمیم دارد از علاقهمندان در زمینه پردازش زبان طبیعی دعوت به عمل آورد. دو پروژه در این زمینه وجود دارد که در صورت دعوت به مصاحبه برای داوطلبین تشریح میشوند.
از علاقهمندان درخواست میشود تا رزومه خود را به همراه چند نمونه کد پروژههای مرتبط را به آدرس ایمیل [email protected] بفرستند. (لطفا عنوان ایمیل را KUSRP Internship را قرار دهید.)
شرایط:
۱- علاقهمند به پژوهش در حوزه NLP و مخصوصا Large Language Models
۲- تعهد کامل در طول دوره کارآموزی و عدم اشتغال به کار یا پروژه دیگر
۲- مسلط به پایتون و تجربه کار با کتابخانههای مرتبط با Deep Learning مثل PyTorch
نوع همکاری: حضوری (اولویت) / دورکاری
نکات:
ادامه همکاری پس از پایان دوره رسمی کارآموزی در صورت توافق طرفین مطلوب است.
ارایه خوابگاه از طرف دانشگاه گارانتی نمیشود!
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
Forwarded from Meysam
مدلهای دیفیوژن که بودند و چه کردند؟ (۲ نمره)
پاسخ:
https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
پاسخ:
https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
🔥2
Adam killer
به نظر گروهی از محققان دانشگاه استنفورد یک بهینهساز جدید به اسم Sofia رو منتشر کردن (بنا به گفته خودشون مخصوص آموزش مدل های زبانی) که تونسته نسبت به AdamW که نسخه بهبود یافته روش Adam محسوب میشه، عملکرد ۲ برابر بهتری از خودش به نمایش بزاره.
بخشی از چکیده مقاله:
"Adam and its variants have been state-of-the-art for years, and more sophisticated second-order (Hessian-based) optimizers often incur too much per-step overhead. In this paper, we propose Sophia, Second-order Clipped Stochastic Optimization, a simple scalable second-order optimizer that uses a light-weight estimate of the diagonal Hessian as the pre-conditioner. The update is the moving average of the gradients divided by the moving average of the estimated Hessian, followed by element-wise clipping. The clipping controls the worst-case update size and tames the negative impact of non-convexity and rapid change of Hessian along the trajectory. Sophia only estimates the diagonal Hessian every handful of iterations, which has negligible average per-step time and memory overhead."
GitHub:
https://github.com/Liuhong99/Sophia
Arxiv:
https://arxiv.org/abs/2305.14342
به نظر گروهی از محققان دانشگاه استنفورد یک بهینهساز جدید به اسم Sofia رو منتشر کردن (بنا به گفته خودشون مخصوص آموزش مدل های زبانی) که تونسته نسبت به AdamW که نسخه بهبود یافته روش Adam محسوب میشه، عملکرد ۲ برابر بهتری از خودش به نمایش بزاره.
بخشی از چکیده مقاله:
"Adam and its variants have been state-of-the-art for years, and more sophisticated second-order (Hessian-based) optimizers often incur too much per-step overhead. In this paper, we propose Sophia, Second-order Clipped Stochastic Optimization, a simple scalable second-order optimizer that uses a light-weight estimate of the diagonal Hessian as the pre-conditioner. The update is the moving average of the gradients divided by the moving average of the estimated Hessian, followed by element-wise clipping. The clipping controls the worst-case update size and tames the negative impact of non-convexity and rapid change of Hessian along the trajectory. Sophia only estimates the diagonal Hessian every handful of iterations, which has negligible average per-step time and memory overhead."
GitHub:
https://github.com/Liuhong99/Sophia
Arxiv:
https://arxiv.org/abs/2305.14342
GitHub
GitHub - Liuhong99/Sophia: The official implementation of “Sophia: A Scalable Stochastic Second-order Optimizer for Language Model…
The official implementation of “Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training” - Liuhong99/Sophia
🔥5👍1🤯1
Forwarded from Deep Time
به چیزی فراتر از Transformerها، Diffusion مدلها و chatGPT نیاز داریم! به این مقدار دلخوش نباشید!
همیشه گفته میشه که هوش مصنوعی از زمان پیدایش Deep Learning تونست مراحل feature selection و feature extraction رو حذف و اتومات سازی کنه و به نوعی مسائل end-to-end حل شدن.
ولی این اشتباه هست. جمله بالا صرفا برای دادههای تصویر و متن و ... صدق میکنه. وقتی داده ما شد داده structured data و جدولی، یک انسان با تخصص در حوزه اون مسئله خاص (مالی، ترافیک، آب و هوا و ...) یا به اصطلاح با domain expertise باید بیاد و feature تعریف و مهندسی کنه. مثلا من میام برای یک مسئله فایننس تعریف میکنم میانگین ۳ دقیقه حجم ورودی به سهم به روی میانگین ۳۰ دقیقه یک فیچر اساسی هست.
در این مسائل همچنان انگار انسانِ متخصص نور رو میندازه و بعد هوش مصنوعی قادر به مدلسازی خواهد بود.
به همین سبک Generative AI هم در دادههای تصویری و زبانی رشد کرد. اما در مسائل پیچیده که از جنس اعداد جدولی هستن اوضاع اصلا خوب نیست. این که هنوز هوش مصنوعی در مسائل جدولی قادر به تحلیل، Generate به معنای واقعی، و ساخت فیچر نیست یعنی عملا ما به چیزی فراتر از Transformer ها و Diffusion مدلها و LLM ها (مدلهای زبانی بزرگ مثل chatGPT) نیاز داریم.
@deeptimeai
همیشه گفته میشه که هوش مصنوعی از زمان پیدایش Deep Learning تونست مراحل feature selection و feature extraction رو حذف و اتومات سازی کنه و به نوعی مسائل end-to-end حل شدن.
ولی این اشتباه هست. جمله بالا صرفا برای دادههای تصویر و متن و ... صدق میکنه. وقتی داده ما شد داده structured data و جدولی، یک انسان با تخصص در حوزه اون مسئله خاص (مالی، ترافیک، آب و هوا و ...) یا به اصطلاح با domain expertise باید بیاد و feature تعریف و مهندسی کنه. مثلا من میام برای یک مسئله فایننس تعریف میکنم میانگین ۳ دقیقه حجم ورودی به سهم به روی میانگین ۳۰ دقیقه یک فیچر اساسی هست.
در این مسائل همچنان انگار انسانِ متخصص نور رو میندازه و بعد هوش مصنوعی قادر به مدلسازی خواهد بود.
به همین سبک Generative AI هم در دادههای تصویری و زبانی رشد کرد. اما در مسائل پیچیده که از جنس اعداد جدولی هستن اوضاع اصلا خوب نیست. این که هنوز هوش مصنوعی در مسائل جدولی قادر به تحلیل، Generate به معنای واقعی، و ساخت فیچر نیست یعنی عملا ما به چیزی فراتر از Transformer ها و Diffusion مدلها و LLM ها (مدلهای زبانی بزرگ مثل chatGPT) نیاز داریم.
@deeptimeai
👍2
Forwarded from Deep Time
Deep Time
به چیزی فراتر از Transformerها، Diffusion مدلها و chatGPT نیاز داریم! به این مقدار دلخوش نباشید! همیشه گفته میشه که هوش مصنوعی از زمان پیدایش Deep Learning تونست مراحل feature selection و feature extraction رو حذف و اتومات سازی کنه و به نوعی مسائل end-to…
راه حل؟ باید به مفاهیم برگشت. به بایاسها و کمبودهای جزئی و کلی. جزئی مثل سلولهای این سیستم یعنی attention mechanism یا حتی بنیادی تر یعنی back propagation. نیاز به سلولهای قوی تری برای رسیدن AGI هست. کلی هم مثل توسعه RL و Self Supervised و ترکیب و استفاده بهتر از اونها.
سوال اصلی هم همچنان مثل همیشه این هست که نوزاد چطور فرآیند یادگیری در نوزاد انسان و انسان بالغ رو بفهمیم و بهتر مدل کنیم. قبلا درباره راه آینده برای AI پستهایی مثل این مورد و این مورد درباره سنجش هوش از گذاشته بودم.
@deeptimeai
سوال اصلی هم همچنان مثل همیشه این هست که نوزاد چطور فرآیند یادگیری در نوزاد انسان و انسان بالغ رو بفهمیم و بهتر مدل کنیم. قبلا درباره راه آینده برای AI پستهایی مثل این مورد و این مورد درباره سنجش هوش از گذاشته بودم.
@deeptimeai
Telegram
Deep Time 🏴
این هم توضیح مقاله یان لکان برای دوستانی که وقت یا حوصله خوندن مقاله رو ندارن میشه تو یک ساعت ویدئوی توضیحات رو دید
YouTube Link
@deeptimeai
YouTube Link
@deeptimeai
Forwarded from Bag of Words
روز یکشنبهای موضوعی حوصلهسربرتر (؟!) از این پیدا نمیشه ولی اگر کار تحقیقاتی NLP میکنین و با ظهور مدلهای زبانی بزرگ موجی از ناامیدی شمارو فراگرفته که الان دیگه اصلا کارهای ما به چه دردی میخوره! اینجا ایدههایی براتون هست:
A PhD Student’s Perspective on Research in NLP in the Era of Very Large Language Models
https://arxiv.org/pdf/2305.12544.pdf
A PhD Student’s Perspective on Research in NLP in the Era of Very Large Language Models
https://arxiv.org/pdf/2305.12544.pdf
👌3
Forwarded from DeepMind AI Expert (Farzad 🦅)
۸۰۰ کلاس درس دانشگاهی، عموما از دانشگاه های Ivy League آمریکا و معتبر در زمینه Computer Science. فرصت خوبی برای یادگیری و یا آشنایی با نحوه تدریس و کلاس های دانشگاهی.
bit.ly/3472Iia
#منابع #منابع_پیشنهادی #فیلم #کلاس_آموزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
bit.ly/3472Iia
#منابع #منابع_پیشنهادی #فیلم #کلاس_آموزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍1
Forwarded from Meysam
یادگیری آمار و احتمال به شکل کاملا بصری:
https://seeing-theory.brown.edu/index.html
اگه همیشه دنبال این بودید که آمار و احتمال رو به شکلی یاد بگیرید شاید برای شروع خوب باشه.
https://seeing-theory.brown.edu/index.html
اگه همیشه دنبال این بودید که آمار و احتمال رو به شکلی یاد بگیرید شاید برای شروع خوب باشه.
🤩5
Forwarded from AI with Papers - Artificial Intelligence & Deep Learning
This media is not supported in your browser
VIEW IN TELEGRAM
🌻 Extending Mona Lisa with AI 🌻
👉 A guy on Reddit extends Mona Lisa Painting with #Photoshop AI. The result is surprising.
😎More https://t.ly/j_2r
👉 A guy on Reddit extends Mona Lisa Painting with #Photoshop AI. The result is surprising.
😎More https://t.ly/j_2r
👍1
Forwarded from Meysam
آلفادو مدل جدید گوگل تونسته روش مرتب سازی سریع تری ابداع کنه!
https://www.linkedin.com/posts/meysam-ac_another-ai-accomplishment-alphadev-discovers-activity-7072257889112870912-hhIc?utm_source=share&utm_medium=member_android
https://www.linkedin.com/posts/meysam-ac_another-ai-accomplishment-alphadev-discovers-activity-7072257889112870912-hhIc?utm_source=share&utm_medium=member_android
Linkedin
Meysam Asgari-Chenaghlu on LinkedIn: Another AI accomplishment: AlphaDev discovers faster sorting…
Another AI accomplishment: AlphaDev discovers faster sorting algorithms!
It is one of the momentums of AI in my opinion. An AI model capable of discovering…
It is one of the momentums of AI in my opinion. An AI model capable of discovering…
🔥4
Forwarded from Tensorflow(@CVision) (Alireza Akhavan)
گوگلی ها با استفاده از RL در هوش مصنوعی یه روش سورت کردن جدید ابداع کردند.
این مقاله در Natute چاپ شده و کد سورت هم به زبان c++ نیز در گیتهاب به صورت اوپن سورس گذاشته شده.
این اولین باریه که یه هوش مصنوعی تو ابداع یه روش طراحی الگوریتمی/ساختمان داده ای داره دخالت میکنه :)
https://www.deepmind.com/blog/alphadev-discovers-faster-sorting-algorithms
این مقاله در Natute چاپ شده و کد سورت هم به زبان c++ نیز در گیتهاب به صورت اوپن سورس گذاشته شده.
این اولین باریه که یه هوش مصنوعی تو ابداع یه روش طراحی الگوریتمی/ساختمان داده ای داره دخالت میکنه :)
https://www.deepmind.com/blog/alphadev-discovers-faster-sorting-algorithms
🔥5
Forwarded from رویدادهای هوش مصنوعی
⚡️ سمپوزیوم AIMI 2023 استنفورد با بحث در زمینه جدیدترینهای AI در مراقبتهای بهداشتی و بهرهگیری از نظرات متخصصین این حوزه
- ثبت نام شرکت آنلاین در این رویداد، رایگان و آزاد است.
📌 لینک ثبت نام:
🌐https://aimi.stanford.edu/aimi23/registration
〰️〰️〰️〰️〰️
این کانال با هدف آگاه سازی از رویدادهای مرتبط با هوش مصنوعی نظیر همایش، کنفرانس، ورکشاپ و کلاس تشکیل شده است.
@eventai
- ثبت نام شرکت آنلاین در این رویداد، رایگان و آزاد است.
📌 لینک ثبت نام:
🌐https://aimi.stanford.edu/aimi23/registration
〰️〰️〰️〰️〰️
این کانال با هدف آگاه سازی از رویدادهای مرتبط با هوش مصنوعی نظیر همایش، کنفرانس، ورکشاپ و کلاس تشکیل شده است.
@eventai
Forwarded from PyTorch Howsam (Howsam Support)
This media is not supported in your browser
VIEW IN TELEGRAM
یک مقاله جالب
اگه کمی با ساختار مغز آشنا باشید، میدونید که در مغز انسان نورونهای مختلفی وجود داره.
اما اکثر شبکه های عصبی ما ساختار یکسانی برای نورون درنظر میگیرن که یک تابع فعالساز مثل سیگموید، رلو یا موارد دیگه داره. حالا در مقاله ای اومدن شبکه Neural Diversity رو معرفی کردن که میتونه با وزنهای رندوم مسائل RL رو حل کنه.
به ویدئوی بالا نگاه کنید؛ سمت چپی، یک شبکه عصبی استاندارد و سمت راستی شبکه پیشنهاد شده در این مقاله هست. به توابع فعالساز دو شبکه نگاه کنید؛ ببینید تفاوت قالب توجهی باهم دارند. درعین حال، به نقطه چینهای قرمز و سبز هم دقت کنید. قرمزها قابل آموزش و سبزها ثابت هستن. میبنید که دو شبکه برعکس همدیگه هستن.
در شبکه استاندارد، نورونها ثابت و اتصالات بین نورونها قابل یادگیری هست. اما در شبکه پیشنهادی، نورونها قابلیت یادگیری دارن و اتصالات ثابت و صرفا اعدادی رندوم هستن. هر نورون در این شبکه ساختاری مشابه با RNN داره و به قول مولفهای مقاله، یک TinyRNN هست. این نورونها یکسری وزن دارن که قابلیت یادگیری دارن. به اکتیویشنها در ویدئو دقت کنید. اکتیویشنهای متنوعی میبینید.
مقاله | رفرنس
@pytorch_howsam
اگه کمی با ساختار مغز آشنا باشید، میدونید که در مغز انسان نورونهای مختلفی وجود داره.
اما اکثر شبکه های عصبی ما ساختار یکسانی برای نورون درنظر میگیرن که یک تابع فعالساز مثل سیگموید، رلو یا موارد دیگه داره. حالا در مقاله ای اومدن شبکه Neural Diversity رو معرفی کردن که میتونه با وزنهای رندوم مسائل RL رو حل کنه.
به ویدئوی بالا نگاه کنید؛ سمت چپی، یک شبکه عصبی استاندارد و سمت راستی شبکه پیشنهاد شده در این مقاله هست. به توابع فعالساز دو شبکه نگاه کنید؛ ببینید تفاوت قالب توجهی باهم دارند. درعین حال، به نقطه چینهای قرمز و سبز هم دقت کنید. قرمزها قابل آموزش و سبزها ثابت هستن. میبنید که دو شبکه برعکس همدیگه هستن.
در شبکه استاندارد، نورونها ثابت و اتصالات بین نورونها قابل یادگیری هست. اما در شبکه پیشنهادی، نورونها قابلیت یادگیری دارن و اتصالات ثابت و صرفا اعدادی رندوم هستن. هر نورون در این شبکه ساختاری مشابه با RNN داره و به قول مولفهای مقاله، یک TinyRNN هست. این نورونها یکسری وزن دارن که قابلیت یادگیری دارن. به اکتیویشنها در ویدئو دقت کنید. اکتیویشنهای متنوعی میبینید.
مقاله | رفرنس
@pytorch_howsam
👍2🔥2
Forwarded from DeepMind AI Expert (Farzad 🦅)
Transformers as Statisticians
Unveiling a new mechanism "In-Context Algorithm Selection" for In-Context Learning (ICL) in LLMs/transformers.
arxiv.org/abs/2306.04637
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
Unveiling a new mechanism "In-Context Algorithm Selection" for In-Context Learning (ICL) in LLMs/transformers.
arxiv.org/abs/2306.04637
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔥1