Forwarded from DLeX: AI Python (NaviD DariYa)
حدود 8 روز پیش ، یک لکچر جدید از دوره CS25 دانشگاه استفورد در یوتیوب منتشر شد که درباره Retrieval Augmented Language Models بود : لینک ویدیو در یوتیوب
@ai_python
فکر می کنم تقریبن هر کسی در حوزه ترنسفورمر کار می کنه با این دوره آشنایی داره. ولی برای کسانی که هنوز فرصت نداشتن تا این دوره رو دنبال کنن، این لینک صفحه اصلی دوره هست : https://web.stanford.edu/class/cs25/
در پلی لیست دوره در یوتیوب می تونید به ویدیو های ورژن 1 و 2 هم دسترسی داشته باشید : پلی لیست Transformers United
نوید داریا
@ai_python
فکر می کنم تقریبن هر کسی در حوزه ترنسفورمر کار می کنه با این دوره آشنایی داره. ولی برای کسانی که هنوز فرصت نداشتن تا این دوره رو دنبال کنن، این لینک صفحه اصلی دوره هست : https://web.stanford.edu/class/cs25/
در پلی لیست دوره در یوتیوب می تونید به ویدیو های ورژن 1 و 2 هم دسترسی داشته باشید : پلی لیست Transformers United
نوید داریا
YouTube
Stanford CS25: V3 I Retrieval Augmented Language Models
December 5, 2023
Douwe Kiela, Contextual AI
Language models have led to amazing progress, but they also have important shortcomings. One solution for many of these shortcomings is retrieval augmentation. I will introduce the topic, survey recent literature…
Douwe Kiela, Contextual AI
Language models have led to amazing progress, but they also have important shortcomings. One solution for many of these shortcomings is retrieval augmentation. I will introduce the topic, survey recent literature…
👍1
Forwarded from 10th WSS ☃️
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from شبکه داستانی عصبی (Blue Phoenix)
میدونستید LangChain یه بخشی داره به اسم PromptHub؟!
مثل HuggingFace ModelHub ولی برای پرامپتهای LLM ها!!
پشمام!
https://smith.langchain.com/hub
مثل HuggingFace ModelHub ولی برای پرامپتهای LLM ها!!
پشمام!
https://smith.langchain.com/hub
Forwarded from Tensorflow(@CVision) (Alireza Akhavan)
Graph Convolutional Networks:
Unleashing the power of Deep Learning for Graph data
🗓زمان برگزاری (به صورت آنلاین): شنبه 28 بهمن ماه 1402
⏱ساعت 17:30 الی 19
📍آدرس اتاق مجازی: https://vc.sharif.edu/ch/cognitive
@irandeeplearning | @cvision
Unleashing the power of Deep Learning for Graph data
🗓زمان برگزاری (به صورت آنلاین): شنبه 28 بهمن ماه 1402
⏱ساعت 17:30 الی 19
📍آدرس اتاق مجازی: https://vc.sharif.edu/ch/cognitive
@irandeeplearning | @cvision
حتما شما هم تا الان با اپراتور trace روی ماتریس آشنا شدین. ولی جدا از اینکه این اپراتور معادل مجموع عناصر روی قطر اصلی ماتریسه، چه معنی در عمل داره؟
https://youtu.be/B2PJh2K-jdU?si=C1BT6h22A74jwoi5
https://youtu.be/B2PJh2K-jdU?si=C1BT6h22A74jwoi5
YouTube
The real meaning of trace of matrix | Lie groups, algebras, brackets #5
Can we visualise this algebraic procedure of adding diagonal entries? What is really happening when we add them together? By visualising it, it is possible to almost immediately see how the different properties of trace comes about.
Files for download:
Go…
Files for download:
Go…
Forwarded from 10th WSS ☃️
Please open Telegram to view this post
VIEW IN TELEGRAM
سخنی طلایی از کارپثی بزرگ که حیف دیدم به اشتراک نذارم. من خودمم توی این حلقه باطل گیر افتادم و بهتره که تا زمانی که فرصتش هست راه رهایی رو پیدا کرد و فرار کرد ازش:
# on shortification of "learning"
There are a lot of videos on YouTube/TikTok etc. that give the appearance of education, but if you look closely they are really just entertainment. This is very convenient for everyone involved : the people watching enjoy thinking they are learning (but actually they are just having fun). The people creating this content also enjoy it because fun has a much larger audience, fame and revenue. But as far as learning goes, this is a trap. This content is an epsilon away from watching the Bachelorette. It's like snacking on those "Garden Veggie Straws", which feel like you're eating healthy vegetables until you look at the ingredients.
Learning is not supposed to be fun. It doesn't have to be actively not fun either, but the primary feeling should be that of effort. It should look a lot less like that "10 minute full body" workout from your local digital media creator and a lot more like a serious session at the gym. You want the mental equivalent of sweating. It's not that the quickie doesn't do anything, it's just that it is wildly suboptimal if you actually care to learn.
I find it helpful to explicitly declare your intent up front as a sharp, binary variable in your mind. If you are consuming content: are you trying to be entertained or are you trying to learn? And if you are creating content: are you trying to entertain or are you trying to teach? You'll go down a different path in each case. Attempts to seek the stuff in between actually clamp to zero.
So for those who actually want to learn. Unless you are trying to learn something narrow and specific, close those tabs with quick blog posts. Close those tabs of "Learn XYZ in 10 minutes". Consider the opportunity cost of snacking and seek the meal - the textbooks, docs, papers, manuals, longform. Allocate a 4 hour window. Don't just read, take notes, re-read, re-phrase, process, manipulate, learn.
And for those actually trying to educate, please consider writing/recording longform, designed for someone to get "sweaty", especially in today's era of quantity over quality. Give someone a real workout. This is what I aspire to in my own educational work too. My audience will decrease. The ones that remain might not even like it. But at least we'll learn something.
👌2
Forwarded from 10th WSS ☃️
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ai Events️ (Hamid Mahmoodabadi)
10th WSS ☃️
کد تخفیف:
aiEvents
https://www.youtube.com/@lucidateAI/playlists
عجب کانالی! خصوصا پلیلیست Transformers & NLP رو توصیه میکنم. دید خوبی میده
عجب کانالی! خصوصا پلیلیست Transformers & NLP رو توصیه میکنم. دید خوبی میده
🔥3
چت باتی برای ساده کردن فرایند نوشتن مقاله. ادعاهاشون جذاب به نظر میرسه اگه واقعا در عمل به همین شکل کار کنه :)
https://www.yomu.ai/about
What is Yomu?
Our journey started with Sourcely, a research tool dedicated to finding references for essays. Responding to our users seeking more than finding citations, we have built Yomu AI: an AI-first writing assistant tailored for students and researchers.
Created by generative AI pioneers, expert web developers, and passionate designers. Guided by our student past, we built Yomu AI for today's scholars.
https://www.yomu.ai/about
www.yomu.ai
Yomu AI | About
Elevate your academic writing with Yomu - the best AI tool for essays, papers, and theses writing and research work | About
👍1
YouTube
Vision Transformer Quick Guide - Theory and Code in (almost) 15 min
▬▬ Papers / Resources ▬▬▬
Colab Notebook: https://colab.research.google.com/drive/1P9TPRWsDdqJC6IvOxjG2_3QlgCt59P0w?usp=sharing
ViT paper: https://arxiv.org/abs/2010.11929
Best Transformer intro: https://jalammar.github.io/illustrated-transformer/
CNNs…
Colab Notebook: https://colab.research.google.com/drive/1P9TPRWsDdqJC6IvOxjG2_3QlgCt59P0w?usp=sharing
ViT paper: https://arxiv.org/abs/2010.11929
Best Transformer intro: https://jalammar.github.io/illustrated-transformer/
CNNs…
یه ویدیو خیلی خوب با سادهسازی برای یاد گرفتن Vision Transformers یا به طور خلاصهتر ViT ها. اگه با مفهوم ترنسفورمرها در متن آشنا باشین، خیلی در یادگیری این مدل خاص به مشکل نمیخورین :)
https://youtu.be/j3VNqtJUoz0?si=Q3k-A8gglVWVP-PW
https://youtu.be/j3VNqtJUoz0?si=Q3k-A8gglVWVP-PW
❤3
Forwarded from DeepMind AI Expert (Farzad 🦅)
کورس کلاسی جدید از دانشگاه CMU
▪️ Neural code generation / Spring 2024
▪️ Foundations: Pretraining and scaling laws
#منابع #مقدماتی #کلاس_آموزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ Neural code generation / Spring 2024
▪️ Foundations: Pretraining and scaling laws
#منابع #مقدماتی #کلاس_آموزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
یک ایده جدید برای روشهای model-based در الگوریتمهای Reinforcement Learning
https://www.marktechpost.com/2024/02/20/this-ai-paper-introduces-the-diffusion-world-model-dwm-a-general-framework-for-leveraging-diffusion-models-as-world-models-in-the-context-of-offline-reinforcement-learning/
https://www.marktechpost.com/2024/02/20/this-ai-paper-introduces-the-diffusion-world-model-dwm-a-general-framework-for-leveraging-diffusion-models-as-world-models-in-the-context-of-offline-reinforcement-learning/
MarkTechPost
This AI Paper Introduces the Diffusion World Model (DWM): A General Framework for Leveraging Diffusion Models as World Models in…
Reinforcement learning (RL) comprises a wide range of algorithms, typically divided into two main groups: model-based (MB) and model-free (MF) methods. MB algorithms rely on predictive models of environment feedback, termed world models, which simulate real…
Forwarded from Cognitive Science-ICST-Sharif University
Media is too big
VIEW IN TELEGRAM
فیلم جلسه سخنرانی آقای مهندس علیرضا اخوان پور- Graph Neural Networks
در این بین که همگی در حال گذران آخر هفته بودیم، بچههای مایکروسافت، یه کار عجیب و باحال رو منتشر کردن که فقط میتونم بگم چه جالب :)
یکی از مفاهیمی که بعد از درخشش ChatGPT و باقی LLM ها خیلی برجسته شد، مفهوم Quantization برای افزایش سرعت inference و کاهش میزان حافظه مصرفی بود. به صورت پیشفرض، تمامی پارامترها ۳۲ بیتی هستند ولی میتونیم با کاهش دقت floating point و کاهش تعداد بیت مورد استفاده برای هر پارامتر شبکه، بدون از دست دادن چشمگیر performance اولیه، به مدلی سبکتر و سریعتر برای inference دست پیدا کنیم.
حالا بچههای مایکروسافت، پا رو فراتر گذاشتن و به دنبال این بودن که بررسی کنن که آیا با یک بیت به ازای هر پارامتر میتونیم تا چه حدی از performance اولیه رو حفظ کنیم. و خب تقریبا نتیجه قابل حدسه، عملکرد به شدت افت میکنه. ولی حرکت بعدی جالب و قابل توجه هست. میان این فرض رو در نظر میگیرند که به جای اینکه پارامترها رو به صورت تک bit داشته باشن، به صورت یک ternary bit در نظر گرفتن به صورتی که میتونه مقادیر {1, 0, 1-} رو به خودش بگیره و بعد از آموزش مدل با وزن های جدید، در نتیجه دیدن تا حد خوبی این روش در عین حال که مدل رو به شدت سبک و سریع میکنه، تونسته performance رو تا حد خوبی مشابه وزن های ۳۲ بیت نگه داره.
این حد از Quantization میتونه به شدت حجم و سرعت inference رو افزایش بده و دست ما رو برای اجرای این نوع از مدلها روی هر دستگاهی باز بزاره. واقعا دستخوش
اگه دوست دارین بیشتر در رابطه با این مقاله بخونین، میتونین به لینک زیر سر بزنین تا جزییات کارایی که کردن رو خودتون بخونین.
https://huggingface.co/papers/2402.17764
https://www.linkedin.com/posts/andrew-iain-jardine_llm-llama2-llms-activity-7168989296845111299-D0pH
یکی از مفاهیمی که بعد از درخشش ChatGPT و باقی LLM ها خیلی برجسته شد، مفهوم Quantization برای افزایش سرعت inference و کاهش میزان حافظه مصرفی بود. به صورت پیشفرض، تمامی پارامترها ۳۲ بیتی هستند ولی میتونیم با کاهش دقت floating point و کاهش تعداد بیت مورد استفاده برای هر پارامتر شبکه، بدون از دست دادن چشمگیر performance اولیه، به مدلی سبکتر و سریعتر برای inference دست پیدا کنیم.
حالا بچههای مایکروسافت، پا رو فراتر گذاشتن و به دنبال این بودن که بررسی کنن که آیا با یک بیت به ازای هر پارامتر میتونیم تا چه حدی از performance اولیه رو حفظ کنیم. و خب تقریبا نتیجه قابل حدسه، عملکرد به شدت افت میکنه. ولی حرکت بعدی جالب و قابل توجه هست. میان این فرض رو در نظر میگیرند که به جای اینکه پارامترها رو به صورت تک bit داشته باشن، به صورت یک ternary bit در نظر گرفتن به صورتی که میتونه مقادیر {1, 0, 1-} رو به خودش بگیره و بعد از آموزش مدل با وزن های جدید، در نتیجه دیدن تا حد خوبی این روش در عین حال که مدل رو به شدت سبک و سریع میکنه، تونسته performance رو تا حد خوبی مشابه وزن های ۳۲ بیت نگه داره.
این حد از Quantization میتونه به شدت حجم و سرعت inference رو افزایش بده و دست ما رو برای اجرای این نوع از مدلها روی هر دستگاهی باز بزاره. واقعا دستخوش
اگه دوست دارین بیشتر در رابطه با این مقاله بخونین، میتونین به لینک زیر سر بزنین تا جزییات کارایی که کردن رو خودتون بخونین.
https://huggingface.co/papers/2402.17764
https://www.linkedin.com/posts/andrew-iain-jardine_llm-llama2-llms-activity-7168989296845111299-D0pH
huggingface.co
Paper page - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Join the discussion on this paper page
🔥3
یه تعدادی ابزار مولد برای ساده کردن و تسریع فرآیند Literature Review
https://www.linkedin.com/posts/muhammad-muneeb1_phd-students-researchers-how-to-literature-activity-7169282443923935235-5GXG
https://www.linkedin.com/posts/muhammad-muneeb1_phd-students-researchers-how-to-literature-activity-7169282443923935235-5GXG
Linkedin
Muhammad Muneeb on LinkedIn: PhD Students / Researchers - How to Literature Review 100x Faster with AI?…
PhD Students / Researchers - How to Literature Review 100x Faster with AI?
A solid literature review takes at least 2-3 months. Using tools, you can reduce…
A solid literature review takes at least 2-3 months. Using tools, you can reduce…
👍1
all-things-vits.github.io
All Things ViTs: Understanding and Interpreting Attention in Vision
This is a video recording of the following CVPR 2023 tutorial - All Things ViTs: Understanding and Interpreting Attention in Vision by Hila Chefer (Tel-Aviv University and Google) and Sayak Paul (Hugging Face).
Sections:
00:00 - Introductions
05:05 - Part 1: Intro to Transformers
21:10 - Part 2: Probing Vision Transformers
38:15 - Part 3: Explaining Transformers
01:09:00 - Part 4: Attention as Explanation
01:18:00 - Guest lecture by Ron Mokady
01:32:00 - Part 5: Attention for downstream tasks
01:51:05 - Conclusion and open questions
All links:
* Tutorial website: https://all-things-vits.github.io/atv (containing all the other tutorial materials)
https://youtu.be/ma3NYVo8Im0?si=1AIQdA0HXiFL-1u0
Sections:
00:00 - Introductions
05:05 - Part 1: Intro to Transformers
21:10 - Part 2: Probing Vision Transformers
38:15 - Part 3: Explaining Transformers
01:09:00 - Part 4: Attention as Explanation
01:18:00 - Guest lecture by Ron Mokady
01:32:00 - Part 5: Attention for downstream tasks
01:51:05 - Conclusion and open questions
All links:
* Tutorial website: https://all-things-vits.github.io/atv (containing all the other tutorial materials)
https://youtu.be/ma3NYVo8Im0?si=1AIQdA0HXiFL-1u0
ایده جالبی تو این کار وجود داره
برای سبک کردن و کاهش زمان inference مربوط به LLM، اومدن و فرایند decoding رو هدف قرار دادن.
برای این کار، خیلی ساده بخوام بگم، اومدن و از یک SLM که بر روی بازنمایی تولیدی یک pretrained LLM شرطی سازی شده استفاده کردن تا هزینه decoding مشابه با SLM باشه و با هزینه سنگین LLM ها فاصله داشته باشه.
https://www-marktechpost-com.cdn.ampproject.org/c/s/www.marktechpost.com/2024/03/03/enhancing-autoregressive-decoding-efficiency-a-machine-learning-approach-by-qualcomm-ai-research-using-hybrid-large-and-small-language-models/
برای سبک کردن و کاهش زمان inference مربوط به LLM، اومدن و فرایند decoding رو هدف قرار دادن.
برای این کار، خیلی ساده بخوام بگم، اومدن و از یک SLM که بر روی بازنمایی تولیدی یک pretrained LLM شرطی سازی شده استفاده کردن تا هزینه decoding مشابه با SLM باشه و با هزینه سنگین LLM ها فاصله داشته باشه.
https://www-marktechpost-com.cdn.ampproject.org/c/s/www.marktechpost.com/2024/03/03/enhancing-autoregressive-decoding-efficiency-a-machine-learning-approach-by-qualcomm-ai-research-using-hybrid-large-and-small-language-models/
MarkTechPost
Enhancing Autoregressive Decoding Efficiency: A Machine Learning Approach by Qualcomm AI Research Using Hybrid Large and Small…
Central to Natural Language Processing (NLP) advancements are large language models (LLMs), which have set new benchmarks for what machines can achieve in understanding and generating human language. One of the primary challenges in NLP is the computational…
یه ویدیو خوب از AAAI در رابطه با روند پیشرفت در حوزه هوش مصنوعی
https://youtu.be/8SMmjBQ40YE?si=pneexOjM3N67ehcU
https://youtu.be/8SMmjBQ40YE?si=pneexOjM3N67ehcU
YouTube
From Classical AI to Modern and Generative AI | AAAI-24
From Classical AI to Modern and Generative AI: The Evolution of Paradigms
Serdar Kadioglu
AAAI-24 Educational Video Competition Winner
For more details: https://aaai.org/about-aaai/aaai-awards/aaai-educational-ai-videos/
Serdar Kadioglu
AAAI-24 Educational Video Competition Winner
For more details: https://aaai.org/about-aaai/aaai-awards/aaai-educational-ai-videos/