Forwarded from Cognitive Science-ICST-Sharif University
Media is too big
VIEW IN TELEGRAM
فیلم جلسه سخنرانی آقای مهندس علیرضا اخوان پور- Graph Neural Networks
در این بین که همگی در حال گذران آخر هفته بودیم، بچههای مایکروسافت، یه کار عجیب و باحال رو منتشر کردن که فقط میتونم بگم چه جالب :)
یکی از مفاهیمی که بعد از درخشش ChatGPT و باقی LLM ها خیلی برجسته شد، مفهوم Quantization برای افزایش سرعت inference و کاهش میزان حافظه مصرفی بود. به صورت پیشفرض، تمامی پارامترها ۳۲ بیتی هستند ولی میتونیم با کاهش دقت floating point و کاهش تعداد بیت مورد استفاده برای هر پارامتر شبکه، بدون از دست دادن چشمگیر performance اولیه، به مدلی سبکتر و سریعتر برای inference دست پیدا کنیم.
حالا بچههای مایکروسافت، پا رو فراتر گذاشتن و به دنبال این بودن که بررسی کنن که آیا با یک بیت به ازای هر پارامتر میتونیم تا چه حدی از performance اولیه رو حفظ کنیم. و خب تقریبا نتیجه قابل حدسه، عملکرد به شدت افت میکنه. ولی حرکت بعدی جالب و قابل توجه هست. میان این فرض رو در نظر میگیرند که به جای اینکه پارامترها رو به صورت تک bit داشته باشن، به صورت یک ternary bit در نظر گرفتن به صورتی که میتونه مقادیر {1, 0, 1-} رو به خودش بگیره و بعد از آموزش مدل با وزن های جدید، در نتیجه دیدن تا حد خوبی این روش در عین حال که مدل رو به شدت سبک و سریع میکنه، تونسته performance رو تا حد خوبی مشابه وزن های ۳۲ بیت نگه داره.
این حد از Quantization میتونه به شدت حجم و سرعت inference رو افزایش بده و دست ما رو برای اجرای این نوع از مدلها روی هر دستگاهی باز بزاره. واقعا دستخوش
اگه دوست دارین بیشتر در رابطه با این مقاله بخونین، میتونین به لینک زیر سر بزنین تا جزییات کارایی که کردن رو خودتون بخونین.
https://huggingface.co/papers/2402.17764
https://www.linkedin.com/posts/andrew-iain-jardine_llm-llama2-llms-activity-7168989296845111299-D0pH
یکی از مفاهیمی که بعد از درخشش ChatGPT و باقی LLM ها خیلی برجسته شد، مفهوم Quantization برای افزایش سرعت inference و کاهش میزان حافظه مصرفی بود. به صورت پیشفرض، تمامی پارامترها ۳۲ بیتی هستند ولی میتونیم با کاهش دقت floating point و کاهش تعداد بیت مورد استفاده برای هر پارامتر شبکه، بدون از دست دادن چشمگیر performance اولیه، به مدلی سبکتر و سریعتر برای inference دست پیدا کنیم.
حالا بچههای مایکروسافت، پا رو فراتر گذاشتن و به دنبال این بودن که بررسی کنن که آیا با یک بیت به ازای هر پارامتر میتونیم تا چه حدی از performance اولیه رو حفظ کنیم. و خب تقریبا نتیجه قابل حدسه، عملکرد به شدت افت میکنه. ولی حرکت بعدی جالب و قابل توجه هست. میان این فرض رو در نظر میگیرند که به جای اینکه پارامترها رو به صورت تک bit داشته باشن، به صورت یک ternary bit در نظر گرفتن به صورتی که میتونه مقادیر {1, 0, 1-} رو به خودش بگیره و بعد از آموزش مدل با وزن های جدید، در نتیجه دیدن تا حد خوبی این روش در عین حال که مدل رو به شدت سبک و سریع میکنه، تونسته performance رو تا حد خوبی مشابه وزن های ۳۲ بیت نگه داره.
این حد از Quantization میتونه به شدت حجم و سرعت inference رو افزایش بده و دست ما رو برای اجرای این نوع از مدلها روی هر دستگاهی باز بزاره. واقعا دستخوش
اگه دوست دارین بیشتر در رابطه با این مقاله بخونین، میتونین به لینک زیر سر بزنین تا جزییات کارایی که کردن رو خودتون بخونین.
https://huggingface.co/papers/2402.17764
https://www.linkedin.com/posts/andrew-iain-jardine_llm-llama2-llms-activity-7168989296845111299-D0pH
huggingface.co
Paper page - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Join the discussion on this paper page
🔥3
یه تعدادی ابزار مولد برای ساده کردن و تسریع فرآیند Literature Review
https://www.linkedin.com/posts/muhammad-muneeb1_phd-students-researchers-how-to-literature-activity-7169282443923935235-5GXG
https://www.linkedin.com/posts/muhammad-muneeb1_phd-students-researchers-how-to-literature-activity-7169282443923935235-5GXG
Linkedin
Muhammad Muneeb on LinkedIn: PhD Students / Researchers - How to Literature Review 100x Faster with AI?…
PhD Students / Researchers - How to Literature Review 100x Faster with AI?
A solid literature review takes at least 2-3 months. Using tools, you can reduce…
A solid literature review takes at least 2-3 months. Using tools, you can reduce…
👍1
all-things-vits.github.io
All Things ViTs: Understanding and Interpreting Attention in Vision
This is a video recording of the following CVPR 2023 tutorial - All Things ViTs: Understanding and Interpreting Attention in Vision by Hila Chefer (Tel-Aviv University and Google) and Sayak Paul (Hugging Face).
Sections:
00:00 - Introductions
05:05 - Part 1: Intro to Transformers
21:10 - Part 2: Probing Vision Transformers
38:15 - Part 3: Explaining Transformers
01:09:00 - Part 4: Attention as Explanation
01:18:00 - Guest lecture by Ron Mokady
01:32:00 - Part 5: Attention for downstream tasks
01:51:05 - Conclusion and open questions
All links:
* Tutorial website: https://all-things-vits.github.io/atv (containing all the other tutorial materials)
https://youtu.be/ma3NYVo8Im0?si=1AIQdA0HXiFL-1u0
Sections:
00:00 - Introductions
05:05 - Part 1: Intro to Transformers
21:10 - Part 2: Probing Vision Transformers
38:15 - Part 3: Explaining Transformers
01:09:00 - Part 4: Attention as Explanation
01:18:00 - Guest lecture by Ron Mokady
01:32:00 - Part 5: Attention for downstream tasks
01:51:05 - Conclusion and open questions
All links:
* Tutorial website: https://all-things-vits.github.io/atv (containing all the other tutorial materials)
https://youtu.be/ma3NYVo8Im0?si=1AIQdA0HXiFL-1u0
ایده جالبی تو این کار وجود داره
برای سبک کردن و کاهش زمان inference مربوط به LLM، اومدن و فرایند decoding رو هدف قرار دادن.
برای این کار، خیلی ساده بخوام بگم، اومدن و از یک SLM که بر روی بازنمایی تولیدی یک pretrained LLM شرطی سازی شده استفاده کردن تا هزینه decoding مشابه با SLM باشه و با هزینه سنگین LLM ها فاصله داشته باشه.
https://www-marktechpost-com.cdn.ampproject.org/c/s/www.marktechpost.com/2024/03/03/enhancing-autoregressive-decoding-efficiency-a-machine-learning-approach-by-qualcomm-ai-research-using-hybrid-large-and-small-language-models/
برای سبک کردن و کاهش زمان inference مربوط به LLM، اومدن و فرایند decoding رو هدف قرار دادن.
برای این کار، خیلی ساده بخوام بگم، اومدن و از یک SLM که بر روی بازنمایی تولیدی یک pretrained LLM شرطی سازی شده استفاده کردن تا هزینه decoding مشابه با SLM باشه و با هزینه سنگین LLM ها فاصله داشته باشه.
https://www-marktechpost-com.cdn.ampproject.org/c/s/www.marktechpost.com/2024/03/03/enhancing-autoregressive-decoding-efficiency-a-machine-learning-approach-by-qualcomm-ai-research-using-hybrid-large-and-small-language-models/
MarkTechPost
Enhancing Autoregressive Decoding Efficiency: A Machine Learning Approach by Qualcomm AI Research Using Hybrid Large and Small…
Central to Natural Language Processing (NLP) advancements are large language models (LLMs), which have set new benchmarks for what machines can achieve in understanding and generating human language. One of the primary challenges in NLP is the computational…
یه ویدیو خوب از AAAI در رابطه با روند پیشرفت در حوزه هوش مصنوعی
https://youtu.be/8SMmjBQ40YE?si=pneexOjM3N67ehcU
https://youtu.be/8SMmjBQ40YE?si=pneexOjM3N67ehcU
YouTube
From Classical AI to Modern and Generative AI | AAAI-24
From Classical AI to Modern and Generative AI: The Evolution of Paradigms
Serdar Kadioglu
AAAI-24 Educational Video Competition Winner
For more details: https://aaai.org/about-aaai/aaai-awards/aaai-educational-ai-videos/
Serdar Kadioglu
AAAI-24 Educational Video Competition Winner
For more details: https://aaai.org/about-aaai/aaai-awards/aaai-educational-ai-videos/
Forwarded from Ai Events️ (Hamid Mahmoodabadi)
یکی از دوستان پیام زیر رو برام ارسال کردند:
@Ai_Events
سلام،
ما یک استارتآپ در امریکا و فیلیپین هستیم که به دنبال
دو پوزیشن جهت استخدامیم
پوزیشن اول : یک توسعهدهنده ML/DL/NLP .
پوزیشن دوم: full stack developer
این آگهی استخدام برای دو شغل تمام وقت است، به دنبال دو کارمند بلند مدت مسلط به زبان انگلیسی هستیم، که در نهایت یک تیم را ایجاد کنیم.
اگر علاقهمند هستید، رزومتون رو برای آیدی زیر بفرستید.
@Parsa5k
متشکرم
@Ai_Events
Forwarded from DeepMind AI Expert (Farzad)
لیست ابزارهای دانلود رایگان مقاله و کتاب
1. Nexus search (telegram bot)
🟢 t.iss.one/sks7777777nexusbot
🟢 t.iss.one/nexusbooks_maxenswlfr_bot
🟢 t.iss.one/rcbook_bot
🟢 t.iss.one/subitoafk_bot
🟢 t.iss.one/Nexus_books_moji_bot
🟢 t.iss.one/nexus_bookss_bot
🟢 t.iss.one/Crawl_for_books_bot
🟢 t.iss.one/Fr_lib_pirate_bot
🟢 t.iss.one/NexusbotBot
🟢 t.iss.one/scihubot
🟢 t.iss.one/sks7777777nexusbot
🟢 t.iss.one/tkutuphanebot
🟢 t.iss.one/Researchassist_free_article_bot
🟢 t.iss.one/subitoafk_bot
🟢 t.iss.one/ShingekiKyojin_bot
🟡 t.iss.one/nexus_search_brian_bot
🟡 t.iss.one/asschandmustdie_bot
🟡 t.iss.one/science_nexus_bot
🟡 t.iss.one/nexus_search_another_bot
2. Library Genesis (site):
🟢 libgen.is
🟢 libgen.st
🟢 libgen.rs
🟢 libgen.gs
🟢 libgen.rs
🟢 libgen.rs
🟡 libgen.io
🟡 libgen.be
🟡 libgen.nl
3. Sci-hub (site):
🟢 sci-hub.ee
🟢 sci-hub.ren
🟢 sci-hub.wf
🟢 sci-hub.se
🟢 sci-hub.wf
🟢 sci-hub.wf
4. Papers Download (telegram group):
🟢 t.iss.one/+htsaeeM3ZwUwNTY8
🟢 t.iss.one/freepapers_drkayvanfar
5. Z-library (site):
🟢 z-lib.is
🟢 z-lib.io
6. Pdfdrive (site):
🟢 pdfdrive.com
7. Wosonhj (site):
🟢 wosonhj.com
8. STC (site):
🟢 standard--template--construct-org.ipns.dweb.link
لیست به ترتیب سهولت و سرعت استفاده مرتب شده است
#منابع
پ.ن: چیزی میدونین کامنت کنید
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
1. Nexus search (telegram bot)
🟢 t.iss.one/sks7777777nexusbot
🟢 t.iss.one/nexusbooks_maxenswlfr_bot
🟢 t.iss.one/rcbook_bot
🟢 t.iss.one/subitoafk_bot
🟢 t.iss.one/Nexus_books_moji_bot
🟢 t.iss.one/nexus_bookss_bot
🟢 t.iss.one/Crawl_for_books_bot
🟢 t.iss.one/Fr_lib_pirate_bot
🟢 t.iss.one/NexusbotBot
🟢 t.iss.one/scihubot
🟢 t.iss.one/sks7777777nexusbot
🟢 t.iss.one/tkutuphanebot
🟢 t.iss.one/Researchassist_free_article_bot
🟢 t.iss.one/subitoafk_bot
🟢 t.iss.one/ShingekiKyojin_bot
🟡 t.iss.one/nexus_search_brian_bot
🟡 t.iss.one/asschandmustdie_bot
🟡 t.iss.one/science_nexus_bot
🟡 t.iss.one/nexus_search_another_bot
2. Library Genesis (site):
🟢 libgen.is
🟢 libgen.st
🟢 libgen.rs
🟢 libgen.gs
🟢 libgen.rs
🟢 libgen.rs
🟡 libgen.io
🟡 libgen.be
🟡 libgen.nl
3. Sci-hub (site):
🟢 sci-hub.ee
🟢 sci-hub.ren
🟢 sci-hub.wf
🟢 sci-hub.se
🟢 sci-hub.wf
🟢 sci-hub.wf
4. Papers Download (telegram group):
🟢 t.iss.one/+htsaeeM3ZwUwNTY8
🟢 t.iss.one/freepapers_drkayvanfar
5. Z-library (site):
🟢 z-lib.is
🟢 z-lib.io
6. Pdfdrive (site):
🟢 pdfdrive.com
7. Wosonhj (site):
🟢 wosonhj.com
8. STC (site):
🟢 standard--template--construct-org.ipns.dweb.link
لیست به ترتیب سهولت و سرعت استفاده مرتب شده است
#منابع
پ.ن: چیزی میدونین کامنت کنید
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍2
یه ریپوی قشنگ برای LLMها و برخی موارد در کنار اونها که تعداد ستاره هاشم بالاس :))
https://github.com/mlabonne/llm-course
https://github.com/mlabonne/llm-course
GitHub
GitHub - mlabonne/llm-course: Course to get into Large Language Models (LLMs) with roadmaps and Colab notebooks.
Course to get into Large Language Models (LLMs) with roadmaps and Colab notebooks. - mlabonne/llm-course
❤5
یکی از مسائلی که به شدت بعد از اهمیت پیدا کردن دیتا برای آموزش مدلهای یادگیری عمیق مورد بحث و نگرانی بوده و هست، موضوع privacy دیتا هست که یکی از راهکارهایی که براش پیشنهاد شده بود، استفاده از فریمورک های federated learning هست.
بچههای گوگل حالا اومدن و با این منطق که ما خودمون، زمانی که میخوایم یک چیزی رو یاد بگیریم، از زبان طبیعی استفاده میکنیم و لزوما اون داده هایی که استاد دیده رو ندیدیم و از درکی که استاد پیدا کرده و توضیحاتش یک موضوعی رو متوجه میشیم، استفاده کرده تا این موضوع رو از زاویه دیگه ای حل کنه.
به این صورت که از LLM ها در دو role مختلف استفاده میکنه. یکی student و دیگری teacher. حالا student به جای اینکه سعی کنه مفاهیم جدید رو با دادههای private یاد بگیره، از teacher میخواد که بر اساس دادههای private که دیده، داده جدید non-private تولید کنه تا student با استفاده از اون، مفهوم جدید رو یاد بگیره.
جزییات بیشتر رو میتونین اینجا مشاهده کنین.
https://blog.research.google/2024/03/social-learning-collaborative-learning.html
بچههای گوگل حالا اومدن و با این منطق که ما خودمون، زمانی که میخوایم یک چیزی رو یاد بگیریم، از زبان طبیعی استفاده میکنیم و لزوما اون داده هایی که استاد دیده رو ندیدیم و از درکی که استاد پیدا کرده و توضیحاتش یک موضوعی رو متوجه میشیم، استفاده کرده تا این موضوع رو از زاویه دیگه ای حل کنه.
به این صورت که از LLM ها در دو role مختلف استفاده میکنه. یکی student و دیگری teacher. حالا student به جای اینکه سعی کنه مفاهیم جدید رو با دادههای private یاد بگیره، از teacher میخواد که بر اساس دادههای private که دیده، داده جدید non-private تولید کنه تا student با استفاده از اون، مفهوم جدید رو یاد بگیره.
جزییات بیشتر رو میتونین اینجا مشاهده کنین.
https://blog.research.google/2024/03/social-learning-collaborative-learning.html
research.google
Social learning: Collaborative learning with large language models
🔥2
یه سایت خوب با visualization فوق العاده برای درک بهتر کرنلهای مختلف و تاثیرشون بعد از اعمال روی تصویر
https://setosa.io/ev/image-kernels/
https://setosa.io/ev/image-kernels/
Explained Visually
Image Kernels explained visually