Forwarded from Tensorflow(@CVision) (Alister ☄️)
مقاله زیر از طریق رویکردی بصری و شفاف، به مفهوم کوانتیزاسیون پرداخته. کوانتیزاسیون به عنوان یک تکنیک در حوزه یادگیری ماشین، به ویژه در مدلهای بزرگ زبانی، نقش بسزایی در کاهش حجم محاسبات، حافظه و در نتیجه افزایش کارایی مدلها ایفا میکند. این مقاله با ارائه مثالهای گرافیکی، مفاهیم و انواع روشهای کوانتیزاسیون را به صورت ساده و قابل درک بیان کرده است.
فرایند تبدیل اعداد با دقت بالا (مانند اعداد اعشاری) به اعداد با دقت کمتر (مانند اعداد صحیح) را کوانتیزاسیون میگویند. این فرایند با کاهش تعداد بیتهای مورد نیاز برای نمایش هر عدد، منجر به کاهش حجم محاسبات و حافظه مورد نیاز میشود.
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
فرایند تبدیل اعداد با دقت بالا (مانند اعداد اعشاری) به اعداد با دقت کمتر (مانند اعداد صحیح) را کوانتیزاسیون میگویند. این فرایند با کاهش تعداد بیتهای مورد نیاز برای نمایش هر عدد، منجر به کاهش حجم محاسبات و حافظه مورد نیاز میشود.
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Forwarded from Tensorflow(@CVision) (Alister ☄️)
Tensorflow(@CVision)
مقاله زیر از طریق رویکردی بصری و شفاف، به مفهوم کوانتیزاسیون پرداخته. کوانتیزاسیون به عنوان یک تکنیک در حوزه یادگیری ماشین، به ویژه در مدلهای بزرگ زبانی، نقش بسزایی در کاهش حجم محاسبات، حافظه و در نتیجه افزایش کارایی مدلها ایفا میکند. این مقاله با ارائه…
به عنوان مثال مدل Llama 405b دارای 405 میلیارد پارامتر میباشد که هر پارامتر یک عدد متغیر از نوع float 16 میباشد. حجم مدل از طریق این رابطه به شرح ذیل میباشد:
405,000,000,000*16bit/1.25 × 10-10(تبدیل به گیگا بایت)=810GB
اگر دقت پارامتر ها را با استفاده از کوانتیزاسیون کاهش دهیم این مقدار در Q4 به مقدار زیر کاهش می یابد.
405,000,000,000*4bit/1.25 × 10-10(تبدیل به گیگا بایت)=202.5GB
مدلهای بزرگتر (مثلاً Llama 70B, Llama 405B) دارای افزونگی ( redundancy ) بیشتری هستند. این به این معنی است که مدل مسیرهای زیادی برای نمایش و پردازش اطلاعات مشابه دارد. در نتیجه، حتی زمانی که مدل را کوانتیزه میکنید، هنوز افزونگی کافی برای حفظ بیشتر قابلیتهای اصلی آن وجود دارد.
اما در مورد مدل های کوچکتر الزاما کارایی زیادی ندارد.
متا مدلهای جدید ۳.۱ را روی ۲۵ تریلیون توکن آموزش داده است، بنابراین مدل ۸ میلیارد پارامتری برای هر پارامتر بیشترین آموزش را دریافت کرده است و کوانتیزه کردن آن آسیب بیشتری میزند.
مدلهای بزرگتر با همان مقدار آموزش هوشمندتر هستند، اما یک مدل کوچک که روی توکنهای بیشتری آموزش دیده است، اجرای ارزانتری دارد.
اگر Llama 3 با ۴۰۵ میلیارد پارامتر را ۵۰ برابر بیشتر از مدل ۸ میلیارد پارامتری روی توکنها آموزش میدادید، بسیار هوشمندتر میشد و از کوانتیزاسیون بیشتر آسیب میدید.
405,000,000,000*16bit/1.25 × 10-10(تبدیل به گیگا بایت)=810GB
اگر دقت پارامتر ها را با استفاده از کوانتیزاسیون کاهش دهیم این مقدار در Q4 به مقدار زیر کاهش می یابد.
405,000,000,000*4bit/1.25 × 10-10(تبدیل به گیگا بایت)=202.5GB
مدلهای بزرگتر (مثلاً Llama 70B, Llama 405B) دارای افزونگی ( redundancy ) بیشتری هستند. این به این معنی است که مدل مسیرهای زیادی برای نمایش و پردازش اطلاعات مشابه دارد. در نتیجه، حتی زمانی که مدل را کوانتیزه میکنید، هنوز افزونگی کافی برای حفظ بیشتر قابلیتهای اصلی آن وجود دارد.
اما در مورد مدل های کوچکتر الزاما کارایی زیادی ندارد.
متا مدلهای جدید ۳.۱ را روی ۲۵ تریلیون توکن آموزش داده است، بنابراین مدل ۸ میلیارد پارامتری برای هر پارامتر بیشترین آموزش را دریافت کرده است و کوانتیزه کردن آن آسیب بیشتری میزند.
مدلهای بزرگتر با همان مقدار آموزش هوشمندتر هستند، اما یک مدل کوچک که روی توکنهای بیشتری آموزش دیده است، اجرای ارزانتری دارد.
اگر Llama 3 با ۴۰۵ میلیارد پارامتر را ۵۰ برابر بیشتر از مدل ۸ میلیارد پارامتری روی توکنها آموزش میدادید، بسیار هوشمندتر میشد و از کوانتیزاسیون بیشتر آسیب میدید.
👍1
Forwarded from DadmaTools
🔊 فرصتی برای دانشجویان هوش مصنوعی
🔸رویداد رونمایی از دادماتولز، جامعترین ابزار پردازش زبان طبیعی در فارسی
🔹زمان:
دوشنبه ۱۵ مرداد ساعت ۱۰ الی ۱۲
🔹مکان:
صندوق نوآوری و شکوفایی، سالن آمفی تئاتر
📎لینک ثبت نام:
https://evand.com/events/dadmatools
🔸رویداد رونمایی از دادماتولز، جامعترین ابزار پردازش زبان طبیعی در فارسی
با گردهمایی بزرگ متخصصان NLP کشور همراه باشید
🔹زمان:
دوشنبه ۱۵ مرداد ساعت ۱۰ الی ۱۲
🔹مکان:
صندوق نوآوری و شکوفایی، سالن آمفی تئاتر
📎لینک ثبت نام:
https://evand.com/events/dadmatools
🔥1
Convex Optimization Course Lectures
https://www.youtube.com/playlist?list=PLXsmhnDvpjORzPelSDs0LSDrfJcqyLlZc
https://www.youtube.com/playlist?list=PLXsmhnDvpjORzPelSDs0LSDrfJcqyLlZc
YouTube
Optimization Algorithms
Lectures on Algorithms for Convex Optimization -- a second course in Optimization These lectures are from material taught as a second graduate course in Opti...
پیشنهادهای اهل فن ریسرچ توییتر برای color pallets حرفهای و زیباییشناسانهتر کتابخونه پرکاربرد matplotlib
https://x.com/MilesCranmer/status/1821965705929281604?t=lbCRqoCFzuX26joOSwuLKA&s=35
https://x.com/MilesCranmer/status/1821965705929281604?t=lbCRqoCFzuX26joOSwuLKA&s=35
X (formerly Twitter)
Miles Cranmer (@MilesCranmer) on X
Matplotlib palettes are useful for science, because they show contrast well, but I find them not to be visually pleasing. Are there any good libraries with aesthetics-focused matplotlib colorschemes?
Forwarded from Anton Kolonin
https://www.youtube.com/live/SyNMlILuwvw
13th August
Interpretable Natural Language Processing, Fundamental and Applicable Results
Hosted by: Anton Kolonin, Aigents/SingularityNET
Abstract
While general conversational intelligence (GCI) can be considered one of the core aspects of AGI, the fields of AGI and NLP currently have little overlap, with few existing AGI architectures capable of comprehending natural language and nearly all NLP systems founded upon specialized, hardcoded rules and language-specific frameworks. This workshop is centered around the idea of INLP, an extension of the interpretable AI (IAI) concept to NLP; INLP allows for acquisition of natural language, comprehension of textual communications, and production of textual messages in a reasonable and transparent way. The proposed presentations regarding Link Grammar (LG), unsupervised LG learning, interpretable NLG/NLS, and sentiment mining/topic matching cover various INLP methods that may bring a greater degree of GCI to proto-AGI pipelines.
During the workshop
Anton Kolonin will present “Interpretable Natural Language Processing Fundamental Studies and Applied Results” overview for this area, extending the line of INLP workshops over past years.
Ivan Bondarenko will present his latest work on “Hierarchical Multitask Learning as Framework for Knowledge Transfer from Domain to Neural Network”.
Victor Nosko will present his latest work on “Hallucination detector in RAG systems”.
13th August
Interpretable Natural Language Processing, Fundamental and Applicable Results
Hosted by: Anton Kolonin, Aigents/SingularityNET
Abstract
While general conversational intelligence (GCI) can be considered one of the core aspects of AGI, the fields of AGI and NLP currently have little overlap, with few existing AGI architectures capable of comprehending natural language and nearly all NLP systems founded upon specialized, hardcoded rules and language-specific frameworks. This workshop is centered around the idea of INLP, an extension of the interpretable AI (IAI) concept to NLP; INLP allows for acquisition of natural language, comprehension of textual communications, and production of textual messages in a reasonable and transparent way. The proposed presentations regarding Link Grammar (LG), unsupervised LG learning, interpretable NLG/NLS, and sentiment mining/topic matching cover various INLP methods that may bring a greater degree of GCI to proto-AGI pipelines.
During the workshop
Anton Kolonin will present “Interpretable Natural Language Processing Fundamental Studies and Applied Results” overview for this area, extending the line of INLP workshops over past years.
Ivan Bondarenko will present his latest work on “Hierarchical Multitask Learning as Framework for Knowledge Transfer from Domain to Neural Network”.
Victor Nosko will present his latest work on “Hallucination detector in RAG systems”.
YouTube
AGI-24 | Day 1 | Workshops & Tutorials | Room 2
AGI-24, Day 1, August 13
Time: 4 PM - 2 AM UTC | 9 AM - 7 PM PDT
Morning:
Tutorial - Interpretable Natural Language Processing, Fundamental and Applicable Results
Host: Anton Kolonin, Aigents/SingularityNET
Full details on website schedule page, link below.…
Time: 4 PM - 2 AM UTC | 9 AM - 7 PM PDT
Morning:
Tutorial - Interpretable Natural Language Processing, Fundamental and Applicable Results
Host: Anton Kolonin, Aigents/SingularityNET
Full details on website schedule page, link below.…
Forwarded from DeepMind AI Expert (Farzad 🦅)
#مقاله یا کتابچه بگم برای مدلها دیفیوژن از #منابع های مناسب برای یادگیری قدم به قدم این مدل هست.
◾️ Step-by-Step Diffusion: An Elementary Tutorial
#الگوریتمها
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
◾️ Step-by-Step Diffusion: An Elementary Tutorial
#الگوریتمها
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
🔥1
Forwarded from زندگی به عنوان سرویس
اگه واقعا میخواید یاد بگیرید که مدل GPT چطور کار میکنه،این بلاگ آموزش میده چطور تو ۶۰ خط و فقط با numpy، بدون استفاده از pytorch پیادهسازی میشه. خودتون انجام میدید و بعدهم تستش میکنید.
این خودش یک جلسه درس ماشین لرنینگ هست. بهتر از این هم میشه؟!
🔗 لینک بلاگ
🔗 لینک توئیت
#blog
#ML
#learning
#LLM
@lifeAsAService
این خودش یک جلسه درس ماشین لرنینگ هست. بهتر از این هم میشه؟!
🔗 لینک بلاگ
🔗 لینک توئیت
#blog
#ML
#learning
#LLM
@lifeAsAService
Jay Mody
GPT in 60 Lines of NumPy | Jay Mody
Implementing a GPT model from scratch in NumPy.
Forwarded from Elyas Esmaeili
Hiring_research_scientists_LLM_Speech.pdf
54.4 KB
سلام به همگی،
آگهی استخدام یک متخصص در زمینه پردازش سیگنال (سیگنال گفتار) و یک متخصص در حوزه پردازش زبان طبیعی به خصوص LLM ها.
اگر تمایل داشتید یا سوالی داشتید میتونید با ایمیلی که در فایل هست در ارتباط باشید.
آگهی استخدام یک متخصص در زمینه پردازش سیگنال (سیگنال گفتار) و یک متخصص در حوزه پردازش زبان طبیعی به خصوص LLM ها.
اگر تمایل داشتید یا سوالی داشتید میتونید با ایمیلی که در فایل هست در ارتباط باشید.
Forwarded from DeepMind AI Expert (Farzad 🦅)
تو گروه خیلی سوال راجب #یادگیری_تقویتی میپرسن یک مدرسه تابستونی برگزار شده اگه میتونین شرکت کنین
https://euramas.github.io/easss2024/
#منابع
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
https://euramas.github.io/easss2024/
#منابع
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍1
سادهترین و روونترین توضیحی که برای احتمال، آنتروپی، کراس-آنتروپی و KL Divergence تا به الان دیدم. این ویدیو رو به هیچ وجه از دست ندین :)
https://youtu.be/KHVR587oW8I?si=obrewoyVvZbalj_Z
https://youtu.be/KHVR587oW8I?si=obrewoyVvZbalj_Z
YouTube
The Key Equation Behind Probability
Get 4 months extra on a 2 year plan here: https://nordvpn.com/artemkirsanov. It’s risk free with Nord’s 30 day money-back guarantee!
Socials:
X/Twitter: https://x.com/ArtemKRSV
Patreon: https://www.patreon.com/artemkirsanov
My name is Artem, I'm a graduate…
Socials:
X/Twitter: https://x.com/ArtemKRSV
Patreon: https://www.patreon.com/artemkirsanov
My name is Artem, I'm a graduate…
❤7
Forwarded from DeepMind AI Expert (Farzad)
سخنرانی های #کنفرانس CVPR 2024
https://m.youtube.com/playlist?list=PL682UO4IMem8oJGT4s-3f86BSLzUVvLQD
لینک زیر لیست tutorial های cvpr 2024 هست، اکثرا فایل slide و فیلم ارائه هم دارند.
https://cvpr.thecvf.com/Conferences/2024/tutorial-list
#منابع
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
https://m.youtube.com/playlist?list=PL682UO4IMem8oJGT4s-3f86BSLzUVvLQD
لینک زیر لیست tutorial های cvpr 2024 هست، اکثرا فایل slide و فیلم ارائه هم دارند.
https://cvpr.thecvf.com/Conferences/2024/tutorial-list
#منابع
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
Forwarded from Ardawan
مشکلی نیست دوباره قرار میدم؛
دوستانی که علاقهمند به دنبال کردن دوره یادگیری ماشین آقای دکتر شریفی هستند میتوانند ویدئوهای دوره رو در این لینک مشاهده کنند.
تا کنون جلسه اول دوره منتشر شدهاست.
برای آرامش خاطر دوستان علاقهمند به این دوره😬
دوستانی که علاقهمند به دنبال کردن دوره یادگیری ماشین آقای دکتر شریفی هستند میتوانند ویدئوهای دوره رو در این لینک مشاهده کنند.
تا کنون جلسه اول دوره منتشر شدهاست.
برای آرامش خاطر دوستان علاقهمند به این دوره😬
ocw.sharif.ir
درس افزار دانشگاه صنعتی شریف
Forwarded from LLM Club
🔔 اعلام برنامه جلسهی سوم ژورنالکلاب مدلهای زبانی بزرگ
📚 موضوع: مدلهای زبانی چندزبانه: چرا و چگونه؟
👤 سخنران مهمان: دکتر مرضیه فدایی
🪧 سمت: پژوهشگر ارشد در شرکت Cohere
🗓 زمان: یکشنبه ۱۴۰۳/۰۷/۱۵، ساعت ۱۷:۰۰ تا ۱۸:۳۰
📍 مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 در این جلسه میزبان دکتر مرضیه فدایی از اعضای ارشد تیم توسعهدهندهی مدل زبانی Aya هستیم. این جلسه که به گفتگو دربارهی «مدلهای زبانی چندزبانه» اختصاص دارد، فرصت مناسبی است تا از تجربیات ارزشمند یکی از پژوهشگران برجسته این حوزه بهرهمند شویم.
از همهی شما علاقهمندان به این زمینه دعوت میکنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #Multilingual_LLM
📚 موضوع: مدلهای زبانی چندزبانه: چرا و چگونه؟
👤 سخنران مهمان: دکتر مرضیه فدایی
🪧 سمت: پژوهشگر ارشد در شرکت Cohere
🗓 زمان: یکشنبه ۱۴۰۳/۰۷/۱۵، ساعت ۱۷:۰۰ تا ۱۸:۳۰
📍 مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 در این جلسه میزبان دکتر مرضیه فدایی از اعضای ارشد تیم توسعهدهندهی مدل زبانی Aya هستیم. این جلسه که به گفتگو دربارهی «مدلهای زبانی چندزبانه» اختصاص دارد، فرصت مناسبی است تا از تجربیات ارزشمند یکی از پژوهشگران برجسته این حوزه بهرهمند شویم.
از همهی شما علاقهمندان به این زمینه دعوت میکنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #Multilingual_LLM
حالا که نوبل فیزیک به شبکه عصبی رسید، وقتشه بهتر بفهمیم چه چیزی باعث به دست اومدن این نوبل شد:
شبکه هاپفیلد:
https://youtu.be/1WPJdAW-sFo?si=JuMsrzg3fW003dxs
ماشین بولتزمن:
https://youtu.be/_bqa_I5hNAo?si=f6Ywm9LEZ_hE-Vs7
شبکه هاپفیلد:
https://youtu.be/1WPJdAW-sFo?si=JuMsrzg3fW003dxs
ماشین بولتزمن:
https://youtu.be/_bqa_I5hNAo?si=f6Ywm9LEZ_hE-Vs7
YouTube
A Brain-Inspired Algorithm For Memory
Get 20% off at https://shortform.com/artem
In this video we will explore the concept of Hopfield networks – a foundational model of associative memory that underlies many important ideas in neuroscience and machine learning, such as Boltzmann machines and…
In this video we will explore the concept of Hopfield networks – a foundational model of associative memory that underlies many important ideas in neuroscience and machine learning, such as Boltzmann machines and…
🔥4❤1
Forwarded from DeepMind AI Expert (Mehdi Dehghani)
معرفی سایت nn.labml.ai
در این سایت پیاده سازی #پایتورچ مدل ها و الگوریتم های مهم هوش مصنوعی به همراه توضیح خط به خط کد و فرمول های ریاضی به کار رفته در کد مقالات است.
و منبع عالی برای #کدخوانی #مقالات هست.
لیست موضوعات پیاده سازی شده در این سایت:
✨ Transformers
✨ Low-Rank Adaptation (LoRA)
✨Eleuther GPT-NeoX
✨Diffusion models
✨Generative Adversarial Networks
✨Recurrent Highway Networks
✨ LSTM
✨ HyperNetworks - HyperLSTM
✨ ResNet
✨ ConvMixer
✨ Capsule Networks
✨ U-Net
✨ Sketch RNN
✨ Graph Neural Networks
✨ Reinforcement Learning
✨ Counterfactual Regret Minimization (CFR)
✨ Optimizers
✨ Normalization Layers
✨ Distillation
✨ Adaptive Computation
✨ Uncertainty
✨ Activations
✨ Language Model Sampling
✨ Scalable Training/Inference
#منابع #هوش_مصنوعی
#مقاله_خوانی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
در این سایت پیاده سازی #پایتورچ مدل ها و الگوریتم های مهم هوش مصنوعی به همراه توضیح خط به خط کد و فرمول های ریاضی به کار رفته در کد مقالات است.
و منبع عالی برای #کدخوانی #مقالات هست.
لیست موضوعات پیاده سازی شده در این سایت:
✨ Transformers
✨ Low-Rank Adaptation (LoRA)
✨Eleuther GPT-NeoX
✨Diffusion models
✨Generative Adversarial Networks
✨Recurrent Highway Networks
✨ LSTM
✨ HyperNetworks - HyperLSTM
✨ ResNet
✨ ConvMixer
✨ Capsule Networks
✨ U-Net
✨ Sketch RNN
✨ Graph Neural Networks
✨ Reinforcement Learning
✨ Counterfactual Regret Minimization (CFR)
✨ Optimizers
✨ Normalization Layers
✨ Distillation
✨ Adaptive Computation
✨ Uncertainty
✨ Activations
✨ Language Model Sampling
✨ Scalable Training/Inference
#منابع #هوش_مصنوعی
#مقاله_خوانی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
🔥2👍1