اندر فواید
https://www.wrighters.io/using-autoreload-to-speed-up-ipython-and-jupyter-work/
autoreload در IPythonhttps://www.wrighters.io/using-autoreload-to-speed-up-ipython-and-jupyter-work/
wrighters.io
Using autoreload to speed up IPython and Jupyter work - wrighters.io
Using the %autoreload magic in IPython or Jupyter can help you continue working without restarting your session after making local changes.
👍1
Forwarded from PyTorch Howsam (Howsam Support)
خانـــمها و آقایــــان،
شبکه xLSTM تنه به تنه LLM-های ترنسفوری میزند!
شبکه جدیدی به نام xLSTM یا Extended LSTM معرفی شده که توجه زیادی رو به خودش جلب کرده. این مقاله رو آقای Sepp Hochreiter همراه با تیمش ارائه کرده. حالا آقای Sepp Hochreiter کی هستن؟ همون کسی که 30 سال پیش LSTM رو همراه با آقای Jürgen Schmidhuber پیشنهاد کردن. حالا بعد از 30 سال، نسخه امروزی (شاید مدرن!) شبکه LSTM رو همراه با تیمش پیشنهاد کردن.
اونها LSTM رو طوری توسعه دادن که قابلیت Scale شدن پیدا کنه. یعنی شبکههای LSTM بیلیون پارامتری داشته باشیم! مثل LLM-های امروزی...
بهصورت کلی، ساختار شبکه xLSTM در تصویر بالا نشون داده شده. سمت چپ که LSTM رو میبینید. با توسعه همون LSTM اصلی، دو تا Memory Cell با نامهای sLSTM و mLSTM ساخته شده. وقتی sLSTM و mLSTM رو در ساختار Residual Block (همون شورتکاتها) قرار بدیم، xLSTM Block ساخته میشه. نهایتا با Stack کردن بلوکهای xLSTM به معماری یا شبکه xLSTM میرسیم! حالا نسبت این دو بلوک میتونه متفاوت باشه. به عنوان مثال، در تصویر بالا (سمت راست) نسبت 1:1 از sLSTM و mLSTM رو میبینید.
مقاله
.
شبکه xLSTM تنه به تنه LLM-های ترنسفوری میزند!
شبکه جدیدی به نام xLSTM یا Extended LSTM معرفی شده که توجه زیادی رو به خودش جلب کرده. این مقاله رو آقای Sepp Hochreiter همراه با تیمش ارائه کرده. حالا آقای Sepp Hochreiter کی هستن؟ همون کسی که 30 سال پیش LSTM رو همراه با آقای Jürgen Schmidhuber پیشنهاد کردن. حالا بعد از 30 سال، نسخه امروزی (شاید مدرن!) شبکه LSTM رو همراه با تیمش پیشنهاد کردن.
اونها LSTM رو طوری توسعه دادن که قابلیت Scale شدن پیدا کنه. یعنی شبکههای LSTM بیلیون پارامتری داشته باشیم! مثل LLM-های امروزی...
بهصورت کلی، ساختار شبکه xLSTM در تصویر بالا نشون داده شده. سمت چپ که LSTM رو میبینید. با توسعه همون LSTM اصلی، دو تا Memory Cell با نامهای sLSTM و mLSTM ساخته شده. وقتی sLSTM و mLSTM رو در ساختار Residual Block (همون شورتکاتها) قرار بدیم، xLSTM Block ساخته میشه. نهایتا با Stack کردن بلوکهای xLSTM به معماری یا شبکه xLSTM میرسیم! حالا نسبت این دو بلوک میتونه متفاوت باشه. به عنوان مثال، در تصویر بالا (سمت راست) نسبت 1:1 از sLSTM و mLSTM رو میبینید.
مقاله
.
🔥1
Forwarded from Tech Road
سخنرانان اولین دوره Tech Road🤩
بخش دوم
🔵تو پست قبلی با چندتا از سخنرانان TechRoad آشنا شدیم. تو این پست هم با چند نفر دیگه از سخنرانها که قراره همراه ما باشن آشنا میشیم.
ثبتنام به زودی آغاز میشه و ظرفیت محدوده پس حتما ما رو تو شبکههای اجتماعی دنبال کنید تا از شروع ثبت نام مطلع بشید.🥳
@CesaTechRoad
بخش دوم
🔵تو پست قبلی با چندتا از سخنرانان TechRoad آشنا شدیم. تو این پست هم با چند نفر دیگه از سخنرانها که قراره همراه ما باشن آشنا میشیم.
ثبتنام به زودی آغاز میشه و ظرفیت محدوده پس حتما ما رو تو شبکههای اجتماعی دنبال کنید تا از شروع ثبت نام مطلع بشید.🥳
@CesaTechRoad
Forwarded from PyTorch Howsam (Howsam Support)
.
بعد از معرفی شبکه KAN، حالا کارهای مختلفی مبتنی بر این شبکه داره انجام میشه. یکی از کارهای جالب، ترکیب GPT و KAN هست. در ریپوی گیتهاب زیر، دو کد minGPT با pyKAN ترکیب شده. نمونه کدش:
لینک ریپوی گیتهاب KAN-GPT
@pytorch_howsam
بعد از معرفی شبکه KAN، حالا کارهای مختلفی مبتنی بر این شبکه داره انجام میشه. یکی از کارهای جالب، ترکیب GPT و KAN هست. در ریپوی گیتهاب زیر، دو کد minGPT با pyKAN ترکیب شده. نمونه کدش:
from kan_gpt.model import GPT
from transformers import GPT2Tokenizer
model_config = GPT.get_default_config()
model_config.model_type = "gpt2"
model_config.vocab_size = 50257
model_config.block_size = 1024
model = GPT(model_config)
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
prompt = "Bangalore is often described as the "
prompt_encoded = tokenizer.encode(
text=prompt, add_special_tokens=False
)
x = torch.tensor(prompt_encoded).unsqueeze(0)
model.eval()
y = model.generate(x, 50) # sample 50 tokens
result = tokenizer.decode(y)
print(result)
# Bangalore is often described as the Silicon Valley of India.
# The city has witnessed rapid growth in the past two decades.....
لینک ریپوی گیتهاب KAN-GPT
@pytorch_howsam
Forwarded from Deep Time
نقشه راه Andrej Karpathy برای اینکه بتونیم مثل خودش یک GPT رو با زبان C و CUDA به صورت Parallel بنویسیم (llm.c) و البته CUDA و Parallel Programming هم یاد بگیریم:
۱_ کتاب Programming Massively Parallel Processors: A Hands-on Approach
که ویرایش چهارمش هم میتونید در اینترنت پیدا کنید.
۲_ بلاگ
How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog
@deeptimeai
۱_ کتاب Programming Massively Parallel Processors: A Hands-on Approach
که ویرایش چهارمش هم میتونید در اینترنت پیدا کنید.
۲_ بلاگ
How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog
@deeptimeai
👍2
یکی از پروژه های جالبی که حداقل از چشم خودم دور مونده بود این همه مدت Quick, Draw هست که توش از کاربرا درخواست میشه تا یه شی رو در ۲۰ ثانیه نقاشی کنن تا AI بتونه حدس بزنه اون چیه.
این پروژه که توسط گوگل طراحی شده علاوه بر اینکه یه ابزار سرگرمی برای کاربرا هست، یکی از بزرگترین دیتاستهای نقاشی رو هم تونسته جمع آوری کنه (۵۰ میلیون نقاشی). نکته جالب تر اینکه از طریق این لینک میتونید نقاشی های موجود رو ببینید و اگه فکر می کنید که یه سریاشون بد کشیده شدن و شبیه شی مورد نظر نیستن پیشنهاد بدید که از دیتاست حذفش کنن.
این پروژه که توسط گوگل طراحی شده علاوه بر اینکه یه ابزار سرگرمی برای کاربرا هست، یکی از بزرگترین دیتاستهای نقاشی رو هم تونسته جمع آوری کنه (۵۰ میلیون نقاشی). نکته جالب تر اینکه از طریق این لینک میتونید نقاشی های موجود رو ببینید و اگه فکر می کنید که یه سریاشون بد کشیده شدن و شبیه شی مورد نظر نیستن پیشنهاد بدید که از دیتاست حذفش کنن.
🔥3👍1
#internship
#truthworthy_ai
https://www.linkedin.com/posts/elahe-f-a443771a7_backend-react-frontend-activity-7197512991532032000-9hx-?utm_source=share&utm_medium=member_android
#truthworthy_ai
https://www.linkedin.com/posts/elahe-f-a443771a7_backend-react-frontend-activity-7197512991532032000-9hx-?utm_source=share&utm_medium=member_android
Linkedin
Elahe F. on LinkedIn: #backend #react #frontend #ai #security #sharif_apa #apa #apa_sharif…
سلام!
اگر برای تابستون دنبال جایی هستید که هم با تکنولوژیهای مختلف کار کنید و در حوزههای مختلف کارآموزی رو بگذرونید و هم فرصت کار روی محصولات واقعی رو داشته…
اگر برای تابستون دنبال جایی هستید که هم با تکنولوژیهای مختلف کار کنید و در حوزههای مختلف کارآموزی رو بگذرونید و هم فرصت کار روی محصولات واقعی رو داشته…
یه کار جالب از تیم Anthropic در جهت تفسیر کردن عملکرد مدل بزرگشون Sonnet 3
https://anthropic.com/research/mapping-mind-language-model
https://youtu.be/CJIbCV92d88
https://anthropic.com/research/mapping-mind-language-model
https://youtu.be/CJIbCV92d88
Anthropic
Mapping the Mind of a Large Language Model
We have identified how millions of concepts are represented inside Claude Sonnet, one of our deployed large language models. This is the first ever detailed look inside a modern, production-grade large language model.
❤1
Forwarded from تاکچه
🛑 کارگاه مجازی تاکچه با موضوع پردازش دادههای فوتبال
🔹جلسهی قبل (۲۳ شهریور ۱۴۰۲) گفتوگویی دلنشین را با مهندس شاهین جعفری، Data Engineer در باشگاه آرسنال، پیراموش کاربرد تکنولوژی در صنعت فوتبال داشتیم و به موضوعات مختلفی اعم از ساختار باشگاه آرسنال، وظایف مهندس و دانشمند داده در فوتبال، و مثالهای واقعی از بازیکنان و تیمها پرداختیم.
🔹در جلسهی دوم بر دادههای متنباز فوتبالی متمرکز شده و با یکدیگر کد میزنیم. این کارگاه به صورت تعاملی برگزار میشود و ایدههای شما برای حل مسائل مختلف در کار با دادههای فوتبالی نیز مورد بررسی قرار میگیرد.
🔹در این کارگاه بر روی دادههای متنباز یکی از برترین بازیکنان تاریخ فوتبال، Lionel Messi، در باشگاه Barcelona کار خواهیم کرد.
🔹اگر به فوتبال و پردازش دادههای فوتبالی علاقهمندید، شرکت در این کارگاه به شدت توصیه میشود.
🔸 در این کارگاه در خدمت محمدصادق سلیمی، فارغالتحصیل مقطع کارشناسی صنعتی شریف هستیم.
⏳ زمان جلسه: چهارشنبه ۱۶ خرداد، ساعت ۱۷
📍 محل ارائه مجازی: اتاق مجازی انجمن علمی
📆 اضافه کردن به تقویم گوگل
☕️ @cafe_ssc
📚 @ssc_talkche
@sharifharekat
🔹جلسهی قبل (۲۳ شهریور ۱۴۰۲) گفتوگویی دلنشین را با مهندس شاهین جعفری، Data Engineer در باشگاه آرسنال، پیراموش کاربرد تکنولوژی در صنعت فوتبال داشتیم و به موضوعات مختلفی اعم از ساختار باشگاه آرسنال، وظایف مهندس و دانشمند داده در فوتبال، و مثالهای واقعی از بازیکنان و تیمها پرداختیم.
🔹در جلسهی دوم بر دادههای متنباز فوتبالی متمرکز شده و با یکدیگر کد میزنیم. این کارگاه به صورت تعاملی برگزار میشود و ایدههای شما برای حل مسائل مختلف در کار با دادههای فوتبالی نیز مورد بررسی قرار میگیرد.
🔹در این کارگاه بر روی دادههای متنباز یکی از برترین بازیکنان تاریخ فوتبال، Lionel Messi، در باشگاه Barcelona کار خواهیم کرد.
🔹اگر به فوتبال و پردازش دادههای فوتبالی علاقهمندید، شرکت در این کارگاه به شدت توصیه میشود.
🔸 در این کارگاه در خدمت محمدصادق سلیمی، فارغالتحصیل مقطع کارشناسی صنعتی شریف هستیم.
⏳ زمان جلسه: چهارشنبه ۱۶ خرداد، ساعت ۱۷
📍 محل ارائه مجازی: اتاق مجازی انجمن علمی
📆 اضافه کردن به تقویم گوگل
☕️ @cafe_ssc
📚 @ssc_talkche
@sharifharekat
Forwarded from Rahnema College
ثبتنام وبینار مسیر شغلی مهندسی ماشین لرنینگ شروع شد❗️
در دنیای امروز، دادهها به عنوان طلای جدید شناخته میشوند و ماشین لرنینگ یکی از کلیدهای استخراج ارزش از این دادههاست. یادگیری ماشین لرنینگ نه تنها یک مهارت اساسی برای تبدیل شدن به یک متخصص داده است، بلکه درهای بسیاری از فرصتهای شغلی و ارتقای شغلی را به روی شما باز میکند.
در یک گفتوگوی یک ساعته،با اساتید و منتورهای رهنما کالج همراه میشویم تا مسیر شغلی حوزه ماشین لرنینگ را برایمان ترسیم کنند و از توانمندیهای مورد نیاز این رشته و چالشهای این مسیر بگویند.از راههای یادگیری این رشته و منابع آموزشی گرفته تا چموخم ماشین لرنینگ در بازار کار میتوانید هر سوالی در این زمینه دارید بپرسید و در نهایت با فرآیند بوتکمپ ماشین لرنینگ رهنما کالج آشنا شوید.
⭕️ این وبینار رایگان است و ویدئو هم دارد، ولی باید حتما از قبل ثبتنام کرده باشید.
ثبتنام رایگان وبینار
📍ثبتنام بوتکمپ ماشین لرنینگ و ارسال چالش تا ۱۰ تیرماه
به امید دیدنتون در رهنما کالج
🆔@rahnemacollege
در دنیای امروز، دادهها به عنوان طلای جدید شناخته میشوند و ماشین لرنینگ یکی از کلیدهای استخراج ارزش از این دادههاست. یادگیری ماشین لرنینگ نه تنها یک مهارت اساسی برای تبدیل شدن به یک متخصص داده است، بلکه درهای بسیاری از فرصتهای شغلی و ارتقای شغلی را به روی شما باز میکند.
در یک گفتوگوی یک ساعته،با اساتید و منتورهای رهنما کالج همراه میشویم تا مسیر شغلی حوزه ماشین لرنینگ را برایمان ترسیم کنند و از توانمندیهای مورد نیاز این رشته و چالشهای این مسیر بگویند.از راههای یادگیری این رشته و منابع آموزشی گرفته تا چموخم ماشین لرنینگ در بازار کار میتوانید هر سوالی در این زمینه دارید بپرسید و در نهایت با فرآیند بوتکمپ ماشین لرنینگ رهنما کالج آشنا شوید.
⭕️ این وبینار رایگان است و ویدئو هم دارد، ولی باید حتما از قبل ثبتنام کرده باشید.
ثبتنام رایگان وبینار
📍ثبتنام بوتکمپ ماشین لرنینگ و ارسال چالش تا ۱۰ تیرماه
به امید دیدنتون در رهنما کالج
🆔@rahnemacollege
👍1
Forwarded from Rayan AI Course
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Forwarded from شبکه داستانی عصبی (Blue Phoenix)
شرکت جدید کارپثی عزیز در زمینهی آموزش AI:
https://x.com/karpathy/status/1813263734707790301
https://eurekalabs.ai/
https://github.com/EurekaLabsAI
https://x.com/karpathy/status/1813263734707790301
https://eurekalabs.ai/
https://github.com/EurekaLabsAI
Forwarded from Tech Immigrants
لایو تجربهی زندگی، تحصیل و کار در چهار کشور اروپایی با حسین فیروز - مهندس یادگیری ماشین
در این لایو، میزبان حسین فیروز، مهندس یادگیری ماشین با تجربه زندگی، تحصیل و کار در چهار کشور اروپایی:
فنلاند، سوئد، سوئیس و فرانسه خواهیم بود.
در این لایو، شما فرصت خواهید داشت تا درباره مزایا و چالشهای زندگی در هر یک از این کشورها اطلاعات کسب کنید و سوالات خود را مستقیماً از حسین بپرسید.
اگردر حال برنامهریزی برای مهاجرت یا تغییر کشور در اروپا هستید و میخواید که بهترین تصمیم ممکن رو بگیرید، این لایو رو از دست ندید.
📅 تاریخ: دوشنبه ۱ مرداد
🕔ساعت: ۷ شب ایران
🎙 میزبان: سحر
برای شرکت در لایو روی لینک زیر کلیک کنید.
https://www.youtube.com/watch?v=IimHm3UcxV4
افزودن به کلندر:
برای اضافه کردن این لایو به کلندر خود، روی این لینک کلیک کنید.
در این لایو، میزبان حسین فیروز، مهندس یادگیری ماشین با تجربه زندگی، تحصیل و کار در چهار کشور اروپایی:
فنلاند، سوئد، سوئیس و فرانسه خواهیم بود.
در این لایو، شما فرصت خواهید داشت تا درباره مزایا و چالشهای زندگی در هر یک از این کشورها اطلاعات کسب کنید و سوالات خود را مستقیماً از حسین بپرسید.
اگردر حال برنامهریزی برای مهاجرت یا تغییر کشور در اروپا هستید و میخواید که بهترین تصمیم ممکن رو بگیرید، این لایو رو از دست ندید.
📅 تاریخ: دوشنبه ۱ مرداد
🕔ساعت: ۷ شب ایران
🎙 میزبان: سحر
برای شرکت در لایو روی لینک زیر کلیک کنید.
https://www.youtube.com/watch?v=IimHm3UcxV4
افزودن به کلندر:
برای اضافه کردن این لایو به کلندر خود، روی این لینک کلیک کنید.
YouTube
لایوتجربهی زندگی، تحصیل و کار در چهار کشور اروپایی با حسین فیروز - مهندس یادگیری ماشین
در این لایو، میزبان حسین فیروز، مهندس یادگیری ماشین با تجربه زندگی، تحصیل و کار در چهار کشور اروپایی:
فنلاند، سوئد، سوئیس و فرانسه خواهیم بود.
در این لایو، شما فرصت خواهید داشت تا درباره مزایا و چالشهای زندگی در هر یک از این کشورها اطلاعات کسب کنید و…
فنلاند، سوئد، سوئیس و فرانسه خواهیم بود.
در این لایو، شما فرصت خواهید داشت تا درباره مزایا و چالشهای زندگی در هر یک از این کشورها اطلاعات کسب کنید و…
🔥4
Forwarded from Recommender system (MehriMah Amiri)
تمام کورسهای 365datascience به مدت سه روز رایگان شده
اگر به دنبال این هستین که داخل رزومتون و لینکدین مدرکی بزارین فرصت خوبیه.
https://365datascience.com/
حواستون باشه به اسم و فامیلی ایمیلی که رجیستر میکنید ثبت میشه من مجبور شدم ایمیل بزنم اصلاح کنند فامیلیم رو .
منبع : توییت برنامه نویسی
اگر به دنبال این هستین که داخل رزومتون و لینکدین مدرکی بزارین فرصت خوبیه.
https://365datascience.com/
حواستون باشه به اسم و فامیلی ایمیلی که رجیستر میکنید ثبت میشه من مجبور شدم ایمیل بزنم اصلاح کنند فامیلیم رو .
منبع : توییت برنامه نویسی
❤1🔥1
All you need is diffusion :)
https://deeplearning.neuromatch.io/tutorials/W2D4_GenerativeModels/student/W2D4_Tutorial2.html
https://deeplearning.neuromatch.io/tutorials/W2D4_GenerativeModels/student/W2D4_Tutorial2.html
Forwarded from Tensorflow(@CVision) (Alister ☄️)
مقاله زیر از طریق رویکردی بصری و شفاف، به مفهوم کوانتیزاسیون پرداخته. کوانتیزاسیون به عنوان یک تکنیک در حوزه یادگیری ماشین، به ویژه در مدلهای بزرگ زبانی، نقش بسزایی در کاهش حجم محاسبات، حافظه و در نتیجه افزایش کارایی مدلها ایفا میکند. این مقاله با ارائه مثالهای گرافیکی، مفاهیم و انواع روشهای کوانتیزاسیون را به صورت ساده و قابل درک بیان کرده است.
فرایند تبدیل اعداد با دقت بالا (مانند اعداد اعشاری) به اعداد با دقت کمتر (مانند اعداد صحیح) را کوانتیزاسیون میگویند. این فرایند با کاهش تعداد بیتهای مورد نیاز برای نمایش هر عدد، منجر به کاهش حجم محاسبات و حافظه مورد نیاز میشود.
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
فرایند تبدیل اعداد با دقت بالا (مانند اعداد اعشاری) به اعداد با دقت کمتر (مانند اعداد صحیح) را کوانتیزاسیون میگویند. این فرایند با کاهش تعداد بیتهای مورد نیاز برای نمایش هر عدد، منجر به کاهش حجم محاسبات و حافظه مورد نیاز میشود.
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Forwarded from Tensorflow(@CVision) (Alister ☄️)
Tensorflow(@CVision)
مقاله زیر از طریق رویکردی بصری و شفاف، به مفهوم کوانتیزاسیون پرداخته. کوانتیزاسیون به عنوان یک تکنیک در حوزه یادگیری ماشین، به ویژه در مدلهای بزرگ زبانی، نقش بسزایی در کاهش حجم محاسبات، حافظه و در نتیجه افزایش کارایی مدلها ایفا میکند. این مقاله با ارائه…
به عنوان مثال مدل Llama 405b دارای 405 میلیارد پارامتر میباشد که هر پارامتر یک عدد متغیر از نوع float 16 میباشد. حجم مدل از طریق این رابطه به شرح ذیل میباشد:
405,000,000,000*16bit/1.25 × 10-10(تبدیل به گیگا بایت)=810GB
اگر دقت پارامتر ها را با استفاده از کوانتیزاسیون کاهش دهیم این مقدار در Q4 به مقدار زیر کاهش می یابد.
405,000,000,000*4bit/1.25 × 10-10(تبدیل به گیگا بایت)=202.5GB
مدلهای بزرگتر (مثلاً Llama 70B, Llama 405B) دارای افزونگی ( redundancy ) بیشتری هستند. این به این معنی است که مدل مسیرهای زیادی برای نمایش و پردازش اطلاعات مشابه دارد. در نتیجه، حتی زمانی که مدل را کوانتیزه میکنید، هنوز افزونگی کافی برای حفظ بیشتر قابلیتهای اصلی آن وجود دارد.
اما در مورد مدل های کوچکتر الزاما کارایی زیادی ندارد.
متا مدلهای جدید ۳.۱ را روی ۲۵ تریلیون توکن آموزش داده است، بنابراین مدل ۸ میلیارد پارامتری برای هر پارامتر بیشترین آموزش را دریافت کرده است و کوانتیزه کردن آن آسیب بیشتری میزند.
مدلهای بزرگتر با همان مقدار آموزش هوشمندتر هستند، اما یک مدل کوچک که روی توکنهای بیشتری آموزش دیده است، اجرای ارزانتری دارد.
اگر Llama 3 با ۴۰۵ میلیارد پارامتر را ۵۰ برابر بیشتر از مدل ۸ میلیارد پارامتری روی توکنها آموزش میدادید، بسیار هوشمندتر میشد و از کوانتیزاسیون بیشتر آسیب میدید.
405,000,000,000*16bit/1.25 × 10-10(تبدیل به گیگا بایت)=810GB
اگر دقت پارامتر ها را با استفاده از کوانتیزاسیون کاهش دهیم این مقدار در Q4 به مقدار زیر کاهش می یابد.
405,000,000,000*4bit/1.25 × 10-10(تبدیل به گیگا بایت)=202.5GB
مدلهای بزرگتر (مثلاً Llama 70B, Llama 405B) دارای افزونگی ( redundancy ) بیشتری هستند. این به این معنی است که مدل مسیرهای زیادی برای نمایش و پردازش اطلاعات مشابه دارد. در نتیجه، حتی زمانی که مدل را کوانتیزه میکنید، هنوز افزونگی کافی برای حفظ بیشتر قابلیتهای اصلی آن وجود دارد.
اما در مورد مدل های کوچکتر الزاما کارایی زیادی ندارد.
متا مدلهای جدید ۳.۱ را روی ۲۵ تریلیون توکن آموزش داده است، بنابراین مدل ۸ میلیارد پارامتری برای هر پارامتر بیشترین آموزش را دریافت کرده است و کوانتیزه کردن آن آسیب بیشتری میزند.
مدلهای بزرگتر با همان مقدار آموزش هوشمندتر هستند، اما یک مدل کوچک که روی توکنهای بیشتری آموزش دیده است، اجرای ارزانتری دارد.
اگر Llama 3 با ۴۰۵ میلیارد پارامتر را ۵۰ برابر بیشتر از مدل ۸ میلیارد پارامتری روی توکنها آموزش میدادید، بسیار هوشمندتر میشد و از کوانتیزاسیون بیشتر آسیب میدید.
👍1
Forwarded from DadmaTools
🔊 فرصتی برای دانشجویان هوش مصنوعی
🔸رویداد رونمایی از دادماتولز، جامعترین ابزار پردازش زبان طبیعی در فارسی
🔹زمان:
دوشنبه ۱۵ مرداد ساعت ۱۰ الی ۱۲
🔹مکان:
صندوق نوآوری و شکوفایی، سالن آمفی تئاتر
📎لینک ثبت نام:
https://evand.com/events/dadmatools
🔸رویداد رونمایی از دادماتولز، جامعترین ابزار پردازش زبان طبیعی در فارسی
با گردهمایی بزرگ متخصصان NLP کشور همراه باشید
🔹زمان:
دوشنبه ۱۵ مرداد ساعت ۱۰ الی ۱۲
🔹مکان:
صندوق نوآوری و شکوفایی، سالن آمفی تئاتر
📎لینک ثبت نام:
https://evand.com/events/dadmatools
🔥1