پارامترها چی هستن
🔮 در مدلهای هوش مصنوعی، پارامترها همون عددها و مقادیری هستن که تعیین میکنن سیستم چطور دادهها رو پردازش کنه.
میتونیم بگیم مثل تنظیمات داخلی هستن که وقتی مدل آموزش میبینه، تغییر میکنن و باعث میشن مدل بتونه اطلاعات رو بفهمه و جواب تولید کنه.
مثلاً میگن مدل GPT-4 صدها میلیارد پارامتر داره که با هم کار میکنن تا بتونه کلمه بعدی رو حدس بزنه و متن بسازه.
🔮 در مدلهای هوش مصنوعی، پارامترها همون عددها و مقادیری هستن که تعیین میکنن سیستم چطور دادهها رو پردازش کنه.
میتونیم بگیم مثل تنظیمات داخلی هستن که وقتی مدل آموزش میبینه، تغییر میکنن و باعث میشن مدل بتونه اطلاعات رو بفهمه و جواب تولید کنه.
مثلاً میگن مدل GPT-4 صدها میلیارد پارامتر داره که با هم کار میکنن تا بتونه کلمه بعدی رو حدس بزنه و متن بسازه.
What Parameters Are
In AI models, parameters are the numerical values that guide how the system processes information. They’re the internal “settings” that adjust as the model learns, shaping how it interprets data and produces responses. For example, GPT-4 is estimated to have hundreds of billions of parameters working together to predict words and generate text.
❤1🔥1
دو نوع اصلی پارامتر
1⃣پارامترهای ساختاری: اینا مشخص میکنن مدل چه شکلی ساخته بشه؛ یعنی لایههای نورونهای مصنوعی چطور چیده و به هم وصل بشن. میشه گفت مثل نقشه یا اسکلت اصلی مدلن
2⃣پارامترهای رفتاری: اینا تعیین میکنن مدل وقتی داده میگیره چطور رفتار کنه؛ مثل میزان واکنشپذیری، انعطاف و نوع جوابهایی که میده. این پارامترها باعث میشن مدل بسته به نوع داده ورودی یا حتی اتصال به اینترنت، رفتار متفاوتی نشون بده
1⃣پارامترهای ساختاری: اینا مشخص میکنن مدل چه شکلی ساخته بشه؛ یعنی لایههای نورونهای مصنوعی چطور چیده و به هم وصل بشن. میشه گفت مثل نقشه یا اسکلت اصلی مدلن
2⃣پارامترهای رفتاری: اینا تعیین میکنن مدل وقتی داده میگیره چطور رفتار کنه؛ مثل میزان واکنشپذیری، انعطاف و نوع جوابهایی که میده. این پارامترها باعث میشن مدل بسته به نوع داده ورودی یا حتی اتصال به اینترنت، رفتار متفاوتی نشون بده
Two Key Types of Parameters
Construction Parameters – These define the model’s architecture: how layers of artificial neurons are arranged, connected, and weighted. Think of them as the blueprint or skeleton that gives the model its structure.
Behavior Parameters – These govern how the model acts when given input. They control responsiveness, adaptability, and output style. Behavior parameters influence whether a model gives concise answers, creative dialogue, or factual recall, depending on the data it receives and how it’s connected to external sources.
❤1🔥1
پارامترها چطور یاد میگیرن و چرا مهمن
🅾 وقتی یک مدل هوش مصنوعی آموزش میبینه، دادهها رو حفظ نمیکنه بلکه پارامترهاش رو تنظیم میکنه.
💡هر پارامتر بسته به اینکه پیشبینی مدل چقدر درست یا غلط بوده، کمی تغییر میکنه. با میلیونها یا حتی میلیاردها بار تکرار این فرایند، مدل یاد میگیره روابط پیچیده بین کلمات، تصویرها یا صداها رو درک کنه.
به همین دلیل معمولاً به پارامترها میگن «حافظه» یا «دانش» مدل.
هرچقدر مدل پارامترهای بیشتری داشته باشه (و بهتر آموزش دیده باشه)، درک عمیقتری از الگوهای ظریف مثل لحن، مفهوم، یا حتی احساسات در متن پیدا میکنه.
🅾 وقتی یک مدل هوش مصنوعی آموزش میبینه، دادهها رو حفظ نمیکنه بلکه پارامترهاش رو تنظیم میکنه.
💡هر پارامتر بسته به اینکه پیشبینی مدل چقدر درست یا غلط بوده، کمی تغییر میکنه. با میلیونها یا حتی میلیاردها بار تکرار این فرایند، مدل یاد میگیره روابط پیچیده بین کلمات، تصویرها یا صداها رو درک کنه.
به همین دلیل معمولاً به پارامترها میگن «حافظه» یا «دانش» مدل.
هرچقدر مدل پارامترهای بیشتری داشته باشه (و بهتر آموزش دیده باشه)، درک عمیقتری از الگوهای ظریف مثل لحن، مفهوم، یا حتی احساسات در متن پیدا میکنه.
How Parameters Learn and Why They Matter
When an AI model trains, it doesn’t memorize data — it adjusts its parameters.
Each parameter slightly changes based on how correct or wrong the model’s predictions are. Through millions or even billions of these small adjustments, the model learns complex relationships between words, images, or sounds.
That’s why parameters are often called the “memory” or “knowledge” of a model. The more parameters a model has (and the better it’s trained), the more subtle patterns it can understand — like tone, context, and even emotions in text.
❤1🔥1
🕹 کتابخونه Numpy یه کتابخونه قدرتمند و پراستفاده پایتونه برای محاسبات عددی و کار با آرایهها.
توی یادگیری ماشین هم استفاده ميشه زیاد.
برای آشنایی باهاش و کاربردش توی یادگیری ماشین این مقاله رو میتونید بخونید:
https://madewithml.com/courses/foundations/numpy/
توی یادگیری ماشین هم استفاده ميشه زیاد.
برای آشنایی باهاش و کاربردش توی یادگیری ماشین این مقاله رو میتونید بخونید:
https://madewithml.com/courses/foundations/numpy/
Madewithml
NumPy for Machine Learning - Made With ML by Anyscale
Numerical analysis with the NumPy computing package.
👍3❤1
گوگل کولب چیه؟
گوگل کولَب مثل یه دفترچه آنلاین رایگانه که میتونی توی مرورگر خودت باهاش کد پایتون بنویسی و اجرا کنی. بدون اینکه لازم باشه چیزی نصب کنی.
کافیه با اکانت گوگل وارد بشی، یه "notebook" جدید باز کنی، کد بنویسی، روی اجرا بزنی و همونجا نتیجه رو ببینی.
چیزی که کولب رو خاص میکنه اینه:
1⃣ رایگان بهت GPU یا TPU میده
2⃣ همهچیز روی Google Drive ذخیره میشه و میتونی دفترت رو مثل یه فایل Google Docs با بقیه به اشتراک بذاری.
گوگل کولَب مثل یه دفترچه آنلاین رایگانه که میتونی توی مرورگر خودت باهاش کد پایتون بنویسی و اجرا کنی. بدون اینکه لازم باشه چیزی نصب کنی.
کافیه با اکانت گوگل وارد بشی، یه "notebook" جدید باز کنی، کد بنویسی، روی اجرا بزنی و همونجا نتیجه رو ببینی.
چیزی که کولب رو خاص میکنه اینه:
1⃣ رایگان بهت GPU یا TPU میده
2⃣ همهچیز روی Google Drive ذخیره میشه و میتونی دفترت رو مثل یه فایل Google Docs با بقیه به اشتراک بذاری.
Think of Google Colab like a free online notebook where you can write and run Python code in your browser — no installation needed.
You log in with your Google account, open a new “notebook”, type code into a cell, hit run, and see results immediately.
What makes it really helpful: (1) It gives you access to faster hardware (GPUs/TPUs) for free, so you can experiment with heavier tasks than your
(2) Everything is saved in your Google Drive and you can share the notebook with someone else like you share a Google Doc.
❤3
⚠️ ماشینهای کولب موقتی هستن
وقتی یه نوتبوک جدید توی گوگل کولب باز میکنی، گوگل یه ماشین مجازی (Virtual Machine) بهت میده که فقط تا وقتی فعالی وجود داره.
اگه تب رو ببندی یا چند دقیقه کاری نکنی، اون ماشین پاک میشه. یعنی هرچیزی که نصب کردی یا دانلود کردی از بین میره.
اما مهندسین هوش مصنوعی یه راهحل دارن:
درایو گوگل خودشون رو وصل میکنن و فایلهای مهم مثل مدل یا دادهها رو اونجا ذخیره میکنن:
from google.colab import drive
drive.mount('/content/drive')
یه اسکریپت آماده دارن که هر بار نوتبوک اجرا میشه، خودش بهصورت خودکار کتابخونهها رو نصب کنه:
!pip install -q torch transformers datasets
به این ترتیب، هر بار که ماشین کولب از نو شروع بشه، فقط چند ثانیه طول میکشه تا دوباره مثل قبل آمادهٔ کار بشه.
وقتی یه نوتبوک جدید توی گوگل کولب باز میکنی، گوگل یه ماشین مجازی (Virtual Machine) بهت میده که فقط تا وقتی فعالی وجود داره.
اگه تب رو ببندی یا چند دقیقه کاری نکنی، اون ماشین پاک میشه. یعنی هرچیزی که نصب کردی یا دانلود کردی از بین میره.
اما مهندسین هوش مصنوعی یه راهحل دارن:
درایو گوگل خودشون رو وصل میکنن و فایلهای مهم مثل مدل یا دادهها رو اونجا ذخیره میکنن:
from google.colab import drive
drive.mount('/content/drive')
یه اسکریپت آماده دارن که هر بار نوتبوک اجرا میشه، خودش بهصورت خودکار کتابخونهها رو نصب کنه:
!pip install -q torch transformers datasets
به این ترتیب، هر بار که ماشین کولب از نو شروع بشه، فقط چند ثانیه طول میکشه تا دوباره مثل قبل آمادهٔ کار بشه.
Colab’s machines are temporary
When you open a Colab notebook, Google gives you a virtual machine (VM) that exists only while your session is active. Once you close the tab or stay idle too long, it gets deleted — including everything you installed or downloaded.
But AI engineers bypass that:
They connect their Google Drive and store checkpoints or model weights there (drive.mount('/content/drive')).
They also create setup scripts that reinstall all dependencies automatically each time the notebook starts (!pip install -q torch transformers datasets).
So every time the VM restarts, it rebuilds itself in seconds.
❤3
کولب GPU واقعی میده بهت
جیپییوهایی که کولب میده واقعیان، نه شبیهسازیشده. معمولاً مدلهایی مثل Tesla T4، P100 یا در نسخهٔ Pro+ مدل A100 هستن.
میتونی ببینی چه GPU بهت داده با دستور:
!nvidia-smi
ولی یه محدودیت داره. حافظهٔ GPU معمولاً بین ۱۲ تا ۱۶ گیگابایته. اگه موقع آموزش مدل با خطای “CUDA out of memory” روبهرو شدی (یعنی حافظه پر شده)، باید این کارو کنی:
import torch, gc
gc.collect()
torch.cuda.empty_cache()
این دستورها حافظهٔ اضافی GPU رو پاک میکنن تا دوباره بتونی آموزش رو ادامه بدی.
همچنین مهندسین حرفهای معمولاً اندازهٔ batch size رو کمتر میکنن (تعداد نمونههایی که همزمان پردازش میشن) یا از قابلیت precision ترکیبی استفاده میکنن:
with torch.cuda.amp.autocast():
...
این باعث میشه حافظهٔ GPU کمتر مصرف بشه ولی سرعت آموزش تقریباً همون بمونه.
جیپییوهایی که کولب میده واقعیان، نه شبیهسازیشده. معمولاً مدلهایی مثل Tesla T4، P100 یا در نسخهٔ Pro+ مدل A100 هستن.
میتونی ببینی چه GPU بهت داده با دستور:
!nvidia-smi
ولی یه محدودیت داره. حافظهٔ GPU معمولاً بین ۱۲ تا ۱۶ گیگابایته. اگه موقع آموزش مدل با خطای “CUDA out of memory” روبهرو شدی (یعنی حافظه پر شده)، باید این کارو کنی:
import torch, gc
gc.collect()
torch.cuda.empty_cache()
این دستورها حافظهٔ اضافی GPU رو پاک میکنن تا دوباره بتونی آموزش رو ادامه بدی.
همچنین مهندسین حرفهای معمولاً اندازهٔ batch size رو کمتر میکنن (تعداد نمونههایی که همزمان پردازش میشن) یا از قابلیت precision ترکیبی استفاده میکنن:
with torch.cuda.amp.autocast():
...
این باعث میشه حافظهٔ GPU کمتر مصرف بشه ولی سرعت آموزش تقریباً همون بمونه.
Colab gives real GPUs, but you have to manage memory smartl
yColab’s free GPU isn’t fake — it’s an actual NVIDIA card like Tesla T4, P100, or A100 (Pro + only). You can check which one you got with
:!nvidia-sm
iBut VRAM is limited (12–16 GB). So if your model crashes with “CUDA out of memory,” pros do this
:import torch, g
cgc.collect(
)torch.cuda.empty_cache(
That clears leftover memory.
They also lower the batch size (how many samples are processed at once) or use torch.cuda.amp.autocast() for mixed precision to save VRAM while training large models
❤5
کش KV توی ترنسفورمرها
🧠 مدلهای زبانی بزرگ وقتی میخوان یه جمله رو بنویسن، باید برای هر کلمهی جدید همهی کلمههای قبلی رو هم دوباره بررسی کنن تا معنی درست دربیاد.
این کار اگه هر بار از اول انجام بشه، خیلی کند میشه.
اینجاست که کش KV کمک میکنه.
مدل وقتی بار اول جمله رو میخونه، برای هر کلمه دو تا چیز درست میکنه:
▫️Key (کلید) که نشون میده اون کلمه چه اطلاعاتی داره
▫️Value (مقدار) که مشخص میکنه اون اطلاعات چطوری باید استفاده بشن
مدل اینا رو نگه میداره توی حافظه،
و دفعهی بعد فقط برای کلمهی جدید محاسبه میکنه، نه برای همهی قبلیا.
نتیجه اینه که مدل خیلی سریعتر کار میکنه و منابعش کمتر درگیر میشن مخصوصاً وقتی متن طولانیه.
🧠 مدلهای زبانی بزرگ وقتی میخوان یه جمله رو بنویسن، باید برای هر کلمهی جدید همهی کلمههای قبلی رو هم دوباره بررسی کنن تا معنی درست دربیاد.
این کار اگه هر بار از اول انجام بشه، خیلی کند میشه.
اینجاست که کش KV کمک میکنه.
مدل وقتی بار اول جمله رو میخونه، برای هر کلمه دو تا چیز درست میکنه:
▫️Key (کلید) که نشون میده اون کلمه چه اطلاعاتی داره
▫️Value (مقدار) که مشخص میکنه اون اطلاعات چطوری باید استفاده بشن
مدل اینا رو نگه میداره توی حافظه،
و دفعهی بعد فقط برای کلمهی جدید محاسبه میکنه، نه برای همهی قبلیا.
نتیجه اینه که مدل خیلی سریعتر کار میکنه و منابعش کمتر درگیر میشن مخصوصاً وقتی متن طولانیه.
❤2
💡چت جی پی تی هم دقیقاً از همین ترفند استفاده میکنه.
وقتی باهاش حرف میزنی، لازم نیست کل مکالمه رو هر بار از اول بررسی کنه.
همون کلیدها و مقدارهای قبلی رو نگه میداره و فقط چیزای جدید رو بهش اضافه میکنه.
برای همینه که حتی وقتی گفتوگو طولانی میشه، چت جی پی تی بازم سریع جواب میده و کند نمیشه.
خلاصه بخواییم بگیم:
کش KV یعنی حافظهی موقتی که باعث میشه مدل لازم نباشه هر بار همه چی رو از اول حساب کنه.
وقتی باهاش حرف میزنی، لازم نیست کل مکالمه رو هر بار از اول بررسی کنه.
همون کلیدها و مقدارهای قبلی رو نگه میداره و فقط چیزای جدید رو بهش اضافه میکنه.
برای همینه که حتی وقتی گفتوگو طولانی میشه، چت جی پی تی بازم سریع جواب میده و کند نمیشه.
خلاصه بخواییم بگیم:
کش KV یعنی حافظهی موقتی که باعث میشه مدل لازم نباشه هر بار همه چی رو از اول حساب کنه.
❤4