AI Scope
139 subscribers
203 photos
22 videos
19 files
122 links
Download Telegram
🕊1
میدونم دلتون تنگ شده بود
3
پارامترها چی هستن

🔮 در مدل‌های هوش مصنوعی، پارامترها همون عددها و مقادیری هستن که تعیین می‌کنن سیستم چطور داده‌ها رو پردازش کنه.

می‌تونیم بگیم مثل تنظیمات داخلی هستن که وقتی مدل آموزش می‌بینه، تغییر می‌کنن و باعث می‌شن مدل بتونه اطلاعات رو بفهمه و جواب تولید کنه.

مثلاً می‌گن مدل GPT-4 صدها میلیارد پارامتر داره که با هم کار می‌کنن تا بتونه کلمه بعدی رو حدس بزنه و متن بسازه.

What Parameters Are

In AI models, parameters are the numerical values that guide how the system processes information. They’re the internal “settings” that adjust as the model learns, shaping how it interprets data and produces responses. For example, GPT-4 is estimated to have hundreds of billions of parameters working together to predict words and generate text.
1🔥1
دو نوع اصلی پارامتر

1⃣پارامترهای ساختاری: اینا مشخص می‌کنن مدل چه شکلی ساخته بشه؛ یعنی لایه‌های نورون‌های مصنوعی چطور چیده و به هم وصل بشن. می‌شه گفت مثل نقشه یا اسکلت اصلی مدلن

2⃣پارامترهای رفتاری: اینا تعیین می‌کنن مدل وقتی داده می‌گیره چطور رفتار کنه؛ مثل میزان واکنش‌پذیری، انعطاف و نوع جواب‌هایی که می‌ده. این پارامترها باعث می‌شن مدل بسته به نوع داده ورودی یا حتی اتصال به اینترنت، رفتار متفاوتی نشون بده

Two Key Types of Parameters

Construction Parameters – These define the model’s architecture: how layers of artificial neurons are arranged, connected, and weighted. Think of them as the blueprint or skeleton that gives the model its structure.
Behavior Parameters – These govern how the model acts when given input. They control responsiveness, adaptability, and output style. Behavior parameters influence whether a model gives concise answers, creative dialogue, or factual recall, depending on the data it receives and how it’s connected to external sources.
1🔥1
پارامترها چطور یاد می‌گیرن و چرا مهمن

🅾 وقتی یک مدل هوش مصنوعی آموزش می‌بینه، داده‌ها رو حفظ نمی‌کنه بلکه پارامترهاش رو تنظیم می‌کنه.

💡هر پارامتر بسته به اینکه پیش‌بینی مدل چقدر درست یا غلط بوده، کمی تغییر می‌کنه. با میلیون‌ها یا حتی میلیاردها بار تکرار این فرایند، مدل یاد می‌گیره روابط پیچیده بین کلمات، تصویرها یا صداها رو درک کنه.

به همین دلیل معمولاً به پارامترها می‌گن «حافظه» یا «دانش» مدل.

هرچقدر مدل پارامترهای بیشتری داشته باشه (و بهتر آموزش دیده باشه)، درک عمیق‌تری از الگوهای ظریف مثل لحن، مفهوم، یا حتی احساسات در متن پیدا می‌کنه.


How Parameters Learn and Why They Matter

When an AI model trains, it doesn’t memorize data — it adjusts its parameters.
Each parameter slightly changes based on how correct or wrong the model’s predictions are. Through millions or even billions of these small adjustments, the model learns complex relationships between words, images, or sounds.

That’s why parameters are often called the “memory” or “knowledge” of a model. The more parameters a model has (and the better it’s trained), the more subtle patterns it can understand — like tone, context, and even emotions in text.
1🔥1
🕹 کتابخونه Numpy یه کتابخونه قدرتمند و پراستفاده پایتونه برای محاسبات عددی و کار با آرایه‌ها.
توی یادگیری ماشین هم استفاده ميشه زیاد.

برای آشنایی باهاش و کاربردش توی یادگیری ماشین این مقاله رو می‌تونید بخونید:

https://madewithml.com/courses/foundations/numpy/
👍31
گوگل کولب چیه؟

گوگل کولَب مثل یه دفترچه آنلاین رایگانه که می‌تونی توی مرورگر خودت باهاش کد پایتون بنویسی و اجرا کنی. بدون اینکه لازم باشه چیزی نصب کنی.

کافیه با اکانت گوگل وارد بشی، یه "notebook" جدید باز کنی، کد بنویسی، روی اجرا بزنی و همون‌جا نتیجه رو ببینی.
چیزی که کولب رو خاص می‌کنه اینه:

1⃣ رایگان بهت GPU یا TPU می‌ده
2⃣ همه‌چیز روی Google Drive ذخیره می‌شه و می‌تونی دفترت رو مثل یه فایل Google Docs با بقیه به اشتراک بذاری.


Think of Google Colab like a free online notebook where you can write and run Python code in your browser — no installation needed.

You log in with your Google account, open a new “notebook”, type code into a cell, hit run, and see results immediately.

What makes it really helpful: (1) It gives you access to faster hardware (GPUs/TPUs) for free, so you can experiment with heavier tasks than your
(2) Everything is saved in your Google Drive and you can share the notebook with someone else like you share a Google Doc.
3
⚠️ ماشین‌های کولب موقتی هستن

وقتی یه نوت‌بوک جدید توی گوگل کولب باز می‌کنی، گوگل یه ماشین مجازی (Virtual Machine) بهت می‌ده که فقط تا وقتی فعالی وجود داره.

اگه تب رو ببندی یا چند دقیقه کاری نکنی، اون ماشین پاک می‌شه. یعنی هرچیزی که نصب کردی یا دانلود کردی از بین می‌ره.

اما مهندسین هوش مصنوعی یه راه‌حل دارن:

درایو گوگل خودشون رو وصل می‌کنن و فایل‌های مهم مثل مدل یا داده‌ها رو اون‌جا ذخیره می‌کنن:

from google.colab import drive
drive.mount('/content/drive')

یه اسکریپت آماده دارن که هر بار نوت‌بوک اجرا می‌شه، خودش به‌صورت خودکار کتابخونه‌ها رو نصب کنه:

!pip install -q torch transformers datasets

به این ترتیب، هر بار که ماشین کولب از نو شروع بشه، فقط چند ثانیه طول می‌کشه تا دوباره مثل قبل آمادهٔ کار بشه.


Colab’s machines are temporary

When you open a Colab notebook, Google gives you a virtual machine (VM) that exists only while your session is active. Once you close the tab or stay idle too long, it gets deleted — including everything you installed or downloaded.
But AI engineers bypass that:

They connect their Google Drive and store checkpoints or model weights there (drive.mount('/content/drive')).

They also create setup scripts that reinstall all dependencies automatically each time the notebook starts (!pip install -q torch transformers datasets).
So every time the VM restarts, it rebuilds itself in seconds.
3
کولب GPU واقعی می‌ده بهت


جی‌پی‌یوهایی که کولب می‌ده واقعی‌ان، نه شبیه‌سازی‌شده. معمولاً مدل‌هایی مثل Tesla T4
، P100 یا در نسخهٔ Pro+ مدل A100 هستن.
می‌تونی ببینی چه GPU بهت داده با دستور:

!nvidia-smi


ولی یه محدودیت داره. حافظهٔ GPU معمولاً بین ۱۲ تا ۱۶ گیگابایته. اگه موقع آموزش مدل با خطای “CUDA out of memory” روبه‌رو شدی (یعنی حافظه پر شده)، باید این کارو کنی:

import torch, gc
gc.collect()
torch.cuda.empty_cache()


این دستورها حافظهٔ اضافی GPU رو پاک می‌کنن تا دوباره بتونی آموزش رو ادامه بدی.
همچنین مهندسین حرفه‌ای معمولاً اندازهٔ batch size رو کمتر می‌کنن (تعداد نمونه‌هایی که هم‌زمان پردازش می‌شن) یا از قابلیت precision ترکیبی استفاده می‌کنن:

with torch.cuda.amp.autocast():
...


این باعث می‌شه حافظهٔ GPU کمتر مصرف بشه ولی سرعت آموزش تقریباً همون بمونه.


Colab gives real GPUs, but you have to manage memory smartl

yColab’s free GPU isn’t fake — it’s an actual NVIDIA card like Tesla T4, P100, or A100 (Pro + only). You can check which one you got with

:!nvidia-sm


iBut VRAM is limited (12–16 GB). So if your model crashes with “CUDA out of memory,” pros do this

:import torch, g
cgc.collect(
)torch.cuda.empty_cache(


That clears leftover memory.
They also lower the batch size (how many samples are processed at once) or use torch.cuda.amp.autocast() for mixed precision to save VRAM while training large models
5
کش KV توی ترنسفورمرها

🧠 مدل‌های زبانی بزرگ وقتی می‌خوان یه جمله رو بنویسن، باید برای هر کلمه‌ی جدید همه‌ی کلمه‌های قبلی رو هم دوباره بررسی کنن تا معنی درست دربیاد.
این کار اگه هر بار از اول انجام بشه، خیلی کند میشه.

اینجاست که کش KV کمک می‌کنه.
مدل وقتی بار اول جمله رو می‌خونه، برای هر کلمه دو تا چیز درست می‌کنه:

▫️Key (کلید) که نشون میده اون کلمه چه اطلاعاتی داره

▫️Value (مقدار) که مشخص می‌کنه اون اطلاعات چطوری باید استفاده بشن

مدل اینا رو نگه می‌داره توی حافظه،
و دفعه‌ی بعد فقط برای کلمه‌ی جدید محاسبه می‌کنه، نه برای همه‌ی قبلیا.

نتیجه اینه که مدل خیلی سریع‌تر کار می‌کنه و منابعش کمتر درگیر می‌شن مخصوصاً وقتی متن طولانیه.
2
💡چت جی پی تی هم دقیقاً از همین ترفند استفاده می‌کنه.

وقتی باهاش حرف می‌زنی، لازم نیست کل مکالمه رو هر بار از اول بررسی کنه.
همون کلیدها و مقدارهای قبلی رو نگه می‌داره و فقط چیزای جدید رو بهش اضافه می‌کنه.

برای همینه که حتی وقتی گفت‌وگو طولانی میشه، چت جی پی تی بازم سریع جواب می‌ده و کند نمیشه.

خلاصه بخواییم بگیم:

کش KV یعنی حافظه‌ی موقتی که باعث میشه مدل لازم نباشه هر بار همه چی رو از اول حساب کنه.
4
سامسونگ دیر ولی قوی وارد مسابقه شده
2👍1🔥1
مدلی داده بیرون با یک صدم درصد اندازه مدل‌های فعلی
👍1
اما با عملکرد عجیب و نزدیک به همون مدل‌ها
👍1
فقط هم ۷ میلیون پارامتر داره و با ۱۰۰۰ نمونه آزمایشی ترین شده
👍1
عملکرد خوبش از نظر آماری کاملا غیرممکنه
👍1
AI Scope
2510-1.04871.pdf
باید حتما تحلیلش کنم
2👍1
جالبه که این همه مقاله روزانه توی arxiv منتشر می‌شه ولی یهو مقاله‌ای که کلا دوازده صفحه و یک نویسنده داره میوفته روی زبون‌ها
خیلی رویکرد هوشمندانه‌ایه. دقیقا اسمش با ماهیت مدل و تعداد صفحاتش جور در میاد:
Less Is More
2👍2🔥1
تنها وقتی چت‌های شما برای ترین کردن مدل‌های OpenAI مورد استفاده قرار نمی‌گیره که حالت "Temporary Chat" رو فعال کنید.

بقیه مواقع از تمام کلمات و ورودی‌های شما استفاده تکنولوژیک مي‌شه.

There's a cost for everything
2👍1😱1💅1