PyTorch Howsam
3K subscribers
336 photos
48 videos
5 files
472 links
از هوش مصنوعی میگیم...

ارتباط با ادمین
@howsam_support
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
کگل و کولب!

به روشی که در ویدئوی بالا گفته شده، می‌تونید نوتبوک کگل رو در کولب باز کنید. عالی! 🤌

@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
دو خبر جالب!

گوگل، لیستی شامل 321 نمونه واقعی استفاده از Gen AI در شرکت‌ها و سازمان‌ها رو منتشر کرده. لینک

مدل DeepSeek-V3 از لحاظ دقت و سرعت موردتوجه قرار گرفته. مشابه با ChatGPT میشه از این سرویس هم استفاده کرد. سرعت تولید متنش جالب توجه هست! ثبت‌نام بدون دردسری داره. لینک

@pytorch_howsam
سایت Prompt Engineering Guide مطالب آموزشی خوب و منظمی داره. محدود به rompt Engineering هم نیست.

Motivated by the high interest in developing with LLMs, we have created this new prompt engineering guide that contains all the latest papers, advanced prompting techniques, learning guides, model-specific prompting guides, lectures, references, new LLM capabilities, and tools related to prompt engineering.


https://www.promptingguide.ai/

@pytorch_howsam
بریده‌ای از کتاب Hands-on LLMs!

در فصل 6 کتاب، درباره مهندسی پرامپت (Prompt Engineering) صحبت شده. در یکی از بخش‌های این فصل درباره استدلال یا Reasoning در مدل‌های مولد توضیح داده شده. در ادامه، خلاصه این بخش رو آوردم...

کتاب، قبل از اینکه درباره استدلال در مدل‌های مولد صحبت کنه، به استدلال در انسان اشاره می‌کنه. گریزی به کتاب معروف Thikning, Fast and Slow اثر Daniel Kahneman میزنه. این کتاب درباره روش‌های فکر کردن انسان‌هاست و ارتباطی به هوش مصنوعی نداره. این کتاب میگه، به طور کلی، روش‌های فکر کردن ما به دو دسته تقسیم میشن: سیستم ۱ و سیستم ۲؛ سیستم ۱ خودکار و سریع هست؛ مثل وقتی که یک چیزی رو سریع حدس می‌زنی یا احساسی تصمیم می‌گیری. این سیستم شبیه مدل‌های مولد هست که بدون فکر کردن، خروجی تولید میکنن. از طرف دیگه، سیستم ۲، آهسته‌تر و منطقی‌تر هست؛ مثلا، وقتی که با دقت فکر می‌کنی یا یک مساله پیچیده ریاضی حل می‌کنی. حالا، در LLM تلاش میشه که سیستم 2 پیاده‌سازی بشه تا مدل قبل از پاسخ دادن، فکر کنه.

کتاب دو روش استدلال رو معرفی میکنه:
1. زنجیره تفکر (Chain-of-Tought)
2. درخت تفکر (Tree-of-Tought)

1. روش Chain-of-Tought:
به جای اینکه مدل مستقیم و سریع پاسخ رو تولید کنه، مراحل فکری رسیدن رو هم نشون میده. مثلا، وقتی یک سوال حل مسئله ریاضی بهش داده میشه، اول فرآیند فکر کردن رو مرحله به مرحله توضیح میده و بعد به جواب نهایی میرسه. این کار باعث میشه مدل‌ها در حل مسائل پیچیده بهتر عمل کنن. این تکنیک شبیه روشی هست که آدم‌ها موقع فکر کردن استفاده می‌کنن؛ یعنی، اول استدلال و بعد نتیجه‌کیری.

2. روش Tree-of-Thought:
روش پیشرفته‌تری نسبت به Chain-of-Thought هست. توی این روش، به جای اینکه مدل فقط یک مسیر خطی از فکر کردن رو دنبال کنه، چندین مسیر فکری مختلف رو بررسی می‌کنه؛ مثل یک درخت که شاخه‌های مختلف داره. هر شاخه نماینده‌ یک راه‌حل یا یک استدلال متفاوت هست. مدل این شاخه‌ها رو ارزیابی می‌کنه و بهترین‌شون رو انتخاب می‌کنه تا به جواب بهتری برسه. تصویر پیوستی مربوط به همین روش استدلال درختی هست.

کتاب Hands-on LLMs رو قبلا اینجا معرفی کردم. کتاب خوبی هست. خودم هم به تازگی مطالعه این کتاب رو تموم کردم.

@pytorch_howsam
2️⃣0️⃣2️⃣5️⃣🎆

سباستین راشکا یک وبلاگ درباره مقالات تحقیقاتی برجسته در سال 2024 نوشته. اولش گفته که انقدر حجم کارهای تحقیقاتی ارزشمند سال 2024 زیاد هست که باید کتاب نوشت! به همین خاطر، تصمیم گرفته، هر ماه از سال 2024 رو به یک کار ارزشمند اختصاص بده. فعلا، شش ماه اول سال 2024 رو نوشته. اگه خواستید، می‌تونید از لینک زیر مطالعه کنید.
Noteworthy AI Research Papers of 2024 (Part One)

ماه قبل، راشکا گفت که تصادف کرده و آسیب دیده. یک مدتی نمی‌تونست پشت میز بشینه و کار کنه. توی این پست گفت که حالش بهتره. امیدوارم به خوبی ریکاوری کنه.


من هم تصمیم گرفتم که کار مربوط به هر ماه رو به‌صورت خلاصه اینجا بنویسم. توی این پست درباره کار ماه ژانویه نوشتم.

1. ژانویه: روش Mixture of Experts مدل Mixtral
تنها چند روز پس از شروع ژانویه 2024، تیم Mistral AI مقاله Mixtral of Experts یا MoE را (در تاریخ 8 ژانویه 2024) منتشر کرد. آنها در این مقاله، مدل Mixtral 8x7B را معرفی کردند.

این مقاله و مدل در زمان خود بسیار تاثیرگذار بود، چون Mixtral 8x7B یکی از اولین مدل‌های MoE با وزن‌های باز (open-weight) بود که عملکرد چشمگیری داشت و در معیارهای مختلف، Llama 2 70B و GPT-3.5 را پشت سر گذاشته بود.

مدل MoE یا Mixture of Experts چیست؟
یک مدل تجمعی که چندین زیرشبکه کوچک "متخصص" (Expert) را در یک معماری شبیه به GPT ترکیب می‌کند. می‌توان گفت، هر زیرشبکه مسئول انجام یک‌سری تسک خاص و متفاوت هست. استفاده از چندین زیرشبکه کوچک به جای یک شبکه بزرگ باعث می‌شود که مدل‌های MoE منابع محاسباتی را به صورت بهینه‌تری استفاده کنند.

ساختار مدل Mixtral 8x7B به چه شکلی هست؟

در شکل بالا ساختار مدل Mixtral 8x7B نشان داده شده است. به‌طور خاص، در Mixtral 8x7B، هر ماژول Feed-Forward در معماری ترنسفورمر با 8 لایه متخصص (Expert) جایگزین شده است.

در شکل چهار نکته مهم وجود دارد:
1) معماری مدل شبیه به GPT (مبتنی بر دیکدر) هست.
2) 8 متخصص در ماژول فیدفورارد قرار گرفته‌اند.
3) یک ماژول Router وجود دارد که توکن‌ها را به 8 ماژول متخصص فیدفورارد هدایت می‌کند.
4) خروجی این 8 ماژول متخصص با یکدیگر جمع می‌شوند.

@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
مجموعه Misguided Attention :

این مجموعه‌ای از پِرامپت‌ها (سوالات یا دستورالعمل‌ها) است که برای به چالش کشیدن توانایی‌های استدلالی مدل‌های زبانی بزرگ (LLMs) در حضور اطلاعات گمراه‌کننده طراحی شده‌اند. این پرامپت‌ها تغییرات کوچکی در آزمون‌های فکری، معماها یا پارادوکس‌های شناخته‌شده (که به آنها "سوالات پیچیده" نیز گفته می‌شود) ایجاد می‌کنند.

رفتار مورد انتظار این است که مدل‌های زبانی بزرگ، با استفاده از استدلال منطقی، مشکلات را به‌صورت گام‌به‌گام حل کنند. با این حال، بسیاری از مدل‌ها به‌دلیل مواجهه مکرر با نسخه‌های اصلی این مشکلات در داده‌های آموزشی‌شان، به‌اشتباه مسئله را تشخیص داده و به جای بررسی جزئیات و حل مسئله‌ی اصلاح‌شده، پاسخ‌هایی برای نسخه‌ی اصلی و تغییرنیافته‌ی مسئله ارائه می‌دهند. در برخی موارد نیز ممکن است رشته‌هایی از استدلال‌های متناقض مشاهده شود که در یک متن به‌طور متناوب ظاهر می‌شوند.

گیت هاب
PyTorch Howsam
قبلا، چند تا کتاب درباره LLM معرفی کرده بودم. توی دو ماه گذشته مشغول مطالعه دو کتاب زیر بودم: کتاب درباره Build a Large Language Model از Sebastian Raschka کتاب Hands-on LLMs از آقای Jay Alammar احتمالا یک نقد و بررسی از اون دو کتاب می‌نویسم. فعلا، در این…
خب، از بین این کتاب‌های کاندیدا (پیام ریپلای‌شده)، هیچ کدوم رو انتخاب نکردم! 🙃 نه اینکه کتاب خوبی نباشن، بلکه تصمیم گرفتم کتاب جدید تمرکز بیشتری روی بعد علمی داشته باشه، نه عملی و پروداکشن. خلاصه اینکه، یک کتاب خوب بنام Transformers in Action پیدا کردم!

این کتاب، تسک‌ها و معماری‌های مختلفی رو پوشش داده که همین فاکتور باعث شد برای مطالعه انتخابش کنم. مثلا، برای هر یک از تسک‌های زیر یک فصل جداگانه درنظر گرفته:
Text Summarization
Machine Translation
Text Classification
Text Generation
Multimodal Models

توی هرکدوم از فصل‌های بالا، مدل‌های معروف رو تشریح کرده. مثلا در فصل Text Generation، مدل‌های زیر رو معرفی کرده:
GPT-1 to GPT-3
InstructGPT
GPT-NeoX-20B
Llama
RedPajama
Alpaca
Dolly
Falcon

مطمئن نبودم که کتاب خوبی باشه. تصمیم گرفتم، قبل معرفی در این کانال، کمی مطالعه رو جلو ببرم و ارزیابیش کنم. الان، اواسط فصل سوم این کتاب (Text Summarization) هستم. دیگه به این جمع‌بندی رسیدم که کتاب خیلی خوبی هست.

لینک کتاب در Manning

@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
خب، از بین این کتاب‌های کاندیدا (پیام ریپلای‌شده)، هیچ کدوم رو انتخاب نکردم! 🙃 نه اینکه کتاب خوبی نباشن، بلکه تصمیم گرفتم کتاب جدید تمرکز بیشتری روی بعد علمی داشته باشه، نه عملی و پروداکشن. خلاصه اینکه، یک کتاب خوب بنام Transformers in Action پیدا کردم! این…
بریده‌ای از فصل سوم کتاب Transformers in Action ✂️

موضوع فصل سوم، خلاصه‌سازی متن یا Text Summarization هست. کتاب میگه، دو نوع خلاصه‌سازی داریم:
1. Extractive Summarization
2. Abstractive Summarization

در ادامه، با مثال زیر، تفاوت بین این دو نوع رو توضیح میدم:
شب گذشته بارش باران در تهران باعث کاهش آلودگی هوا شد. با این حال، خیابان‌ها به دلیل آب‌گرفتگی دچار ترافیک سنگین شدند. این شرایط تا صبح ادامه داشت و باعث تأخیر در رفت‌وآمد مردم شد.


در حالت Extractive Summarization، جملات مهم از متن اصلی برداشته میشن، بدون اینکه تغییری توشون داده بشه. یعنی دقیقا همون جملات متن اصلی رو میاره. در متن زیر، مستقیم جملات مهم از متن اصلی برداشته شده، بدون هیچ تغییری:
شب گذشته بارش باران در تهران باعث کاهش آلودگی هوا شد. خیابان‌ها به دلیل آب‌گرفتگی دچار ترافیک سنگین شدند.


روش‌های مبتنی بر Abstractive Summarization، معنای متن درک میکنن و با جمله‌بندی خودشون، خلاصه‌ای تولید می‌کنن که ممکنه توی متن اصلی نباشه. در جمله زیر، با خلاصه کردن و جمله‌بندی جدید، مفهوم اصلی بیان شده، ولی جمله‌ها دقیقاً از مثال بالا نیست:
باران شب گذشته در تهران، هم آلودگی هوا را کاهش داد و هم باعث ترافیک و تأخیر در رفت‌وآمد شد.


کتاب، تعدادی از روش‌های معروف از هر دو دسته رو معرفی میکنه؛ روش‌های مبتنی بر شبکه‌های ترنسفورمری معمولا در دسته Abstractive Summarization قرار می‌گیرن. این مدل‌ها به دلیل توانایی بالاشون در درک معنای متن و تولید جملات جدید، برای این نوع خلاصه‌سازی خیلی مناسب هستن.

کتاب میگه که اگرچه روش‌های Decoder-only مثل GPT هم میتونن خلاصه‌سازی متن انجام بدن، اما روش‌های مبتنی بر Encoder-Decoder یا Text-to-Text عملکرد بهتری دارن. چند نمونه از روش‌های Encoder-Decoder که در این فصل توضیح داده شده:
BART
T5
Pegasus
LongFormer
BigBird

بد نیست به این پست هم نگاهی بندازید: درخت تکامل LLM-ها

@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
#انتقادی! 😁

توی لینکدین، پیامی میذارم که من دنبال کار هستم و لطفا حمایتم کنید تا پیامم دیده بشه و کار پیدا کنم. دعوت به مصاحبه میشم و بعدش به خاطر دیدن یکسری نکات منفی (مثلا، ناهماهنگی در جلسه مصاحبه)، از مصاحبه انصراف میدم و بلافاصله میام در همون لینکدین کل ماجرا رو با جزئیات اما بدون ذکر نام شرکت (اخلاق‌مدارم آخه!) شرح میدم.

دائم در پست‌های مختلف، غر می‌زنم؛ امروز رفتم سوپرمارکت، اسنپ گرفتم، سر کار این رو گفتم و ...

به این و اون هم لگد میزنم؛ دیگه الان هرکسی که از ننه باباش قهر کرده، استارتاپ زده و ...

آیا به عواقب این رفتارها هم فکر کردم؟ مثلا، این امکان وجود داره که سایر شرکت‌ها با دیدن پست‌های من در لینکدین از ارتباط‌گیری با من منصرف بشن؟ احتمالش هست که کانکشن‌هام رو از دست بدم؟ قرار بود با لینکدین رزومه‌سازی کنم نه پرونده‌سازی!

من، هیچ کجای این ماجرا نیستم. یکسری مسائل رایج در لینکدین رو گفتم...
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
تصویر بالا، درخت تکامل مدل‌های زبانی بزرگ (LLM) رو از سال ۲۰۱۸ تا ۲۰۲۴ نشون میده. نمودار سه شاخه اصلی داره: * شاخه قرمز شامل مدل‌های Encoder-only مثل BERT هست. * شاخه سبز شامل مدل‌های Encoder-Decoder مثل T5 هست. * شاخه آبی شامل مدل‌های Decoder-only مثل…
#خبر

مدل phi-4 منتشر شده. نتایج مدل 14 بیلیونی قابل توجه هست و تنه به تنه بزرگان میزنه! مثلا، در تصویر پیوستی، ستون phi-4 رو با GPT-4o-mini و Llama-3.3 72B مقایسه کنید. لازم به ذکر هست که 14 بیلیونی شبکه بزرگی محسوب نمیشه. البته، SLM هم نیست. اگه میخواید باهاش چت کنید، می‌تونید از این لینک اقدام کنید.

من، پرامپت "یک پارگراف درباره ImageNet بنویس." رو به چند مدل دادم که در ادامه می‌تونید جواب‌هاشون رو مقایسه کنید. برای هرکدوم یک اموجی گذاشتم که رای بدید! 🤓

جواب phi-4: 👍
یک مجموعه داده وسیع و متنوع از تصاویر است که برای پیشرفت در زمینه تشخیص و تصنیف چندبرچسب تصاویر نقش مهمی ایفا کرده است. این مجموعه به طور کلی شامل ۱۴۰۰ هزار تصویر است که در ۲۰۰۰ رده مختلف درجه‌بندی شده‌اند، تقریباً ۴۰۰ هزار رده جزئی دارند. ImageNet به طور منظم برای مسابقات معروف مانند ImageNet Large Scale Visual Recognition Challenge (ILSVRC) استفاده می‌شود که در آن مدل‌های یادگیری ماشین و خوشه‌بندی عمیق برای تشخیص و کلاس‌بندی تصاویر مورد ارزیابی قرار می‌گیرند. این مجموعه داده نقش محوری در پیشرفت فناوری‌هایی مانند شبکه‌های عصبی عمیق (DNN) و توسعه مدل‌های برتر مانند AlexNet، VGG، ResNet و GoogLeNet داشته است. اهمیت و گستردگی ImageNet به ایجاد پایه‌ای قوی برای تحقیقات و توسعه در زمینه بینش‌های ویژگی و یادگیری تصویری کمک کرده است.


جواب Gemini 2.0 Flash Experimental: 👎
ایمیج‌نت (ImageNet) یک پایگاه داده بزرگ از تصاویر است که برای تحقیقات در زمینه تشخیص اشیاء در بینایی رایانه‌ای مورد استفاده قرار می‌گیرد. این پروژه توسط فی لی‌فی و همکارانش در دانشگاه استنفورد در سال ۲۰۰۹ آغاز شد. ایمیج‌نت شامل بیش از ۱۴ میلیون تصویر است که به دسته‌های مختلفی بر اساس سلسله‌مراتب WordNet دسته‌بندی شده‌اند. هر گره در سلسله‌مراتب WordNet معادل یک «اسم» است و برای هر اسم، صدها و هزاران تصویر مرتبط وجود دارد. این پایگاه داده نقش بسیار مهمی در پیشرفت الگوریتم‌های یادگیری عمیق، به ویژه شبکه‌های عصبی پیچشی (CNN) داشته است و به عنوان یک معیار استاندارد برای ارزیابی عملکرد مدل‌های تشخیص تصویر مورد استفاده قرار می‌گیرد. چالش بزرگ ایمیج‌نت (ILSVRC) که از سال ۲۰۱۰ تا ۲۰۱۷ برگزار می‌شد، به محققان کمک کرد تا مدل‌های قدرتمندتری برای تشخیص و دسته‌بندی تصاویر توسعه دهند.


جواب DeepSeek: ❤️
یک پایگاه داده بزرگ و معتبر از تصاویر برچسب‌گذاری شده است که در حوزه بینایی ماشین و یادگیری عمیق از اهمیت بالایی برخوردار است. این مجموعه شامل بیش از ۱۴ میلیون تصویر است که در بیش از ۲۰ هزار دسته مختلف سازمان‌دهی شده‌اند. ImageNet نقش کلیدی در پیشرفت مدل‌های تشخیص تصویر و بینایی کامپیوتری ایفا کرده است، به‌ویژه با معرفی چالش سالانه ImageNet Large Scale Visual Recognition Challenge (ILSVRC)، که در آن مدل‌های مختلف برای دسته‌بندی و تشخیص اشیاء در تصاویر به رقابت می‌پردازند. موفقیت مدل‌های عمیق مانند AlexNet در این چالش، نقطه عطفی در گسترش و پذیرش شبکه‌های عصبی عمیق بود. امروزه ImageNet به عنوان یک منبع استاندارد برای آموزش و ارزیابی مدل‌های بینایی ماشین استفاده می‌شود.


جواب ChatGPT: 🔥
یک دیتاست بزرگ و متنوع برای آموزش و ارزیابی مدل‌های یادگیری ماشین و بینایی کامپیوتر است که شامل بیش از 14 میلیون تصویر برچسب‌گذاری‌شده در هزاران دسته‌بندی مختلف است. این دیتاست که در سال 2009 معرفی شد، به‌عنوان مبنای رقابت معروف ImageNet Large Scale Visual Recognition Challenge (ILSVRC) مورد استفاده قرار گرفت و نقش مهمی در پیشرفت معماری‌های شبکه‌های عصبی مانند AlexNet، VGG، ResNet و دیگر مدل‌های پیشرفته داشته است. موفقیت مدل‌ها در ImageNet به‌عنوان یکی از معیارهای مهم در ارزیابی توانایی آن‌ها در تشخیص اشیا و طبقه‌بندی تصاویر شناخته می‌شود.
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
2️⃣0️⃣2️⃣5️⃣🎆 سباستین راشکا یک وبلاگ درباره مقالات تحقیقاتی برجسته در سال 2024 نوشته. اولش گفته که انقدر حجم کارهای تحقیقاتی ارزشمند سال 2024 زیاد هست که باید کتاب نوشت! به همین خاطر، تصمیم گرفته، هر ماه از سال 2024 رو به یک کار ارزشمند اختصاص بده. فعلا،…
بریم برای ماه دوم؟

2. فوریه: روش فاین-تیونینگ DoRA

اگه تجربه فاین-تیون کردن مدل‌های زبانی بزرگ (LLM) رو داشته باشید، احتمالاً با LoRA آشنا هستید. LoRA مخفف عبارت Low-Rank Adaptation هست. این تکنیک به شما امکان میده که یک LLM رو فقط با حجم کمی از پارامترهای قابل آموزش، فاین-تیون کنید. DoRA هم توسعه‌یافته همین LoRA هست که در فوریه 2024 ارائه شده و راشکا اون رو به عنوان مقاله ماه انتخاب کرده.

سباستین راشکا میگه:
به طور کلی، انتظار دارم که LoRA و روش‌های مشابه همچنان محبوب باقی بمونن. به عنوان مثال، اپل اخیرا در مقاله‌اش با عنوان Apple Intelligence Foundation Language Models اشاره کرده که از LoRA برای فاین-تیون LLM-هاشون روی دستگاه‌های خودشون استفاده می‌کنن. این کار به اون‌ها اجازه میده که مدل‌ها رو برای وظایف خاص، بهینه‌سازی کنن و در عین حال منابع محاسباتی محدود دستگاه‌های همراه رو هم در نظر بگیرن.


یادآوری: قبلا یک مقاله از متا با عنوان MobileLLM در این کانال معرفی کرده بودم که میگفتن چقدر از سخت‌افزار یک موبایل رو میشه برای LLM استفاده کرد و چه محدودیت‌هایی وجود داره. همچنین، یک وبلاگ جامع درباره همین MobileLLM نوشتم.

یک متنی درباره LoRA و DoRA نوشتم، ولی طولانی بود. تصمیم گرفتم، اینجا نذارم و توی وبلاگ منتشر کنیم.🫰
Please open Telegram to view this post
VIEW IN TELEGRAM
گفت‌وگوی لکس فریدمن و آندری کارپاتی درباره بهره‌وری، تمرکز و تعادل کار و زندگی

این گفت‌وگو نکات جالبی برای من داشت. اول، خلاصه گفت‌وگو رو آوردم، بعدش مکالمه با جزئیاتش رو در ادامه گذاشتم. لینک گفت‌وگو در یوتوب

خلاصه گفت‌وگو:
برای کاری که میخواد انجام بده، دوست داره رَم مغزش رو با اون کار پر کنه! نسبت بهش وسواس داشته باشه و عمیقا باهاش درگیر بشه (مثلا، حین دوش گرفتن، خوابیدن و غیره هم بهش فکر کنه). نمی‌تونه به یک روز کاری فکر کنه؛ بلکه، برای عملکرد خوب در یک کار، باید یک بازه زمانی چندروزه درنظر بگیره. دوره‌های فشرده کوتاه کاری داره؛ مثلا، در یک بازه زمانی چندروزه، به‌صورت فشرده روی یک چالشی کار میکنه. این چالش میتونه ماهی یک بار اتفاق بیفته.

گفت‌وگوی با جزئیات در پست بعدی...
.
PyTorch Howsam
گفت‌وگوی لکس فریدمن و آندری کارپاتی درباره بهره‌وری، تمرکز و تعادل کار و زندگی این گفت‌وگو نکات جالبی برای من داشت. اول، خلاصه گفت‌وگو رو آوردم، بعدش مکالمه با جزئیاتش رو در ادامه گذاشتم. لینک گفت‌وگو در یوتوب خلاصه گفت‌وگو: برای کاری که میخواد انجام بده،…
گفت‌وگوی با جزئیات

لکس فریدمن: خیلی از مردم می‌خواهند بدانند که تو به عنوان یکی از پرکارترین و باهوش‌ترین افراد در تاریخ هوش مصنوعی، یک روز پربار در زندگی‌ات چطور می‌گذرد؟ چه ساعتی از خواب بیدار می‌شوی؟
آندری کارپاتی: باید بگویم که من آدم صبح‌گاهی نیستم، قطعاً یک شب‌زنده‌دارم. زمان دکترایم حتی دیرتر هم می‌خوابیدم، معمولاً تا ساعت ۳ صبح بیدار بودم. فکر می‌کنم ساعات پایانی شب بسیار ارزشمند و جذاب هستند، چون همه خوابند و هیچ حواس‌پرتی وجود ندارد. مثلاً ساعت ۸ یا ۹ صبح که شرق آمریکا بیدار می‌شود، پیام‌ها و اخبار شروع می‌شوند و حواس‌پرتی‌ها زیاد می‌شود. اما ساعت ۳ صبح همه چیز آرام است و می‌توانی روی کارت تمرکز کنی.


لکس: پس تو به طور پیش‌فرض شب‌ها کار می‌کنی. چطور بهره‌وری‌ات را در این زمان‌ها مدیریت می‌کنی؟
آندری: برای من، بهره‌وری درباره ایجاد حرکت و حفظ تمرکز روی یک مسئله است. باید بتوانی حافظه‌ات را با آن مسئله پر کنی و کاملاً درگیرش شوی. حتی وقتی دوش می‌گیری یا خوابت می‌برد، باید ذهنت درگیر آن مسئله باشد. اینطوری وقتی بیدار می‌شوی، آماده‌ای که مستقیماً روی آن کار کنی.


لکس: این فرآیند در چه بازه‌ای اتفاق می‌افتد؟ یک روز، چند روز یا بیشتر؟
آندری: نمی‌توانم فقط درباره یک روز صحبت کنم، چون این یک فرآیند است. وقتی می‌خواهم روی یک مسئله متمرکز شوم، به چند روز زمان نیاز دارم تا کاملاً درگیرش شوم و نخواهم وقفه‌ای ایجاد شود. در این دوره‌ها، کاملاً وسواس‌گونه روی آن مسئله کار می‌کنم و بهترین کارهایم را انجام می‌دهم. 😃


لکس: تو پروژه‌های جالبی را در زمان کوتاهی انجام داده‌ای. این سرعت بالا نیازمند تمرکز کامل است، درست است؟
آندری: دقیقاً. باید حافظه‌ام را با آن مسئله پر کنم و بهره‌ور باشم. همیشه یک هزینه ثابت برای شروع هر پروژه وجود دارد. مثلاً وقتی در تسلا بودم و می‌خواستم روی یک پروژه جانبی کار کنم، اول باید به کلاستر SSH می‌زدم، VS Code را راه می‌انداختم و با یک سری خطاهای احمقانه دست و پنجه نرم می‌کردم. این موانع اولیه باعث می‌شوند نتوانی مستقیماً به کارت برسی. پس باید همه این موانع را برطرف کنی تا بتوانی روی مسئله تمرکز کنی. 👌


لکس: چطور با حواس‌پرتی‌ها مقابله می‌کنی؟
آندری: حواس‌پرتی‌ها انواع مختلفی دارند: اخبار، ایمیل‌ها، یا حتی پروژه‌های جالب دیگر. باید ذهنت را کاملاً متمرکز کنی. البته من هم گاهی برای حواس‌پرتی وقت می‌گذارم، اما این وقفه‌ها نباید زیاد باشند. بیشتر روزم را روی همان مسئله اصلی صرف می‌کنم.


لکس: وقتی صبح بیدار می‌شوی، قهوه می‌نوشی و اخبار می‌خوانی. آیا سعی می‌کنی سریع‌تر به سر کار بروی یا اول می‌خواهی بدانی در دنیا چه خبر است؟
آندری: من اخبار را دنبال می‌کنم، اما نسبت به این کار مشکوک هستم. نمی‌دانم که آیا این کار واقعاً مفید است یا نه، اما در حال حاضر بخشی از روال من است. دوست دارم از اتفاقات دنیا مطلع باشم، هرچند ممکن است این کار کمی حواس‌پرتی ایجاد کند.


لکس: در یک روز کاملاً پربار، چقدر زمان را به کار روی یک چیز اختصاص می‌دهی؟
آندری: معمولاً می‌توانم چند ساعت کار کنم و بعد به استراحت یا غذا خوردن نیاز دارم. حتی در پربارترین روزها، فقط شش تا هشت ساعت کدنویسی می‌کنم. زندگی هزینه‌های خودش را دارد: رفت و آمد، صحبت با مردم، غذا خوردن و غیره. حفظ تعادل به عنوان یک انسان کار سختی است.


لکس: چه چیزی به تو انگیزه می‌دهد که روزهای سخت و طولانی را با تمرکز بالا سپری کنی؟
آندری: وقتی به یک مسئله علاقه‌مند می‌شوم، احساس می‌کنم که آن چیز باید وجود داشته باشد. این انگیزه باعث می‌شود باگ‌ها، مشکلات فنی و تصمیم‌های طراحی اشتباه را تحمل کنم. همچنین، این که دیگران از کارم قدردانی کنند و ببینم که به آن‌ها کمک می‌کنم، برایم لذت‌بخش است. اگر کارهایم را با دیگران به اشتراک نگذارم، انگیزه‌ام کمتر می‌شود. ❤️


لکس: درباره تعادل کار و زندگی چه فکر می‌کنی؟
آندری: من فکر می‌کنم تعادل خوب است، اما دوست دارم گاهی اوقات دوره‌های فشرده کار داشته باشم. این دوره‌ها، که مثلاً ماهی یک بار اتفاق می‌افتند، به من اجازه می‌دهند کاملاً درگیر یک مسئله شوم و خلاقیت‌ام را به کار بگیرم. بیشتر وقت‌ها تعادل دارم، اما این دوره‌های فشرده برایم بسیار ارزشمند هستند.


لکس: و در نهایت، آیا هنوز هم شب‌ها بیشترین بهره‌وری را داری؟
آندری: بله، اما حفظ این برنامه سخت است، به‌ویژه وقتی با دیگران همکاری می‌کنی. جامعه در یک بازه زمانی خاص زندگی می‌کند و تو مجبوری خودت را با آن تطبیق دهی. سعی می‌کنم وقتی کارهای اجتماعی دارم، زیاد الکل ننوشم تا بتوانم بعداً به کارم برگردم.
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
گفت‌وگوی با جزئیات لکس فریدمن: خیلی از مردم می‌خواهند بدانند که تو به عنوان یکی از پرکارترین و باهوش‌ترین افراد در تاریخ هوش مصنوعی، یک روز پربار در زندگی‌ات چطور می‌گذرد؟ چه ساعتی از خواب بیدار می‌شوی؟ آندری کارپاتی: باید بگویم که من آدم صبح‌گاهی نیستم،…
“چیزی که اخیراً امتحان می‌کنم این است: بیدار می‌شوم و مستقیم می‌روم سر کار. هیچ چیزی را چک نمی‌کنم – نه پیام‌ها، نه ایمیل‌ها، نه اخبار، هیچ چیز. در چک کردن دنیای بیرون چیزی مخرب یا حواس‌پرت‌کننده وجود دارد که کامل درکش نمی‌کنم. این کار مثل این است که حافظه موقتم (RAM) را با کلی عامل حواس‌پرتی پر کنم و نمی‌توانم توجهم را درست و کامل روی مهم‌ترین وظیفه کاری‌ام متمرکز کنم. بعد از چند ساعت، ناهار می‌خورم و در صورت تمایل، وضعیت دنیا را بررسی می‌کنم.”

در راستای پست قبلی، آرتین، این توییت از کارپاتی رو فرستاد. توی گفت‌وگوی قبلی گفته بود که صبح اخبار رو چک میکنه.
امروز، در یوتوب یک ارائه 15 دقیقه‌ای از محمد شکوهی یکتا (با سابقه کاری در هوش مصنوعی مایکروسافت، اپل و غیره) درباره فرصت‌های هوش مصنوعی دیدم. عالی بود. لینکش رو در پایین پست گذاشتم. اما، میخوام 5 تا از نکات جالبش رو هم بگم.

1️⃣فرصت‌های هوش مصنوعی رو میشه در سه حوزه اصلی بررسی کرد: آکادمیا، شرکت‌های کوچیک/استارت‌آپ‌ها و شرکت‌های بزرگ؛ این سه تا حوزه واقعا با هم فرق دارن و معمولا ترتیب ورود بهشون هم اینطوریه: اول آکادمیا، بعد شرکت‌های بزرگ و در نهایت استارت‌آپ‌ها یا شرکت‌های کوچیک‌تر.

2️⃣یه چیز مشترک بین این سه حوزه وجود داره و اونم اینه که شکستِ سریع و یادگیری از اون شکست خیلی مهمه.

3️⃣تو شرکت‌های کوچیک، معمولا جایی برای پروژه‌های بزرگ و پرریسک نیست، چون منابع محدوده و نمیشه ریسک‌های بزرگ کرد.

4️⃣یکی از مهم‌ترین مهارت‌ها در حوزه هوش مصنوعی (AI) خلاقیت هست.

5️⃣یه چیز دیگه که باید حواسمون باشه اینه که باید بیزنس رو به AI فیت کنیم، نه برعکس. یعنی اول باید مشکلات و چالش‌های بیزنس رو شناسایی کنیم و بعد ببینیم چطور می‌تونیم از AI برای حلشون استفاده کنیم، نه اینکه اول یه تکنولوژی AI داشته باشیم (مثلا LLM) و بعد دنبال کاربرد براش بگردیم. کسایی که از آکادمیا وارد صنعت میشن، معمولا چنین تفکری دارن. 😐

ویدئوی پرباری هست: لینک ویدئو در یوتوب
Please open Telegram to view this post
VIEW IN TELEGRAM
خب، این وسط که منتظر دانلود مدل جدید DeepSeek بنام deepseek-R1 هستم، یک وبلاگ خوب معرفی کنم!

آقای Maarten Grootendorst یکی از افرادی هست که وبلاگ جذاب و بروزی داره. علاوه‌براین، در ویژوالایز کردن شبکه‌ها و متدها خیلی خفنه. شکل بالا، سه نمونه از کارهایی هست که در وبلاگش گذاشته. دیروز اعلام کرد که خبرنامه وبلاگش به 10 هزار سابسکرایبر رسیده. شما هم میتونید عضو خبرنامه بشید یا اینکه مستقیم از مطالب وبلاگش استفاده کنید.

ایشون و آقای Jay Alammar باهم کتاب خیلی خوب Hands-on LLMs رو نوشتن. دو نفر که نقاشی‌شون خوبه و از کتاب هم مشخصه! هر دو خط، یک شکل! 👏


کتاب Hands-on LLMs رو هم قبلا معرفی کردم: اینجا و اینجا

لینک وبلاگ Maarten Grootendorst
Please open Telegram to view this post
VIEW IN TELEGRAM
مدل جدید DeepSeek-R1 در Ollama قرار گرفته. این مدل قابلیت استدلال داره و عملکردش مورد توجه قرار گرفته.

اگه نمی‌دونی Ollama چی هست:
یک پلتفرم ساده و متن‌باز هست که به ما امکان میده که مدل‌های هوش مصنوعی رو روی کامپیوتر خودمون اجرا کنیم. یعنی، بدون نیاز به اینترنت یا سیستم‌های خیلی قوی یا پرداخت هزینه برای سرویس‌هایی مثل OpenAI، می‌تونیم از مدل‌های پیشرفته استفاده کنیم.


لینک صفحه DeepSeek-R1 در Ollama
After DeepSeek it's Kimi Ai turn...
Kimi k1.5 is now on available on Web.

Completely FREE, unlimited use:
- Real-time web search across 100+ sites 
- Analyze 50+ file types effortlessly 
- Advanced CoT reasoning, free forever 
- Enhanced image understanding.

New MultiModal LLM From China 🇨🇳

https://kimi.ai/

Tech Report:
https://github.com/MoonshotAI/Kimi-k1.5
استارتاپ DeepSeek باعث فروش گسترده نزدیکه به 2 تریلیون دلاری در بازار فناوری شده است که انویدیا در آستانه بزرگترین کاهش تاریخ خود شده (بیش از 500 میلیارد دلار از ارزش بازار خود را از دست داده است).

به زبان ساده، DeepSeek نشان می‌دهد که مدل‌های هوش مصنوعی می‌توانند روی تراشه‌های کمتر پیشرفته و با 1/30هزینه (گزارش شده بین 5 تا 6 میلیون دلار) اجرا شوند و عملکردی به همان خوبی یا حتی بهتر داشته باشند.

غول‌های فناوری میلیاردها دلار برای هزینه‌های سرمایه‌ای (CapEx) در سال جاری متعهد شده‌اند (مثلاً مایکروسافت 80 میلیارد دلار)، اما سرمایه‌گذاران اکنون در حال بررسی بازده سرمایه‌گذاری (ROI) این پروژه‌ها هستند اگر مدل‌های کم‌هزینه‌ای مانند DeepSeek به همان خوبی عمل کنند.

هزینه آموزش مدل GPT-4 شرکت OpenAI: بیش از 600 میلیون دلار
هزینه DeepSeek: تنها 6 میلیون دلار

OpenAI: بیش از 100 دلار برای هر میلیون توکن
DeepSeek: کمتر از 4 دلار برای هر میلیون توکن

The game is changing—and fast
DeepseekAI 🐋

Janus-Pro is released, an advanced version of Janus, improving both multimodal understanding and visual generation significantly.

Janus-Pro-7B AI model outperformed OpenAI's DALL-E 3 and Stability AI's Stable Diffusion in a leaderboard ranking for image generation using text prompts.

GitHub: Janus-Pro