دو خبر جالب!
گوگل، لیستی شامل 321 نمونه واقعی استفاده از Gen AI در شرکتها و سازمانها رو منتشر کرده. لینک
مدل DeepSeek-V3 از لحاظ دقت و سرعت موردتوجه قرار گرفته. مشابه با ChatGPT میشه از این سرویس هم استفاده کرد. سرعت تولید متنش جالب توجه هست! ثبتنام بدون دردسری داره. لینک
@pytorch_howsam
گوگل، لیستی شامل 321 نمونه واقعی استفاده از Gen AI در شرکتها و سازمانها رو منتشر کرده. لینک
مدل DeepSeek-V3 از لحاظ دقت و سرعت موردتوجه قرار گرفته. مشابه با ChatGPT میشه از این سرویس هم استفاده کرد. سرعت تولید متنش جالب توجه هست! ثبتنام بدون دردسری داره. لینک
@pytorch_howsam
سایت Prompt Engineering Guide مطالب آموزشی خوب و منظمی داره. محدود به rompt Engineering هم نیست.
https://www.promptingguide.ai/
@pytorch_howsam
Motivated by the high interest in developing with LLMs, we have created this new prompt engineering guide that contains all the latest papers, advanced prompting techniques, learning guides, model-specific prompting guides, lectures, references, new LLM capabilities, and tools related to prompt engineering.
https://www.promptingguide.ai/
@pytorch_howsam
www.promptingguide.ai
Prompt Engineering Guide | Prompt Engineering Guide
A Comprehensive Overview of Prompt Engineering
بریدهای از کتاب Hands-on LLMs!
در فصل 6 کتاب، درباره مهندسی پرامپت (Prompt Engineering) صحبت شده. در یکی از بخشهای این فصل درباره استدلال یا Reasoning در مدلهای مولد توضیح داده شده. در ادامه، خلاصه این بخش رو آوردم...
کتاب، قبل از اینکه درباره استدلال در مدلهای مولد صحبت کنه، به استدلال در انسان اشاره میکنه. گریزی به کتاب معروف Thikning, Fast and Slow اثر Daniel Kahneman میزنه. این کتاب درباره روشهای فکر کردن انسانهاست و ارتباطی به هوش مصنوعی نداره. این کتاب میگه، به طور کلی، روشهای فکر کردن ما به دو دسته تقسیم میشن: سیستم ۱ و سیستم ۲؛ سیستم ۱ خودکار و سریع هست؛ مثل وقتی که یک چیزی رو سریع حدس میزنی یا احساسی تصمیم میگیری. این سیستم شبیه مدلهای مولد هست که بدون فکر کردن، خروجی تولید میکنن. از طرف دیگه، سیستم ۲، آهستهتر و منطقیتر هست؛ مثلا، وقتی که با دقت فکر میکنی یا یک مساله پیچیده ریاضی حل میکنی. حالا، در LLM تلاش میشه که سیستم 2 پیادهسازی بشه تا مدل قبل از پاسخ دادن، فکر کنه.
کتاب دو روش استدلال رو معرفی میکنه:
1. زنجیره تفکر (Chain-of-Tought)
2. درخت تفکر (Tree-of-Tought)
1. روش Chain-of-Tought:
به جای اینکه مدل مستقیم و سریع پاسخ رو تولید کنه، مراحل فکری رسیدن رو هم نشون میده. مثلا، وقتی یک سوال حل مسئله ریاضی بهش داده میشه، اول فرآیند فکر کردن رو مرحله به مرحله توضیح میده و بعد به جواب نهایی میرسه. این کار باعث میشه مدلها در حل مسائل پیچیده بهتر عمل کنن. این تکنیک شبیه روشی هست که آدمها موقع فکر کردن استفاده میکنن؛ یعنی، اول استدلال و بعد نتیجهکیری.
2. روش Tree-of-Thought:
روش پیشرفتهتری نسبت به Chain-of-Thought هست. توی این روش، به جای اینکه مدل فقط یک مسیر خطی از فکر کردن رو دنبال کنه، چندین مسیر فکری مختلف رو بررسی میکنه؛ مثل یک درخت که شاخههای مختلف داره. هر شاخه نماینده یک راهحل یا یک استدلال متفاوت هست. مدل این شاخهها رو ارزیابی میکنه و بهترینشون رو انتخاب میکنه تا به جواب بهتری برسه. تصویر پیوستی مربوط به همین روش استدلال درختی هست.
کتاب Hands-on LLMs رو قبلا اینجا معرفی کردم. کتاب خوبی هست. خودم هم به تازگی مطالعه این کتاب رو تموم کردم.
@pytorch_howsam
در فصل 6 کتاب، درباره مهندسی پرامپت (Prompt Engineering) صحبت شده. در یکی از بخشهای این فصل درباره استدلال یا Reasoning در مدلهای مولد توضیح داده شده. در ادامه، خلاصه این بخش رو آوردم...
کتاب، قبل از اینکه درباره استدلال در مدلهای مولد صحبت کنه، به استدلال در انسان اشاره میکنه. گریزی به کتاب معروف Thikning, Fast and Slow اثر Daniel Kahneman میزنه. این کتاب درباره روشهای فکر کردن انسانهاست و ارتباطی به هوش مصنوعی نداره. این کتاب میگه، به طور کلی، روشهای فکر کردن ما به دو دسته تقسیم میشن: سیستم ۱ و سیستم ۲؛ سیستم ۱ خودکار و سریع هست؛ مثل وقتی که یک چیزی رو سریع حدس میزنی یا احساسی تصمیم میگیری. این سیستم شبیه مدلهای مولد هست که بدون فکر کردن، خروجی تولید میکنن. از طرف دیگه، سیستم ۲، آهستهتر و منطقیتر هست؛ مثلا، وقتی که با دقت فکر میکنی یا یک مساله پیچیده ریاضی حل میکنی. حالا، در LLM تلاش میشه که سیستم 2 پیادهسازی بشه تا مدل قبل از پاسخ دادن، فکر کنه.
کتاب دو روش استدلال رو معرفی میکنه:
1. زنجیره تفکر (Chain-of-Tought)
2. درخت تفکر (Tree-of-Tought)
1. روش Chain-of-Tought:
به جای اینکه مدل مستقیم و سریع پاسخ رو تولید کنه، مراحل فکری رسیدن رو هم نشون میده. مثلا، وقتی یک سوال حل مسئله ریاضی بهش داده میشه، اول فرآیند فکر کردن رو مرحله به مرحله توضیح میده و بعد به جواب نهایی میرسه. این کار باعث میشه مدلها در حل مسائل پیچیده بهتر عمل کنن. این تکنیک شبیه روشی هست که آدمها موقع فکر کردن استفاده میکنن؛ یعنی، اول استدلال و بعد نتیجهکیری.
2. روش Tree-of-Thought:
روش پیشرفتهتری نسبت به Chain-of-Thought هست. توی این روش، به جای اینکه مدل فقط یک مسیر خطی از فکر کردن رو دنبال کنه، چندین مسیر فکری مختلف رو بررسی میکنه؛ مثل یک درخت که شاخههای مختلف داره. هر شاخه نماینده یک راهحل یا یک استدلال متفاوت هست. مدل این شاخهها رو ارزیابی میکنه و بهترینشون رو انتخاب میکنه تا به جواب بهتری برسه. تصویر پیوستی مربوط به همین روش استدلال درختی هست.
کتاب Hands-on LLMs رو قبلا اینجا معرفی کردم. کتاب خوبی هست. خودم هم به تازگی مطالعه این کتاب رو تموم کردم.
@pytorch_howsam
سباستین راشکا یک وبلاگ درباره مقالات تحقیقاتی برجسته در سال 2024 نوشته. اولش گفته که انقدر حجم کارهای تحقیقاتی ارزشمند سال 2024 زیاد هست که باید کتاب نوشت! به همین خاطر، تصمیم گرفته، هر ماه از سال 2024 رو به یک کار ارزشمند اختصاص بده. فعلا، شش ماه اول سال 2024 رو نوشته. اگه خواستید، میتونید از لینک زیر مطالعه کنید.
Noteworthy AI Research Papers of 2024 (Part One)
ماه قبل، راشکا گفت که تصادف کرده و آسیب دیده. یک مدتی نمیتونست پشت میز بشینه و کار کنه. توی این پست گفت که حالش بهتره. امیدوارم به خوبی ریکاوری کنه.
من هم تصمیم گرفتم که کار مربوط به هر ماه رو بهصورت خلاصه اینجا بنویسم. توی این پست درباره کار ماه ژانویه نوشتم.
1. ژانویه: روش Mixture of Experts مدل Mixtral
تنها چند روز پس از شروع ژانویه 2024، تیم Mistral AI مقاله Mixtral of Experts یا MoE را (در تاریخ 8 ژانویه 2024) منتشر کرد. آنها در این مقاله، مدل Mixtral 8x7B را معرفی کردند.
این مقاله و مدل در زمان خود بسیار تاثیرگذار بود، چون Mixtral 8x7B یکی از اولین مدلهای MoE با وزنهای باز (open-weight) بود که عملکرد چشمگیری داشت و در معیارهای مختلف، Llama 2 70B و GPT-3.5 را پشت سر گذاشته بود.
مدل MoE یا Mixture of Experts چیست؟
یک مدل تجمعی که چندین زیرشبکه کوچک "متخصص" (Expert) را در یک معماری شبیه به GPT ترکیب میکند. میتوان گفت، هر زیرشبکه مسئول انجام یکسری تسک خاص و متفاوت هست. استفاده از چندین زیرشبکه کوچک به جای یک شبکه بزرگ باعث میشود که مدلهای MoE منابع محاسباتی را به صورت بهینهتری استفاده کنند.
ساختار مدل Mixtral 8x7B به چه شکلی هست؟
در شکل بالا ساختار مدل Mixtral 8x7B نشان داده شده است. بهطور خاص، در Mixtral 8x7B، هر ماژول Feed-Forward در معماری ترنسفورمر با 8 لایه متخصص (Expert) جایگزین شده است.
در شکل چهار نکته مهم وجود دارد:
1) معماری مدل شبیه به GPT (مبتنی بر دیکدر) هست.
2) 8 متخصص در ماژول فیدفورارد قرار گرفتهاند.
3) یک ماژول Router وجود دارد که توکنها را به 8 ماژول متخصص فیدفورارد هدایت میکند.
4) خروجی این 8 ماژول متخصص با یکدیگر جمع میشوند.
@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
مجموعه Misguided Attention :
این مجموعهای از پِرامپتها (سوالات یا دستورالعملها) است که برای به چالش کشیدن تواناییهای استدلالی مدلهای زبانی بزرگ (LLMs) در حضور اطلاعات گمراهکننده طراحی شدهاند. این پرامپتها تغییرات کوچکی در آزمونهای فکری، معماها یا پارادوکسهای شناختهشده (که به آنها "سوالات پیچیده" نیز گفته میشود) ایجاد میکنند.
رفتار مورد انتظار این است که مدلهای زبانی بزرگ، با استفاده از استدلال منطقی، مشکلات را بهصورت گامبهگام حل کنند. با این حال، بسیاری از مدلها بهدلیل مواجهه مکرر با نسخههای اصلی این مشکلات در دادههای آموزشیشان، بهاشتباه مسئله را تشخیص داده و به جای بررسی جزئیات و حل مسئلهی اصلاحشده، پاسخهایی برای نسخهی اصلی و تغییرنیافتهی مسئله ارائه میدهند. در برخی موارد نیز ممکن است رشتههایی از استدلالهای متناقض مشاهده شود که در یک متن بهطور متناوب ظاهر میشوند.
گیت هاب
این مجموعهای از پِرامپتها (سوالات یا دستورالعملها) است که برای به چالش کشیدن تواناییهای استدلالی مدلهای زبانی بزرگ (LLMs) در حضور اطلاعات گمراهکننده طراحی شدهاند. این پرامپتها تغییرات کوچکی در آزمونهای فکری، معماها یا پارادوکسهای شناختهشده (که به آنها "سوالات پیچیده" نیز گفته میشود) ایجاد میکنند.
رفتار مورد انتظار این است که مدلهای زبانی بزرگ، با استفاده از استدلال منطقی، مشکلات را بهصورت گامبهگام حل کنند. با این حال، بسیاری از مدلها بهدلیل مواجهه مکرر با نسخههای اصلی این مشکلات در دادههای آموزشیشان، بهاشتباه مسئله را تشخیص داده و به جای بررسی جزئیات و حل مسئلهی اصلاحشده، پاسخهایی برای نسخهی اصلی و تغییرنیافتهی مسئله ارائه میدهند. در برخی موارد نیز ممکن است رشتههایی از استدلالهای متناقض مشاهده شود که در یک متن بهطور متناوب ظاهر میشوند.
گیت هاب
PyTorch Howsam
قبلا، چند تا کتاب درباره LLM معرفی کرده بودم. توی دو ماه گذشته مشغول مطالعه دو کتاب زیر بودم: کتاب درباره Build a Large Language Model از Sebastian Raschka کتاب Hands-on LLMs از آقای Jay Alammar احتمالا یک نقد و بررسی از اون دو کتاب مینویسم. فعلا، در این…
خب، از بین این کتابهای کاندیدا (پیام ریپلایشده)، هیچ کدوم رو انتخاب نکردم! 🙃 نه اینکه کتاب خوبی نباشن، بلکه تصمیم گرفتم کتاب جدید تمرکز بیشتری روی بعد علمی داشته باشه، نه عملی و پروداکشن. خلاصه اینکه، یک کتاب خوب بنام Transformers in Action پیدا کردم!
این کتاب، تسکها و معماریهای مختلفی رو پوشش داده که همین فاکتور باعث شد برای مطالعه انتخابش کنم. مثلا، برای هر یک از تسکهای زیر یک فصل جداگانه درنظر گرفته:
Text Summarization
Machine Translation
Text Classification
Text Generation
Multimodal Models
توی هرکدوم از فصلهای بالا، مدلهای معروف رو تشریح کرده. مثلا در فصل Text Generation، مدلهای زیر رو معرفی کرده:
GPT-1 to GPT-3
InstructGPT
GPT-NeoX-20B
Llama
RedPajama
Alpaca
Dolly
Falcon
مطمئن نبودم که کتاب خوبی باشه. تصمیم گرفتم، قبل معرفی در این کانال، کمی مطالعه رو جلو ببرم و ارزیابیش کنم. الان، اواسط فصل سوم این کتاب (Text Summarization) هستم. دیگه به این جمعبندی رسیدم که کتاب خیلی خوبی هست.
لینک کتاب در Manning
@pytorch_howsam
این کتاب، تسکها و معماریهای مختلفی رو پوشش داده که همین فاکتور باعث شد برای مطالعه انتخابش کنم. مثلا، برای هر یک از تسکهای زیر یک فصل جداگانه درنظر گرفته:
Text Summarization
Machine Translation
Text Classification
Text Generation
Multimodal Models
توی هرکدوم از فصلهای بالا، مدلهای معروف رو تشریح کرده. مثلا در فصل Text Generation، مدلهای زیر رو معرفی کرده:
GPT-1 to GPT-3
InstructGPT
GPT-NeoX-20B
Llama
RedPajama
Alpaca
Dolly
Falcon
مطمئن نبودم که کتاب خوبی باشه. تصمیم گرفتم، قبل معرفی در این کانال، کمی مطالعه رو جلو ببرم و ارزیابیش کنم. الان، اواسط فصل سوم این کتاب (Text Summarization) هستم. دیگه به این جمعبندی رسیدم که کتاب خیلی خوبی هست.
لینک کتاب در Manning
@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
خب، از بین این کتابهای کاندیدا (پیام ریپلایشده)، هیچ کدوم رو انتخاب نکردم! 🙃 نه اینکه کتاب خوبی نباشن، بلکه تصمیم گرفتم کتاب جدید تمرکز بیشتری روی بعد علمی داشته باشه، نه عملی و پروداکشن. خلاصه اینکه، یک کتاب خوب بنام Transformers in Action پیدا کردم! این…
بریدهای از فصل سوم کتاب Transformers in Action ✂️
موضوع فصل سوم، خلاصهسازی متن یا Text Summarization هست. کتاب میگه، دو نوع خلاصهسازی داریم:
1. Extractive Summarization
2. Abstractive Summarization
در ادامه، با مثال زیر، تفاوت بین این دو نوع رو توضیح میدم:
در حالت Extractive Summarization، جملات مهم از متن اصلی برداشته میشن، بدون اینکه تغییری توشون داده بشه. یعنی دقیقا همون جملات متن اصلی رو میاره. در متن زیر، مستقیم جملات مهم از متن اصلی برداشته شده، بدون هیچ تغییری:
روشهای مبتنی بر Abstractive Summarization، معنای متن درک میکنن و با جملهبندی خودشون، خلاصهای تولید میکنن که ممکنه توی متن اصلی نباشه. در جمله زیر، با خلاصه کردن و جملهبندی جدید، مفهوم اصلی بیان شده، ولی جملهها دقیقاً از مثال بالا نیست:
کتاب، تعدادی از روشهای معروف از هر دو دسته رو معرفی میکنه؛ روشهای مبتنی بر شبکههای ترنسفورمری معمولا در دسته Abstractive Summarization قرار میگیرن. این مدلها به دلیل توانایی بالاشون در درک معنای متن و تولید جملات جدید، برای این نوع خلاصهسازی خیلی مناسب هستن.
کتاب میگه که اگرچه روشهای Decoder-only مثل GPT هم میتونن خلاصهسازی متن انجام بدن، اما روشهای مبتنی بر Encoder-Decoder یا Text-to-Text عملکرد بهتری دارن. چند نمونه از روشهای Encoder-Decoder که در این فصل توضیح داده شده:
BART
T5
Pegasus
LongFormer
BigBird
بد نیست به این پست هم نگاهی بندازید: درخت تکامل LLM-ها
@pytorch_howsam
موضوع فصل سوم، خلاصهسازی متن یا Text Summarization هست. کتاب میگه، دو نوع خلاصهسازی داریم:
1. Extractive Summarization
2. Abstractive Summarization
در ادامه، با مثال زیر، تفاوت بین این دو نوع رو توضیح میدم:
شب گذشته بارش باران در تهران باعث کاهش آلودگی هوا شد. با این حال، خیابانها به دلیل آبگرفتگی دچار ترافیک سنگین شدند. این شرایط تا صبح ادامه داشت و باعث تأخیر در رفتوآمد مردم شد.
در حالت Extractive Summarization، جملات مهم از متن اصلی برداشته میشن، بدون اینکه تغییری توشون داده بشه. یعنی دقیقا همون جملات متن اصلی رو میاره. در متن زیر، مستقیم جملات مهم از متن اصلی برداشته شده، بدون هیچ تغییری:
شب گذشته بارش باران در تهران باعث کاهش آلودگی هوا شد. خیابانها به دلیل آبگرفتگی دچار ترافیک سنگین شدند.
روشهای مبتنی بر Abstractive Summarization، معنای متن درک میکنن و با جملهبندی خودشون، خلاصهای تولید میکنن که ممکنه توی متن اصلی نباشه. در جمله زیر، با خلاصه کردن و جملهبندی جدید، مفهوم اصلی بیان شده، ولی جملهها دقیقاً از مثال بالا نیست:
باران شب گذشته در تهران، هم آلودگی هوا را کاهش داد و هم باعث ترافیک و تأخیر در رفتوآمد شد.
کتاب، تعدادی از روشهای معروف از هر دو دسته رو معرفی میکنه؛ روشهای مبتنی بر شبکههای ترنسفورمری معمولا در دسته Abstractive Summarization قرار میگیرن. این مدلها به دلیل توانایی بالاشون در درک معنای متن و تولید جملات جدید، برای این نوع خلاصهسازی خیلی مناسب هستن.
کتاب میگه که اگرچه روشهای Decoder-only مثل GPT هم میتونن خلاصهسازی متن انجام بدن، اما روشهای مبتنی بر Encoder-Decoder یا Text-to-Text عملکرد بهتری دارن. چند نمونه از روشهای Encoder-Decoder که در این فصل توضیح داده شده:
BART
T5
Pegasus
LongFormer
BigBird
بد نیست به این پست هم نگاهی بندازید: درخت تکامل LLM-ها
@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
PyTorch Howsam
تصویر بالا، درخت تکامل مدلهای زبانی بزرگ (LLM) رو از سال ۲۰۱۸ تا ۲۰۲۴ نشون میده.
نمودار سه شاخه اصلی داره:
* شاخه قرمز شامل مدلهای Encoder-only مثل BERT هست.
* شاخه سبز شامل مدلهای Encoder-Decoder مثل T5 هست.
* شاخه آبی شامل مدلهای Decoder-only مثل…
نمودار سه شاخه اصلی داره:
* شاخه قرمز شامل مدلهای Encoder-only مثل BERT هست.
* شاخه سبز شامل مدلهای Encoder-Decoder مثل T5 هست.
* شاخه آبی شامل مدلهای Decoder-only مثل…
#انتقادی! 😁
توی لینکدین، پیامی میذارم که من دنبال کار هستم و لطفا حمایتم کنید تا پیامم دیده بشه و کار پیدا کنم. دعوت به مصاحبه میشم و بعدش به خاطر دیدن یکسری نکات منفی (مثلا، ناهماهنگی در جلسه مصاحبه)، از مصاحبه انصراف میدم و بلافاصله میام در همون لینکدین کل ماجرا رو با جزئیات اما بدون ذکر نام شرکت (اخلاقمدارم آخه!) شرح میدم.
دائم در پستهای مختلف، غر میزنم؛ امروز رفتم سوپرمارکت، اسنپ گرفتم، سر کار این رو گفتم و ...
به این و اون هم لگد میزنم؛ دیگه الان هرکسی که از ننه باباش قهر کرده، استارتاپ زده و ...
آیا به عواقب این رفتارها هم فکر کردم؟ مثلا، این امکان وجود داره که سایر شرکتها با دیدن پستهای من در لینکدین از ارتباطگیری با من منصرف بشن؟ احتمالش هست که کانکشنهام رو از دست بدم؟ قرار بود با لینکدین رزومهسازی کنم نه پروندهسازی!
من، هیچ کجای این ماجرا نیستم. یکسری مسائل رایج در لینکدین رو گفتم...
توی لینکدین، پیامی میذارم که من دنبال کار هستم و لطفا حمایتم کنید تا پیامم دیده بشه و کار پیدا کنم. دعوت به مصاحبه میشم و بعدش به خاطر دیدن یکسری نکات منفی (مثلا، ناهماهنگی در جلسه مصاحبه)، از مصاحبه انصراف میدم و بلافاصله میام در همون لینکدین کل ماجرا رو با جزئیات اما بدون ذکر نام شرکت (اخلاقمدارم آخه!) شرح میدم.
دائم در پستهای مختلف، غر میزنم؛ امروز رفتم سوپرمارکت، اسنپ گرفتم، سر کار این رو گفتم و ...
به این و اون هم لگد میزنم؛ دیگه الان هرکسی که از ننه باباش قهر کرده، استارتاپ زده و ...
آیا به عواقب این رفتارها هم فکر کردم؟ مثلا، این امکان وجود داره که سایر شرکتها با دیدن پستهای من در لینکدین از ارتباطگیری با من منصرف بشن؟ احتمالش هست که کانکشنهام رو از دست بدم؟ قرار بود با لینکدین رزومهسازی کنم نه پروندهسازی!
من، هیچ کجای این ماجرا نیستم. یکسری مسائل رایج در لینکدین رو گفتم...
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
تصویر بالا، درخت تکامل مدلهای زبانی بزرگ (LLM) رو از سال ۲۰۱۸ تا ۲۰۲۴ نشون میده. نمودار سه شاخه اصلی داره: * شاخه قرمز شامل مدلهای Encoder-only مثل BERT هست. * شاخه سبز شامل مدلهای Encoder-Decoder مثل T5 هست. * شاخه آبی شامل مدلهای Decoder-only مثل…
#خبر
مدل phi-4 منتشر شده. نتایج مدل 14 بیلیونی قابل توجه هست و تنه به تنه بزرگان میزنه! مثلا، در تصویر پیوستی، ستون phi-4 رو با GPT-4o-mini و Llama-3.3 72B مقایسه کنید. لازم به ذکر هست که 14 بیلیونی شبکه بزرگی محسوب نمیشه. البته، SLM هم نیست. اگه میخواید باهاش چت کنید، میتونید از این لینک اقدام کنید.
من، پرامپت "یک پارگراف درباره ImageNet بنویس." رو به چند مدل دادم که در ادامه میتونید جوابهاشون رو مقایسه کنید. برای هرکدوم یک اموجی گذاشتم که رای بدید!🤓
جواب phi-4: 👍
جواب Gemini 2.0 Flash Experimental: 👎
جواب DeepSeek: ❤️
جواب ChatGPT: 🔥
مدل phi-4 منتشر شده. نتایج مدل 14 بیلیونی قابل توجه هست و تنه به تنه بزرگان میزنه! مثلا، در تصویر پیوستی، ستون phi-4 رو با GPT-4o-mini و Llama-3.3 72B مقایسه کنید. لازم به ذکر هست که 14 بیلیونی شبکه بزرگی محسوب نمیشه. البته، SLM هم نیست. اگه میخواید باهاش چت کنید، میتونید از این لینک اقدام کنید.
من، پرامپت "یک پارگراف درباره ImageNet بنویس." رو به چند مدل دادم که در ادامه میتونید جوابهاشون رو مقایسه کنید. برای هرکدوم یک اموجی گذاشتم که رای بدید!
جواب phi-4: 👍
یک مجموعه داده وسیع و متنوع از تصاویر است که برای پیشرفت در زمینه تشخیص و تصنیف چندبرچسب تصاویر نقش مهمی ایفا کرده است. این مجموعه به طور کلی شامل ۱۴۰۰ هزار تصویر است که در ۲۰۰۰ رده مختلف درجهبندی شدهاند، تقریباً ۴۰۰ هزار رده جزئی دارند. ImageNet به طور منظم برای مسابقات معروف مانند ImageNet Large Scale Visual Recognition Challenge (ILSVRC) استفاده میشود که در آن مدلهای یادگیری ماشین و خوشهبندی عمیق برای تشخیص و کلاسبندی تصاویر مورد ارزیابی قرار میگیرند. این مجموعه داده نقش محوری در پیشرفت فناوریهایی مانند شبکههای عصبی عمیق (DNN) و توسعه مدلهای برتر مانند AlexNet، VGG، ResNet و GoogLeNet داشته است. اهمیت و گستردگی ImageNet به ایجاد پایهای قوی برای تحقیقات و توسعه در زمینه بینشهای ویژگی و یادگیری تصویری کمک کرده است.
جواب Gemini 2.0 Flash Experimental: 👎
ایمیجنت (ImageNet) یک پایگاه داده بزرگ از تصاویر است که برای تحقیقات در زمینه تشخیص اشیاء در بینایی رایانهای مورد استفاده قرار میگیرد. این پروژه توسط فی لیفی و همکارانش در دانشگاه استنفورد در سال ۲۰۰۹ آغاز شد. ایمیجنت شامل بیش از ۱۴ میلیون تصویر است که به دستههای مختلفی بر اساس سلسلهمراتب WordNet دستهبندی شدهاند. هر گره در سلسلهمراتب WordNet معادل یک «اسم» است و برای هر اسم، صدها و هزاران تصویر مرتبط وجود دارد. این پایگاه داده نقش بسیار مهمی در پیشرفت الگوریتمهای یادگیری عمیق، به ویژه شبکههای عصبی پیچشی (CNN) داشته است و به عنوان یک معیار استاندارد برای ارزیابی عملکرد مدلهای تشخیص تصویر مورد استفاده قرار میگیرد. چالش بزرگ ایمیجنت (ILSVRC) که از سال ۲۰۱۰ تا ۲۰۱۷ برگزار میشد، به محققان کمک کرد تا مدلهای قدرتمندتری برای تشخیص و دستهبندی تصاویر توسعه دهند.
جواب DeepSeek: ❤️
یک پایگاه داده بزرگ و معتبر از تصاویر برچسبگذاری شده است که در حوزه بینایی ماشین و یادگیری عمیق از اهمیت بالایی برخوردار است. این مجموعه شامل بیش از ۱۴ میلیون تصویر است که در بیش از ۲۰ هزار دسته مختلف سازماندهی شدهاند. ImageNet نقش کلیدی در پیشرفت مدلهای تشخیص تصویر و بینایی کامپیوتری ایفا کرده است، بهویژه با معرفی چالش سالانه ImageNet Large Scale Visual Recognition Challenge (ILSVRC)، که در آن مدلهای مختلف برای دستهبندی و تشخیص اشیاء در تصاویر به رقابت میپردازند. موفقیت مدلهای عمیق مانند AlexNet در این چالش، نقطه عطفی در گسترش و پذیرش شبکههای عصبی عمیق بود. امروزه ImageNet به عنوان یک منبع استاندارد برای آموزش و ارزیابی مدلهای بینایی ماشین استفاده میشود.
جواب ChatGPT: 🔥
یک دیتاست بزرگ و متنوع برای آموزش و ارزیابی مدلهای یادگیری ماشین و بینایی کامپیوتر است که شامل بیش از 14 میلیون تصویر برچسبگذاریشده در هزاران دستهبندی مختلف است. این دیتاست که در سال 2009 معرفی شد، بهعنوان مبنای رقابت معروف ImageNet Large Scale Visual Recognition Challenge (ILSVRC) مورد استفاده قرار گرفت و نقش مهمی در پیشرفت معماریهای شبکههای عصبی مانند AlexNet، VGG، ResNet و دیگر مدلهای پیشرفته داشته است. موفقیت مدلها در ImageNet بهعنوان یکی از معیارهای مهم در ارزیابی توانایی آنها در تشخیص اشیا و طبقهبندی تصاویر شناخته میشود.
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
بریم برای ماه دوم؟
2. فوریه: روش فاین-تیونینگ DoRA
اگه تجربه فاین-تیون کردن مدلهای زبانی بزرگ (LLM) رو داشته باشید، احتمالاً با LoRA آشنا هستید. LoRA مخفف عبارت Low-Rank Adaptation هست. این تکنیک به شما امکان میده که یک LLM رو فقط با حجم کمی از پارامترهای قابل آموزش، فاین-تیون کنید. DoRA هم توسعهیافته همین LoRA هست که در فوریه 2024 ارائه شده و راشکا اون رو به عنوان مقاله ماه انتخاب کرده.
سباستین راشکا میگه:
یادآوری: قبلا یک مقاله از متا با عنوان MobileLLM در این کانال معرفی کرده بودم که میگفتن چقدر از سختافزار یک موبایل رو میشه برای LLM استفاده کرد و چه محدودیتهایی وجود داره. همچنین، یک وبلاگ جامع درباره همین MobileLLM نوشتم.
یک متنی درباره LoRA و DoRA نوشتم، ولی طولانی بود. تصمیم گرفتم، اینجا نذارم و توی وبلاگ منتشر کنیم.🫰
2. فوریه: روش فاین-تیونینگ DoRA
اگه تجربه فاین-تیون کردن مدلهای زبانی بزرگ (LLM) رو داشته باشید، احتمالاً با LoRA آشنا هستید. LoRA مخفف عبارت Low-Rank Adaptation هست. این تکنیک به شما امکان میده که یک LLM رو فقط با حجم کمی از پارامترهای قابل آموزش، فاین-تیون کنید. DoRA هم توسعهیافته همین LoRA هست که در فوریه 2024 ارائه شده و راشکا اون رو به عنوان مقاله ماه انتخاب کرده.
سباستین راشکا میگه:
به طور کلی، انتظار دارم که LoRA و روشهای مشابه همچنان محبوب باقی بمونن. به عنوان مثال، اپل اخیرا در مقالهاش با عنوان Apple Intelligence Foundation Language Models اشاره کرده که از LoRA برای فاین-تیون LLM-هاشون روی دستگاههای خودشون استفاده میکنن. این کار به اونها اجازه میده که مدلها رو برای وظایف خاص، بهینهسازی کنن و در عین حال منابع محاسباتی محدود دستگاههای همراه رو هم در نظر بگیرن.
یادآوری: قبلا یک مقاله از متا با عنوان MobileLLM در این کانال معرفی کرده بودم که میگفتن چقدر از سختافزار یک موبایل رو میشه برای LLM استفاده کرد و چه محدودیتهایی وجود داره. همچنین، یک وبلاگ جامع درباره همین MobileLLM نوشتم.
یک متنی درباره LoRA و DoRA نوشتم، ولی طولانی بود. تصمیم گرفتم، اینجا نذارم و توی وبلاگ منتشر کنیم.
Please open Telegram to view this post
VIEW IN TELEGRAM
گفتوگوی لکس فریدمن و آندری کارپاتی درباره بهرهوری، تمرکز و تعادل کار و زندگی
این گفتوگو نکات جالبی برای من داشت. اول، خلاصه گفتوگو رو آوردم، بعدش مکالمه با جزئیاتش رو در ادامه گذاشتم. لینک گفتوگو در یوتوب
خلاصه گفتوگو:
برای کاری که میخواد انجام بده، دوست داره رَم مغزش رو با اون کار پر کنه! نسبت بهش وسواس داشته باشه و عمیقا باهاش درگیر بشه (مثلا، حین دوش گرفتن، خوابیدن و غیره هم بهش فکر کنه). نمیتونه به یک روز کاری فکر کنه؛ بلکه، برای عملکرد خوب در یک کار، باید یک بازه زمانی چندروزه درنظر بگیره. دورههای فشرده کوتاه کاری داره؛ مثلا، در یک بازه زمانی چندروزه، بهصورت فشرده روی یک چالشی کار میکنه. این چالش میتونه ماهی یک بار اتفاق بیفته.
گفتوگوی با جزئیات در پست بعدی...
.
این گفتوگو نکات جالبی برای من داشت. اول، خلاصه گفتوگو رو آوردم، بعدش مکالمه با جزئیاتش رو در ادامه گذاشتم. لینک گفتوگو در یوتوب
خلاصه گفتوگو:
برای کاری که میخواد انجام بده، دوست داره رَم مغزش رو با اون کار پر کنه! نسبت بهش وسواس داشته باشه و عمیقا باهاش درگیر بشه (مثلا، حین دوش گرفتن، خوابیدن و غیره هم بهش فکر کنه). نمیتونه به یک روز کاری فکر کنه؛ بلکه، برای عملکرد خوب در یک کار، باید یک بازه زمانی چندروزه درنظر بگیره. دورههای فشرده کوتاه کاری داره؛ مثلا، در یک بازه زمانی چندروزه، بهصورت فشرده روی یک چالشی کار میکنه. این چالش میتونه ماهی یک بار اتفاق بیفته.
گفتوگوی با جزئیات در پست بعدی...
.
YouTube
Day in the life of Andrej Karpathy | Lex Fridman Podcast Clips
Lex Fridman Podcast full episode: https://www.youtube.com/watch?v=cdiD-9MMpb0
Please support this podcast by checking out our sponsors:
- Eight Sleep: https://www.eightsleep.com/lex to get special savings
- BetterHelp: https://betterhelp.com/lex to get 10%…
Please support this podcast by checking out our sponsors:
- Eight Sleep: https://www.eightsleep.com/lex to get special savings
- BetterHelp: https://betterhelp.com/lex to get 10%…
PyTorch Howsam
گفتوگوی لکس فریدمن و آندری کارپاتی درباره بهرهوری، تمرکز و تعادل کار و زندگی این گفتوگو نکات جالبی برای من داشت. اول، خلاصه گفتوگو رو آوردم، بعدش مکالمه با جزئیاتش رو در ادامه گذاشتم. لینک گفتوگو در یوتوب خلاصه گفتوگو: برای کاری که میخواد انجام بده،…
گفتوگوی با جزئیات
لکس فریدمن: خیلی از مردم میخواهند بدانند که تو به عنوان یکی از پرکارترین و باهوشترین افراد در تاریخ هوش مصنوعی، یک روز پربار در زندگیات چطور میگذرد؟ چه ساعتی از خواب بیدار میشوی؟
لکس: پس تو به طور پیشفرض شبها کار میکنی. چطور بهرهوریات را در این زمانها مدیریت میکنی؟
لکس: این فرآیند در چه بازهای اتفاق میافتد؟ یک روز، چند روز یا بیشتر؟
لکس: تو پروژههای جالبی را در زمان کوتاهی انجام دادهای. این سرعت بالا نیازمند تمرکز کامل است، درست است؟
لکس: چطور با حواسپرتیها مقابله میکنی؟
لکس: وقتی صبح بیدار میشوی، قهوه مینوشی و اخبار میخوانی. آیا سعی میکنی سریعتر به سر کار بروی یا اول میخواهی بدانی در دنیا چه خبر است؟
لکس: در یک روز کاملاً پربار، چقدر زمان را به کار روی یک چیز اختصاص میدهی؟
لکس: چه چیزی به تو انگیزه میدهد که روزهای سخت و طولانی را با تمرکز بالا سپری کنی؟
لکس: درباره تعادل کار و زندگی چه فکر میکنی؟
لکس: و در نهایت، آیا هنوز هم شبها بیشترین بهرهوری را داری؟
لکس فریدمن: خیلی از مردم میخواهند بدانند که تو به عنوان یکی از پرکارترین و باهوشترین افراد در تاریخ هوش مصنوعی، یک روز پربار در زندگیات چطور میگذرد؟ چه ساعتی از خواب بیدار میشوی؟
آندری کارپاتی: باید بگویم که من آدم صبحگاهی نیستم، قطعاً یک شبزندهدارم. زمان دکترایم حتی دیرتر هم میخوابیدم، معمولاً تا ساعت ۳ صبح بیدار بودم. فکر میکنم ساعات پایانی شب بسیار ارزشمند و جذاب هستند، چون همه خوابند و هیچ حواسپرتی وجود ندارد. مثلاً ساعت ۸ یا ۹ صبح که شرق آمریکا بیدار میشود، پیامها و اخبار شروع میشوند و حواسپرتیها زیاد میشود. اما ساعت ۳ صبح همه چیز آرام است و میتوانی روی کارت تمرکز کنی.
لکس: پس تو به طور پیشفرض شبها کار میکنی. چطور بهرهوریات را در این زمانها مدیریت میکنی؟
آندری: برای من، بهرهوری درباره ایجاد حرکت و حفظ تمرکز روی یک مسئله است. باید بتوانی حافظهات را با آن مسئله پر کنی و کاملاً درگیرش شوی. حتی وقتی دوش میگیری یا خوابت میبرد، باید ذهنت درگیر آن مسئله باشد. اینطوری وقتی بیدار میشوی، آمادهای که مستقیماً روی آن کار کنی.
لکس: این فرآیند در چه بازهای اتفاق میافتد؟ یک روز، چند روز یا بیشتر؟
آندری: نمیتوانم فقط درباره یک روز صحبت کنم، چون این یک فرآیند است. وقتی میخواهم روی یک مسئله متمرکز شوم، به چند روز زمان نیاز دارم تا کاملاً درگیرش شوم و نخواهم وقفهای ایجاد شود. در این دورهها، کاملاً وسواسگونه روی آن مسئله کار میکنم و بهترین کارهایم را انجام میدهم.😃
لکس: تو پروژههای جالبی را در زمان کوتاهی انجام دادهای. این سرعت بالا نیازمند تمرکز کامل است، درست است؟
آندری: دقیقاً. باید حافظهام را با آن مسئله پر کنم و بهرهور باشم. همیشه یک هزینه ثابت برای شروع هر پروژه وجود دارد. مثلاً وقتی در تسلا بودم و میخواستم روی یک پروژه جانبی کار کنم، اول باید به کلاستر SSH میزدم، VS Code را راه میانداختم و با یک سری خطاهای احمقانه دست و پنجه نرم میکردم. این موانع اولیه باعث میشوند نتوانی مستقیماً به کارت برسی. پس باید همه این موانع را برطرف کنی تا بتوانی روی مسئله تمرکز کنی.👌
لکس: چطور با حواسپرتیها مقابله میکنی؟
آندری: حواسپرتیها انواع مختلفی دارند: اخبار، ایمیلها، یا حتی پروژههای جالب دیگر. باید ذهنت را کاملاً متمرکز کنی. البته من هم گاهی برای حواسپرتی وقت میگذارم، اما این وقفهها نباید زیاد باشند. بیشتر روزم را روی همان مسئله اصلی صرف میکنم.
لکس: وقتی صبح بیدار میشوی، قهوه مینوشی و اخبار میخوانی. آیا سعی میکنی سریعتر به سر کار بروی یا اول میخواهی بدانی در دنیا چه خبر است؟
آندری: من اخبار را دنبال میکنم، اما نسبت به این کار مشکوک هستم. نمیدانم که آیا این کار واقعاً مفید است یا نه، اما در حال حاضر بخشی از روال من است. دوست دارم از اتفاقات دنیا مطلع باشم، هرچند ممکن است این کار کمی حواسپرتی ایجاد کند.
لکس: در یک روز کاملاً پربار، چقدر زمان را به کار روی یک چیز اختصاص میدهی؟
آندری: معمولاً میتوانم چند ساعت کار کنم و بعد به استراحت یا غذا خوردن نیاز دارم. حتی در پربارترین روزها، فقط شش تا هشت ساعت کدنویسی میکنم. زندگی هزینههای خودش را دارد: رفت و آمد، صحبت با مردم، غذا خوردن و غیره. حفظ تعادل به عنوان یک انسان کار سختی است.
لکس: چه چیزی به تو انگیزه میدهد که روزهای سخت و طولانی را با تمرکز بالا سپری کنی؟
آندری: وقتی به یک مسئله علاقهمند میشوم، احساس میکنم که آن چیز باید وجود داشته باشد. این انگیزه باعث میشود باگها، مشکلات فنی و تصمیمهای طراحی اشتباه را تحمل کنم. همچنین، این که دیگران از کارم قدردانی کنند و ببینم که به آنها کمک میکنم، برایم لذتبخش است. اگر کارهایم را با دیگران به اشتراک نگذارم، انگیزهام کمتر میشود.❤️
لکس: درباره تعادل کار و زندگی چه فکر میکنی؟
آندری: من فکر میکنم تعادل خوب است، اما دوست دارم گاهی اوقات دورههای فشرده کار داشته باشم. این دورهها، که مثلاً ماهی یک بار اتفاق میافتند، به من اجازه میدهند کاملاً درگیر یک مسئله شوم و خلاقیتام را به کار بگیرم. بیشتر وقتها تعادل دارم، اما این دورههای فشرده برایم بسیار ارزشمند هستند.
لکس: و در نهایت، آیا هنوز هم شبها بیشترین بهرهوری را داری؟
آندری: بله، اما حفظ این برنامه سخت است، بهویژه وقتی با دیگران همکاری میکنی. جامعه در یک بازه زمانی خاص زندگی میکند و تو مجبوری خودت را با آن تطبیق دهی. سعی میکنم وقتی کارهای اجتماعی دارم، زیاد الکل ننوشم تا بتوانم بعداً به کارم برگردم.
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
گفتوگوی با جزئیات لکس فریدمن: خیلی از مردم میخواهند بدانند که تو به عنوان یکی از پرکارترین و باهوشترین افراد در تاریخ هوش مصنوعی، یک روز پربار در زندگیات چطور میگذرد؟ چه ساعتی از خواب بیدار میشوی؟ آندری کارپاتی: باید بگویم که من آدم صبحگاهی نیستم،…
“چیزی که اخیراً امتحان میکنم این است: بیدار میشوم و مستقیم میروم سر کار. هیچ چیزی را چک نمیکنم – نه پیامها، نه ایمیلها، نه اخبار، هیچ چیز. در چک کردن دنیای بیرون چیزی مخرب یا حواسپرتکننده وجود دارد که کامل درکش نمیکنم. این کار مثل این است که حافظه موقتم (RAM) را با کلی عامل حواسپرتی پر کنم و نمیتوانم توجهم را درست و کامل روی مهمترین وظیفه کاریام متمرکز کنم. بعد از چند ساعت، ناهار میخورم و در صورت تمایل، وضعیت دنیا را بررسی میکنم.”
در راستای پست قبلی، آرتین، این توییت از کارپاتی رو فرستاد. توی گفتوگوی قبلی گفته بود که صبح اخبار رو چک میکنه.
در راستای پست قبلی، آرتین، این توییت از کارپاتی رو فرستاد. توی گفتوگوی قبلی گفته بود که صبح اخبار رو چک میکنه.
امروز، در یوتوب یک ارائه 15 دقیقهای از محمد شکوهی یکتا (با سابقه کاری در هوش مصنوعی مایکروسافت، اپل و غیره) درباره فرصتهای هوش مصنوعی دیدم. عالی بود. لینکش رو در پایین پست گذاشتم. اما، میخوام 5 تا از نکات جالبش رو هم بگم.
1️⃣ فرصتهای هوش مصنوعی رو میشه در سه حوزه اصلی بررسی کرد: آکادمیا، شرکتهای کوچیک/استارتآپها و شرکتهای بزرگ؛ این سه تا حوزه واقعا با هم فرق دارن و معمولا ترتیب ورود بهشون هم اینطوریه: اول آکادمیا، بعد شرکتهای بزرگ و در نهایت استارتآپها یا شرکتهای کوچیکتر.
2️⃣ یه چیز مشترک بین این سه حوزه وجود داره و اونم اینه که شکستِ سریع و یادگیری از اون شکست خیلی مهمه.
3️⃣ تو شرکتهای کوچیک، معمولا جایی برای پروژههای بزرگ و پرریسک نیست، چون منابع محدوده و نمیشه ریسکهای بزرگ کرد.
4️⃣ یکی از مهمترین مهارتها در حوزه هوش مصنوعی (AI) خلاقیت هست.
5️⃣ یه چیز دیگه که باید حواسمون باشه اینه که باید بیزنس رو به AI فیت کنیم، نه برعکس. یعنی اول باید مشکلات و چالشهای بیزنس رو شناسایی کنیم و بعد ببینیم چطور میتونیم از AI برای حلشون استفاده کنیم، نه اینکه اول یه تکنولوژی AI داشته باشیم (مثلا LLM) و بعد دنبال کاربرد براش بگردیم. کسایی که از آکادمیا وارد صنعت میشن، معمولا چنین تفکری دارن. 😐
ویدئوی پرباری هست: لینک ویدئو در یوتوب
ویدئوی پرباری هست: لینک ویدئو در یوتوب
Please open Telegram to view this post
VIEW IN TELEGRAM
خب، این وسط که منتظر دانلود مدل جدید DeepSeek بنام deepseek-R1 هستم، یک وبلاگ خوب معرفی کنم!
آقای Maarten Grootendorst یکی از افرادی هست که وبلاگ جذاب و بروزی داره. علاوهبراین، در ویژوالایز کردن شبکهها و متدها خیلی خفنه. شکل بالا، سه نمونه از کارهایی هست که در وبلاگش گذاشته. دیروز اعلام کرد که خبرنامه وبلاگش به 10 هزار سابسکرایبر رسیده. شما هم میتونید عضو خبرنامه بشید یا اینکه مستقیم از مطالب وبلاگش استفاده کنید.
کتاب Hands-on LLMs رو هم قبلا معرفی کردم: اینجا و اینجا
لینک وبلاگ Maarten Grootendorst
آقای Maarten Grootendorst یکی از افرادی هست که وبلاگ جذاب و بروزی داره. علاوهبراین، در ویژوالایز کردن شبکهها و متدها خیلی خفنه. شکل بالا، سه نمونه از کارهایی هست که در وبلاگش گذاشته. دیروز اعلام کرد که خبرنامه وبلاگش به 10 هزار سابسکرایبر رسیده. شما هم میتونید عضو خبرنامه بشید یا اینکه مستقیم از مطالب وبلاگش استفاده کنید.
ایشون و آقای Jay Alammar باهم کتاب خیلی خوب Hands-on LLMs رو نوشتن. دو نفر که نقاشیشون خوبه و از کتاب هم مشخصه! هر دو خط، یک شکل!👏
کتاب Hands-on LLMs رو هم قبلا معرفی کردم: اینجا و اینجا
لینک وبلاگ Maarten Grootendorst
Please open Telegram to view this post
VIEW IN TELEGRAM
مدل جدید DeepSeek-R1 در Ollama قرار گرفته. این مدل قابلیت استدلال داره و عملکردش مورد توجه قرار گرفته.
لینک صفحه DeepSeek-R1 در Ollama
اگه نمیدونی Ollama چی هست:
یک پلتفرم ساده و متنباز هست که به ما امکان میده که مدلهای هوش مصنوعی رو روی کامپیوتر خودمون اجرا کنیم. یعنی، بدون نیاز به اینترنت یا سیستمهای خیلی قوی یا پرداخت هزینه برای سرویسهایی مثل OpenAI، میتونیم از مدلهای پیشرفته استفاده کنیم.
لینک صفحه DeepSeek-R1 در Ollama
After DeepSeek it's Kimi Ai turn...
Kimi k1.5 is now on available on Web.
Completely FREE, unlimited use:
- Real-time web search across 100+ sites
- Analyze 50+ file types effortlessly
- Advanced CoT reasoning, free forever
- Enhanced image understanding.
New MultiModal LLM From China 🇨🇳
https://kimi.ai/
Tech Report:
https://github.com/MoonshotAI/Kimi-k1.5
Kimi k1.5 is now on available on Web.
Completely FREE, unlimited use:
- Real-time web search across 100+ sites
- Analyze 50+ file types effortlessly
- Advanced CoT reasoning, free forever
- Enhanced image understanding.
New MultiModal LLM From China 🇨🇳
https://kimi.ai/
Tech Report:
https://github.com/MoonshotAI/Kimi-k1.5
استارتاپ DeepSeek باعث فروش گسترده نزدیکه به 2 تریلیون دلاری در بازار فناوری شده است که انویدیا در آستانه بزرگترین کاهش تاریخ خود شده (بیش از 500 میلیارد دلار از ارزش بازار خود را از دست داده است).
به زبان ساده، DeepSeek نشان میدهد که مدلهای هوش مصنوعی میتوانند روی تراشههای کمتر پیشرفته و با 1/30هزینه (گزارش شده بین 5 تا 6 میلیون دلار) اجرا شوند و عملکردی به همان خوبی یا حتی بهتر داشته باشند.
غولهای فناوری میلیاردها دلار برای هزینههای سرمایهای (CapEx) در سال جاری متعهد شدهاند (مثلاً مایکروسافت 80 میلیارد دلار)، اما سرمایهگذاران اکنون در حال بررسی بازده سرمایهگذاری (ROI) این پروژهها هستند اگر مدلهای کمهزینهای مانند DeepSeek به همان خوبی عمل کنند.
هزینه آموزش مدل GPT-4 شرکت OpenAI: بیش از 600 میلیون دلار
هزینه DeepSeek: تنها 6 میلیون دلار
OpenAI: بیش از 100 دلار برای هر میلیون توکن
DeepSeek: کمتر از 4 دلار برای هر میلیون توکن
The game is changing—and fast
به زبان ساده، DeepSeek نشان میدهد که مدلهای هوش مصنوعی میتوانند روی تراشههای کمتر پیشرفته و با 1/30هزینه (گزارش شده بین 5 تا 6 میلیون دلار) اجرا شوند و عملکردی به همان خوبی یا حتی بهتر داشته باشند.
غولهای فناوری میلیاردها دلار برای هزینههای سرمایهای (CapEx) در سال جاری متعهد شدهاند (مثلاً مایکروسافت 80 میلیارد دلار)، اما سرمایهگذاران اکنون در حال بررسی بازده سرمایهگذاری (ROI) این پروژهها هستند اگر مدلهای کمهزینهای مانند DeepSeek به همان خوبی عمل کنند.
هزینه آموزش مدل GPT-4 شرکت OpenAI: بیش از 600 میلیون دلار
هزینه DeepSeek: تنها 6 میلیون دلار
OpenAI: بیش از 100 دلار برای هر میلیون توکن
DeepSeek: کمتر از 4 دلار برای هر میلیون توکن
The game is changing—and fast
DeepseekAI 🐋
Janus-Pro is released, an advanced version of Janus, improving both multimodal understanding and visual generation significantly.
Janus-Pro-7B AI model outperformed OpenAI's DALL-E 3 and Stability AI's Stable Diffusion in a leaderboard ranking for image generation using text prompts.
GitHub: Janus-Pro
Janus-Pro is released, an advanced version of Janus, improving both multimodal understanding and visual generation significantly.
Janus-Pro-7B AI model outperformed OpenAI's DALL-E 3 and Stability AI's Stable Diffusion in a leaderboard ranking for image generation using text prompts.
GitHub: Janus-Pro
یک سری از دوره های nvidia مربوط به بخش DLI رایگان شده ( مدت زمان محدود )
هزینه دوره ها بین 30 تا 90 دلار هست.
لیست دوره ها
Deep Learning Institute (Self-Paced Training) :
Claim your free DLI course as a benefit of being a member of the NVIDIA Developer Program.
هزینه دوره ها بین 30 تا 90 دلار هست.
لیست دوره ها
Deep Learning Institute (Self-Paced Training) :
Claim your free DLI course as a benefit of being a member of the NVIDIA Developer Program.