Forwarded from انجمن علمی کامپیوتر علامه طباطبائی(CSS)
🔸انجمن علمی دانشجویی علوم کامپیوتر دانشگاه علامه طباطبائی برگزار می کند:
#آنلاین
☑️کارگاه:
Score Matching and Diffusion Models
🔘مدرسین: مهندس علی هدایت نیا و مهندس فرشاد سنگری
🔜زمان برگزاری:
روز شنبه ۱۸ شهریور
ساعت ۱۷
🔸 این دوره به صورت رایگان برگزار می شود
☑️ اطلاعات بیشتر در:
Telegram: @atucs
Linkedin
⭕️ ثبت نام:
🆔 Telegram: @atucs_support
Image by Freepik
#آنلاین
☑️کارگاه:
Score Matching and Diffusion Models
🔘مدرسین: مهندس علی هدایت نیا و مهندس فرشاد سنگری
🔜زمان برگزاری:
روز شنبه ۱۸ شهریور
ساعت ۱۷
🔸 این دوره به صورت رایگان برگزار می شود
☑️ اطلاعات بیشتر در:
Telegram: @atucs
⭕️ ثبت نام:
🆔 Telegram: @atucs_support
Image by Freepik
Forwarded from زانکو (Javad Amirian)
میخواهید #مقاله بنویسید؟ 👩🎓👨🎓
این توصیههای دکتر کالین رافل استاد دانشگاه نورث کارولینا (بعلاوهی افاضات بنده)، شاید بتواند برای شما مفید باشد:
1⃣ یک حوزهی (حوضه؟) -بسیار- کوچک را برای ریسرچ انتخاب کنید.
این انتخاب نباید یک حوزهی بزرگ و جامع (مثلا هوش مصنوعی/یادگیری ماشین) باشد. هر چه کوچکتر بهتر.
(مثلا: تشخیص چهرهی افراد بین 14 تا 16 سال عینکی و سیبیلو! 👨🔬)
البته مسالهای را انتخاب کنید: که مهم و جذاب باشد و شما حس کنید میتوانید به آن ورود کنید.
توصیهی اکید: هرگز بعنوان یک تازهکار سعی نکنید سراغ مسائل بِکر و دستنخورده بروید! احتمالا شما تنها نابغهای نیستید که آنرا کشف کرده. بلکه احتمالا دلیل مهمتری هست که تا حالا دستنخورده مانده: دادهی مناسب برای آن وجود ندارد، خوش تعریف نیست یا ...
2⃣ شروع کنید به خواندن و ورق زدن مقالات. 🕵️♀️
مقالات یک حوزه، اشتراکات بسیار زیادی دارند. هرچند به زبانهای مختلف بیان میشوند! شما بعد از مدتی باید بتوانید از روی چکیدهی مقاله یا دیاگرامها بفهمید این یکی چه فرقی با بقیه دارد.
توصیه: قرار نیست همهی مقالات مرتبط را از زمان مرحوم نیوتون به بعد پیدا کنید و بطور کامل بخوانید. باور کنید در هر حوزهی کوچک، در هر سال فقط چند کار مهم و ارزشمند چاپ میشود. اگر مقالات خیلی زیادی پیش روی شماست، احتمالا راه را اشتباه میروید.
3⃣ به یک کامیونیتی (شبکه) احتیاج دارید. 👨👨👧👦
خودتان را به افراد دیگری که در این حوزه فعالند نزدیک کنید. توییتر شاید این روزها جای مناسبی باشد تا آنها را پیدا کنید. با کمک این افراد میتوانید در جریان مهمترین رویدادها و پیشرفتهای این حوزه قرار بگیرید.
هشدار: مراقب معتاد شدن به توییتر باشید! ☠️
زانکو (یعنی دانشگاه)
@zankoo_ai
این توصیههای دکتر کالین رافل استاد دانشگاه نورث کارولینا (بعلاوهی افاضات بنده)، شاید بتواند برای شما مفید باشد:
1⃣ یک حوزهی (حوضه؟) -بسیار- کوچک را برای ریسرچ انتخاب کنید.
این انتخاب نباید یک حوزهی بزرگ و جامع (مثلا هوش مصنوعی/یادگیری ماشین) باشد. هر چه کوچکتر بهتر.
(مثلا: تشخیص چهرهی افراد بین 14 تا 16 سال عینکی و سیبیلو! 👨🔬)
البته مسالهای را انتخاب کنید: که مهم و جذاب باشد و شما حس کنید میتوانید به آن ورود کنید.
توصیهی اکید: هرگز بعنوان یک تازهکار سعی نکنید سراغ مسائل بِکر و دستنخورده بروید! احتمالا شما تنها نابغهای نیستید که آنرا کشف کرده. بلکه احتمالا دلیل مهمتری هست که تا حالا دستنخورده مانده: دادهی مناسب برای آن وجود ندارد، خوش تعریف نیست یا ...
2⃣ شروع کنید به خواندن و ورق زدن مقالات. 🕵️♀️
مقالات یک حوزه، اشتراکات بسیار زیادی دارند. هرچند به زبانهای مختلف بیان میشوند! شما بعد از مدتی باید بتوانید از روی چکیدهی مقاله یا دیاگرامها بفهمید این یکی چه فرقی با بقیه دارد.
توصیه: قرار نیست همهی مقالات مرتبط را از زمان مرحوم نیوتون به بعد پیدا کنید و بطور کامل بخوانید. باور کنید در هر حوزهی کوچک، در هر سال فقط چند کار مهم و ارزشمند چاپ میشود. اگر مقالات خیلی زیادی پیش روی شماست، احتمالا راه را اشتباه میروید.
3⃣ به یک کامیونیتی (شبکه) احتیاج دارید. 👨👨👧👦
خودتان را به افراد دیگری که در این حوزه فعالند نزدیک کنید. توییتر شاید این روزها جای مناسبی باشد تا آنها را پیدا کنید. با کمک این افراد میتوانید در جریان مهمترین رویدادها و پیشرفتهای این حوزه قرار بگیرید.
هشدار: مراقب معتاد شدن به توییتر باشید! ☠️
زانکو (یعنی دانشگاه)
@zankoo_ai
آیا chatGPT واقعا هوش داره؟ قطعا نه! جواب این سوالات رو همیشه از فرانسوا شوله بپرسید.
میبینیم که یک پازل ساده هم نمیتونه حل کنه.
Thread
@ml_nlp_cv
میبینیم که یک پازل ساده هم نمیتونه حل کنه.
Thread
@ml_nlp_cv
Forwarded from DeepMind AI Expert (Farzad 🦅)
اینجا در اهمیت ویژن ترنسفورمرها صحبت شده
🔸 ConvNets Match Vision Transformers at Scale
Quote from this DeepMind article:
"Although the success of ViTs in computer vision is extremely impressive, in our view there is no strong evidence to suggest that pre-trained ViTs outperform pre-trained ConvNets when evaluated fairly."
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
🔸 ConvNets Match Vision Transformers at Scale
Quote from this DeepMind article:
"Although the success of ViTs in computer vision is extremely impressive, in our view there is no strong evidence to suggest that pre-trained ViTs outperform pre-trained ConvNets when evaluated fairly."
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
Forwarded from Programming Resources via @like
The courses are offered by University of Helsinki's Department of Computer Science. No prior knowledge is required.
درسهای رشته کامپیوتر دانشگاه هلسینکی فنلاند که به رایگان در این سایت قرارداده شدهاند و شامل حوزههای مختلفی میشود. از امنیت و هوش مصنوعی گرفته تا tdd و کلی مبحث مرتبط به devops
#course #finland #free #mooc #programming #book #online #AI #java #cyber #security #docker #data #tdd #test #haskell
@pythony
https://www.mooc.fi
Selected Courses:
https://www.elementsofai.com
https://fullstackopen.com/en
https://www.elementsofai.com
https://cybersecuritybase.mooc.fi
درسهای رشته کامپیوتر دانشگاه هلسینکی فنلاند که به رایگان در این سایت قرارداده شدهاند و شامل حوزههای مختلفی میشود. از امنیت و هوش مصنوعی گرفته تا tdd و کلی مبحث مرتبط به devops
#course #finland #free #mooc #programming #book #online #AI #java #cyber #security #docker #data #tdd #test #haskell
@pythony
https://www.mooc.fi
Selected Courses:
https://www.elementsofai.com
https://fullstackopen.com/en
https://www.elementsofai.com
https://cybersecuritybase.mooc.fi
[NeurIPS 2023] Global Structure-Aware Diffusion Process for Low-Light Image Enhancement
Github: https://github.com/jinnh/GSAD
Paper: https://arxiv.org/pdf/2310.17577.pdf
Datasets: https://paperswithcode.com/dataset/lol
@ml_nlp_cv
Github: https://github.com/jinnh/GSAD
Paper: https://arxiv.org/pdf/2310.17577.pdf
Datasets: https://paperswithcode.com/dataset/lol
@ml_nlp_cv
Forwarded from SharifGPT PRO
شما باهوش تر هستید یا GPT4 ؟🤨
به خاطر اینکه این موضوع رو بفهمیم یک سوال هوش رو هم از شما و هم از GPT4 می پرسیم🫢
می تونید راه حل خودتون رو با GPT4 مقایسه کنید‼️
https://chat.openai.com/share/0bb6cdc0-64c2-4414-89f5-b9d182c3d7ab
t.iss.one/sharifgpt
😱
اگه مشکل دسترسی به لینک دارید به پشتیبانی پیام بدید🫡
t.iss.one/sharifgpt
به خاطر اینکه این موضوع رو بفهمیم یک سوال هوش رو هم از شما و هم از GPT4 می پرسیم
دو تا طناب و یک فندک دارید. هر طناب به خاطر تراکم متفاوتی که در نقاط مختلفش داره، با سرعت یکسانی نمیسوزه. ولی هر کدوم کامل از یک سر به سر دیگه دقیقاً 60 دقیقه طول میکشه تا بسوزه.
چطوری میتونید دقیقاً 45 دقیقه رو با این دو تا طناب و فندک اندازهگیری کنید؟
می تونید راه حل خودتون رو با GPT4 مقایسه کنید
t.iss.one/sharifgpt
پ.ن.
این اولین پستی هست هوش مصنوعی برای این کانال درست می کنه و برام جالب بود که از بین همه موضوعات تصمیم گرفت هوشش رو با ما انسان ها مقایسه کنهاگه مشکل دسترسی به لینک دارید به پشتیبانی پیام بدید
t.iss.one/sharifgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
ChatGPT
ChatGPT - مقایسه هوش انسان و ChatGPT
Shared via ChatGPT
Forwarded from School of AI
ویدئوهای ضبطشده از کلاس دیپلرنینگ دکتر علی قدسی استاد دانشگاه واترلو
https://youtube.com/playlist?list=PLehuLRPyt1HxuYpdlW4KevYJVOSDG3DEz&si=4eeCBn8S25oaDJbF
https://youtube.com/playlist?list=PLehuLRPyt1HxuYpdlW4KevYJVOSDG3DEz&si=4eeCBn8S25oaDJbF
Forwarded from Dev Tweet
این لیست صد نفر تاثیرگذارترین شخصیت هوش مصنوعی 2023 مجله تایمز چند روزی هست منتشر شده
وقت نداشتم بررسی اش کنم
امروز بررسی کردم واقعا جالبه یه نگاه بندازین بهش
آدمهای جالبی توشن
مثه Grimes زن ایلان ماسک
مثه Eliezer Yudkowsky که دشمن توسعه A.I. میگه باید دیتاسنترها رو تا بشر رو نابود نکردن بمباران کنیم:)
و آدمهایی نیستن که آدم تعجب میکنه
اندره کارپتی
یوگن اشمیت هوبر نوسیندهی مقالهی LSTM
حتما وقت کردید یه نگاه بندازین
خیلی چیز واسه یاد گرفتن داره
وقت نداشتم بررسی اش کنم
امروز بررسی کردم واقعا جالبه یه نگاه بندازین بهش
آدمهای جالبی توشن
مثه Grimes زن ایلان ماسک
مثه Eliezer Yudkowsky که دشمن توسعه A.I. میگه باید دیتاسنترها رو تا بشر رو نابود نکردن بمباران کنیم:)
و آدمهایی نیستن که آدم تعجب میکنه
اندره کارپتی
یوگن اشمیت هوبر نوسیندهی مقالهی LSTM
حتما وقت کردید یه نگاه بندازین
خیلی چیز واسه یاد گرفتن داره
Time
The 100 Most Influential People in AI 2023
Here’s who made the 2023 TIME100 AI list of the most influential people in artificial intelligence.
Forwarded from دستاوردهای یادگیری عمیق(InTec)
پایان سلطه ترنسفرمرها ؟
شاید؛ با
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Mamba enjoys fast inference (5× higher throughput than Transformers) and linear scaling in sequence length.
شاید؛ با
Mamba
آشنا بشید Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Mamba enjoys fast inference (5× higher throughput than Transformers) and linear scaling in sequence length.
مصاحبهی Eric Topol و Geoff Hinton
در رابطه با آیندهی پزشکی و پیشرفتهای AI در حوزهی سلامت
دربارهی Eric Topol
کاردیولوژیست و نویسندهی کتاب Deep Medicine. درحال حاضر editor-in-chief در Medscape. طرحهای تحقیقاتی و شرکتهاش تا حالا چند صد میلیون دلار فاند گرفتن.
دربارهی Geoffrey Hinton
از سه نفر برندهی جایزهی Turing (معادل نوبل) در علوم کامپیوتر برای موفقیت Deep Learning و ملقب به Godfather of AI! از مهمترین contribution هاش به این حوزه میشه به معرفی و بهکارگیری موفق Boltzmann machine ها، معرفی back-propagation در سال 1986، معرفی اپتیمایزر RMSProp، لایهی Dropout، متد t-SNE و ... اشاره کرد.
یکی از جملههای زیبای هینتون توی این مصاحبه:
"But I’m happy being in a position when most people think I’m entirely crazy!"
ولی من خوشحالم که توی موقعیتی باشم که اکثر آدما فکر کنن من احمقم!
Link
در رابطه با آیندهی پزشکی و پیشرفتهای AI در حوزهی سلامت
دربارهی Eric Topol
کاردیولوژیست و نویسندهی کتاب Deep Medicine. درحال حاضر editor-in-chief در Medscape. طرحهای تحقیقاتی و شرکتهاش تا حالا چند صد میلیون دلار فاند گرفتن.
دربارهی Geoffrey Hinton
از سه نفر برندهی جایزهی Turing (معادل نوبل) در علوم کامپیوتر برای موفقیت Deep Learning و ملقب به Godfather of AI! از مهمترین contribution هاش به این حوزه میشه به معرفی و بهکارگیری موفق Boltzmann machine ها، معرفی back-propagation در سال 1986، معرفی اپتیمایزر RMSProp، لایهی Dropout، متد t-SNE و ... اشاره کرد.
یکی از جملههای زیبای هینتون توی این مصاحبه:
"But I’m happy being in a position when most people think I’m entirely crazy!"
ولی من خوشحالم که توی موقعیتی باشم که اکثر آدما فکر کنن من احمقم!
Link
YouTube
Geoffrey Hinton: Large Language Models in Medicine. They Understand and Have Empathy
In this edition of the Ground Truths podcast, Geoffrey Hinton, PhD - the "Godfather of AI" - and Eric Topol, MD, discuss all things A.I. and large language models.
Listen to more episodes here: https://erictopol.substack.com/
Listen to more episodes here: https://erictopol.substack.com/
Forwarded from NLP stuff
بهبود عملکرد LLM با نشوندادن Chain of Thought غلط
مدلهای زبانی بزرگ با این که کلی از مسائل حوزه پردازش زبان رو درنوردیدند ولی همچنان در برخی مسائل با فاز reasoningطور (مثل مثلا حل مسائل ریاضی) دچار مشکلات جدی هستند. یکی از راهحلهای پیشنهادشده برای بهبود عملکرد این مدلها روی این مسائل، راهکار Chain-of-Thought Prompting (به اختصار CoT) هست. تو این راهکار وقتی میخوایم یک مساله را به صورت few-shot به LLM توضیح بدیم عوض این که در exampleهامون صرفا جواب آخر رو بنویسیم و میایم و مرحله به مرحله نحوه رسیدن به جواب رو توضیح میدیم و این جوری مدل هم وقتی میخواد به کوئری ما پاسخ بده به نوعی مجبور میشه که مرحله به مرحله جواب رو بنویسه. آزمایشات نشون داده که باعث میشه درصد جوابهای پایانی درستی که میده بیشتر بشه.
حالا یک مقاله اومده و یک ایده به نام contrastive chaint of thought prompting رو مطرح کرده. تو این ایده، علاوه بر این که CoT درست به مدل داده میشود بهش CoT اشتباه هم نشون داده میشه و آزمایشات مقاله نشون میده که این ایده نشون دادن CoT غلط در کنار CoT باعث میشه تا عملکرد LLM باز هم بهبود پیدا کنه.
لینک مقاله:
https://arxiv.org/abs/2311.09277
#paper
#read
@nlp_stuff
مدلهای زبانی بزرگ با این که کلی از مسائل حوزه پردازش زبان رو درنوردیدند ولی همچنان در برخی مسائل با فاز reasoningطور (مثل مثلا حل مسائل ریاضی) دچار مشکلات جدی هستند. یکی از راهحلهای پیشنهادشده برای بهبود عملکرد این مدلها روی این مسائل، راهکار Chain-of-Thought Prompting (به اختصار CoT) هست. تو این راهکار وقتی میخوایم یک مساله را به صورت few-shot به LLM توضیح بدیم عوض این که در exampleهامون صرفا جواب آخر رو بنویسیم و میایم و مرحله به مرحله نحوه رسیدن به جواب رو توضیح میدیم و این جوری مدل هم وقتی میخواد به کوئری ما پاسخ بده به نوعی مجبور میشه که مرحله به مرحله جواب رو بنویسه. آزمایشات نشون داده که باعث میشه درصد جوابهای پایانی درستی که میده بیشتر بشه.
حالا یک مقاله اومده و یک ایده به نام contrastive chaint of thought prompting رو مطرح کرده. تو این ایده، علاوه بر این که CoT درست به مدل داده میشود بهش CoT اشتباه هم نشون داده میشه و آزمایشات مقاله نشون میده که این ایده نشون دادن CoT غلط در کنار CoT باعث میشه تا عملکرد LLM باز هم بهبود پیدا کنه.
لینک مقاله:
https://arxiv.org/abs/2311.09277
#paper
#read
@nlp_stuff
Telegram
stuff
Forwarded from DeepMind AI Expert (Farzad 🦅)
اخیرا که در توئیتر گفتگوی داغی بین پژوهشگران برجسته #هوش_مصنوعی شکل گرفته است از اینکه ایا هوش مصنوعی مضر خواهد بود یا خیر ؟! تا پیشنهادات تاپیکهایی توسط دکتر لکون و بقیه که تحقیقاتی در این حیطه ها شکل بگیره پیشنهاد شده است و سوق داده شدن به سمت RL و تشویق پژوهشگران به این سمت و QLearning و Q*( QStar) و Self Supervised Learning انجام گرفته است اینکه این ها چی هستند منبع برای qlearning هست ولی کیو استارچیه این لینک توضیحاتی راجبش داده
https://youtu.be/ARf0WyFau0A?si=vRA0UxQGQwpQMlg1
پ.ن: دکتر لکون که قبلا از مرگ RLها میگفت و الان از تشویقش !
#ایده_جذاب #یادگیری_تقویتی #فیلم
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
https://youtu.be/ARf0WyFau0A?si=vRA0UxQGQwpQMlg1
پ.ن: دکتر لکون که قبلا از مرگ RLها میگفت و الان از تشویقش !
#ایده_جذاب #یادگیری_تقویتی #فیلم
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
Forwarded from NLP stuff
شکست gpt3.5 توسط مدل وزنباز Mixtral-8x7B-v0.1 !
خلاصه بخوایم بگیم: جدیدا شرکت Mistral.ai یه مدل داده بیرون به اسم Mixtral-8x7B-v0.1 که با هشت تا مدل هفت میلیارد پارامتری Mistral با روش high-quality sparse mixture of experts model (SMoE) ساخته شده، تونسته در اکثر ارزیابیها هم لاما ۷۰ میلیاردی و هم جیپیتی۳.۵ رو شکست بده. خوشمزگی داستان اینه که یک سال بعد از جیپیتی ۳.۵ حالا میشه این مدل رو به صورت لوکال (طبیعتا با رم و جیپییو به اندازه کافی) سرو کرد. این مدل رو میسترال خیلی لاتیطور اول یه لینک تورنت بدون توضیح گذاشت و بعد که ملت به جنب و جوش دراومدند، چند روز بعد یه توضیحی هم منتشر کرد!
مدل mixtral 8x7b که امروز توسط میسترال منتشر شد یک سطح جدیدی برای مدل وزنباز (نه متنباز، چون کد و دیتا و... رو نداده) را ارائه کرد و تونست مدل چت جیپیتی ۳.۵ رو در اکثر بنچمارکها شکست بده. معماری این مدل شبیه مدل میسترال ۷ میلیاردیه (به زودی معماری اون هم براتون شرح خواهیم داد) با این تفاوت که در حقیقت این مدل جدید ۸ تا مدل expert در یک پکه. اینجا از یک تکنیک به نام MoE (Mixture of Experts) استفاده شده. این مدل یک مدل دیکودریه که بلوک فیدفوروارد بین ۸ گروه از پارامترها در هر لایه و برای هر توکن دو تا از این کارشناسها (expert) رو انتخاب میکنه که توکن پردازش بشه. در معماری ترنسفورمرها یک سری لایه feed-forward داره، در MoE جای بعضی از این لایهها از لایههای MoE استفاده شده است. لایهی MoE یک شبکهی روتری داره که انتخاب میکنه کدوم کارشناس (Expert) کدوم توکنها رو بهتر پردازش میکنند. این تکنینم باعث میشه تعدا پارامترها زیاد بشه اما هزینه و سرعت کنترل بشه چون مدل فقط از بخشی از تعداد کل پارامترها رو برای یک توکن استفاده میکنه. همونطور که گفتیم در این میکسترال دو تا کارشناس در هر لحظه انتخاب میشن که باعث میشه سرعت دیکودینگ شبیه یه مدل ۱۲.۹ میلیاردی بشه در صورتی که ۴ برابرش (۴۶.۷ میلیارد) پارامتر داره!! یه عده اشتباه فکر میکردند ۵۶ میلیارد (۸*۷) پارامتر داره ولی اشتباهه چون فقط بعضی لایههای feed-forward فقط تکرار شدند نه همگی پارامترها. اگر بابت MoE کمی گیج شدید، نگران نباشید چون این یکی هم مفصلا در پست دیگهای شرح میدیم. تا اینجا دو تا طلبتون پس.
جونمون براتون بگه که مدل پایه و مدل Instruct رو منتشر کردند. طول کانتکستش ۳۲ هزار شده. تونسته مساوی یا بهتر از مدل ۷۰ میلیاردی لاما۲ و جیپیتی ۳.۵ در اکثر بنچمارکها باشه. عکس نتایج رو در پیوست گذاشتیم. پنج تا زبون انگلیسی، فرانسوی، آلمانی، اسپانیایی و ایتالیایی رو بلده (به نظر روی دیتای togethercomputer/RedPajama-Data-V2 ترینش کردند، حدس ماست). توی تسک کدزنی هم خوبه و توی HumanEval به ۴۰.۲ رسیده. در نهایتا هم با Apache2.0 منتشرش کردند که همگی صفا کنیم. مدل Instruct فرمت پرامپت خودشو داره که توی لینکهایی که آخر میذاریم هست. مثل میسترال ۷b نمیدونیم دیتاستش چیه و چه حجمی داره و چجور پیشپردازش شده. دیتای sft و DPO (برای فاین تیون کردن) هم نمیدونیم! کد لود کردن و اینفرنس هم توی لینکها هست که البته حداقل ۳۰ گیگ رم و جیپییویی مثل A100 میخواد.
لینک بلاگ پست انتشار مدل:
https://mistral.ai/news/mixtral-of-experts/
لینک مدل پایه Mixtral-8x7B-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
لینک مدل Mixtral-8x7B-Instruct-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
لینک بلاگ هاگینگفیس:
https://huggingface.co/blog/mixtral
#read
#blog
#link
#model
@nlp_stuff
خلاصه بخوایم بگیم: جدیدا شرکت Mistral.ai یه مدل داده بیرون به اسم Mixtral-8x7B-v0.1 که با هشت تا مدل هفت میلیارد پارامتری Mistral با روش high-quality sparse mixture of experts model (SMoE) ساخته شده، تونسته در اکثر ارزیابیها هم لاما ۷۰ میلیاردی و هم جیپیتی۳.۵ رو شکست بده. خوشمزگی داستان اینه که یک سال بعد از جیپیتی ۳.۵ حالا میشه این مدل رو به صورت لوکال (طبیعتا با رم و جیپییو به اندازه کافی) سرو کرد. این مدل رو میسترال خیلی لاتیطور اول یه لینک تورنت بدون توضیح گذاشت و بعد که ملت به جنب و جوش دراومدند، چند روز بعد یه توضیحی هم منتشر کرد!
مدل mixtral 8x7b که امروز توسط میسترال منتشر شد یک سطح جدیدی برای مدل وزنباز (نه متنباز، چون کد و دیتا و... رو نداده) را ارائه کرد و تونست مدل چت جیپیتی ۳.۵ رو در اکثر بنچمارکها شکست بده. معماری این مدل شبیه مدل میسترال ۷ میلیاردیه (به زودی معماری اون هم براتون شرح خواهیم داد) با این تفاوت که در حقیقت این مدل جدید ۸ تا مدل expert در یک پکه. اینجا از یک تکنیک به نام MoE (Mixture of Experts) استفاده شده. این مدل یک مدل دیکودریه که بلوک فیدفوروارد بین ۸ گروه از پارامترها در هر لایه و برای هر توکن دو تا از این کارشناسها (expert) رو انتخاب میکنه که توکن پردازش بشه. در معماری ترنسفورمرها یک سری لایه feed-forward داره، در MoE جای بعضی از این لایهها از لایههای MoE استفاده شده است. لایهی MoE یک شبکهی روتری داره که انتخاب میکنه کدوم کارشناس (Expert) کدوم توکنها رو بهتر پردازش میکنند. این تکنینم باعث میشه تعدا پارامترها زیاد بشه اما هزینه و سرعت کنترل بشه چون مدل فقط از بخشی از تعداد کل پارامترها رو برای یک توکن استفاده میکنه. همونطور که گفتیم در این میکسترال دو تا کارشناس در هر لحظه انتخاب میشن که باعث میشه سرعت دیکودینگ شبیه یه مدل ۱۲.۹ میلیاردی بشه در صورتی که ۴ برابرش (۴۶.۷ میلیارد) پارامتر داره!! یه عده اشتباه فکر میکردند ۵۶ میلیارد (۸*۷) پارامتر داره ولی اشتباهه چون فقط بعضی لایههای feed-forward فقط تکرار شدند نه همگی پارامترها. اگر بابت MoE کمی گیج شدید، نگران نباشید چون این یکی هم مفصلا در پست دیگهای شرح میدیم. تا اینجا دو تا طلبتون پس.
جونمون براتون بگه که مدل پایه و مدل Instruct رو منتشر کردند. طول کانتکستش ۳۲ هزار شده. تونسته مساوی یا بهتر از مدل ۷۰ میلیاردی لاما۲ و جیپیتی ۳.۵ در اکثر بنچمارکها باشه. عکس نتایج رو در پیوست گذاشتیم. پنج تا زبون انگلیسی، فرانسوی، آلمانی، اسپانیایی و ایتالیایی رو بلده (به نظر روی دیتای togethercomputer/RedPajama-Data-V2 ترینش کردند، حدس ماست). توی تسک کدزنی هم خوبه و توی HumanEval به ۴۰.۲ رسیده. در نهایتا هم با Apache2.0 منتشرش کردند که همگی صفا کنیم. مدل Instruct فرمت پرامپت خودشو داره که توی لینکهایی که آخر میذاریم هست. مثل میسترال ۷b نمیدونیم دیتاستش چیه و چه حجمی داره و چجور پیشپردازش شده. دیتای sft و DPO (برای فاین تیون کردن) هم نمیدونیم! کد لود کردن و اینفرنس هم توی لینکها هست که البته حداقل ۳۰ گیگ رم و جیپییویی مثل A100 میخواد.
لینک بلاگ پست انتشار مدل:
https://mistral.ai/news/mixtral-of-experts/
لینک مدل پایه Mixtral-8x7B-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
لینک مدل Mixtral-8x7B-Instruct-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
لینک بلاگ هاگینگفیس:
https://huggingface.co/blog/mixtral
#read
#blog
#link
#model
@nlp_stuff
Telegram
stuff
Forwarded from DeepMind AI Expert (Farzad)
اگه میخواهید به درکی بهتر انتقال Transfer در #یادگیری_تقویتی برسید این یک منبع ارزشمند هستش.
▪️ Foundations for Transfer in Reinforcement Learning: A Taxonomy of Knowledge Modalities
#ایده_جذاب #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ Foundations for Transfer in Reinforcement Learning: A Taxonomy of Knowledge Modalities
#ایده_جذاب #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person