Machine Learning NLP + CV
286 subscribers
223 photos
53 videos
42 files
474 links
مطالب مفید در حوزه های یادگیری ماشین و بینایی کامپیوتر
Download Telegram
Forwarded from Dev Tweet
این لیست صد نفر تاثیرگذارترین شخصیت هوش مصنوعی 2023 مجله تایمز چند روزی هست منتشر شده
وقت نداشتم بررسی اش کنم
امروز بررسی کردم واقعا جالبه یه نگاه بندازین بهش
آدمهای جالبی توشن
مثه Grimes زن ایلان ماسک
مثه Eliezer Yudkowsky که دشمن توسعه A.I. میگه باید دیتاسنترها رو تا بشر رو نابود نکردن بمباران کنیم:)
و آدم‌هایی نیستن که آدم تعجب می‌کنه
اندره کارپتی
یوگن اشمیت هوبر نوسینده‌ی مقاله‌ی LSTM

حتما وقت کردید یه نگاه بندازین
خیلی چیز واسه یاد گرفتن داره
پایان سلطه ترنسفرمرها ؟
شاید؛ با Mamba آشنا بشید

Mamba: Linear-Time Sequence Modeling with Selective State Spaces


Mamba enjoys fast inference (5× higher throughput than Transformers) and linear scaling in sequence length.
مصاحبه‌ی Eric Topol و Geoff Hinton

در رابطه با آینده‌ی پزشکی و پیشرفت‌های AI در حوزه‌ی سلامت

درباره‌ی Eric Topol

کاردیولوژیست و نویسنده‌ی کتاب Deep Medicine. درحال حاضر editor-in-chief در Medscape. طرح‌های تحقیقاتی و شرکت‌هاش تا حالا چند صد میلیون دلار فاند گرفتن.

درباره‌ی Geoffrey Hinton

از سه نفر برنده‌ی جایزه‌ی Turing (معادل نوبل) در علوم کامپیوتر برای موفقیت Deep Learning و ملقب به Godfather of AI! از مهمترین contribution هاش به این حوزه میشه به معرفی و به‌کارگیری موفق Boltzmann machine ها، معرفی back-propagation در سال 1986، معرفی اپتیمایزر RMSProp، لایه‌ی Dropout، متد t-SNE و ... اشاره کرد.

یکی از جمله‌های زیبای هینتون توی این مصاحبه:
"But I’m happy being in a position when most people think I’m entirely crazy!"
ولی من خوشحالم که توی موقعیتی باشم که اکثر آدما فکر کنن من احمقم!


Link
Forwarded from NLP stuff
بهبود عملکرد LLM با نشون‌دادن Chain of Thought غلط

مدل‌های زبانی بزرگ با این که کلی از مسائل حوزه پردازش زبان رو درنوردیدند ولی همچنان در برخی مسائل با فاز reasoning‌طور (مثل مثلا حل مسائل ریاضی) دچار مشکلات جدی هستند. یکی از راه‌حل‌های پیشنهادشده برای بهبود عملکرد این مدل‌ها روی این مسائل، راهکار Chain-of-Thought Prompting (به اختصار CoT) هست. تو این راهکار وقتی میخوایم یک مساله را به صورت few-shot به LLM توضیح بدیم عوض این که در example‌هامون صرفا جواب آخر رو بنویسیم و میایم و مرحله به مرحله نحوه رسیدن به جواب رو توضیح می‌دیم و این جوری مدل هم وقتی میخواد به کوئری ما پاسخ بده به نوعی مجبور میشه که مرحله به مرحله جواب رو بنویسه. آزمایشات نشون داده که باعث می‌شه درصد جواب‌های پایانی درستی که می‌ده بیشتر بشه.

حالا یک مقاله اومده و یک ایده به نام contrastive chaint of thought prompting رو مطرح کرده. تو این ایده، علاوه بر این که CoT درست به مدل داده می‌شود بهش CoT اشتباه هم نشون داده می‌شه و آزمایشات مقاله نشون می‌ده که این ایده نشون دادن CoT غلط در کنار CoT باعث میشه تا عملکرد LLM باز هم بهبود پیدا کنه.

لینک مقاله:
https://arxiv.org/abs/2311.09277

#paper
#read

@nlp_stuff
Forwarded from DeepMind AI Expert (Farzad 🦅)
اخیرا که در توئیتر گفتگوی داغی بین پژوهشگران برجسته #هوش_مصنوعی شکل گرفته است از اینکه ایا هوش مصنوعی مضر خواهد بود یا خیر ؟! تا پیشنهادات تاپیکهایی توسط دکتر لکون و بقیه که تحقیقاتی در این حیطه ها شکل بگیره پیشنهاد شده است و سوق داده شدن به سمت RL و تشویق پژوهشگران به این سمت و QLearning و Q*( QStar) و Self Supervised Learning انجام گرفته است اینکه این ها چی هستند منبع برای qlearning هست ولی کیو استارچیه این لینک توضیحاتی راجبش داده
https://youtu.be/ARf0WyFau0A?si=vRA0UxQGQwpQMlg1

پ.ن: دکتر لکون که قبلا از مرگ RLها میگفت و الان از تشویقش !

#ایده_جذاب #یادگیری_تقویتی #فیلم

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
Forwarded from NLP stuff
شکست gpt3.5 توسط مدل وزن‌باز Mixtral-8x7B-v0.1 !

خلاصه بخوایم بگیم: جدیدا شرکت Mistral.ai یه مدل داده بیرون به اسم Mixtral-8x7B-v0.1 که با هشت تا مدل هفت میلیارد پارامتری Mistral با روش  high-quality sparse mixture of experts model (SMoE) ساخته شده، تونسته در اکثر ارزیابی‌ها هم لاما ۷۰ میلیاردی و هم جی‌پی‌تی۳.۵ رو شکست بده. خوش‌مزگی داستان اینه که یک سال بعد از جی‌پی‌تی ۳.۵ حالا میشه این مدل رو به صورت لوکال (طبیعتا با رم و جی‌پی‌یو به اندازه کافی) سرو کرد. این مدل رو میسترال خیلی لاتی‌طور اول یه لینک تورنت بدون توضیح گذاشت و بعد که ملت به جنب و جوش دراومدند، چند روز بعد یه توضیحی هم منتشر کرد!

مدل mixtral 8x7b که امروز توسط میسترال منتشر شد یک سطح جدیدی برای مدل وزن‌باز (نه متن‌باز، چون کد و دیتا و... رو نداده) را ارائه کرد و تونست مدل چت جی‌پی‌تی ۳.۵ رو در اکثر بنچمارک‌ها شکست بده. معماری این مدل شبیه مدل میسترال ۷ میلیاردیه (به زودی معماری اون هم براتون شرح خواهیم داد) با این تفاوت که در حقیقت این مدل جدید ۸ تا مدل expert در یک پکه. اینجا از یک تکنیک به نام MoE (Mixture of Experts) استفاده شده. این مدل یک مدل دیکودریه که بلوک فیدفوروارد بین ۸ گروه از پارامترها در هر لایه و برای هر توکن دو تا از این کارشناس‌ها (expert) رو انتخاب میکنه که توکن پردازش بشه. در معماری ترنسفورمرها یک سری لایه feed-forward داره، در MoE جای بعضی از این لایه‌ها از لایه‌های MoE استفاده شده است. لایه‌ی MoE یک شبکه‌ی روتری داره که انتخاب میکنه کدوم کارشناس (Expert) کدوم توکن‌ها رو بهتر پردازش می‌کنند. این تکنینم باعث میشه تعدا پارامترها زیاد بشه اما هزینه و سرعت کنترل بشه چون مدل فقط از بخشی از تعداد کل پارامترها رو برای یک توکن استفاده می‌کنه. همونطور که گفتیم در این میکسترال دو تا کارشناس در هر لحظه انتخاب میشن که باعث میشه سرعت دیکودینگ شبیه یه مدل ۱۲.۹ میلیاردی بشه در صورتی که ۴ برابرش (۴۶.۷ میلیارد) پارامتر داره!! یه عده اشتباه فکر میکردند ۵۶ میلیارد (۸*۷) پارامتر داره ولی اشتباهه چون فقط بعضی لایه‌های feed-forward فقط تکرار شدند نه همگی پارامترها. اگر بابت MoE کمی گیج شدید، نگران نباشید چون این یکی هم مفصلا در پست دیگه‌ای شرح میدیم. تا اینجا دو تا  طلبتون پس.

جونمون براتون بگه که مدل پایه و مدل Instruct رو منتشر کردند. طول کانتکستش ۳۲ هزار شده. تونسته مساوی یا بهتر از مدل ۷۰ میلیاردی لاما۲ و  جی‌پی‌تی ۳.۵ در اکثر بنچ‌مارک‌ها باشه. عکس نتایج رو در پیوست گذاشتیم. پنج تا زبون انگلیسی، فرانسوی، آلمانی، اسپانیایی و ایتالیایی رو بلده (به نظر روی دیتای togethercomputer/RedPajama-Data-V2 ترینش کردند، حدس ماست). توی تسک کدزنی هم خوبه و توی HumanEval به ۴۰.۲ رسیده. در نهایتا هم با Apache2.0 منتشرش کردند که همگی صفا کنیم. مدل Instruct فرمت پرامپت خودشو داره که توی لینک‌هایی که آخر میذاریم هست. مثل میسترال ۷b نمیدونیم دیتاستش چیه و چه حجمی داره و چجور پیش‌پردازش شده. دیتای sft و DPO (برای فاین تیون کردن) هم نمیدونیم! کد لود کردن و اینفرنس هم توی لینک‌ها هست که البته حداقل ۳۰ گیگ رم و جی‌پی‌یویی مثل A100 می‌خواد.


لینک بلاگ پست انتشار مدل:
https://mistral.ai/news/mixtral-of-experts/

لینک مدل پایه Mixtral-8x7B-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-v0.1

لینک مدل Mixtral-8x7B-Instruct-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1

لینک بلاگ هاگینگ‌فیس:
https://huggingface.co/blog/mixtral

#read
#blog
#link
#model

@nlp_stuff
Forwarded from DeepMind AI Expert (Farzad)
اگه میخواهید به درکی بهتر انتقال Transfer در #یادگیری_تقویتی برسید این یک منبع ارزشمند هستش.

▪️ Foundations for Transfer in Reinforcement Learning: A Taxonomy of Knowledge Modalities

#ایده_جذاب #مقاله

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
Forwarded from ML/DS hub (Mohammad Saleh)
#منابع #الگوریتم #طراحی_الگوریتم‌ها
یکی از مباحث مهم برای موفقیت در برنامه‌نویسی و همچنین علم داده، طراحی الگوریتم‌ می‌باشد. در این خصوص کورس پروفسور محمدتقی حاجی‌آقایی، می‌تواند بسیار مفید باشد:

https://youtube.com/playlist?list=PLx7SjCaKZzEJLQ9RubHk2zFuddXTD5_ac&si=_r95F8uxlRuvRfr2

پ.ن: لازم به ذکره که ایشون در کانال یوتوب‌شون کورس‌های جذاب دیگری همچون نظریه بازی، علم داده و... نیز دارند.

@MLDShub
Forwarded from ML/DS hub (Mohammad Saleh)
این TEDxTalk دکتر محمد محمودی رو داشتم می‌دیدم راجع‌به رمزنگاری و به‌ نظرم جالب بود. خیلی ساده و روان مسائل رو توضیح دادند. از P vs NP شروع کردند به توضیح دادن و این رو بسط دادن به رمزنگاری و اینکه چرا این مسئله در رمز‌نگاری مهمه و قس‌علی‌هذا. به‌ نظرم دیدنش خالی از لطف نیست.

https://www.youtube.com/watch?v=m0EFVd6x2TQ

#رمزنگاری #TEDxTalk

@MLDShub
یک دوره بسیار ارزشمند برای علاقه‌مندان هوش مصنوعی:

دوره "مدل های بزرگ زبانی" یا "LLMs"

مدرسان: دکتر محمدحسین رهبان، دکتر مهدیه سلیمانی و دکتر  احسان‌الدین عسگری

کیفیت این دوره خیلی بالاست و به شکل جامعی به موارد متنوعی پرداخته از جمله معماری، تکنیک‌های آموزشی و کاربردهای مدل‌های زبانی بزرگ، #یادگیری_چندوجهی، فرآیند‌های جمع‌آوری داده و روش‌های #PEFT)

صفحه اصلی دوره شامل ویدیوهای کلاس، اسلایدها و تمرین‌ها:
sharif-llm.ir

سرفصل‌های دوره

ویدیوهای‌ دوره

#معرفی_دوره #course  #مبدل #سلیمانی #GPT_3 #مراجع #LLM #شریف #رهبان
#منابع  #Transformer

@ml_nlp_cv
Forwarded from Ai Events️ (حمید محمودآبادی)
Awesome Computer Vision: Awesome Books, Courses, Papers, Software, Datasets, Pre-trained Computer Vision Models, Tutorials, Talks, Blogs, Links and Songs related to Computer Vision.
مجموعه‌ای کامل از کتاب‌ها، دوره‌ها، مقالات، دیتاست و مدل‌های ترین‌شده در زمینه بینایی ماشین

https://github.com/jbhuang0604/awesome-computer-vision

#Computer_Vision #DataSets #Deep_Learning #بینایی_کامپیوتر #منابع #Github

@ml_nlp_cv
Forwarded from ML/DS hub (Mohammad Saleh)
یک کانال عالیه دیگه که آرشیوی از ویدیوهای دروس گرایش هوش مصنوعی دانشگاه صنعتی امیرکبیر در اون موجوده:

https://t.iss.one/autcelectures

پ.ن: کانال‌های دیگری هم خدمت‌تون معرفی خواهند شد🙏

@MLDShub
موقعیت کارآموزی ریموت تحلیل‌گر داده آلمان

  Junior Data Analyst (Remote Internship - Data Analysis)
LOCATION: Remote Work


SCHEDULE: Part-time

Responsibilities:

♦️Collect, clean, and analyze data from various sources to support consulting projects

♦️Assist in the development of data models and statistical analysis to identify trends and insights

♦️Collaborate with cross-functional teams to gather and analyze data

♦️Create data visualizations and dashboards using tools such as Tableau or Power BI
Present findings and insights to the consulting team and contribute to project reports

Participate in brainstorming sessions and contribute ideas for data-driven solutions
Support the team with general administrative tasks as needed
https://www.linkedin.com/jobs/view/3793297887

@ml_nlp_cv
Forwarded from MathSBU (M N I)
💡مهم‌ترین پارامترهای انواع مدل‌های بیز ساده در sklearn

🔵 GaussianNB

🔵پارامتر priors یک آرایه از احتمالات قبلی برای هر کلاسه. اگه این مقدار تعیین نشه، GaussianNB احتمالات رو بر اساس توزیع نرمال محاسبه می‌کنه.

🔵پارامتر var_smoothing برای جلوگیری از صفر شدن واریانس‌ها استفاده می‌شه و مقدار کمی به واریانس‌ها اضافه می‌کنه. این مقدار معمولاً بین 0.01 تا 0.1 تعیین میشه.

🔵 MultinomialNB

🔵پارامتر alpha مقداری به همه ویژگی‌ها اضافه می‌کنه تا جلوی وابستگی شدید به داده‌های خاص گرفته شه.

🔵پارامتر fit_prior تعیین می‌کنه که آیا احتمالات قبلی باید از داده‌ها یاد گرفته شه یا نه. اگر false باشه، توزیع یکنواخت برای احتمالات قبلی استفاده می‌شه. مقدار پیش فرض این پارامتر True هست.

🔵پارامتر class_prior مشابه با پارامتر priors توی GaussianNB، احتمالات قبلی برای هر کلاس رو تعیین می‌کنه.

🔵 BernoulliNB

🔵پارامتر binarize یک آستانه تعیین می‌کنه که بر اساسش ویژگی‌ها به 0 یا 1 تبدیل می‌شن و برای داده‌هایی که به صورت دودویی نیستن ولی می‌خوایم به این شکل تبدیل شن، مفیده.

🔵پارامترهای alpha ،fit_prior و class_prior توی این مدل مشابه با نحوه عملکردشون توی مدل MultinomialNB، کاربرد دارن.

#Machine_Learning
#Naive_Bayes

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Recommender system (MehriMoon 🌙)
یک خبر عالی: دیگه نوشتن کد توی Jupyter رو به ChatGPT بسپار

با Jupyter AI به طور مستقیم میتونی کدهات رو با نوشتن prompt مناسب تولید کنی

توی لینک های زیر یاد بگیرین چطور ازش استفاده کنین:
گیت هاب: https://lnkd.in/gKWbZTwR
داکیومنت: https://lnkd.in/gN5zYxtx
ClipDrop:

مجموعه قدرتمندی از ابزارهای تولید و ویرایش بصری، که توسط Stability AI پشتیبانی می‌شود.

ویژگی ها:

Stable Diffusion XL
Uncrop
Reimagine XL
Stable Doodle
Cleanup
Remove Background
Relight
Image Upscaler
Replace Background
Text Remover

https://clipdrop.co/

#هوش_مصنوعی #ابزار_هوش_مصنوعی

@ml_nlp_cv
گوگل ریسرچ سیستم جدیدی به نام AMIE را برای تشخیص و مکالمه پزشکی معرفی کرد.

سیستم AMIE از یک LLM استفاده کرده که برای تشخیص پزشکی بهینه شده است. این سیستم با پرسیدن سوال‌های مناسب طی مکالمه تشخیص خود را بهبود می‌بخشد. علاوه‌ بر آن با ایجاد همدردی تلاش می‌کند با کاربر ارتباط ایجاد کرده تا شرایط یک مکالمه اثربخش را فراهم کند. طبق نتایج ارائه شده از نظر دقت و کیفیت AMIE حداقل به اندازه پزشک مراقبت های اولیه عملکرد داشته است. به عقیده گوگل معرفی چنین سیستم‌هایی می‌تواند دسترس‌پذیری و کیفیت مراقبت‌های پزشکی را افزایش دهد.

#google
#amie

🧠 آقای هوش مصنوعی 🧠
رسانه هوش مصنوعی دانشگاه تهران

@MrArtificialintelligence