مدل dalle 2 که یه جمله میگیره و تبدیلش میکنه به عکس
تست محدود مدل :
https://openai.com/dall-e-2/#demos
مقاله dalle 2 :
https://arxiv.org/abs/2204.06125
مقاله CLIP :
https://arxiv.org/abs/2103.00020
مقاله dalle 1 :
https://arxiv.org/abs/2102.12092
پیاده سازی dalle 2 با pytorch :
https://github.com/lucidrains/DALLE2-pytorch
#openai #dalle #text_to_image
تست محدود مدل :
https://openai.com/dall-e-2/#demos
مقاله dalle 2 :
https://arxiv.org/abs/2204.06125
مقاله CLIP :
https://arxiv.org/abs/2103.00020
مقاله dalle 1 :
https://arxiv.org/abs/2102.12092
پیاده سازی dalle 2 با pytorch :
https://github.com/lucidrains/DALLE2-pytorch
#openai #dalle #text_to_image
🤩3
This media is not supported in your browser
VIEW IN TELEGRAM
A generalist agent
مقاله جدید deepmind که یه agent ای ارایه دادن که با یک شبکه و وزن های یکسان میتونه هم آتاری بازی کنه هم برای تصاویر کپشن تولید کنه هم چت کنه و چند تا کار دیگ 🔥🔥🔥
Abstract
Inspired by progress in large-scale language modelling, we apply a similar approach towards building a single generalist agent beyond the realm of text outputs. The agent, which we refer to as Gato, works as a multi-modal, multi-task, multi-embodiment generalist policy. The same network with the same weights can play Atari, caption images, chat, stack blocks with a real robot arm and much more, deciding based on its context whether to output text, joint torques, button presses, or other tokens. In this report we describe the model and the data, and document the current capabilities of Gato
Link: https://www.deepmind.com/publications/a-generalist-agent
مقاله جدید deepmind که یه agent ای ارایه دادن که با یک شبکه و وزن های یکسان میتونه هم آتاری بازی کنه هم برای تصاویر کپشن تولید کنه هم چت کنه و چند تا کار دیگ 🔥🔥🔥
Abstract
Inspired by progress in large-scale language modelling, we apply a similar approach towards building a single generalist agent beyond the realm of text outputs. The agent, which we refer to as Gato, works as a multi-modal, multi-task, multi-embodiment generalist policy. The same network with the same weights can play Atari, caption images, chat, stack blocks with a real robot arm and much more, deciding based on its context whether to output text, joint torques, button presses, or other tokens. In this report we describe the model and the data, and document the current capabilities of Gato
Link: https://www.deepmind.com/publications/a-generalist-agent
🤯3🔥1
Forwarded from CompArchPhdUI
آنالیز تصاویر فعالیت مغز انسان با استفاده از ابزارهای یادگیری ماشین
سخنران:دکتر محمدیوسف نژاد، پژوهشگر پسا دکترای دانشگاه آلبرتا
این سمینار علاوه بر اطلاعات تخصصی، اطلاعات عمومی خوبی نیز برای دانشجویان دوره کارشناسی خواهد داشت.
زمان: یکشنبه 8 خرداد ساعت 17:30
لینک ثبت نام رایگان:
https://evnd.co/FFxPk
سخنران:دکتر محمدیوسف نژاد، پژوهشگر پسا دکترای دانشگاه آلبرتا
این سمینار علاوه بر اطلاعات تخصصی، اطلاعات عمومی خوبی نیز برای دانشجویان دوره کارشناسی خواهد داشت.
زمان: یکشنبه 8 خرداد ساعت 17:30
لینک ثبت نام رایگان:
https://evnd.co/FFxPk
Don't try to reinvent the wheel when approaching a new problem with machine learning or data science. How to carry out literature review effectively in an area of AI that you aren't super familiar with?
1. Start with large-scale review papers. They provide an updated overview of a field. Example: Two years ago, I wanted to refresh my knowledge of adversarial attacks and defenses. I googled "
2. Call up a friend who knows better about the task at hand, whenever possible. They are probably busy, so just ask them for 5-10 resources (papers, blogs, talks, etc.). Example: In 2017, I was building a trigger word detector with Andrew Ng. It was my first end-to-end exposure to a speech problem. One day in the CS department at Stanford, I ran into Awni Hannun. He's one of the world's expert in speech recognition. I pitched him my problem and in 5 minutes, he was able to provide me with the resources on the most recent models, open-source repositories, hyperparameter tuning tricks, and normalization methods. It probably saved me months of work.
3. Read the introduction of papers. It's typically the section right after the abstract that narrates prior work and links to seminal papers of the field. You can then find these papers and go down the chain (by reading their introductions) to better understand the field you're delving into. Tips: It's not a perfect signal, but you can look for the number of citations of a paper (assuming it has been around for long enough) on Google Scholar as a noisy proxy for trust.
Hope it helps!
https://www.linkedin.com/posts/kiankatan_dont-try-to-reinvent-the-wheel-when-approaching-activity-6935248113704087552-Wzv9?utm_source=linkedin_share&utm_medium=android_app
1. Start with large-scale review papers. They provide an updated overview of a field. Example: Two years ago, I wanted to refresh my knowledge of adversarial attacks and defenses. I googled "
Adversarial attacks in ML review paper
" and came across this review paper: https://lnkd.in/g3m6vdVy (Wiyatno et al.). It summarized recent advances effectively for me. Tip: Google "<your topic> review paper
".2. Call up a friend who knows better about the task at hand, whenever possible. They are probably busy, so just ask them for 5-10 resources (papers, blogs, talks, etc.). Example: In 2017, I was building a trigger word detector with Andrew Ng. It was my first end-to-end exposure to a speech problem. One day in the CS department at Stanford, I ran into Awni Hannun. He's one of the world's expert in speech recognition. I pitched him my problem and in 5 minutes, he was able to provide me with the resources on the most recent models, open-source repositories, hyperparameter tuning tricks, and normalization methods. It probably saved me months of work.
3. Read the introduction of papers. It's typically the section right after the abstract that narrates prior work and links to seminal papers of the field. You can then find these papers and go down the chain (by reading their introductions) to better understand the field you're delving into. Tips: It's not a perfect signal, but you can look for the number of citations of a paper (assuming it has been around for long enough) on Google Scholar as a noisy proxy for trust.
Hope it helps!
https://www.linkedin.com/posts/kiankatan_dont-try-to-reinvent-the-wheel-when-approaching-activity-6935248113704087552-Wzv9?utm_source=linkedin_share&utm_medium=android_app
Linkedin
Kian Katanforoosh on LinkedIn: Don't try to reinvent the wheel when approaching a new problem with… | 14 comments
Don't try to reinvent the wheel when approaching a new problem with machine learning or data science. How to carry out literature review effectively in an area… | 14 comments on LinkedIn
🔥1
ML & AI resources
Photo
مدل Imagen گوگل ، رقیب جدید dalle2
تست محدود مدل :
https://imagen.research.google/
مقاله Imagen :
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
پیاده سازی Imagen با pytorch :
https://github.com/lucidrains/imagen-pytorch
#google #imagen #text_to_image
تست محدود مدل :
https://imagen.research.google/
مقاله Imagen :
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
پیاده سازی Imagen با pytorch :
https://github.com/lucidrains/imagen-pytorch
#google #imagen #text_to_image
🔥2
It will also be free to use for verified students and maintainers of popular open source projects. Get your Student-Pack now!
https://github.blog/2022-06-21-github-copilot-is-generally-available-to-all-developers/#:~:text=We're%20making%20GitHub%20Copilot,of%20popular%20open%20source%20projects.
https://github.blog/2022-06-21-github-copilot-is-generally-available-to-all-developers/#:~:text=We're%20making%20GitHub%20Copilot,of%20popular%20open%20source%20projects.
The GitHub Blog
GitHub Copilot is generally available to all developers
We’re making GitHub Copilot, an AI pair programmer that suggests code in your editor, generally available to all developers for $10 USD/month or $100 USD/year. It will also be free to use for verified students and maintainers of popular open source projects.
🤩2
Forwarded from NLP stuff
آموزش بازی Minecraft با پیش آموزش ویدیویی
شرکت خرپول OpenAI در آخرین دستاورد خودش از مدلی که میتونه ماینکرافت بازی کنه رونمایی کرده. فرض کنید میخوایم به یک مدل یاد بدیم چطور ماینکرفت بازی کنه. اولین راهی که به ذهن میرسه اینه که یک سیمولاتور ماینکرفت درست کنیم و مدل رو به صورت RL طور روی این محیط بازی آموزش بدیم. مشکلی که اینجا به وجود میاد یکی سایز فضای حالت بالای بازی و نیاز بالای مدل به اکتشاف ( exploration ) و دیگری هم سختی تعریف تابع پاداش (ریوارد) در این فضا است. راه دوم اینه که بیایم یک تعداد عامل انسانی بذاریم و از بازی کردن اونها و اکشنهایی که انتخاب میکنند یک دیتاست درست کنیم و مدل رو به اصطلاح به صورت آفلاین آموزش بدیم. مشکل این راه اینه که برای این که یک مدل کارا داشته باشیم نیازه تا عاملهای انسانیمون خیلی خیلی خیلی دیتا جمع آوری کنند که حتی برای openAI هم قفله. با این اوصاف به نظرتون OpenAI چه راهی در پیش گرفته؟
از اونجایی که OpenAI خیلی به دادههای وسیع حاضر در اینترنت علاقهمنده (این رو در طرز آموزش GPT و Clip و DallE هم قبلا دیده بودیم) اومده اولا "هفتاد هزار ساعت" فیلم ویدئو ماینکرافت بازی کردن ملت رو از اینترنت دانلود کرده. خب این دیتای ارزشمندیه ولی مشکل اینه که فقط فیلمه و معلوم نیست که گیمر در هر لحظه چه اکشنی رو انتخاب کرده که. پس OpenAI اومده و با استفاده از عاملهای انسانی که داره حدود دوهزار ساعت ویدئو بازی کردنشون رو به صورت لیبل دار جمع آوری کرده (یعنی اون عامل انسانی ماینکرافت بازی کرده و مشاهداتی که داشته و اکشن هایی که در لحظه انجام داده به صورت دنباله ذخیره شده) حالا اومدن و یک مدل دیگه ای به نام IDM با استفاده از همین دیتاها آموزش دادن که وظیفه اش اینه که با مشاهده یک دنباله از فریمهای ویدئو تشخیص بده که گیمر در اون لحظه چه اکشنی رو انتخاب کرده (نکته خوب ماجرا اینه که این مدل Non-Autoregressive هست یعنی برای تشخیص اکشن انجام شده در یک فریم میتونه هم به فریمهای قبلی و هم به فریمهای بعدی نگاه و توجه کنه). حالا احتمالا اگر نخ ماجرا دستتون اومده باشه میتونید حدس بزنید که در گام بعدی اومدن به کمک همین مدل IDM به دست اومده اون دادههای ویدئو بی لیبل هفتا هزار ساعتی رو لیبل زده اند. حالا در واقع یک دیتاست لیبل خورده هفتادهزار ساعتی حاضر و آماده است و میشه مدل اصلی و نهایی رو روی این دیتاست بزرگ آموزش داد. OpenAIایها اسم این تکنیک رو گذاشتند Video PreTraining یا به اختصار VPT.
بعد از به دست اومدن این دیتاست هفتادهزار ساعته لیبلدار، حالا یک مدل رو به صورت Autoregressive رو دنباله فریمها و اکشنها به صورت imitation learningای (این تکنیک به این معناست که عوض این که مدل رو در پارادایم RL در یک محیط قرار بدیم و با دادن ریوارد بهش آموزشش بدیم بیایم اون تسک رو توسط عامل انسانی انجام بدیم و مدل رو روی دادهها و حرکات اون عامل انسانی آموزش بدیم به این امید که بتونه سیاست اون عامل انسانی رو تقلید کنه) آموزش دادند. روی نحوه بازیکردن این مدل هم یکسری مشاهدات و آزمایشات انجام دادند که حیرت آوره. مثلا مدل تونسته تسکهایی رو که گیمرهای حرفهای ماینکرفت ظرف ۲۰ دقیقه (۲۴ هزار اکشن) انجام میدند رو به خوبی یاد بگیره!!! یا مثلا همین مدل به دست اومده رو به عنوان یک نقطه شروع قرار دادند و با RL دوباره روی یک سری تسکهای خاص فاین تیونش دادند و نتیجههای خوبی به دست گرفتند. فیلم بازیهای این مدل خفن در لینک توسط OpenAI قرار داده شده. همچینن OpenAI ناپرهیزی کرده و این مدل رو بر خلاف مدلهای دیگه اش اوپن سورس صلواتی منتشر کرده! با موفقیت این مدل انتظار میره که OpenAI با توجه به روحیهای که داره در گامهای بعدی این متد رو به مسائل مشابه دیگر اعمال کند. این داستان ادامه دارد؟
لینک بلاگ OpenAI برای این مدل:
https://openai.com/blog/vpt/
لینک کد و وزنهای این مدل:
https://github.com/openai/Video-Pre-Training
لینک مقاله:
https://cdn.openai.com/vpt/Paper.pdf
#read
#paper
@nlp_stuff
شرکت خرپول OpenAI در آخرین دستاورد خودش از مدلی که میتونه ماینکرافت بازی کنه رونمایی کرده. فرض کنید میخوایم به یک مدل یاد بدیم چطور ماینکرفت بازی کنه. اولین راهی که به ذهن میرسه اینه که یک سیمولاتور ماینکرفت درست کنیم و مدل رو به صورت RL طور روی این محیط بازی آموزش بدیم. مشکلی که اینجا به وجود میاد یکی سایز فضای حالت بالای بازی و نیاز بالای مدل به اکتشاف ( exploration ) و دیگری هم سختی تعریف تابع پاداش (ریوارد) در این فضا است. راه دوم اینه که بیایم یک تعداد عامل انسانی بذاریم و از بازی کردن اونها و اکشنهایی که انتخاب میکنند یک دیتاست درست کنیم و مدل رو به اصطلاح به صورت آفلاین آموزش بدیم. مشکل این راه اینه که برای این که یک مدل کارا داشته باشیم نیازه تا عاملهای انسانیمون خیلی خیلی خیلی دیتا جمع آوری کنند که حتی برای openAI هم قفله. با این اوصاف به نظرتون OpenAI چه راهی در پیش گرفته؟
از اونجایی که OpenAI خیلی به دادههای وسیع حاضر در اینترنت علاقهمنده (این رو در طرز آموزش GPT و Clip و DallE هم قبلا دیده بودیم) اومده اولا "هفتاد هزار ساعت" فیلم ویدئو ماینکرافت بازی کردن ملت رو از اینترنت دانلود کرده. خب این دیتای ارزشمندیه ولی مشکل اینه که فقط فیلمه و معلوم نیست که گیمر در هر لحظه چه اکشنی رو انتخاب کرده که. پس OpenAI اومده و با استفاده از عاملهای انسانی که داره حدود دوهزار ساعت ویدئو بازی کردنشون رو به صورت لیبل دار جمع آوری کرده (یعنی اون عامل انسانی ماینکرافت بازی کرده و مشاهداتی که داشته و اکشن هایی که در لحظه انجام داده به صورت دنباله ذخیره شده) حالا اومدن و یک مدل دیگه ای به نام IDM با استفاده از همین دیتاها آموزش دادن که وظیفه اش اینه که با مشاهده یک دنباله از فریمهای ویدئو تشخیص بده که گیمر در اون لحظه چه اکشنی رو انتخاب کرده (نکته خوب ماجرا اینه که این مدل Non-Autoregressive هست یعنی برای تشخیص اکشن انجام شده در یک فریم میتونه هم به فریمهای قبلی و هم به فریمهای بعدی نگاه و توجه کنه). حالا احتمالا اگر نخ ماجرا دستتون اومده باشه میتونید حدس بزنید که در گام بعدی اومدن به کمک همین مدل IDM به دست اومده اون دادههای ویدئو بی لیبل هفتا هزار ساعتی رو لیبل زده اند. حالا در واقع یک دیتاست لیبل خورده هفتادهزار ساعتی حاضر و آماده است و میشه مدل اصلی و نهایی رو روی این دیتاست بزرگ آموزش داد. OpenAIایها اسم این تکنیک رو گذاشتند Video PreTraining یا به اختصار VPT.
بعد از به دست اومدن این دیتاست هفتادهزار ساعته لیبلدار، حالا یک مدل رو به صورت Autoregressive رو دنباله فریمها و اکشنها به صورت imitation learningای (این تکنیک به این معناست که عوض این که مدل رو در پارادایم RL در یک محیط قرار بدیم و با دادن ریوارد بهش آموزشش بدیم بیایم اون تسک رو توسط عامل انسانی انجام بدیم و مدل رو روی دادهها و حرکات اون عامل انسانی آموزش بدیم به این امید که بتونه سیاست اون عامل انسانی رو تقلید کنه) آموزش دادند. روی نحوه بازیکردن این مدل هم یکسری مشاهدات و آزمایشات انجام دادند که حیرت آوره. مثلا مدل تونسته تسکهایی رو که گیمرهای حرفهای ماینکرفت ظرف ۲۰ دقیقه (۲۴ هزار اکشن) انجام میدند رو به خوبی یاد بگیره!!! یا مثلا همین مدل به دست اومده رو به عنوان یک نقطه شروع قرار دادند و با RL دوباره روی یک سری تسکهای خاص فاین تیونش دادند و نتیجههای خوبی به دست گرفتند. فیلم بازیهای این مدل خفن در لینک توسط OpenAI قرار داده شده. همچینن OpenAI ناپرهیزی کرده و این مدل رو بر خلاف مدلهای دیگه اش اوپن سورس صلواتی منتشر کرده! با موفقیت این مدل انتظار میره که OpenAI با توجه به روحیهای که داره در گامهای بعدی این متد رو به مسائل مشابه دیگر اعمال کند. این داستان ادامه دارد؟
لینک بلاگ OpenAI برای این مدل:
https://openai.com/blog/vpt/
لینک کد و وزنهای این مدل:
https://github.com/openai/Video-Pre-Training
لینک مقاله:
https://cdn.openai.com/vpt/Paper.pdf
#read
#paper
@nlp_stuff
Telegram
stuff
🤯4
Forwarded from PyTorch Howsam (Howsam Support)
اگه عاشق خودکار و کاغذ و ریاضی هستی، این پست رو احتمالا میپسندی...
Pen and Paper Exercises in Machine Learning
عنوان بالا اسم یه کتابچه هست که توی arxiv موجوده و شامل تمرینهای ریاضی برای یادگیری ماشینه. سوال مطرح کرده و جواب داده. این نوع کتابا واقعا مفیدن.
https://arxiv.org/abs/2206.13446
@pytorch_howsam
Pen and Paper Exercises in Machine Learning
عنوان بالا اسم یه کتابچه هست که توی arxiv موجوده و شامل تمرینهای ریاضی برای یادگیری ماشینه. سوال مطرح کرده و جواب داده. این نوع کتابا واقعا مفیدن.
https://arxiv.org/abs/2206.13446
@pytorch_howsam
🔥3
Forwarded from AI with Papers - Artificial Intelligence & Deep Learning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥🔥 HD Dichotomous Segmentation 🔥🔥
👉 A new task to segment highly accurate objects from natural images.
𝐇𝐢𝐠𝐡𝐥𝐢𝐠𝐡𝐭𝐬:
✅5,000+ HD images + accurate binary mask
✅IS-Net baseline in high-dim feature spaces
✅HCE: model vs. human interventions
✅Source code (should be) available soon
More: https://bit.ly/3ah2BDO
👉 A new task to segment highly accurate objects from natural images.
𝐇𝐢𝐠𝐡𝐥𝐢𝐠𝐡𝐭𝐬:
✅5,000+ HD images + accurate binary mask
✅IS-Net baseline in high-dim feature spaces
✅HCE: model vs. human interventions
✅Source code (should be) available soon
More: https://bit.ly/3ah2BDO
🔥3
توضیح خیلی ساده، سرراست و مهم تر از همه فوق تصویری مدل زبانی BERT گوگل (Self-Attention):
https://youtu.be/-9vVhYEXeyQ
https://youtu.be/-9vVhYEXeyQ
YouTube
How to get meaning from text with language model BERT | AI Explained
In this video, we give a step-by-step walkthrough of self-attention, the mechanism powering the deep learning model BERT, and other state-of-the-art transformer models for natural language processing (NLP). More on attention and BERT: https://bit.ly/38vpOyW…
🔥2