School of AI
10.6K subscribers
290 photos
94 videos
11 files
612 links
هدف ما در این اجتماع کوچک، آموزش و ترویج هوش مصنوعی و افزایش سطح آگاهی و تخصص نسبت به آن است.
باشد که دست در دست هم، آینده‌ی این صنعت را در میهن‌مان ایران بسازیم.

https://www.aparat.com/v/Pmrs8
Download Telegram
School of AI
عیدی مدرسه هوش مصنوعی! بوت‌کمپ نوروزی طراحی و پیاده‌سازی سامانه‌های پیشنهاددهنده‌ی مقیاس‌پذیر (Scalable Recommender Systems) پنجم تا یازدهم فروردین - هر روز ساعت ۹ الی ۱۱ سامانه‌های پیشنهاد‌دهنده، یکی از اصلی‌ترین و پولسازترین کاربرد‌های مدرن هوش مصنوعی و…
ویدیوهای ضبط شده از بوت‌کمپ نوروزی "طراحی و پیاده‌سازی سامانه‌های پیشنهاددهنده‌ی مقیاس‌پذیر" روی آپارات قرار گرفت:


https://www.aparat.com/playlist/5220444

جلسه اول: آشنایی با سامانه‌های بازیابی اطلاعات و سامانه‌های پیشنهاددهنده
جلسه دوم: طراحی پایپلاین داده‌های ورودی با استفاده از TensorFlow Datasets
جلسه سوم: پیش‌پردازش ویژگی‌ها و بردار Embedding
جلسه چهارم: پیاده‌سازی فاز Candidate Generation با استفاده از TensorFlow
جلسه پنجم: ایندکس کردن بردارهای تعبیه با استفاده از Google ScaNN
جلسه ششم: پیاده‌سازی فاز Ranking با استفاده از TensorFlow
جلسه هفتم: آشنایی با MLOps و استقرار مدل با استفاده از TFX و Docker


گروه پرسش و پاسخ در مورد سامانه‌های پیشنهاددهنده:
https://t.iss.one/+lIj28PPb9xY4Nzc8
👍32😍72
آشنایی با انواع نمودارهای آماری و روش‌های صحیح به تصویر کشیدن داده‌ها:

https://dataio.ir/%D8%A8%D9%87-%D8%AA%D8%B5%D9%88%DB%8C%D8%B1-%DA%A9%D8%B4%DB%8C%D8%AF%D9%86-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%A7-voubuiqwuqhb
😍7👍3
Forwarded from Tensorflow(@CVision) (Alireza Akhavan)
This media is not supported in your browser
VIEW IN TELEGRAM
متا به تازگی Segment Anything Model (SAM) را منتشر کرده است، یک مدل هوش مصنوعی جدید که می تواند هر شی، در هر تصویر/ویدیویی را با یک کلیک سگمنت کنه (به قول خودشون "cut out" کنه)


این مدل قابلیت تعمیم دهی بدون نیاز به داده اضافی برای اشیاء جدید هم به صورت zero-shot داره

https://segment-anything.com/

تو سایت برید و بیشتر بخونید...
👍103
خیلی وقت‌ها در دنیای واقعی، هنگام تحلیل داده‌های کسب‌وکار‌های آنلاین به دیتاست‌های حجیم (در حد چند‌ده گیگابایت، حتی ترابایت و پتابایت!) بر می‌خوریم که دانسته‌های ما هنگام کار با دیتاست‌های کوچک رو زیر سوال می‌برد. برای مثال:
- می‌خواهیم این داده‌ها رو از روی یک (برفرض) دیتابیس کوئری کنیم. این کوئری (درخواست بک‌باره این حجم اطلاعات روی یک thread) احتمالا long-running شده و حتی ممکن است توسط دیتابیس kill شود.
- با فرض اینکه این حجم داده را به نحوی کوئری کردیم، احتمالا در لود کردن آن روی حافظه RAM (مثلا ساختن Pandas Dataframe برای آن) به مشکل بر می‌خوریم و حافظه کم می‌آوریم.
- با فرض اینکه داده‌ها را کوئری کردیم و در رم هم لود کردیم، باز هنگام پردازش آن و اجرای فیلتر‌های سنگین به مشکل زمان اجرا بر می‌خوریم.

درست حدس زدید! در این حالت ما با Big Data مواجه ایم و برای حل این چالش‌ها باید به سراغ پلتفرم‌های پردازش داده‌ توزیع‌شده بریم مثل:
- Dask
- Spark
- Flink

این روزها تسلط بر این ابزارها بر هر متخصص داده (Data Analyst, Data Scientist, Data Engineer) از واجبات است.
قبلا در @schoolofai ورک‌شاپ آموزش Dask رو داشتیم و ویدئوی ضبط‌شده‌ی اون رو می‌تونید از کانال آپارات و یوتیوب مشاهده کنید.
اما خیلی وقت‌ها Dask جواب‌گوی نیاز شما نیست و لازم است از مزیت‌های Spark بهره بگیرید. درسته که اسپارک یک پلتفرم JVM-based است اما با استفاده از پکیج PySpark می‌توانید با زبان
پایتون و بسیار شبیه به Pandas و Dask از آن استفاده کنید.

لینک زیر، با یک مثال، در مدت ۱۰ دقیقه، قدم به قدم و بسیار ساده، از نصب PySpark تا تحلیل کلان‌داده و همینطور آموزش مدل یادگیری ماشین با استفاده از این ابزار را آموزش می‌دهد.

https://www.datacamp.com/tutorial/pyspark-tutorial-getting-started-with-pyspark
👏11👍4😍1
سامانه پیشنهاددهنده TikTok یکی از قدرتمند‌ترین و مثال‌زدنی‌ترین سامانه‌های پیشنهاددهنده است که به اعتقاد برخی متخصصین، بهترین در نوع خود است.
این سامانه جزو معدود نمونه‌های موفق Real-time ML است که به صورت آنلاین آموزش می‌بیند.

اخیرا این شرکت در مقاله‌ای، سامانه پیشنهاددهنده خود را شرح داده:
https://arxiv.org/pdf/2209.07663.pdf
👍153
Estimating long-term effects when only short-run experiments are available - Spotify

https://research.atspotify.com/2023/04/estimating-long-term-effects-when-only-short-run-experiments-are-available/
2
مصاحبه با علی اسلامی، پژوهشگر هوش مصنوعی در DeepMind درمورد پیشرفت‌های اخیر

https://tankmagazine.com/moving-images
🙏3👍21🔥1😍1
1
در این پست می‌خواهیم با زبان ساده به یکی از مرسوم‌ترین پرسش‌ها در بین علاقه‌مندان به علوم کامپیوتر پاسخ بدیم.

نرم‌افزار‌های مسیریابی مثل Waze و Google Maps این‌روز‌ها به یکی از اعضای بدن ما تبدیل شده اند و خیلی از ما بدون استفاده از آن‌ها یا دیر به مقصد می‌رسیم و یا حتی گم می‌شیم. اما این نرم‌افزارها چگونه کار می‌کنند و چطوری کوتاه‌ترین مسیر رو به ما پیشنهاد می‌دهند؟!

در زیر مرحله به مرحله به این مساله می‌پردازیم:

۱. اطلاعات جفرافیایی و هندسی خیابون‌ها و کوچه‌ها و میدون‌ها و … (اینکه کجا اند، چقدر طول و چقدر عرض دارند، شکل آن‌ها چجوری است و …) در قالب داده‌های Geospatial (فارسی: زمین-مکانی!) با فرمت‌هایی مثل GeoJSON ذخیره می‌شوند که شما هم می‌تونید دیتا‌های geospatial شهر خودتون رو در قالب فایل GeoJSON از اینترنت دانلود کنید.

۲. داده‌های geospatial خیابون‌ها پردازش شده و اطلاعاتی مثل تقاطع خیابون‌ها ازش استخراج میشه. شما هم می‌تونید مثلا با پکیج GeoPandas خودتون این پردازش‌ها رو انجام بدید.

۳. یک گراف بزرگ ساخته میشه. فرض کنید هر گره گراف یکی از تقاطع‌ها و هر یال گراف یکی از خیابون‌های متصل‌کننده دو تقاطع است. این گراف یک گراف وزن‌داره. یعنی هر یال یه عدد داره که مدت زمان لازم برای تردد در اون یال (خیابون) رو نشون می‌ده. حالا این عدد رو فعلا نداریم. مرحله بعد این عدد تخمین زده می‌شه.

۴. بر اساس میانگین سرعت حرکت افرادی که در اون خیابون در حال تردد اند و اطلاعات آن‌ها توسط اپلیکیشن جمع‌آوری می‌شود می‌شه به یک تخمینی از میزان ترافیک موجود در اون خیابون رسید. به کمک این تخمین و همچنین اطلاعات و تاریخچه‌ی جمع‌آوری شده در روز‌های قبل، یک مدل Machine Learning (معمولا یک شبکه عصبی عمیق) میاد و مدت زمانی که برای طی کردن اون خیابون (بین دو تقاطع) لازمه (Estimated Time of Arrival) رو تخمین میزنه. این عدد در واقع میشه وزن هر یال روی گراف.

۵. حالا که داستان به یک مساله فرمال ریاضی (گراف) مدلسازی شد، به راحتی با الگوریتم‌های پیمایش گراف و الگوریتم‌های Shortest Path Finding برای گراف‌های وزن‌دار میشه کوتاه‌ترین مسیر بین دو نقطه و همینطور مدت زمان لازم برای تردد از آن را پیدا کرد. سیستم‌های مسیریاب (Routing Engines) معمولا از الگوریتم *A برای پیدا کردن مسیر شبه‌بهینه استفاده می‌کنند. اگر با این الگوریتم آشنا باشید (بچه‌های کامپیوتری در درس هوش مصنوعی می‌خونن) می‌دونید که با سرعت بالایی مسیر شبه‌بهینه رو پیدا می‌کنه. این الگوریتم از یک نقطه در گراف شروع کرده و به بهترین نقطه همسایه خود می‌رود و این‌کار را انقدر ادامه داده تا به مقصد برسد. بهترین نقطه همسایه هم نقطه ای است که (زمان رسیدن از مبدا تا آن نقطه + فاصله تا مقصد) در آن کمترین باشه. اما اینجا فاصله تا مقصد رو که نداریم (اگه داشتیم که مساله وجود نداشت) بنابراین با استفاده از یک هیوریستیک شهودی اون رو تخمین میزنیم. هیوریستیک شهودی اینجا معمولا فاصله مستقیم (بدون توجه به ساختار خیابون‌ها) بین مختصات جغرافیایی دو نقطه است. فقط دقت کنید که مختصات جغرافیایی در بیشتر موارد بر اساس طول و عرض جغرافیایی (Latitude/Longitude) بیان شده که برحسب درجه است بنابراین نمیتونید از فرمول فاصله اقلیدسی (یا قضیه فیثاغورث) برای آن استفاده کنید به جاش باید از فرمول Haversine استفاده کرده و فاصله great-circle distance رو حساب کنید که قوس سیاره زمین را هم در نظر بگیره.
۶. مسیر شبه‌بهینه رو که پیدا کردید می‌تونید جمع وزن یال‌هاش رو هم به عنوان مدت زمان طی شدن مسیر در نظر بگیرید.

تمام.
👍318🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
3
School of AI
در این پست می‌خواهیم با زبان ساده به یکی از مرسوم‌ترین پرسش‌ها در بین علاقه‌مندان به علوم کامپیوتر پاسخ بدیم. نرم‌افزار‌های مسیریابی مثل Waze و Google Maps این‌روز‌ها به یکی از اعضای بدن ما تبدیل شده اند و خیلی از ما بدون استفاده از آن‌ها یا دیر به مقصد می‌رسیم…
در ادامه‌ی این پست، روش Google Maps برای پیش‌بینی وضعیت ترافیکی و ETA رو بررسی می‌کنیم.

اپلیکیشن Google Maps برروی بیش از ۱۰ میلیارد دستگاه تلفن همراه نصب شده و روزانه توسط افراد زیادی برای مسیریابی مورد استفاده قرار می‌گیره. مکان جغرافیایی، سرعت و شتاب حرکت دستگاه‌های موبایل داخل اتوموبیل‌ها توسط سنسور‌های GPS و Accelerometer و Gyroscope اندازه‌گیری شده و به‌طور ناشناس (Anonymized) برای سرور‌های گوگل ارسال می‌شن. این مقادیر به‌عنوان یک منبع اطلاعاتی مهم برای پیش‌بینی حجم ترافیک و زمان رسیدن به مقصد (ETA) مورد استفاده قرار می‌گیرن. توجه کنید که داشتن وضعیت ترافیک در هر لحظه (live traffic data) به‌تنهایی برای پیش‌بینی زمان رسیدن کافی نیست چون حجم ترافیک هر نقطه هر چند دقیقه تغییر می‌کنه. بنابراین گوگل از تاریخچه‌ی اطلاعات ترافیکی جمع‌آوری شده (historical traffic data) نیز برای کشف الگوی تغییر ترافیک و پیش‌بینی ترافیک در چند دقیقه‌ی آینده استفاده می‌کند.

۱. در ابتدا، هر مسیر (خیابان و جاده و …) به بخش‌های بسیار کوچک (در حد چند متر) به نام segment شکسته شده و داده‌های مربوط به تاریخچه‌ی اطلاعات ترافیکی سگمنت‌ها (چندین ترابایت داده) توسط یک سامانه‌ی کلاسترینگ به‌نام route analyzer تحلیل شده و سگمنت‌های کنار هم که حجم و الگوی ترافیک مشابه دارند با هم ترکیب شده و تعدادی supersegment می‌سازند. این سوپرسگمنت‌ها، هر چندروز یک‌بار مجددا بررسی و بازتولید می‌شوند و تعداد آن‌ها کاملا متغیر است.
۲. یک گراف بزرگ از وضعیت مسیر‌ها ساخته می شه. اما به‌جای اینکه هر گره در گراف معرف یک تقاطع و هر یال معرف یک مسیر باشه، هر گره معرف یک supersegment و هر یال گراف معرف همسایگی دو سوپرسگمنت است. بنابراین گراف وزن‌دار نیست و مدت‌زمان طی شدن هر بخش به عنوان وزن در یال‌ها ذخیره نمی‌شه بلکه به عنوان یک متغیر (state) داخل هر گره نگه‌داری می‌‌شن. بنابراین گراف حاصل، یک گراف بدون وزن بسیار بزرگ (درحد چند میلیون گره) است که هر گره در آن حاوی اطلاعات یک سوپرسگمنت است.
۳. ساخت گراف‌های بزرگ و پردازش داده‌های حجیم مبتنی بر این گراف‌ها نوعی از Big Data است که نیاز به ابزار‌ها و مدل‌های پردازشی مثل Google Pregel ویا Apache Giraph داره. بنابراین پردازش‌های لازم روی گراف با استفاده از فریم‌ورک Google Pregel انجام می‌شه.
۴. همونطور که گفتیم، اطلاعات لحظه‌ای ترافیک در هر گره (سوپرسگمنت) توسط موبایل‌های روشن در آن مسیر تامین می‌شه اما اطلاعات ترافیکی چند دقیقه آینده در هر سوپرسگمنت باید با توجه به وضعیت فعلی و الگوی موجود در تاریخچه اطلاعات پیشین هر سوپرسگمنت، پیش‌بینی شه. بنابراین به ازای هر گره (میلیون‌ها گره داریم) باید یک مدل یادگیری ماشین مستقل آموزش داده شه که نگه‌داری و آموزش همزمان این تعداد مدل یادگیری ماشین در عمل کار بسیار پیچیده و دشواری است بنابراین گوگل کار دیگه ای کرده.
۵. راه‌حل گوگل استفاده از GNN یا Graph Neural Networks است. این‌نوع شبکه‌های عصبی در سال‌های اخیر بسیار داغ شده اند و در جاهایی که داده‌های مبتنی بر گراف داریم (مثل شبکه‌های اجتنماعی) نتایج جالبی رو خلق کرده اند.
۶. بعد از آموزش GNN در هر گره، اطلاعات ترافیکی فعلی و پیش‌بینی وضعیت ترافیکی در چند دقیقه و چند ساعت آینده وجود دارد که با روش‌های جستجوی گراف مثل *A مسیر بهینه و ETA مشخص می‌شه 🙂
👍65🔥2
How Twitter and TikTok Recommend Content to their Users

https://newsletter.theaiedge.io/p/how-twitter-and-tiktok-recommend
1👍1
بالاخره دو تیم هوش مصنوعی گوگل (Google Brain و DeepMind) با هم ترکیب شدند و از این به بعد به عنوان یک تیم با نام Google DeepMind فعالیت می‌کنند.
در تیم جدید، ژوبین قهرمانی هم به عنوان یکی از رهبران بورد پژوهشی حضور دارد.
مدیرعامل DeepMind یعنی Demis Hassabis به عنوان مدیراجرایی تیم جدید و Jeff Dean سرپرست تیم Google Brain هم به عنوان Google's Chief Scientist مستقیم با Sundar Pichai کار می‌کند و به هر دو تیم Google Research و Google DeepMind کمک می‌کند.


https://blog.google/technology/ai/april-ai-update/

https://www.deepmind.com/blog/announcing-google-deepmind?utm_source=linkedin&utm_medium=social&utm_campaign=GDM
👍71
محققان تیم تحقیقاتی Microsoft طی پژوهشی، prompt هایی برای به چالش کشیدن GPT-4 و نشان‌دادن نقص‌های آن طراحی کردند.

https://arxiv.org/pdf/2303.12712
4
یک لکچر خوب و روون برای درک Markov Decision Processes توسط پروفسور درسا صدیق.


https://www.youtube.com/watch?v=9g32v7bK3Co&list=PLoROMvodv4rO1NB9TD4iUZ3qghGEGtqNX&index=8
👍91
برای استفاده از ChatGPT و GPT-4 بدون محدودیت‌های موجود در سایت OpenAI می‌تونید از این سایت استفاده کنید:

https://chat.forefront.ai
👍17😍61
همونطور که می‌دونید با ورود مدل‌های زبانی بزگ (LLM ها) و پدید اومدن چت‌بات‌های مکالمه‌ای، زندگی همه‌ی ما وارد دوران تازه ای شده و خیلی زود، این چت‌بات‌ها به دستیار شخصی بیشتر افراد با هر تخصصی تبدیل خواهند شد.

ابتدا، چت‌بات شرکت OpenAI به‌نام ChatGPT که به اندازه اختراع برق و اینترنت اهمیت داشت.
بعد چت‌بات شرکت Microsoft که مبتنی بر چند شبکه‌عصبی از جمله مدل GPT-4 بود و مزیت اون نسبت به ChatGPT به‌روز بودن اطلاعات، جست‌و‌جو در وب و قابل اعتماد‌تر بودن پاسخ‌ها (ارائه لینک مرجع) بود
و در آخر چت‌بات شرکت Google به نام Bard که مبتنی بر مدل PaLM است و ادعا می‌کند قدرت و خلاقیت ChatGPT و به‌روز و قابل اعتماد بودن Bing را همزمان دارد.
اما بررسی اولیه ما نشون می‌ده این‌بار گوگل بازی رو به مایکروسافت باخته. بدجور هم باخته 👇👇👇
2👍1
2