School of AI
10.6K subscribers
290 photos
94 videos
11 files
612 links
هدف ما در این اجتماع کوچک، آموزش و ترویج هوش مصنوعی و افزایش سطح آگاهی و تخصص نسبت به آن است.
باشد که دست در دست هم، آینده‌ی این صنعت را در میهن‌مان ایران بسازیم.

https://www.aparat.com/v/Pmrs8
Download Telegram
Multimodality and Large Multimodal Models (LMMs)

https://huyenchip.com/2023/10/10/multimodal.html
👍122
پژوهش‌گران DeepMind از هوش مصنوعی AlphaGeometry رونمایی کردند که با سطح هوشی در اندازه دارنده‌گان مدال طلای المپیاد ریاضی، مسائل هندسه را حل می‌کند.


بلاگ‌پست معرفی:
https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

مقاله چاپ شده در Nature:
https://www.nature.com/articles/s41586-023-06747-5
👍164
حدود ۲ ماه پیش، تیم LLM آزمایشگاه پردازش متن و زبان طبیعی دانشگاه تهران مدل 7 میلیاردی Llama2 رو بر روی مجموعه داده‌گان فارسی (ترجمه برخی دیتاست های پرسش و پاسخ + حجم مناسبی از دیتای خام فارسی) آموزش داده که درک نسبتا مناسبی در زمینه‌ی پرسش و پاسخ فارسی داره.

این مدل روی HuggingFace به آدرس زیر قرار داده شده:
https://huggingface.co/mostafaamiri/persian_llama_7b

همچنین یک نوت‌بوک راهنما برای کار با این مدل در آدرس زیر وجود داره که می‌تونید باهاش شروع کنید:
https://colab.research.google.com/drive/14Mfhv2vf3ElTnS5JQGpv-D0jn_qJh88R?usp=sharing#scrollTo=ahZ3Jg66nnJq
👍232🔥1
Media is too big
VIEW IN TELEGRAM
محققان علوم اعصاب دانشگاه Montreal به‌کمک هوش مصنوعی، توانایی راه رفتن را به یک موش آزمایشگاهی که دچار ضایعه‌ی نخاعی شده بود برگرداندند.

مقاله چاپ شده در Cell
https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(23)00118-0

بلاگ‌پست معرفی:
https://www.quebecscience.qc.ca/sciences/les-decouvertes-de-2023/remarcher-intelligence-artificielle/?utm_source=linkedin&utm_medium=social&utm_content=ap_dpcbl8jhrv
19👍7🔥2
اخیرا نسخه‌ی ۸/۱ از الگوریتم YOLO توسط تیم Ultralytics منتشر شده. یکی از نوآوری‌های این مدل، تسک OBB یا OrientedBoundingBox است که به کمک پیش‌بینی یک جعبه‌ی دیگر داخل جعبه‌ی اصلی، جعبه‌‌مرزی زاویه‌دار دور اشیا رسم می‌کند و فضای پِرت داخل جعبه را کاهش می‌دهد.

برای آشنایی و استفاده از این قابلیت به کمک پکیج Ultalytics ویدئوهای زیر را مشاهده کنید:

https://www.youtube.com/watch?v=Z7Z9pHF8wJc
https://www.youtube.com/watch?v=9i2LmwFDQLw

مستندات:
https://docs.ultralytics.com/tasks/obb/


پیشنهاد: برای استفاده راحت‌تر و سفارشی‌تر از YOLO8.1 از پکیج Roboflow Supervision همزمان با Ultralytics کمک بگیرید.
👍96
Forwarded from Tensorflow(@CVision) (rasoul)
This media is not supported in your browser
VIEW IN TELEGRAM
Supervision-0.18.0
https://github.com/roboflow/supervision


Highlights of new Supervision:

👀Three new annotators: PercentageBar, RoundedBox, and OrientedBox.

🔼Enhanced LineZone feature for improved precision in tracking and analytics.

☄️Integration of Ultralytics YOLOv8 OBB for advanced oriented bounding box models.

#Supervision
2👍2
Media is too big
VIEW IN TELEGRAM
مدل بنیادی FoundationPose که اخیرا توسط Nvidia معرفی شده:

https://nvlabs.github.io/FoundationPose/

مفاله:
https://arxiv.org/pdf/2312.08344.pdf

کد:
https://github.com/NVlabs/FoundationPose
👍62
This media is not supported in your browser
VIEW IN TELEGRAM
نسخه ۱ از TF-GNN (شبکه‌های عصبی گرافی در تنسورفلو) منتشر شد.

https://blog.tensorflow.org/2024/02/graph-neural-networks-in-tensorflow.html
🔥9😍3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
هوش مصنوعی گوگل (Bard) رسما به Gemini (نامی که برای خانواده‌ی مدل‌های مالتی‌مودال گوگل استفاده می‌شد) تغییرنام داد.

به‌علاوه، جدیدترین و قدرت‌مند‌ترین مدل این خانواده (Ultra 1.0) نیز از طریق محصول Gemini Advanced با هزینه‌ی ماهیانه ۲۰ دلار (۲ ماه نخست رایگان) در دسترس قرار گرفت.

همچنین، یک اپ اندرویدی نیز برای دسترسی ساده‌تر به Gemini منتشر شده‌ست.

سایت جدید:
https://gemini.google.com/

اپ اندرویدی:
https://play.google.com/store/apps/details?id=com.google.android.apps.bard

ویدئوی معرفی:
https://youtu.be/b5Fh7TaTkEU?si=JEgqtIcffBABczsp

بلاگ‌پست معرفی:
https://blog.google/products/gemini/bard-gemini-advanced-app/

تکنیکال ریپورت مدل‌های Gemini:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
🔥7👍42
Media is too big
VIEW IN TELEGRAM
به امید روزی که با کمک هم، هرآنچه در این ویدئو می‌بینید (و بیش‌تر از آن) را در صنایع میهن‌مان ایران، پیاده‌سازی کنیم :)
27👍6🔥1
شرکت Nvidia یک نرم‌افزار چت‌بات قابل نصب برروی Windows 11، موسوم به NVIDIA Chat with RTX ارائه کرده که از محتوای فایل‌های داخل رایانه، برای RAG استفاده می‌کند. به عبارت دیگر پاسخ پرسش‌های شما را با بررسی فایل‌هایی که به‌ش معرفی می‌کنید می‌دهد.
این چت‌بات برای اجرا نیاز به واحد گرافیکی GeForce RTX دارد.

https://youtu.be/gdsRJZT3IJw
👍62
دیشب ساعت ۹ تصویر Yann LeCun دانشمند برجسته‌ی هوش مصنوعی بر روی برج خلیفه‌ی دوبی نقش بست.

لازم‌به‌ذکر است که ایشان در حال حاضر برای شرکت در نشست دولت جهانی (World Government Summit) در امارات متحده‌ی عربی حضور دارند.
41😍10👍4🙏4
شرکت Ultralytics مدل بنیادین YOLO-World که یک OVD یا Open-Vocabulary Detector است، را معرفی کرد.

این مدل، مبتنی بر YOLOv8 است و نیاز به کلاس‌های ازپیش تعریف‌شده برای تشخیص ندارد، بلکه می‌تواند به‌صورت Zero-shot این کلاس‌ها را درقالب یک پرامپت متنی، هنگام inference دریافت کرده و در تصویر پیدا کند. مثلا در ورودی به آن می‌گویید: “حیوان جونده‌ی کوچک به رنگ سفید که نامش موش است را پیدا کن”
این پرامپت توسط مدل OpenAI CLIP به بردار تعبیه تبدیل شده و به کمک مدل YOLOv8 در تصویر پیدا می‌شود.

این مدل در مقایسه با مدل‌های بنیادین دیگر مثل SAM فیس‌بوک و Grounding DINO بسیار ساده‌تر است و بنابراین می‌توان به راحتی از آن برای اپلیکیشن‌های real-time استفاده کرد.

استفاده از این مدل به‌سادگی استفاده از Ultralytics YOLOv8 است.

https://docs.ultralytics.com/models/yolo-world/

مقاله:
https://arxiv.org/abs/2401.17270

نوت‌بوک:
https://supervision.roboflow.com/develop/notebooks/zero-shot-object-detection-with-yolo-world/
👍12😍1
This media is not supported in your browser
VIEW IN TELEGRAM
این ویدئو با ارائه‌ی پرامپت زیر به مدل OpenAI Sora خلق شده‌ است.

Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
👍13🔥73
This media is not supported in your browser
VIEW IN TELEGRAM
هم‌چنان که توی ذهن‌تون به ترکیب Apple Vision Pro با OpenAI Sora فکر می‌کنید، به شغل‌هایی که دیگر وجود نخواهند داشت هم فکر کنید…


کارگردان
بازی‌گر
طراح پویانمایی (انیمیشن)
طراح گرافیک
متخصص جلوه‌های ویژه
عکاس
تهیه‌کننده
گوینده
نویسنده
تدوین‌گر ویدئو
سینماگر
طراح استوری‌بورد
طراح صحنه
طراح لباس
مسئول انتخاب بازی‌گر
کپی‌رایتر تبلیغاتی
گوینده‌ی خبر
مدرس ویدئویی
مربی
مدیر شبکه‌ها‌ی اجتماعی
‌و …
👍38🔥5
Forwarded from Tensorflow(@CVision) ((◕‿◕))
مدل Gemma مدلی سبک از گوگل که بسیار شبیه مدل‌های جدید جِمی‌نای (Gemini) ساخته شده با این تفاوت که‌ اوپن سورس هست و برای استفاده عمومی منتشر شده.
نسخه‌های این مدل ۲ و ۷ میلیارد پارامتری هست و توی تقریبا همه فریم‌ورک‌های معروف کدش رو منتشر کردند.

لینک بلاگ:

https://blog.google/technology/developers/gemma-open-models/?utm_source=tw&utm_medium=social&utm_campaign=gemini24&utm_content=&utm_term=

لینک کگل:
https://www.kaggle.com/models/google/gemma?utm_medium=social&utm_source=twitter&utm_campaign=models-gemmalaunch
🔥13👍1
گوگل نسخه‌ی اوپن-سورس از خانواده‌ی مدل‌های زبانی Gemini را تحت نام Gemma معرفی و منتشر کرد.

بلاگ‌پست معرفی:
https://huggingface.co/blog/gemma

این مدل که رقیبی جدی برای Llama2 متا محسوب می‌شود، در دو نسخه‌ی Base و Instruction-tuned و در دو سایز ۲ و ۷ میلیارد پارامتری منتشر شده‌ست.

مدل Base مدل پایه‌ی Pretrained و همه‌منظوره‌ست و برای پردازش متون خام کاربرد دارد.
مدل Instruction-tuned یا it به‌کمک RLHF برای تسک‌های مبتنی بر دستورالعمل، فاین‌تیون شده و برای دنبال‌کردن دستورات و انجام تسک‌های مرحله‌به‌مرحله مناسب‌تر‌ست.

مدل ۲ میلیون پارامتری، همچون Llama2 برروی ۲ تریلیون توکن آموزش دیده و بسیار سبک و مناسب اجرا روی edge device ها و موبایل‌ها‌ست اما مدل ۷ میلیارد پارامتری، برروی ۶ تریلیون توکن آموزش دیده (۲۳ روز برروی ۱۶ پاد TPU) که دقتی به مراتب بالاتر از Llama2 ارائه می‌دهد.

طول متن در این مدل‌ها ۸۰۰۰ توکن است.

طی یک همکاری بین گوگل و NVIDIA این مدل‌ها به کمک NVIDIA TensorRT-LLM برای اجرا برروی GPUهای RTX بهینه‌سازی شده‌ند.
https://blogs.nvidia.com/blog/google-gemma-llm-rtx-ai-pc/

این مدل کاملا اوپن-سورس و استفاده از آن در اپلیکیشن‌های تجاری بلامانع‌ست. همه‌ی نسخه‌های آن روی HuggingFace قابل دسترس‌اند.
https://huggingface.co/models?other=gemma&sort=trending&search=google

تست کردن مدل در حالت چت‌بات به‌صورت آنلاین:
huggingface.co/chat/

این مدل به روش LoRA برروی دیتاست شما،‌ فاین-تیون می‌شود. لینک زیر نوت‌بوکی برای آموزش فاین‌-تیون کردن این مدل به کمک Keras و TensorFlow ارائه می‌دهد:
https://ai.google.dev/gemma/docs/lora_tuning

فاین‌تیون کردن به روش LoRA به کمک HuggingFace:
https://huggingface.co/blog/gemma-peft

نقاط ضعف:
- این مدل تنها برای زبان انگلیسی آماده‌سازی شده
- مالتی‌مودال نیست و فقط ورودی/خروجی از نوع متن را پشتیبانی می‌کند.
- عمل‌کرد مدل ۲ میلیارد پارامتری، نسبت به مدل ۲/۷ میلیارد پارامتری مایکروسافت (PHI-2) به‌مراتب ضعیف‌ترست.
🔥3👍1
ورژن ۹ مدل YOLO در چهار سایز ۷/۲ میلیون، ۲۰/۱ میلیون و ۲۵/۵ میلیون و ۵۸/۱ میلیون پارامتر منتشر شد!!!

مقاله:
https://arxiv.org/abs/2402.13616

کد:
https://github.com/WongKinYiu/yolov9

نوت‌بوک برای فاین‌تیون کردن مدل:
https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov9-object-detection-on-custom-dataset.ipynb

https://blog.roboflow.com/train-yolov9-model/
🔥10👍41
مدل‌های زبانی بزرگ (LLM ها) معمولا برروی حجم زیادی از داده‌های موجود در وب آموزش می‌بینند. این داده‌ها ممکن است جهت‌دار و بی‌کیفیت باشند. برای رفع این مشکل، معمولا پس از آموزش مدل زبانی، مدل آموزش‌دیده‌شده در دسترس تعدادی انسان قرار گرفته و خروجی آن ارزیابی می‌شود. سپس با استفاده از بازخورد جمع‌آوری‌شده در این ارزیابی (Human Feedback) و به‌کارگیری روش‌های یادگیری تقویتی (Reinforcement Learning) یک مدل پاداش (Reward Model) برای
ارزیابی خروجی مدل آموزش داده می‌شود.

آموزش دادن مدل پاداش، به نوعی Finetune کردن مدل اصلی محسوب می‌شود. به این نوع Finetune کردن، روش RLHF گفته می‌شود.

برای فاین‌تیون کردن مدل‌های زبانی به روش RLHF به‌طور معمول از الگوریتم Proximal Policy Optimization یا PPO استفاده می‌شود که بسیار قدرت‌مند‌تر از الگوریتم‌های پایه‌ی یادگیری تقویتی مثل REINFORCE است.

حالا، آرش احمدیان، پژوهش‌گر آزمایشگاه Cohere به همراه همکارانش در مقاله‌ی زیر نشان داده‌اند که با توجه به توانایی بالای پالیسی اولیه و شرط‌گذاری پرامپت‌ها، نیاز به استفاده از الگوریتم PPO برای فاین‌تیون‌کردن مد‌ل‌های زبانی نیست و الگوریتم‌های ساده‌تر و سریع‌تر مثل REINFORCE در این زمینه کاراتر‌ند.

جالب این‌که گوگل (دیپ‌مایند) هم در مدل زبانی جدید خود (Gemma) از الگوریتم REINFORCE به‌جای PPO استفاده کرده‌ست.

https://cohere.com/research/papers/back-to-basics-revisiting-reinforce-style-optimization-for-learning-from-human-feedback-in-llms-2024-02-23



پی‌نوشت ۱: عده‌ای از پژوهش‌گران معتقدند فاین‌تیون‌کردن مدل‌های زبانی از روی بازخورد انسانی باعث افت کیفیت مدل‌ها به مرور زمان می‌شود.

پی‌نوشت ۲: مدل زبانی کوچک شرکت مایکروسافت (Phi-2) به روش RLHF فاین‌تیون نشده‌ست. دلیل این کار، فراهم آوردن بستری برای تحقیق در رابطه با چالش‌های مرتبط با ایمنی این مدل‌ها از جمله سوگیری‌های اجتماعی، محتوای سمی، پایش‌پذیری و … است.
👏22👍81