پژوهشگران DeepMind از هوش مصنوعی AlphaGeometry رونمایی کردند که با سطح هوشی در اندازه دارندهگان مدال طلای المپیاد ریاضی، مسائل هندسه را حل میکند.
بلاگپست معرفی:
https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
مقاله چاپ شده در Nature:
https://www.nature.com/articles/s41586-023-06747-5
بلاگپست معرفی:
https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/
مقاله چاپ شده در Nature:
https://www.nature.com/articles/s41586-023-06747-5
👍16❤4
حدود ۲ ماه پیش، تیم LLM آزمایشگاه پردازش متن و زبان طبیعی دانشگاه تهران مدل 7 میلیاردی Llama2 رو بر روی مجموعه دادهگان فارسی (ترجمه برخی دیتاست های پرسش و پاسخ + حجم مناسبی از دیتای خام فارسی) آموزش داده که درک نسبتا مناسبی در زمینهی پرسش و پاسخ فارسی داره.
این مدل روی HuggingFace به آدرس زیر قرار داده شده:
https://huggingface.co/mostafaamiri/persian_llama_7b
همچنین یک نوتبوک راهنما برای کار با این مدل در آدرس زیر وجود داره که میتونید باهاش شروع کنید:
https://colab.research.google.com/drive/14Mfhv2vf3ElTnS5JQGpv-D0jn_qJh88R?usp=sharing#scrollTo=ahZ3Jg66nnJq
این مدل روی HuggingFace به آدرس زیر قرار داده شده:
https://huggingface.co/mostafaamiri/persian_llama_7b
همچنین یک نوتبوک راهنما برای کار با این مدل در آدرس زیر وجود داره که میتونید باهاش شروع کنید:
https://colab.research.google.com/drive/14Mfhv2vf3ElTnS5JQGpv-D0jn_qJh88R?usp=sharing#scrollTo=ahZ3Jg66nnJq
huggingface.co
mostafaamiri/persian_llama_7b · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍23❤2🔥1
Media is too big
VIEW IN TELEGRAM
محققان علوم اعصاب دانشگاه Montreal بهکمک هوش مصنوعی، توانایی راه رفتن را به یک موش آزمایشگاهی که دچار ضایعهی نخاعی شده بود برگرداندند.
مقاله چاپ شده در Cell
https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(23)00118-0
بلاگپست معرفی:
https://www.quebecscience.qc.ca/sciences/les-decouvertes-de-2023/remarcher-intelligence-artificielle/?utm_source=linkedin&utm_medium=social&utm_content=ap_dpcbl8jhrv
مقاله چاپ شده در Cell
https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(23)00118-0
بلاگپست معرفی:
https://www.quebecscience.qc.ca/sciences/les-decouvertes-de-2023/remarcher-intelligence-artificielle/?utm_source=linkedin&utm_medium=social&utm_content=ap_dpcbl8jhrv
❤19👍7🔥2
اخیرا نسخهی ۸/۱ از الگوریتم YOLO توسط تیم Ultralytics منتشر شده. یکی از نوآوریهای این مدل، تسک OBB یا OrientedBoundingBox است که به کمک پیشبینی یک جعبهی دیگر داخل جعبهی اصلی، جعبهمرزی زاویهدار دور اشیا رسم میکند و فضای پِرت داخل جعبه را کاهش میدهد.
برای آشنایی و استفاده از این قابلیت به کمک پکیج Ultalytics ویدئوهای زیر را مشاهده کنید:
https://www.youtube.com/watch?v=Z7Z9pHF8wJc
https://www.youtube.com/watch?v=9i2LmwFDQLw
مستندات:
https://docs.ultralytics.com/tasks/obb/
پیشنهاد: برای استفاده راحتتر و سفارشیتر از YOLO8.1 از پکیج Roboflow Supervision همزمان با Ultralytics کمک بگیرید.
برای آشنایی و استفاده از این قابلیت به کمک پکیج Ultalytics ویدئوهای زیر را مشاهده کنید:
https://www.youtube.com/watch?v=Z7Z9pHF8wJc
https://www.youtube.com/watch?v=9i2LmwFDQLw
مستندات:
https://docs.ultralytics.com/tasks/obb/
پیشنهاد: برای استفاده راحتتر و سفارشیتر از YOLO8.1 از پکیج Roboflow Supervision همزمان با Ultralytics کمک بگیرید.
👍9❤6
Forwarded from Tensorflow(@CVision) (rasoul)
This media is not supported in your browser
VIEW IN TELEGRAM
Supervision-0.18.0
https://github.com/roboflow/supervision
Highlights of new Supervision:
👀Three new annotators: PercentageBar, RoundedBox, and OrientedBox.
🔼Enhanced LineZone feature for improved precision in tracking and analytics.
☄️Integration of Ultralytics YOLOv8 OBB for advanced oriented bounding box models.
#Supervision
https://github.com/roboflow/supervision
Highlights of new Supervision:
👀Three new annotators: PercentageBar, RoundedBox, and OrientedBox.
🔼Enhanced LineZone feature for improved precision in tracking and analytics.
☄️Integration of Ultralytics YOLOv8 OBB for advanced oriented bounding box models.
#Supervision
❤2👍2
Media is too big
VIEW IN TELEGRAM
مدل بنیادی FoundationPose که اخیرا توسط Nvidia معرفی شده:
https://nvlabs.github.io/FoundationPose/
مفاله:
https://arxiv.org/pdf/2312.08344.pdf
کد:
https://github.com/NVlabs/FoundationPose
https://nvlabs.github.io/FoundationPose/
مفاله:
https://arxiv.org/pdf/2312.08344.pdf
کد:
https://github.com/NVlabs/FoundationPose
👍6❤2
This media is not supported in your browser
VIEW IN TELEGRAM
نسخه ۱ از TF-GNN (شبکههای عصبی گرافی در تنسورفلو) منتشر شد.
https://blog.tensorflow.org/2024/02/graph-neural-networks-in-tensorflow.html
https://blog.tensorflow.org/2024/02/graph-neural-networks-in-tensorflow.html
🔥9😍3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
هوش مصنوعی گوگل (Bard) رسما به Gemini (نامی که برای خانوادهی مدلهای مالتیمودال گوگل استفاده میشد) تغییرنام داد.
بهعلاوه، جدیدترین و قدرتمندترین مدل این خانواده (Ultra 1.0) نیز از طریق محصول Gemini Advanced با هزینهی ماهیانه ۲۰ دلار (۲ ماه نخست رایگان) در دسترس قرار گرفت.
همچنین، یک اپ اندرویدی نیز برای دسترسی سادهتر به Gemini منتشر شدهست.
سایت جدید:
https://gemini.google.com/
اپ اندرویدی:
https://play.google.com/store/apps/details?id=com.google.android.apps.bard
ویدئوی معرفی:
https://youtu.be/b5Fh7TaTkEU?si=JEgqtIcffBABczsp
بلاگپست معرفی:
https://blog.google/products/gemini/bard-gemini-advanced-app/
تکنیکال ریپورت مدلهای Gemini:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
بهعلاوه، جدیدترین و قدرتمندترین مدل این خانواده (Ultra 1.0) نیز از طریق محصول Gemini Advanced با هزینهی ماهیانه ۲۰ دلار (۲ ماه نخست رایگان) در دسترس قرار گرفت.
همچنین، یک اپ اندرویدی نیز برای دسترسی سادهتر به Gemini منتشر شدهست.
سایت جدید:
https://gemini.google.com/
اپ اندرویدی:
https://play.google.com/store/apps/details?id=com.google.android.apps.bard
ویدئوی معرفی:
https://youtu.be/b5Fh7TaTkEU?si=JEgqtIcffBABczsp
بلاگپست معرفی:
https://blog.google/products/gemini/bard-gemini-advanced-app/
تکنیکال ریپورت مدلهای Gemini:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
🔥7👍4❤2
Media is too big
VIEW IN TELEGRAM
به امید روزی که با کمک هم، هرآنچه در این ویدئو میبینید (و بیشتر از آن) را در صنایع میهنمان ایران، پیادهسازی کنیم :)
❤27👍6🔥1
شرکت Nvidia یک نرمافزار چتبات قابل نصب برروی Windows 11، موسوم به NVIDIA Chat with RTX ارائه کرده که از محتوای فایلهای داخل رایانه، برای RAG استفاده میکند. به عبارت دیگر پاسخ پرسشهای شما را با بررسی فایلهایی که بهش معرفی میکنید میدهد.
این چتبات برای اجرا نیاز به واحد گرافیکی GeForce RTX دارد.
https://youtu.be/gdsRJZT3IJw
این چتبات برای اجرا نیاز به واحد گرافیکی GeForce RTX دارد.
https://youtu.be/gdsRJZT3IJw
YouTube
Create A Personalized AI Chatbot with Chat With RTX
Create a personalized chatbot with the Chat with RTX tech demo. Accelerated by TensorRT-LLM and Tensor Cores, you can quickly get tailored info from your files and content. Just connect your data to an LLM on RTX-Powered PCs for local, fast, generative AI.…
👍6❤2
شرکت Ultralytics مدل بنیادین YOLO-World که یک OVD یا Open-Vocabulary Detector است، را معرفی کرد.
این مدل، مبتنی بر YOLOv8 است و نیاز به کلاسهای ازپیش تعریفشده برای تشخیص ندارد، بلکه میتواند بهصورت Zero-shot این کلاسها را درقالب یک پرامپت متنی، هنگام inference دریافت کرده و در تصویر پیدا کند. مثلا در ورودی به آن میگویید: “حیوان جوندهی کوچک به رنگ سفید که نامش موش است را پیدا کن”
این پرامپت توسط مدل OpenAI CLIP به بردار تعبیه تبدیل شده و به کمک مدل YOLOv8 در تصویر پیدا میشود.
این مدل در مقایسه با مدلهای بنیادین دیگر مثل SAM فیسبوک و Grounding DINO بسیار سادهتر است و بنابراین میتوان به راحتی از آن برای اپلیکیشنهای real-time استفاده کرد.
استفاده از این مدل بهسادگی استفاده از Ultralytics YOLOv8 است.
https://docs.ultralytics.com/models/yolo-world/
مقاله:
https://arxiv.org/abs/2401.17270
نوتبوک:
https://supervision.roboflow.com/develop/notebooks/zero-shot-object-detection-with-yolo-world/
این مدل، مبتنی بر YOLOv8 است و نیاز به کلاسهای ازپیش تعریفشده برای تشخیص ندارد، بلکه میتواند بهصورت Zero-shot این کلاسها را درقالب یک پرامپت متنی، هنگام inference دریافت کرده و در تصویر پیدا کند. مثلا در ورودی به آن میگویید: “حیوان جوندهی کوچک به رنگ سفید که نامش موش است را پیدا کن”
این پرامپت توسط مدل OpenAI CLIP به بردار تعبیه تبدیل شده و به کمک مدل YOLOv8 در تصویر پیدا میشود.
این مدل در مقایسه با مدلهای بنیادین دیگر مثل SAM فیسبوک و Grounding DINO بسیار سادهتر است و بنابراین میتوان به راحتی از آن برای اپلیکیشنهای real-time استفاده کرد.
استفاده از این مدل بهسادگی استفاده از Ultralytics YOLOv8 است.
https://docs.ultralytics.com/models/yolo-world/
مقاله:
https://arxiv.org/abs/2401.17270
نوتبوک:
https://supervision.roboflow.com/develop/notebooks/zero-shot-object-detection-with-yolo-world/
👍12😍1
Forwarded from Tensorflow(@CVision) ((◕‿◕))
مدل متن به ویدیو OpenAI معرفی شد!
این مدل که اسمش Sora هست میتونه ویدیوهایی به طول یک دقیقه تولید کنه!
https://openai.com/sora
https://x.com/sama/status/1758193609927721350?s=46
https://x.com/model_mechanic/status/1758196079663988823?s=46
https://x.com/gdb/status/1758193811489243408?s=46
https://x.com/mkbhd/status/1758200479224410420?s=46
https://x.com/sama/status/1758218820542763012?s=46
این مدل که اسمش Sora هست میتونه ویدیوهایی به طول یک دقیقه تولید کنه!
https://openai.com/sora
https://x.com/sama/status/1758193609927721350?s=46
https://x.com/model_mechanic/status/1758196079663988823?s=46
https://x.com/gdb/status/1758193811489243408?s=46
https://x.com/mkbhd/status/1758200479224410420?s=46
https://x.com/sama/status/1758218820542763012?s=46
Openai
Sora
Turn your ideas into videos with hyperreal motion and sound.
👍5🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
این ویدئو با ارائهی پرامپت زیر به مدل OpenAI Sora خلق شده است.
Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
👍13🔥7❤3
This media is not supported in your browser
VIEW IN TELEGRAM
همچنان که توی ذهنتون به ترکیب Apple Vision Pro با OpenAI Sora فکر میکنید، به شغلهایی که دیگر وجود نخواهند داشت هم فکر کنید…
کارگردان
بازیگر
طراح پویانمایی (انیمیشن)
طراح گرافیک
متخصص جلوههای ویژه
عکاس
تهیهکننده
گوینده
نویسنده
تدوینگر ویدئو
سینماگر
طراح استوریبورد
طراح صحنه
طراح لباس
مسئول انتخاب بازیگر
کپیرایتر تبلیغاتی
گویندهی خبر
مدرس ویدئویی
مربی
مدیر شبکههای اجتماعی
و …
کارگردان
بازیگر
طراح پویانمایی (انیمیشن)
طراح گرافیک
متخصص جلوههای ویژه
عکاس
تهیهکننده
گوینده
نویسنده
تدوینگر ویدئو
سینماگر
طراح استوریبورد
طراح صحنه
طراح لباس
مسئول انتخاب بازیگر
کپیرایتر تبلیغاتی
گویندهی خبر
مدرس ویدئویی
مربی
مدیر شبکههای اجتماعی
و …
👍38🔥5
Forwarded from Tensorflow(@CVision) ((◕‿◕))
مدل Gemma مدلی سبک از گوگل که بسیار شبیه مدلهای جدید جِمینای (Gemini) ساخته شده با این تفاوت که اوپن سورس هست و برای استفاده عمومی منتشر شده.
نسخههای این مدل ۲ و ۷ میلیارد پارامتری هست و توی تقریبا همه فریمورکهای معروف کدش رو منتشر کردند.
لینک بلاگ:
https://blog.google/technology/developers/gemma-open-models/?utm_source=tw&utm_medium=social&utm_campaign=gemini24&utm_content=&utm_term=
لینک کگل:
https://www.kaggle.com/models/google/gemma?utm_medium=social&utm_source=twitter&utm_campaign=models-gemmalaunch
نسخههای این مدل ۲ و ۷ میلیارد پارامتری هست و توی تقریبا همه فریمورکهای معروف کدش رو منتشر کردند.
لینک بلاگ:
https://blog.google/technology/developers/gemma-open-models/?utm_source=tw&utm_medium=social&utm_campaign=gemini24&utm_content=&utm_term=
لینک کگل:
https://www.kaggle.com/models/google/gemma?utm_medium=social&utm_source=twitter&utm_campaign=models-gemmalaunch
Google
Gemma: Introducing new state-of-the-art open models
Gemma is a family of lightweight, state-of-the art open models built from the same research and technology used to create the Gemini models.
🔥13👍1
گوگل نسخهی اوپن-سورس از خانوادهی مدلهای زبانی Gemini را تحت نام Gemma معرفی و منتشر کرد.
بلاگپست معرفی:
https://huggingface.co/blog/gemma
این مدل که رقیبی جدی برای Llama2 متا محسوب میشود، در دو نسخهی Base و Instruction-tuned و در دو سایز ۲ و ۷ میلیارد پارامتری منتشر شدهست.
مدل Base مدل پایهی Pretrained و همهمنظورهست و برای پردازش متون خام کاربرد دارد.
مدل Instruction-tuned یا it بهکمک RLHF برای تسکهای مبتنی بر دستورالعمل، فاینتیون شده و برای دنبالکردن دستورات و انجام تسکهای مرحلهبهمرحله مناسبترست.
مدل ۲ میلیون پارامتری، همچون Llama2 برروی ۲ تریلیون توکن آموزش دیده و بسیار سبک و مناسب اجرا روی edge device ها و موبایلهاست اما مدل ۷ میلیارد پارامتری، برروی ۶ تریلیون توکن آموزش دیده (۲۳ روز برروی ۱۶ پاد TPU) که دقتی به مراتب بالاتر از Llama2 ارائه میدهد.
طول متن در این مدلها ۸۰۰۰ توکن است.
طی یک همکاری بین گوگل و NVIDIA این مدلها به کمک NVIDIA TensorRT-LLM برای اجرا برروی GPUهای RTX بهینهسازی شدهند.
https://blogs.nvidia.com/blog/google-gemma-llm-rtx-ai-pc/
این مدل کاملا اوپن-سورس و استفاده از آن در اپلیکیشنهای تجاری بلامانعست. همهی نسخههای آن روی HuggingFace قابل دسترساند.
https://huggingface.co/models?other=gemma&sort=trending&search=google
تست کردن مدل در حالت چتبات بهصورت آنلاین:
huggingface.co/chat/
این مدل به روش LoRA برروی دیتاست شما، فاین-تیون میشود. لینک زیر نوتبوکی برای آموزش فاین-تیون کردن این مدل به کمک Keras و TensorFlow ارائه میدهد:
https://ai.google.dev/gemma/docs/lora_tuning
فاینتیون کردن به روش LoRA به کمک HuggingFace:
https://huggingface.co/blog/gemma-peft
نقاط ضعف:
- این مدل تنها برای زبان انگلیسی آمادهسازی شده
- مالتیمودال نیست و فقط ورودی/خروجی از نوع متن را پشتیبانی میکند.
- عملکرد مدل ۲ میلیارد پارامتری، نسبت به مدل ۲/۷ میلیارد پارامتری مایکروسافت (PHI-2) بهمراتب ضعیفترست.
بلاگپست معرفی:
https://huggingface.co/blog/gemma
این مدل که رقیبی جدی برای Llama2 متا محسوب میشود، در دو نسخهی Base و Instruction-tuned و در دو سایز ۲ و ۷ میلیارد پارامتری منتشر شدهست.
مدل Base مدل پایهی Pretrained و همهمنظورهست و برای پردازش متون خام کاربرد دارد.
مدل Instruction-tuned یا it بهکمک RLHF برای تسکهای مبتنی بر دستورالعمل، فاینتیون شده و برای دنبالکردن دستورات و انجام تسکهای مرحلهبهمرحله مناسبترست.
مدل ۲ میلیون پارامتری، همچون Llama2 برروی ۲ تریلیون توکن آموزش دیده و بسیار سبک و مناسب اجرا روی edge device ها و موبایلهاست اما مدل ۷ میلیارد پارامتری، برروی ۶ تریلیون توکن آموزش دیده (۲۳ روز برروی ۱۶ پاد TPU) که دقتی به مراتب بالاتر از Llama2 ارائه میدهد.
طول متن در این مدلها ۸۰۰۰ توکن است.
طی یک همکاری بین گوگل و NVIDIA این مدلها به کمک NVIDIA TensorRT-LLM برای اجرا برروی GPUهای RTX بهینهسازی شدهند.
https://blogs.nvidia.com/blog/google-gemma-llm-rtx-ai-pc/
این مدل کاملا اوپن-سورس و استفاده از آن در اپلیکیشنهای تجاری بلامانعست. همهی نسخههای آن روی HuggingFace قابل دسترساند.
https://huggingface.co/models?other=gemma&sort=trending&search=google
تست کردن مدل در حالت چتبات بهصورت آنلاین:
huggingface.co/chat/
این مدل به روش LoRA برروی دیتاست شما، فاین-تیون میشود. لینک زیر نوتبوکی برای آموزش فاین-تیون کردن این مدل به کمک Keras و TensorFlow ارائه میدهد:
https://ai.google.dev/gemma/docs/lora_tuning
فاینتیون کردن به روش LoRA به کمک HuggingFace:
https://huggingface.co/blog/gemma-peft
نقاط ضعف:
- این مدل تنها برای زبان انگلیسی آمادهسازی شده
- مالتیمودال نیست و فقط ورودی/خروجی از نوع متن را پشتیبانی میکند.
- عملکرد مدل ۲ میلیارد پارامتری، نسبت به مدل ۲/۷ میلیارد پارامتری مایکروسافت (PHI-2) بهمراتب ضعیفترست.
huggingface.co
Welcome Gemma - Google’s new open LLM
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥3👍1
ورژن ۹ مدل YOLO در چهار سایز ۷/۲ میلیون، ۲۰/۱ میلیون و ۲۵/۵ میلیون و ۵۸/۱ میلیون پارامتر منتشر شد!!!
مقاله:
https://arxiv.org/abs/2402.13616
کد:
https://github.com/WongKinYiu/yolov9
نوتبوک برای فاینتیون کردن مدل:
https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov9-object-detection-on-custom-dataset.ipynb
https://blog.roboflow.com/train-yolov9-model/
مقاله:
https://arxiv.org/abs/2402.13616
کد:
https://github.com/WongKinYiu/yolov9
نوتبوک برای فاینتیون کردن مدل:
https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov9-object-detection-on-custom-dataset.ipynb
https://blog.roboflow.com/train-yolov9-model/
🔥10👍4❤1
School of AI
شرکت Ultralytics مدل بنیادین YOLO-World که یک OVD یا Open-Vocabulary Detector است، را معرفی کرد. این مدل، مبتنی بر YOLOv8 است و نیاز به کلاسهای ازپیش تعریفشده برای تشخیص ندارد، بلکه میتواند بهصورت Zero-shot این کلاسها را درقالب یک پرامپت متنی، هنگام…
برای آشنایی بیشتر با YOLO-Wold تماشای ویدئوی زیر پیشنهاد میشود.
https://www.youtube.com/watch?v=X7gKBGVz4vs
موارد بحثشده:
- معماری مدل
- پردازش تصاویر و ویدئوها در Google Colab
- مهندسی پرامپت و پالایش detection
- مزایا و معایب مدل
https://www.youtube.com/watch?v=X7gKBGVz4vs
موارد بحثشده:
- معماری مدل
- پردازش تصاویر و ویدئوها در Google Colab
- مهندسی پرامپت و پالایش detection
- مزایا و معایب مدل
YouTube
YOLO-World: Real-Time, Zero-Shot Object Detection Explained
In this video, you’ll learn how to use YOLO-World, a cutting-edge zero-shot object detection model. We'll cover its speed, compare it to other models, and run a live code demo for image AND video analysis.
Chapters:
- 00:00 Intro
- 00:42 YOLO-World vs.…
Chapters:
- 00:00 Intro
- 00:42 YOLO-World vs.…
👍7❤1🙏1
مدلهای زبانی بزرگ (LLM ها) معمولا برروی حجم زیادی از دادههای موجود در وب آموزش میبینند. این دادهها ممکن است جهتدار و بیکیفیت باشند. برای رفع این مشکل، معمولا پس از آموزش مدل زبانی، مدل آموزشدیدهشده در دسترس تعدادی انسان قرار گرفته و خروجی آن ارزیابی میشود. سپس با استفاده از بازخورد جمعآوریشده در این ارزیابی (Human Feedback) و بهکارگیری روشهای یادگیری تقویتی (Reinforcement Learning) یک مدل پاداش (Reward Model) برای
ارزیابی خروجی مدل آموزش داده میشود.
آموزش دادن مدل پاداش، به نوعی Finetune کردن مدل اصلی محسوب میشود. به این نوع Finetune کردن، روش RLHF گفته میشود.
برای فاینتیون کردن مدلهای زبانی به روش RLHF بهطور معمول از الگوریتم Proximal Policy Optimization یا PPO استفاده میشود که بسیار قدرتمندتر از الگوریتمهای پایهی یادگیری تقویتی مثل REINFORCE است.
حالا، آرش احمدیان، پژوهشگر آزمایشگاه Cohere به همراه همکارانش در مقالهی زیر نشان دادهاند که با توجه به توانایی بالای پالیسی اولیه و شرطگذاری پرامپتها، نیاز به استفاده از الگوریتم PPO برای فاینتیونکردن مدلهای زبانی نیست و الگوریتمهای سادهتر و سریعتر مثل REINFORCE در این زمینه کاراترند.
جالب اینکه گوگل (دیپمایند) هم در مدل زبانی جدید خود (Gemma) از الگوریتم REINFORCE بهجای PPO استفاده کردهست.
https://cohere.com/research/papers/back-to-basics-revisiting-reinforce-style-optimization-for-learning-from-human-feedback-in-llms-2024-02-23
پینوشت ۱: عدهای از پژوهشگران معتقدند فاینتیونکردن مدلهای زبانی از روی بازخورد انسانی باعث افت کیفیت مدلها به مرور زمان میشود.
پینوشت ۲: مدل زبانی کوچک شرکت مایکروسافت (Phi-2) به روش RLHF فاینتیون نشدهست. دلیل این کار، فراهم آوردن بستری برای تحقیق در رابطه با چالشهای مرتبط با ایمنی این مدلها از جمله سوگیریهای اجتماعی، محتوای سمی، پایشپذیری و … است.
ارزیابی خروجی مدل آموزش داده میشود.
آموزش دادن مدل پاداش، به نوعی Finetune کردن مدل اصلی محسوب میشود. به این نوع Finetune کردن، روش RLHF گفته میشود.
برای فاینتیون کردن مدلهای زبانی به روش RLHF بهطور معمول از الگوریتم Proximal Policy Optimization یا PPO استفاده میشود که بسیار قدرتمندتر از الگوریتمهای پایهی یادگیری تقویتی مثل REINFORCE است.
حالا، آرش احمدیان، پژوهشگر آزمایشگاه Cohere به همراه همکارانش در مقالهی زیر نشان دادهاند که با توجه به توانایی بالای پالیسی اولیه و شرطگذاری پرامپتها، نیاز به استفاده از الگوریتم PPO برای فاینتیونکردن مدلهای زبانی نیست و الگوریتمهای سادهتر و سریعتر مثل REINFORCE در این زمینه کاراترند.
جالب اینکه گوگل (دیپمایند) هم در مدل زبانی جدید خود (Gemma) از الگوریتم REINFORCE بهجای PPO استفاده کردهست.
https://cohere.com/research/papers/back-to-basics-revisiting-reinforce-style-optimization-for-learning-from-human-feedback-in-llms-2024-02-23
پینوشت ۱: عدهای از پژوهشگران معتقدند فاینتیونکردن مدلهای زبانی از روی بازخورد انسانی باعث افت کیفیت مدلها به مرور زمان میشود.
پینوشت ۲: مدل زبانی کوچک شرکت مایکروسافت (Phi-2) به روش RLHF فاینتیون نشدهست. دلیل این کار، فراهم آوردن بستری برای تحقیق در رابطه با چالشهای مرتبط با ایمنی این مدلها از جمله سوگیریهای اجتماعی، محتوای سمی، پایشپذیری و … است.
👏22👍8❤1