Tensorflow(@CVision)
15.3K subscribers
1.29K photos
310 videos
81 files
2.54K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت:
https://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

لینک گروه:
@tf2keras
Download Telegram
آیدان گومز(جوانترین عضو از نویسندگان مقاله transformer)، مدیرعامل و یکی از بنیان‌گذاران شرکت Cohere، توی مصاحبه‌اش گفت که فقط فروش مدل‌ها برای موفقیت کافی نیست. او توضیح میده که افزایش مقیاس مدل‌ها تنها راه پیشرفت نیست و استارتاپ‌های هوش مصنوعی باید از خدمات ابری دوری کنند تا بتونند با OpenAI رقابت کنند. به نظرش، کیفیت داده‌ها هم خیلی مهمه و تو پنج سال آینده باید منتظر پیشرفت‌های بزرگ توی رباتیک باشیم.

او افزود که پیشرفت بزرگ بعدی توی هوش مصنوعی به رباتیک مربوط میشه. هزینه‌ها داره کم میشه و باید مدل‌های بهتری داشته باشیم. خیلی از مشکلات قدیمی توی رباتیک حل شده و ربات‌ها الان می‌تونند بهتر استدلال و برنامه‌ریزی کنند. ممکنه تو پنج تا ده سال آینده ربات‌های انسان‌نمای عمومی با هزینه کم و قابلیت‌های بالا رو ببینیم.

گومز معتقده تکنولوژی‌های جدید توی محصولات و اپلیکیشن‌ها می‌تونند تغییرات مثبت و مفیدی توی تعاملات اجتماعی و تولید محتوا ایجاد کنند. به نظرش، هوش مصنوعی می‌تونه توی آموزش و تعاملات مفید باشه، ولی جایگزین روابط انسانی نمیشه. همچنین به نگرانی‌ها درباره کاهش مشاغل هم اشاره کرده و گفته که تکنولوژی ممکنه توی بعضی زمینه‌ها مثل پشتیبانی مشتری جایگزین‌هایی ایجاد کنه، اما به طور کلی این تغییرات به نفع رشد و کارایی انسان‌ها خواهد بود.


https://www.youtube.com/watch?v=FUGosOgiTeI
👍11🔥3
هزینه 1 میلیون توکن GPT تو 18 ماه از 180 دلار به 0.75 دلار کاهش پیدا کرده.

مدل زبانی بزرگ لاما ۳ که متا ساخته، اونقدر که باید مورد استقبال قرار نگرفته و این باعث شده بحث بین مدل‌های منبع‌باز و منبع بسته داغ‌تر بشه.

Lama 3
برای جذب مشتری تو آمازون وب سرویس (AWS) به مشکل بر خورده. بیشتر مشتریان سازمانی آمازون به جای Lama، مدل زبانی منبع بسته کلود که آنتروپیک توسعه داده رو ترجیح میدن.

منابع داخلی مایکروسافت هم میگن که Lama انتخاب اولشون برای فروش نیست و ترجیح میدن Lama رو به شرکت‌هایی پیشنهاد بدن که تخصص داده‌ای بالا دارن، مثل شرکت‌هایی که مهندس و متخصص داده دارن.
6👍1
Tensorflow(@CVision)
هزینه 1 میلیون توکن GPT تو 18 ماه از 180 دلار به 0.75 دلار کاهش پیدا کرده. مدل زبانی بزرگ لاما ۳ که متا ساخته، اونقدر که باید مورد استقبال قرار نگرفته و این باعث شده بحث بین مدل‌های منبع‌باز و منبع بسته داغ‌تر بشه. Lama 3 برای جذب مشتری تو آمازون وب سرویس…
متا الآن با یه چالش مواجه شده که ممکنه مجبور شه برای محصولات هوش مصنوعی خودش یه تیم فروش اختصاصی تشکیل بده تا بتونه مستقیم نیازهای مشتری‌ها رو برطرف کنه. این مشکلات نشون میده که تجاری‌سازی مدل‌های بزرگ زبانی منبع‌باز چقدر سخت و پیچیده‌ است. عملکرد و بازدهی تجاری مدل‌های منبع‌باز نتونسته انتظارات مشتریان سازمانی رو برآورده کنه.

وقتی صحبت از "منبع‌باز یا منبع بسته" میشه، شرکت‌های بزرگ تولیدکننده مدل‌های زبانی مواضع متفاوتی بسته به استراتژی تجاری و تکنولوژی خودشون دارن.

سوال اینجاست که شرکت‌ها چطوری باید یه مدل زبانی رو انتخاب کنن و چطور میشه بین این دو رویکرد یه تعادل خوب پیدا کرد؟

فرق اساسی بین مدل‌های بزرگ منبع‌باز و نرم‌افزارهای منبع‌باز اینه که مدل‌های بزرگ اطلاعات مهمی مثل کد منبع آموزش، داده‌های پیش‌آماده‌سازی شده و داده‌های تنظیم شده که روی عملکرد مدل تاثیر میذاره رو منتشر نمی‌کنن. پس برخلاف نرم‌افزارهای منبع‌باز که جامعه توسعه‌دهندگان می‌تونن توش مشارکت کنن و بهبودش بدن، آموزش مدل‌های پایه فقط دست خود شرکت‌ها باقی می‌مونه.

اما کدوم مدل گرون‌تره، منبع‌باز یا منبع بسته؟

مدل‌های منبع‌باز رایگان به نظر میان و این تصور رو ایجاد می‌کنن که ارزون‌تر هستن. ولی کاربرد مدل‌های بزرگ فقط یه تکنولوژی نیست، بلکه یه راه‌حل جامع شامل "تکنولوژی + خدماته" و شرکت‌ها باید کل هزینه‌ها رو در نظر بگیرن. برای اینکه تو کسب‌وکار به همون عملکردی که مدل‌های منبع بسته ارائه میدن، با مدل‌های منبع‌باز برسیم، نیاز به سرمایه‌گذاری زیاد از لحاظ نیروی انسانی، هزینه مالی و زمان داریم که در نهایت هزینه کلی رو بالا میبره.

مدل‌های منبع‌باز بیشتر به درد پژوهش‌های دانشگاهی می‌خورن و برای پروژه‌های تجاری بزرگ که خدمات رو به مشتری‌ها ارائه میدن، مناسب نیستن. تو پروژه‌های جدی که هزینه‌های میلیونی یا حتی ده‌ها میلیونی دارن، مدل‌های منبع بسته همچنان نقش اصلی رو بازی می‌کنن.

مدل‌های منبع‌باز ارزون نیستن
👍12
چن تیان‌چیاو با همکاری مجله ساینس یه جایزه 30 هزار دلاری برای تحقیقات علمی که بر پایه هوش مصنوعی هست، راه‌اندازی کرده. مقاله‌ای که این جایزه رو ببره، توی مجله ساینس منتشر می‌شه.

اخیراً موسسه علوم اعصاب تیان‌چیائو و کریسی چن (که به اختصار بهش می‌گن "موسسه") با مجله ساینس همکاری کرده تا یه جایزه بین‌المللی برای تشویق دانشمندای جوون که با کمک هوش مصنوعی تونستن تو زمینه‌های علمی پیشرفتای مهمی کنن، به وجود بیاره.

چن تیان‌چیائو، که یه زمانی یکی از چهره‌های شناخته‌شده در صنعت اینترنت چین بود، بعد از 8 سال کار تو حوزه علوم اعصاب و تقریباً 2 سال سرمایه‌گذاری کامل روی توسعه نسل جدید هوش مصنوعی و به دست آوردن نتایج قابل توجه، این جایزه بین‌المللی رو راه‌اندازی کرده.

بر اساس اطلاعاتی که توی وبسایت‌های موسسه و مجله ساینس اومده، این جایزه از دانشمندای جوون از سراسر دنیا که با استفاده از هوش مصنوعی تو زمینه‌های مختلف علوم طبیعی (مثل علوم زیستی و فیزیک) به دستاوردای مهمی رسیدن، دعوت می‌کنه تا مقالاتشون رو که حداکثر 1000 کلمه دارن، ارسال کنن.

شرط شرکت تو این مسابقه اینه که شما حداکثر 10 سال پیش دکتراش رو گرفته باشید. برنده اصلی این جایزه 30 هزار دلار می‌گیره و چند نفر از برنده‌های برتر هم 10 هزار دلار جایزه نقدی به همراه اشتراک 5 ساله نسخه دیجیتال مجله ساینس دریافت می‌کنن. همه مقالات برگزیده هم تو مجله ساینس چاپ می‌شن.

ثبت‌نام برای این جایزه الان شروع شده و مهلت ارسال مقالات تا 13 دسامبر 2024 هست. برای اطلاعات بیشتر و نحوه ثبت‌نام، می‌تونین روی لینک زیر کلیک کنین:

https://www.science.org/content/page/how-enter-chen-institute-science-prize-ai-accelerated-research
👌1
This media is not supported in your browser
VIEW IN TELEGRAM
GameNGen
اولین موتور بازیه که کاملاً با یه مدل عصبی کار می‌کنه و تعامل ریل تایم با محیط‌های پیچیده رو تو مسیرهای طولانی با کیفیت بالا ممکن می‌کنه.

 این موتور بازی که توسط deepmind معرفی شده 
 می‌تونه بازی کلاسیک DOOM رو با بیشتر از 20 فریم در ثانیه روی یه TPU به صورت تعاملی شبیه‌سازی کنه. 

حالا تصویر ایجاد یه رمان بصری که خودش رو در حین بازی تولید می‌کنه می‌تونه بسیار هیجان انگیز باشه

https://arxiv.org/abs/2408.14837
👍12
🎓 دوره جامع و تعاملی هوش مصنوعی و یادگیری عمیق 🎓
با همکاری مجموعه دانش‌بنیان شناسا

🚀 یادگیری عمیق از مبتدی تا حرفه‌ای با TensorFlow/Keras 🚀
همین حالا مسیر خود را به سمت آینده شغلی موفق آغاز کنید!

📚 چرا این دوره؟
✔️ 15 جلسه آنلاین تعاملی + جلسات رفع اشکال
✔️ 40 ساعت محتوای ضبط‌شده حرفه‌ای
✔️ دسترسی مادام‌العمر به محتوای دوره
✔️ امکان دانلود و مشاهده‌ی آفلاین تمامی جلسات
✔️ گواهی معتبر پایان دوره
✔️ تضمین تسهیل ورود به بازار کار تخصصی

👨‍🏫 مدرس: علیرضا اخوان‌پور
مدرس دانشگاه و مدیر فنی شرکت دانش‌بنیان شناسا

🗓 شروع: 19 شهریور
دوشنبه‌ها، 18 الی 19:20
🎉 کد تخفیف ویژه زودهنگام:
deep_early_register

🔗 همین حالا ثبت‌نام کنید
https://class.vision/product/deep-learning-ai-course-2/


📞 پشتیبانی: @classvision_support
🔍 اطلاعیه‌ها: @class_vision
👍3😁2
خلاصه ای از پست Andrew NG در مورد استراتژی‌های توسعه هوش مصنوعی با توجه به کاهش قیمت توکن مدلهای زبانی و نوآوری های جدید:

پس از کاهش قیمت های اخیر توسط OpenAI، اکنون هزینه‌ی توکن‌های GPT-4o به 4 دلار به ازای هر یک میلیون توکن کاهش یافته است این در حالی است که در زمان عرضه اولیه در مارس 2023، هزینه‌ی GPT-4 معادل 36 دلار به ازای هر یک میلیون توکن بود. این کاهش قیمت در طی 17 ماه معادل کاهش حدود 79 درصدی در سال است.
قیمت توکن‌ها به سرعت در حال کاهش است! یکی از عوامل کاهش قیمت‌ها، انتشار مدل‌های با وزن‌های باز مانند Llama 3.1 است. همچنین نوآوری‌های سخت‌افزاری که توسط شرکت‌هایی مانند Groq و Samba Nova (که مدل Llama 3.1 با 405 میلیارد توکن را با سرعت قابل توجهی معادل 114 توکن در ثانیه ارائه می‌دهد) و استارتاپ‌هایی مانند Cerebras و شرکت های NVIDIA, AMD, Intel, Qualcomm معرفی میشوند منجر به کاهش بیشتر قیمت‌ها خواهند شد.

با توجه به این روندها، انتظار می‌رود که قیمت توکن‌ها به کاهش خود ادامه دهند، این بدان معناست که حتی اگر شما یک کاری ایجاد کنید که از لحاظ اقتصادی کاملاً مقرون به صرفه نباشد، کاهش قیمت توکن‌ها ممکن است آن را در آینده مقرون به صرفه کند.
برای شرکت‌های هوش مصنوعی، مهم است که به جای تمرکز بیش از حد بر بهینه‌سازی هزینه‌ها، بر ساخت برنامه‌های مفید تمرکز کنند. با کاهش قیمت‌ها، حتی برنامه‌هایی که در حال حاضر پرهزینه هستند، ممکن است در آینده مقرون‌به‌صرفه شوند.

علاوه بر این، شرکت‌ها باید به صورت دوره‌ای برنامه‌های خود را بررسی کنند تا ببینند آیا نیاز به تغییر به مدل‌های جدیدتر دارند تا از کاهش قیمت‌ها و افزایش قابلیت‌ها بهره‌مند شوند. این تغییر ممکن است شامل تغییر از یک مدل به مدل دیگر از همان ارائه‌دهنده یا حتی از ارائه‌دهنده‌های دیگر باشد، به خصوص که مدل‌های با وزن‌های باز مانند Llama 3.1 اکنون توسط چندین ارائه‌دهنده میزبانی می‌شوند.

در نهایت، اگرچه جابجایی بین مدل‌ها به دلیل مشکلاتی مانند اجرای ارزیابی‌ها همچنان چالش‌برانگیز است، اما با بهبود ارزیابی‌ها، این کار به مرور زمان آسان‌تر خواهد شد. این تغییرات به شرکت‌های هوش مصنوعی کمک می‌کند تا با روندهای بازار همگام شده و از فرصت‌های جدید بهره‌برداری کنند.

https://www.deeplearning.ai/the-batch/issue-264/
👍93🔥1
پیج اینستاگرام و همچنین کانال دوره‌ها را نیز دنبال کنید


پیج اینستاگرام:

@class.vision

کانال تلگرامی دوره‌ها:

@class_vision
3😁1
 

به خانواده بزرگ مدل‌های زبانی Qwen2 شرکت علی‌بابا، مدل چندوجهی جدیدی به نام Qwen2-VL اضافه شد. این مدل در زمینه درک تصاویر و ویدیوهای طولانی عملکردی بسیار عالی و در سطح بهترین مدل‌های موجود هست و البته به صورت اوپل سورس منتشر شده

در ارزیابی‌های دقیق‌تر بر روی وظایف خاص، Qwen2-VL در اکثر شاخص‌ها به بهترین نتیجه رسیده و حتی از مدل‌های منبع بسته مانند GPT-4o نیز پیشی گرفته.

با بهره‌گیری از توانایی‌های چندوجهی، مدل Qwen2-VL قادره به صورت لحظه‌ای تصاویر دوربین یا صفحه نمایش کامپیوتر را خوانده و به شکل متنی با ویدیو گفتگو کنید

علاوه بر این، این مدل می‌تونه به عنوان یک عامل (Agent) با محیط اطراف تعامل داشته باشه و براساس هدف تعیین شده، به طور خودکار دستگاه‌هایی مانند تلفن همراه را کنترل کنه

در این نسخه جدید، Qwen2 در سه اندازه 2B، 7B و 72B عرضه شده. نسخه‌های 2B و 7B برای دانلود و استفاده تجاری رایگان (با مجوز Apache 2.0) در دسترس هستند، در حالی که نسخه 72B از طریق API ارائه می‌شه

دمو 

https://huggingface.co/spaces/Qwen/Qwen2-VL

گیت هاب:

https://github.com/QwenLM/Qwen2-VL
👍6
Tensorflow(@CVision)
  به خانواده بزرگ مدل‌های زبانی Qwen2 شرکت علی‌بابا، مدل چندوجهی جدیدی به نام Qwen2-VL اضافه شد. این مدل در زمینه درک تصاویر و ویدیوهای طولانی عملکردی بسیار عالی و در سطح بهترین مدل‌های موجود هست و البته به صورت اوپل سورس منتشر شده در ارزیابی‌های دقیق‌تر…
لازم به ذکرع که نسخه 7B نیز از ورودی‌های تصویری، ویدئو پشتیبانی می‌کنه و به سطح پیشرفته‌ترین مدل‌های هم‌رده خود رسیده

کوچک‌ترین نسخه 2B عمدتا برای دستگاه‌های همراه طراحی شده، اما با وجود اندازه کوچکش، قابلیت درک کامل تصاویر، ویدئوها و زبان‌های مختلف رو داره، به خصوص در زمینه درک ویدیوهای مستند و پاسخگویی به سوالات عمومی در مقایسه با مدل‌های هم‌رده خود، عملکرد بسیار بهتری داره
👍51
این ویدیو آموزشی درباره نحوه ذخیره‌سازی اطلاعات در مدل‌های زبان بزرگ هستش

ویدیو با یک مثال شروع می‌شه: اگر به یک مدل زبانی بزرگ عبارت
مایکل جردن ___ بازی می‌کند

را بدین و از اون بخواین پیش‌بینی کنه که کلمه بعدی چی باید باشه، اگر مدل به درستی "بسکتبال"رو پیش‌بینی کنه، نشان دهنده این هستش که در جایی از صدها میلیارد پارامتر اون، اطلاعاتی درباره یک فرد خاص و ورزش خاص او ذخیره شده.

سپس ویدیو به این سوال می‌پردازه که این اطلاعات چگونه ذخیره میشن و کجا قرار دارند. محققان گوگل DeepMind در این زمینه تحقیق کردن و نتیجه گرفتن که این اطلاعات در بخشی از شبکه‌های عصبی به نام "چندلایه پرسپترون" (MLPs) ذخیره می‌شن، اما درک کامل مکانیسم این ذخیره‌سازی هنوز حل نشده.

ویدیو سپس به جزئیات معماری ترانسفورمرها، که پایه و اساس بسیاری از مدل‌های زبان بزرگ هستند، می‌پردازه. بخش اصلی این معماری "چندلایه پرسپترون"ه که محاسبات اون نسبتا ساده، اما تفسیر این محاسبات بسیار چالش‌برانگیزه.

هدف اصلی ویدیو بررسی این محاسبات و ارائه یک مثال مشخص از نحوه ذخیره‌سازی یک واقعیت در این بخش از شبکه ست. این مثال نشون می‌ده که چگونه مدل می‌تونه واقعیت "مایکل جردن بسکتبال بازی می‌کند" را ذخیره کنه.

ویدیو سپس به جزئیات محاسبات در " پرسپترون چند لایه" می‌پردازه، از جمله ضرب ماتریس‌ها و تابع غیرخطی ReLU. همچنین به تعداد پارامترهای این بخش و نحوه عملکرد آن در پیش‌بینی کلمه بعدی می‌پردازه.

در نهایت، ویدیو به ایده "اثر همپوشانی" اشاره می‌کنه که و توضیح میده چرا مدل‌های زبان بزرگ با افزایش اندازه عملکرد بهتری دارن. این ایده می‌گه که در فضاهای با ابعاد بالا، می‌توان اطلاعات زیادی را در فضاهای تقریبا عمود به هم ذخیره کرد، حتی اگر این اطلاعات کاملاً مستقل نباشن.


https://youtu.be/9-Jl0dxWQs8
👍104
مهمترین رویدادهای هوش مصنوعی در ماه آگوست

Black Forest Labs
مدل تولید تصویر Flux را معرفی کرد که عملکرد بهتری نسبت به مدل‌های مشابه با منبع بسته دارد.

OpenAI
نسخه جدیدی از مدل خود، gpt4o 0806، را منتشر کرد که 100% موفقیت در تولید خروجی JSON معتبر دارد.

Google
مدل تولید تصویر Imagen 3 را منتشر کرد.

xAI Corporation
مدل‌های Grok 2 و Grok 2 mini را معرفی کرد که عملکردی برابر با مدل‌های برتر SOTA در صنعت دارند.

Microsoft
مدل‌های کوچک زبانی خود، Phi 3.5، را در سه نسخه معرفی کرد که هر کدام عملکرد چشمگیری نسبت به اندازه خود نشان می‌دهند.

Google
سه مدل جدید آزمایشگاهی AI را معرفی کرد: Gemini 1.5 Flash8B، Gemini 1.5 Pro Enhanced و Gemini 1.5 Flash Updated.

Ideogram 2.0
منتشر شد و قابلیت‌های تولید تصویر را ارائه می‌دهد که از سایر مدل‌های برتر پیشی می‌گیرد.

Luma
مدل Dream Machine 1.5 را برای تولید ویدیو معرفی کرد.

Magic AI
یک مدل جدید زبان به نام LTM2mini را توسعه داد که می‌تواند با یک پنجره زمینه 100 میلیون توکن کار کند.

https://nhlocal.github.io/AiTimeline/#2024
👍20🔥1👌1
ارسالی از کاربران کانال:

من همیشه موقع دیباگ کردن و اجرای llm هام خیلی اوقات ریکوئست‌هام تکراری ان و نتایجشون هم یکیه برا همین یک ابزار رو برای cache کردن همه اون ریکوئست‌ها درست کردم
این ابزارچون به صورت یه پراکسی ساخته شده پس نیازی به تغییری در کدتون ندارید
لینک گیتهاب:
https://github.com/MSNP1381/cache-cool
👍43
Forwarded from School of AI (Hamidreza Hosseinkhani)
گوگل نامِ TensorFlow Lite را به LiteRT تغییر داد.

درابتدا، TFLite نسخه‌ای سبک از مدل‌های تنسورفلو برای اجرا روی دستگاه‌های موبایل بود.

اما در ادامه تبدیل به یک runtime عمومی برای اجرای مدل‌های یادگیری ماشین نوشته‌شده توسط TensorFlow و Keras و Pytorch و JAX برروی دستگاه‌های Edge از جمله موبایل‌های اندرویدی و iOS و همین‌طور Embedded Devices شد.

نام جدید، بیان‌گر ویژن جدید این محصول‌ست.

https://developers.googleblog.com/en/tensorflow-lite-is-now-litert/?linkId=10850223
2👍2
مدیر اجرایی سامسونگ توی رویداد CEO summit که اخیرا برگذار شد افشا کرد که gpt 5 بیش از  ۳ و نیم تریلیون پارامتر داره و نسبت به مدل قبلی بارها هوشمند تره. به نظر تمرکز همچنان روی حفظ بخش عظیم‌تر داده های  اینترنت توسط مدل های بزرگ هست
Tensorflow(@CVision)
مدیر اجرایی سامسونگ توی رویداد CEO summit که اخیرا برگذار شد افشا کرد که gpt 5 بیش از  ۳ و نیم تریلیون پارامتر داره و نسبت به مدل قبلی بارها هوشمند تره. به نظر تمرکز همچنان روی حفظ بخش عظیم‌تر داده های  اینترنت توسط مدل های بزرگ هست
توی دقیقه ۲۷ این گفتگو آندری کارپاتی میگه:
مدلهای هوشمند نسل اینده به طرز شگفت‌آوری کوچک هستن و باور داره که مدل‌های فعلی ظرفیت زیادی رو صرف یادآوری چیزهایی می‌کنن که مهم نیستن، از طرفی مجموعه داده‌ها به بهترین شکل انتخاب نشدن.

میگه ما باید به هسته شناختی برسیم و به نظرم این هسته شناختی میتونه بسیار کوچیک باشه. این هسته چیزیه که فکر می‌کنه و اگر نیاز به جستجوی اطلاعات داشته باشه، می‌دونه چطوری از ابزارهای مختلف استفاده کنه. میگه بنظر من حتی مدلی با یک میلیارد پارامتر هم کافیه.(برگرفته شده از تقطیر دانش مدل های بزرگتر)

https://youtu.be/hM_h0UA7upI


Ray Kurzweil 
میگه:
در بین اندام‌های مغز، فقط یک بخش برای درک و بیان فرآیندهای منطقی بهینه شده و اون لایه بیرونی مغز که قشر مخ نام داره. این بخش تکامل‌یافته، برخلاف بقیه مغز، نسبتاً تخته و ضخامت اون تنها حدود ۰٫۳۲ سانتی‌متر و شامل ۶ میلیون نورون میشه. این اندام پیچ‌درپیچ، اون توانایی رو که برای درک کارها و خودمان داریم، رو به ما می‌ده

https://www.azquotes.com/quote/847331
👍262
 مدل متن باز Reflection 70B معرفی شد، و ادعا میشه بهترین مدل اوپن سورس جهان باشه!

این مدل با استفاده از تکنیک Reflection-Tuning آموزش دیده، تکنیکی که به مدل‌های زبانی بزرگ اجازه می‌ده تا اشتباهات خودشون رو اصلاح کنن

مدل 405B هفته آینده منتشر خواهد شد و انتظار می‌ره که این مدل بهترین مدل در جهان باشه


دمو:
https://reflection-playground-production.up.railway.app/

دانلود:

https://huggingface.co/mattshumer/Reflection-70B
15👍5🔥5🙏1👌1
Tensorflow(@CVision)
 مدل متن باز Reflection 70B معرفی شد، و ادعا میشه بهترین مدل اوپن سورس جهان باشه! این مدل با استفاده از تکنیک Reflection-Tuning آموزش دیده، تکنیکی که به مدل‌های زبانی بزرگ اجازه می‌ده تا اشتباهات خودشون رو اصلاح کنن مدل 405B هفته آینده منتشر خواهد شد و انتظار…
لازم به ذکره Reflection 70B حتی در برابر پیشرفته‌ترین مدل‌های متن بسته (مانند Claude 3.5 Sonnet و GPT-4o) نیز عملکرد بسیار خوبی داره و بهترین مدل زبانی بزرگ در حداقل آزمون‌های MMLU، MATH، IFEval و GSM8K هست و در تمام معیارهای ارزیابی شده، GPT-4o رو شکست می‌ده، به صورتی که عملکرد Llama 405B حتی به این مدل نزدیک نیست!


مدل‌های زبانی بزرگ کنونی، تمایل به توهم‌زنی دارن و نمیتونن زمانی که این کار رو دارن انجام میدن تشخیص بدن.

در زمینه هوش مصنوعی، وقتی میگیم یه مدل زبانی بزرگ (LLM) "توهم می‌زنه"، به این معنیه که اون مدل اطلاعاتی رو تولید می‌کنه که با واقعیت مطابقت نداره. به عبارت دیگه، مدل اطلاعاتی رو ایجاد می‌کنه که گویی واقعی هستن، در حالی که در واقع ساخته ذهن خود مدله.

برای مثال: اگه از یه مدل زبانی بپرسین که اولین انسان روی ماه چه کسی بود و مدل به شما یک نام جعلی بده، در این صورت مدل در حال توهم زدنه.

اما Reflection-Tuning به مدل‌های زبانی بزرگ اجازه می‌ده تا اشتباهات خودش رو تشخیص بدن و قبل از ارائه پاسخ، اونها رو تصحیح کنن

جزییات و مقاله هفته آینده منتشر میشه و بیشتر در مورد اون خواهیم نوشت
👍162🔥2🤔1
Tensorflow(@CVision)
لازم به ذکره Reflection 70B حتی در برابر پیشرفته‌ترین مدل‌های متن بسته (مانند Claude 3.5 Sonnet و GPT-4o) نیز عملکرد بسیار خوبی داره و بهترین مدل زبانی بزرگ در حداقل آزمون‌های MMLU، MATH، IFEval و GSM8K هست و در تمام معیارهای ارزیابی شده، GPT-4o رو شکست می‌ده،…
متد جدیدی که در این کار ارایه شده بسیار حائز اهمیته و به مدل‌های زبانی اجازه می‌ده تا خودشون رو بهبود بدن. این به معنای کاهش وابستگی به داده‌های آموزشیه که یکی از چالش‌های اصلی در توسعه مدل‌های زبانی این روزهاست

این روش شبیه به نحوه عملکرد AlphaZero هست. Demis Hassabis نیز مدتیه در مورد ترکیب بازی خودکار با مدل‌های زبانی بزرگ صحبت میکنه. نکات ارزشمندی رد و بدل میشه 

https://youtu.be/eqXfhejDeqA?feature=shared
🔥51👍1