Language Model Can Listen While Speaking
Explores full duplex modeling in interactive speech LMs, focusing on enhancing real-time interaction and ability of interruption
proj: ziyang.tech/LSLM/
abs: arxiv.org/abs/2408.02622
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
Explores full duplex modeling in interactive speech LMs, focusing on enhancing real-time interaction and ability of interruption
proj: ziyang.tech/LSLM/
abs: arxiv.org/abs/2408.02622
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍3❤1🔥1
بعد از انتشار مدل SAM 2 بعضی پژوهشگران پروژه هایی رو با این مدل اجرا میکنند. یکی از موارد جذابی که سراغش رفتن بازی فوتبال بوده
◾️ دیتاست
◾️ پروژه
several factors contribute to the difficulty of ball tracking:
- small size
- high velocity
- complex backgrounds
- similar-looking objects
- varying lighting conditions
- conclusions
#مقاله #ایده_جذاب #پروژه
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
◾️ دیتاست
◾️ پروژه
several factors contribute to the difficulty of ball tracking:
- small size
- high velocity
- complex backgrounds
- similar-looking objects
- varying lighting conditions
- conclusions
#مقاله #ایده_جذاب #پروژه
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍3❤1👌1
این مقاله جدیدی که روی مدل SAM 2 برای دیتاهای پزشکی ترین شده و سوال خیلی از دوستان بوده که کاربردهای پزشکی در #هوش_مصنوعی چیه؟ این مقاله خوبی برای رفرنس هست.
◾️ Segment Anything in Medical Images and Videos: Benchmark and Deployment
◾️ SAM2 for Video Segmentation
◾️ MedSAM 2 Github
◾️ Slicer-SAM 2: 3D Slicer Plugin for Segment Anything in Images and Videos
Highlights:
1. SAM2 doesn’t always outperform SAM1 in 2D medical images, but excels in video segmentation, making it more accurate and efficient for 3D images, such as CT and MR scans.
2. MedSAM still outperforms SAM2 on most 2D modalities, but SAM2 surpasses MedSAM for 3D image segmentation in a slice-by-slice approach.
3. Segmentation performance varies with model size; sometimes the smallest model outperforms larger ones.
4. Fine-tuning SAM2 significantly boosts its performance for medical image segmentation.
پ.ن: میتونین با حداقل منابع GPU اجرا کنید. نه همه پروژه رو!
#مقاله #ایده_جذاب #پزشکی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
◾️ Segment Anything in Medical Images and Videos: Benchmark and Deployment
◾️ SAM2 for Video Segmentation
◾️ MedSAM 2 Github
◾️ Slicer-SAM 2: 3D Slicer Plugin for Segment Anything in Images and Videos
Highlights:
1. SAM2 doesn’t always outperform SAM1 in 2D medical images, but excels in video segmentation, making it more accurate and efficient for 3D images, such as CT and MR scans.
2. MedSAM still outperforms SAM2 on most 2D modalities, but SAM2 surpasses MedSAM for 3D image segmentation in a slice-by-slice approach.
3. Segmentation performance varies with model size; sometimes the smallest model outperforms larger ones.
4. Fine-tuning SAM2 significantly boosts its performance for medical image segmentation.
پ.ن: میتونین با حداقل منابع GPU اجرا کنید. نه همه پروژه رو!
#مقاله #ایده_جذاب #پزشکی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍7❤2🔥2👌2
استخدام کارشناس هوش مصنوعی
تحصیلات: کارشناسی ارشد هوش مصنوعی، آمار، ریاضیات و سایر رشته های مرتبط
تسلط بر کتابخانهها و ابزارهای یادگیری ماشین
تسلط کافی به نرم افزارهای تحلیل داده R/Python
آشنایی با روشهای big data
آشنایی با پایگاه دادههای SQL
مهارتهای تحلیلی و قدرت حل مسئله
آشنایی با فرآیندهای کسب و کار از جمله فروش، تامین،…
محل کار: استان البرز
شرکت حوزه پتروشیمی و نیروگاه
لطفا به آیدی و ایمیل زیر رزومه ارسال بفرمایید:
[email protected]
@RezaGh_i
تحصیلات: کارشناسی ارشد هوش مصنوعی، آمار، ریاضیات و سایر رشته های مرتبط
تسلط بر کتابخانهها و ابزارهای یادگیری ماشین
تسلط کافی به نرم افزارهای تحلیل داده R/Python
آشنایی با روشهای big data
آشنایی با پایگاه دادههای SQL
مهارتهای تحلیلی و قدرت حل مسئله
آشنایی با فرآیندهای کسب و کار از جمله فروش، تامین،…
محل کار: استان البرز
شرکت حوزه پتروشیمی و نیروگاه
لطفا به آیدی و ایمیل زیر رزومه ارسال بفرمایید:
[email protected]
@RezaGh_i
👎5👍3❤1
#معرفی_وبلاگ
خانم لیلیان، وبلاگ نویس مطالب دیپ لرنینگ و هوش مصنوعی هستند و مطالب آموزشی خوبی در وبلاگ شون میگذارند:
https://lilianweng.github.io
اگر وبلاگ مفید دیگه ای هم در زمینه دیپ لرنینگ میشناسید لطفا زیر همین پست کامنت کنید.
#هوش_مصنوعی #آموزش #شبکه_عصبی_کانوولوشن #شبکه_عصبی
#دیپ_لرنینگ #وبلاگ
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
خانم لیلیان، وبلاگ نویس مطالب دیپ لرنینگ و هوش مصنوعی هستند و مطالب آموزشی خوبی در وبلاگ شون میگذارند:
https://lilianweng.github.io
اگر وبلاگ مفید دیگه ای هم در زمینه دیپ لرنینگ میشناسید لطفا زیر همین پست کامنت کنید.
#هوش_مصنوعی #آموزش #شبکه_عصبی_کانوولوشن #شبکه_عصبی
#دیپ_لرنینگ #وبلاگ
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍5👌2❤1🙏1🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
اولین جراحی دندانپزشکی تمام رباتیک جهان انجام شد
🔸شرکت دندانپزشکی رباتیک Perceptive اعلام کرد برای اولین بار از ربات کنترلشده با هوش مصنوعی تمامخودکار روی بیمار انسانی استفاده کرده است. این ربات تقریباً میتواند عملهای خاصی، مانند تعویض تاج دندان، را هشت برابر سریعتر از دندانپزشک معمولی انجام دهد.
🔸پرسپکتیو که سازنده این ربات است، ادعا میکند این سیستم میتواند زمان عملها را بهصورت قابلتوجهی کاهش دهد. این ربات میتواند تاج دندانها را فقط در ١۵ دقیقه جایگزین کند؛ انجام این عمل توسط دندانپزشک انسان ٢ ساعت طول میکشد و باید در دو ویزیت تکمیل شود.
#مقاله #ایده_جذاب #پزشکی #رباتیک
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
🔸شرکت دندانپزشکی رباتیک Perceptive اعلام کرد برای اولین بار از ربات کنترلشده با هوش مصنوعی تمامخودکار روی بیمار انسانی استفاده کرده است. این ربات تقریباً میتواند عملهای خاصی، مانند تعویض تاج دندان، را هشت برابر سریعتر از دندانپزشک معمولی انجام دهد.
🔸پرسپکتیو که سازنده این ربات است، ادعا میکند این سیستم میتواند زمان عملها را بهصورت قابلتوجهی کاهش دهد. این ربات میتواند تاج دندانها را فقط در ١۵ دقیقه جایگزین کند؛ انجام این عمل توسط دندانپزشک انسان ٢ ساعت طول میکشد و باید در دو ویزیت تکمیل شود.
#مقاله #ایده_جذاب #پزشکی #رباتیک
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍11🔥3❤2🤣2
Kooche Banafsheha
Farhad
ای کاش،
ای کاش آدمی وطنش را
مثل بنفشه ها
(در جعبه های خاک)
یکروز میتوانست
همراه خویشتن ببرد
هر کجا که خواست
در روشنای باران
در آفتاب پاک.
#متفرقه
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
ای کاش آدمی وطنش را
مثل بنفشه ها
(در جعبه های خاک)
یکروز میتوانست
همراه خویشتن ببرد
هر کجا که خواست
در روشنای باران
در آفتاب پاک.
#متفرقه
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
❤8👎8👍1
گوگل مدلی ساخته که میتونه تنیس بازی کنه
The robot won 100% vs. beginners and 55% vs. intermediate players, showcasing solid amateur human-level performance.
◾️ Achieving Human Level Competitive Robot Table Tennis
#مقاله #ایده_جذاب #رباتیک
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
The robot won 100% vs. beginners and 55% vs. intermediate players, showcasing solid amateur human-level performance.
◾️ Achieving Human Level Competitive Robot Table Tennis
#مقاله #ایده_جذاب #رباتیک
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
❤5👎2👍1🔥1
کمپانی LG امروز جدیدترین و قدرتمندترین مدل EXAONE-3.0-7.8B که بزرگترین مدل LLM با آموزش بر روی 8 تریلیون توکن آموزش دیده است منتشر کرد. این مدل روی زبان های انگلیسی و کره ای آموزش دیده است.
( تا حالا از این کمپانی چیزی نشنیده بودم که در حیطه #هوش_مصنوعی فعالیتی داشته باشه گویا اولین فعالیت این شرکت باشه)
◾️ EXAONE 3.0 7.8B Instruction Tuned Language Model
◾️ Hugging face
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
( تا حالا از این کمپانی چیزی نشنیده بودم که در حیطه #هوش_مصنوعی فعالیتی داشته باشه گویا اولین فعالیت این شرکت باشه)
◾️ EXAONE 3.0 7.8B Instruction Tuned Language Model
◾️ Hugging face
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍8❤1👎1🔥1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
برای کسایی که نیاز دارن بشنون:
قانون ۸۰ ۲۰ بیان میکند که ۸۰ درصد نتایج فقط از ۲۰ درصد تلاشهای شما میآید
همیشه تلاش زیاد و مداوم تنها تضمین موفقیت نیست
ما باید مثل یک دونده باشیم تمرین دویدن استراحت بازبینی این سیکل موفقیت است
#انگیزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
قانون ۸۰ ۲۰ بیان میکند که ۸۰ درصد نتایج فقط از ۲۰ درصد تلاشهای شما میآید
همیشه تلاش زیاد و مداوم تنها تضمین موفقیت نیست
ما باید مثل یک دونده باشیم تمرین دویدن استراحت بازبینی این سیکل موفقیت است
#انگیزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👎8❤6👍2
Forwarded from Machine learning application (Kartal) (Kartal)
آندروابنگ کورس جدید به نام پایتون هوش مصنوعی برای مبتدی ها را داده بیرون من هنوز شروع نکردم ببینم ولی شما از دست ندین:
آندروابنگ یئنی باشلایانلار اۆچون یاپای ذکاء پایتون آدلی یئنی کۇرس بۇراخدی. من هله اوْنو ایزلهمهیه باشلامامیشام، اما قاچیرمایین:
I’m delighted to announce AI Python for Beginners, a sequence of free short courses that teach anyone to code, regardless of background. I’m teaching this introductory course to help beginners take advantage of powerful trends that are reshaping computer programming. It’s designed for people in any field — be it marketing, finance, journalism, administration, or something else — who can be more productive and creative with a little coding knowledge, as well as those who aspire to become software developers. Two of the four courses are available now, and the remaining two will be released in September.
https://www.deeplearning.ai/short-courses/ai-python-for-beginners/
کانالیمیزی جانلی یایین:
https://t.iss.one/Machinelearning_Kartal
آندروابنگ یئنی باشلایانلار اۆچون یاپای ذکاء پایتون آدلی یئنی کۇرس بۇراخدی. من هله اوْنو ایزلهمهیه باشلامامیشام، اما قاچیرمایین:
I’m delighted to announce AI Python for Beginners, a sequence of free short courses that teach anyone to code, regardless of background. I’m teaching this introductory course to help beginners take advantage of powerful trends that are reshaping computer programming. It’s designed for people in any field — be it marketing, finance, journalism, administration, or something else — who can be more productive and creative with a little coding knowledge, as well as those who aspire to become software developers. Two of the four courses are available now, and the remaining two will be released in September.
https://www.deeplearning.ai/short-courses/ai-python-for-beginners/
کانالیمیزی جانلی یایین:
https://t.iss.one/Machinelearning_Kartal
www.deeplearning.ai
AI Python for Beginners - DeepLearning.AI
Learn Python programming with AI assistance. Gain skills in writing, testing, and debugging code efficiently, and create real-world AI applications.
👎9👍6
انتهای حقیقت، مرزی بین ما وجود نداره ما به هم پل میزنیم
هر كدام از ما تكه اى
از خاک اين سرزمين هستيم
و دامنه ى ديمِ دشوارى از كرانه هايش
هر كجا بايستيم
مرزهاى ميهنم انجاست..
آنگونه كه گل
نمى تواند از بوى خود بگريزد
ادميزاد از وطنش تفكيك ناپذير میشود
فيروزهى اصيل ايرانى
حتا بر تاج پادشاه كشور ديگرى باشد باز فيروزهى اصيل ايران است.
❤️🌻
هر كدام از ما تكه اى
از خاک اين سرزمين هستيم
و دامنه ى ديمِ دشوارى از كرانه هايش
هر كجا بايستيم
مرزهاى ميهنم انجاست..
آنگونه كه گل
نمى تواند از بوى خود بگريزد
ادميزاد از وطنش تفكيك ناپذير میشود
فيروزهى اصيل ايرانى
حتا بر تاج پادشاه كشور ديگرى باشد باز فيروزهى اصيل ايران است.
❤️🌻
❤44👎18👍7
Forwarded from DeepMind AI Expert
لیست کانال و گروه های ما :
▪️ گروه هوش مصنوعی: یادگیری عمیق و...
https://t.iss.one/DeepLearningAIExperts
▪️ گروه هوش مصنوعی: پردازش زبان طبیعی
https://t.iss.one/NLPExperts
▪️ کانال دکتر میثم عسگری
https://t.iss.one/ai_person
▪️ گروه لینوکس و پایتون و سایر...
https://t.iss.one/PythonLinuxExperts
با اشتراک گذاشتن این پست به دیده شدن و پیشرفت هموطنان خود کمک کنید. جایی برای پرسش و پاسخ و ارتباط با پژوهشگران علوم کامپیوتر و صنعت پیدا کنند.
▪️ گروه هوش مصنوعی: یادگیری عمیق و...
https://t.iss.one/DeepLearningAIExperts
▪️ گروه هوش مصنوعی: پردازش زبان طبیعی
https://t.iss.one/NLPExperts
▪️ کانال دکتر میثم عسگری
https://t.iss.one/ai_person
▪️ گروه لینوکس و پایتون و سایر...
https://t.iss.one/PythonLinuxExperts
با اشتراک گذاشتن این پست به دیده شدن و پیشرفت هموطنان خود کمک کنید. جایی برای پرسش و پاسخ و ارتباط با پژوهشگران علوم کامپیوتر و صنعت پیدا کنند.
👍6❤1👎1
Forwarded from RecommenderSystems
🔅 ابزارهای رایگان هوش مصنوعی برای پژوهشگران
▫️ typeset.io
پاسخ به سوال بر اساس مقالات
ساخت جدول اطلاعات از فایل مقاله
دستیار مطالعه مقاله
بازنویسی متن
▫️ researchrabbit.ai
دسته بندی مقالات
پیدا کردن و اتصال مقالات مشابه
▫️ glasp.co
یادداشت برداری از مقالات
▫️ bing.com
جستجو با هوش مصنوعی
سوال و جواب از فایل و سایت
دستیار مطالعه مقاله
درک و توضیح تصویر
▫️ https://gemini.google.com
جستجو با هوش مصنوعی
درک و توضیح تصویر
▫️ semanticscholar.org
جستجوی مقاله
پیدا کردن مقالات مشابه
▫️ consensus.app
پاسخ به سوال براساس مقاله
▫️ elicit.com
پاسخ به سوال بر اساس فایل مقاله
استخراج لیست مفاهیم برای مقاله
استخراج اطلاعات از مقالات
▫️ scite.ai
استناد جملات به مقالات
▫️ connectedpapers.com
پیدا کردن مقالات مشابه
▫️ scholarcy.com
خلاصه سازی مقاله
▫️ paperpal.com
کمک به نوشتار مقاله
✅ بهترین های هوش مصنوعی برای پژوهشگران
#هوش_مصنوعی #پژوهش #ابزار #ابزار_پژوهش
#AI #AI_Tools #ChatGPT #Best #BestTools #Best_Tools #Perplexity #Perplexity.ai #Copilot #ChatGPT4 #Word #Edit
#Research #Tools #ResearchTools #Research_Tools
@Recommender_Systems
▫️ typeset.io
پاسخ به سوال بر اساس مقالات
ساخت جدول اطلاعات از فایل مقاله
دستیار مطالعه مقاله
بازنویسی متن
▫️ researchrabbit.ai
دسته بندی مقالات
پیدا کردن و اتصال مقالات مشابه
▫️ glasp.co
یادداشت برداری از مقالات
▫️ bing.com
جستجو با هوش مصنوعی
سوال و جواب از فایل و سایت
دستیار مطالعه مقاله
درک و توضیح تصویر
▫️ https://gemini.google.com
جستجو با هوش مصنوعی
درک و توضیح تصویر
▫️ semanticscholar.org
جستجوی مقاله
پیدا کردن مقالات مشابه
▫️ consensus.app
پاسخ به سوال براساس مقاله
▫️ elicit.com
پاسخ به سوال بر اساس فایل مقاله
استخراج لیست مفاهیم برای مقاله
استخراج اطلاعات از مقالات
▫️ scite.ai
استناد جملات به مقالات
▫️ connectedpapers.com
پیدا کردن مقالات مشابه
▫️ scholarcy.com
خلاصه سازی مقاله
▫️ paperpal.com
کمک به نوشتار مقاله
✅ بهترین های هوش مصنوعی برای پژوهشگران
#هوش_مصنوعی #پژوهش #ابزار #ابزار_پژوهش
#AI #AI_Tools #ChatGPT #Best #BestTools #Best_Tools #Perplexity #Perplexity.ai #Copilot #ChatGPT4 #Word #Edit
#Research #Tools #ResearchTools #Research_Tools
@Recommender_Systems
❤7👍3👎1
منبع اصلی یادگیری Rust این کتاب
https://doc.rust-lang.org/book
اگه بخوای مثال ببینی چه جوری یه کاری انجام میدن
https://doc.rust-lang.org/rust-by-example
بهترین ویدیوها برای مفاهیم ابتدایی این کانال
https://www.youtube.com/watch?v=1QoT9fmPYr8
اگه بخوای سریع سینتکس رو یادبگیری و کلی بفهمی چه خبره
https://google.github.io/comprehensive-rust/
#برنامه_نویسی #منابع
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
https://doc.rust-lang.org/book
اگه بخوای مثال ببینی چه جوری یه کاری انجام میدن
https://doc.rust-lang.org/rust-by-example
بهترین ویدیوها برای مفاهیم ابتدایی این کانال
https://www.youtube.com/watch?v=1QoT9fmPYr8
اگه بخوای سریع سینتکس رو یادبگیری و کلی بفهمی چه خبره
https://google.github.io/comprehensive-rust/
#برنامه_نویسی #منابع
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
doc.rust-lang.org
Introduction - Rust By Example
Rust by Example (RBE) is a collection of runnable examples that illustrate various Rust concepts and standard libraries.
❤6👍1👎1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
۹ اگوست روز دست گرفتن همدیگه است تو سختیها دست همدیگه رو بگیرید.
#انگیزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
#انگیزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👎6👍5🤣4🙏2👏1
Forwarded from Deep Mind
نسل 3.1 لاما تغییرات جالبی رو با خودش همراه کرد.
این سری از مدلهای لاما در سه نسخه 8B، 70B و 405B منتشر شدن و یه تغییر بزرگ رو توی جامعه اوپن سورس رقم زدن. این تغییر بزرگ به واسطه انتشار بزرگترین مدل این سری یعنی Llama 3.1 405B اتفاق افتاده. مدلی با 405 میلیارد پارامتر که بزرگترین مدل اوپن سورس تا به امروز هست. تا حالا هیچ کمپانیای مدلی به این عظمت رو اوپن نکرده بود و این یعنی قراره شاهد اتفاقات بزرگی توی جامعه اوپن سورس باشیم.
سنجش کیفیت مدلها با استفاده از بنچمارکها اهمیت زیادی داره چون این کار به ما امکان میده تا عملکرد مدلها رو در شرایط مختلف ارزیابی کنیم و به مقایسه دقیقتری دست پیدا کنیم. بنچمارکها بهعنوان ابزارهای استاندارد برای اندازهگیری دقت و کارایی مدلها استفاده میشن و نتایج بهدستآمده کمک میکنه تا بهطور مؤثری نقاط قوت و ضعف مدلها شناسایی بشه و بهبودهای لازم اعمال بشه. حالا با توجه به اهمیت این ارزیابیها، نگاهی میندازیم به نتایج بنچمارک مدلهای جدید لاما و تغییرات کلیدی که با خودشون به همراه داشتن.
این مدل روی 150 تا بنچمارک مختلف سنجیده شده و اتفاق جالب اینه که توی بنچمارکهایی که متا منتشر کرده، به سطحی نزدیک به Claude 3.5 Sonnet، GPT-4 و GPT-4o رسیده و حتی توی بعضی بنچمارکها بهتر عمل کرده. مثلا توی بنچمارک IFeval که مربوط به Instruction following هست، از هردوی Claude Sonnet 3.5 و GPT-4o بهتر عمل کرده.
این نتایج نشون میدن که پیشرفت های موثری تو پرفورمنس مدل های اوپن سورس در حال صورت گرفتن هست.
در رابطه با دو نسخه کوچیک 8 و 70 میلیاردی،
دو تغییر اصلی این دو مدل شامل طول کانتکست 128K و پشتیبانی از چند زبان مختلف مثل انگلیسی، فرانسوی، آلمانی، هندی، ایتالیایی، پرتغالی، اسپانیایی و تای هستن. متأسفانه، زبان فارسی هنوز بهصورت رسمی به این مدلها اضافه نشده. البته، این مدلها میتونن تا حدی فارسی صحبت کنن، اما نمیشه بهشون اعتماد کامل داشت و امیدواریم تو آپدیتهای بعدی زبان فارسی هم بهصورت کامل پشتیبانی بشه.
و همینطور عملکرد مدلهای این نسل توی کدنویسی خیلی بهتر شده.
درکل جز تغییراتی که گفته شد تغییر خیلی مهم دیگه ای صورت نگرفته و این دو مدل صرفا اپدیتی از مدل های قبلی نسل ۳ هستن.
جزییات فنی:
- دیتا: دیتای آموزشی این نسل نسبت به نسل قبل خیلی بزرگتر و باکیفیتتر شده. حجم دیتا حدود 15.6 تریلیون توکن هست که تقریباً 8 برابر دیتای نسل قبلی لاما (نسل 2) هست.
- آموزش: مدل 405B با 3.8 × 10**25 FLOPs روی 15.6T توکن آموزش داده شده. این مدل چند ماه توی فاز آموزش بوده و روی 16000 تا تراشه H100 آموزش دیده که در مجموع به 39.3 میلیون ساعت محاسباتی GPU میرسه و چند صد میلیون دلار هزینه داشته. همچنین مدلهای این سری روی 10 میلیون سوال و جواب انسانی و 25 میلیون داده مصنوعی (synthetic) فاینتیون شدن. توی این فرآیند از SFT و DPO استفاده شده. SFT یعنی مدل رو با دادههای واقعی که انسانها آماده کردن، بهبود دادن. DPO هم روشی برای تنظیم مدل هست که بر اساس ترجیحات انسانی، دادههای مصنوعی ایجاد میکنه تا عملکرد مدل بهتر بشه.
- معماری: توی معماری این سری خبری از روشهای پیچیدهای مثل MoE نیست و از یک معماری ساده Decoder Only استفاده شده. همه مدلهای این سری از تکنیکی به نام GQA یا Grouped Query Attention استفاده میکنن. GQA یه روش هست که با بهینه کردن عملکرد الگوریتم اتنشن، کمک میکنه مدل در طول آموزش، پایداری و کارایی بهتری داشته باشه.
همچنین، مدل رو از فرمت BF16 به FP8 کوانتایز کردن تا حجمش کمتر بشه و جالبه که میگن اینکار باعث شده بتونن مدل رو روی یه نود سرور واحد اجرا کنن.
اجرا و تست مدلها:
مشخصاً مدل بزرگ رو نمیتونین بهصورت لوکال اجرا کنین و باید از پروایدرهای third-party استفاده کنین. متا با 25 تا سرویس قرارداد داره مثل Nvidia Nims, fire works, ... که مدل هارو ارائه میدن. برای تست نسخههای کوچیکتر میتونین از Ollama استفاده کنین. برای استفاده از نسخه 8B کوانتایز شده میتونین با 4090 لودش کنین و نسخه کوانتایز شده 70B هم با A100، L40 یا L40S قابل اجراست.
همچنین از طریق پلتفرم ما هم میتونین از همه مدل های این سری استفاده کنین
نکات اضافی:
- متا گفته که قراره نسلهای جدید لاما MultiModal باشن.
- متا به زودی یه سرویس API برای این مدلها ایجاد میکنه که با Bing هم سازگار خواهد بود.
این سری از مدلهای لاما در سه نسخه 8B، 70B و 405B منتشر شدن و یه تغییر بزرگ رو توی جامعه اوپن سورس رقم زدن. این تغییر بزرگ به واسطه انتشار بزرگترین مدل این سری یعنی Llama 3.1 405B اتفاق افتاده. مدلی با 405 میلیارد پارامتر که بزرگترین مدل اوپن سورس تا به امروز هست. تا حالا هیچ کمپانیای مدلی به این عظمت رو اوپن نکرده بود و این یعنی قراره شاهد اتفاقات بزرگی توی جامعه اوپن سورس باشیم.
سنجش کیفیت مدلها با استفاده از بنچمارکها اهمیت زیادی داره چون این کار به ما امکان میده تا عملکرد مدلها رو در شرایط مختلف ارزیابی کنیم و به مقایسه دقیقتری دست پیدا کنیم. بنچمارکها بهعنوان ابزارهای استاندارد برای اندازهگیری دقت و کارایی مدلها استفاده میشن و نتایج بهدستآمده کمک میکنه تا بهطور مؤثری نقاط قوت و ضعف مدلها شناسایی بشه و بهبودهای لازم اعمال بشه. حالا با توجه به اهمیت این ارزیابیها، نگاهی میندازیم به نتایج بنچمارک مدلهای جدید لاما و تغییرات کلیدی که با خودشون به همراه داشتن.
این مدل روی 150 تا بنچمارک مختلف سنجیده شده و اتفاق جالب اینه که توی بنچمارکهایی که متا منتشر کرده، به سطحی نزدیک به Claude 3.5 Sonnet، GPT-4 و GPT-4o رسیده و حتی توی بعضی بنچمارکها بهتر عمل کرده. مثلا توی بنچمارک IFeval که مربوط به Instruction following هست، از هردوی Claude Sonnet 3.5 و GPT-4o بهتر عمل کرده.
این نتایج نشون میدن که پیشرفت های موثری تو پرفورمنس مدل های اوپن سورس در حال صورت گرفتن هست.
در رابطه با دو نسخه کوچیک 8 و 70 میلیاردی،
دو تغییر اصلی این دو مدل شامل طول کانتکست 128K و پشتیبانی از چند زبان مختلف مثل انگلیسی، فرانسوی، آلمانی، هندی، ایتالیایی، پرتغالی، اسپانیایی و تای هستن. متأسفانه، زبان فارسی هنوز بهصورت رسمی به این مدلها اضافه نشده. البته، این مدلها میتونن تا حدی فارسی صحبت کنن، اما نمیشه بهشون اعتماد کامل داشت و امیدواریم تو آپدیتهای بعدی زبان فارسی هم بهصورت کامل پشتیبانی بشه.
و همینطور عملکرد مدلهای این نسل توی کدنویسی خیلی بهتر شده.
درکل جز تغییراتی که گفته شد تغییر خیلی مهم دیگه ای صورت نگرفته و این دو مدل صرفا اپدیتی از مدل های قبلی نسل ۳ هستن.
جزییات فنی:
- دیتا: دیتای آموزشی این نسل نسبت به نسل قبل خیلی بزرگتر و باکیفیتتر شده. حجم دیتا حدود 15.6 تریلیون توکن هست که تقریباً 8 برابر دیتای نسل قبلی لاما (نسل 2) هست.
- آموزش: مدل 405B با 3.8 × 10**25 FLOPs روی 15.6T توکن آموزش داده شده. این مدل چند ماه توی فاز آموزش بوده و روی 16000 تا تراشه H100 آموزش دیده که در مجموع به 39.3 میلیون ساعت محاسباتی GPU میرسه و چند صد میلیون دلار هزینه داشته. همچنین مدلهای این سری روی 10 میلیون سوال و جواب انسانی و 25 میلیون داده مصنوعی (synthetic) فاینتیون شدن. توی این فرآیند از SFT و DPO استفاده شده. SFT یعنی مدل رو با دادههای واقعی که انسانها آماده کردن، بهبود دادن. DPO هم روشی برای تنظیم مدل هست که بر اساس ترجیحات انسانی، دادههای مصنوعی ایجاد میکنه تا عملکرد مدل بهتر بشه.
- معماری: توی معماری این سری خبری از روشهای پیچیدهای مثل MoE نیست و از یک معماری ساده Decoder Only استفاده شده. همه مدلهای این سری از تکنیکی به نام GQA یا Grouped Query Attention استفاده میکنن. GQA یه روش هست که با بهینه کردن عملکرد الگوریتم اتنشن، کمک میکنه مدل در طول آموزش، پایداری و کارایی بهتری داشته باشه.
همچنین، مدل رو از فرمت BF16 به FP8 کوانتایز کردن تا حجمش کمتر بشه و جالبه که میگن اینکار باعث شده بتونن مدل رو روی یه نود سرور واحد اجرا کنن.
اجرا و تست مدلها:
مشخصاً مدل بزرگ رو نمیتونین بهصورت لوکال اجرا کنین و باید از پروایدرهای third-party استفاده کنین. متا با 25 تا سرویس قرارداد داره مثل Nvidia Nims, fire works, ... که مدل هارو ارائه میدن. برای تست نسخههای کوچیکتر میتونین از Ollama استفاده کنین. برای استفاده از نسخه 8B کوانتایز شده میتونین با 4090 لودش کنین و نسخه کوانتایز شده 70B هم با A100، L40 یا L40S قابل اجراست.
همچنین از طریق پلتفرم ما هم میتونین از همه مدل های این سری استفاده کنین
نکات اضافی:
- متا گفته که قراره نسلهای جدید لاما MultiModal باشن.
- متا به زودی یه سرویس API برای این مدلها ایجاد میکنه که با Bing هم سازگار خواهد بود.
👍7❤3👎2🔥1