Tensorflow(@CVision)
15.2K subscribers
1.29K photos
310 videos
81 files
2.54K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت:
https://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

لینک گروه:
@tf2keras
Download Telegram
Media is too big
VIEW IN TELEGRAM
ChatGPT
برای تولید پرامت

Midjourney
برای ایجاد تصاویر مرجع

برای تبدیل کردن تصاویر به ویدیو از مدل های
Runway Gen-3
استفاده شده بطوریکه حرکت دوربین و آنچه در تصویر می‌بینید برای مدل توصیف شده

Elevenlabs
برای افکت‌های صوتی

Suno AI
برای موسیقی
👍18🤯5👏4
Forwarded from School of AI (Hamidreza Hosseinkhani)
پدیده‌ی Double Descent


در یادگیری ماشین، می‌دانید که اگر مدل خیلی ساده‌تر از حد نیاز باشد، آموزش نمی‌بیند و درنهایت، پس از چند تلاش، کم‌برازش (Underfit) خواهد شد. هرچه مدل را پیچده‌تر کنیم (مثلا تعداد پارامترها را بیش‌تر کنیم)، بیش‌تر آموزش می‌بیند و قابلیت تعمیم (Generalization) آن به‌تر می‌شود. این به‌ترشدن قابلت تعمیم، از روی کاهش مقدار خطا به‌ازای داده‌های ارزیابی مشخص‌ست.

اما این خطا تا کجا کاهش می‌یابد؟ آیا هرچه‌قدر مدل پیچیده‌تر شود، خطای ارزیابی آن کمتر و قابلیت تعمیم آن بیش‌تر می‌شود؟!

در مدل‌های ساده‌تر و سنتی‌تر یادگری ماشین، هرچه مدل پیچیده‌تر می‌شد، نیاز به داده‌ی آموزشی بیش‌تری هم داشت. بنابراین با ثابت بودن سایز مجموعه داده، افزایش پیچیدگی از یک‌جا به بعد باعث بیش‌برازش (Overfitting) مدل و حفظ‌کردن داده‌ها و نویزها می‌شد و قابلیت تعمیم مدل از بین می‌رفت.

اما در دنیای مدل‌های جدید (مثلا مدل‌های زبانی بزرگ) شاهد آن‌یم که مدل هرچه بزرگ‌تر و پیچیده‌تر می‌شود قدرت‌مندتر و قابل تعمیم‌تر می‌شود! این تناقض ناشی از چی‌ست؟!

از پدیده‌ی جالبی به‌نام Double Descent که در شبکه‌های عصبی بسیار بزرگ دیده می‌شود. نوعی Regularization ضمنی که ظاهرا به‌علت رویه‌ی آموزش (مثلا الگوریتم کاهش گرادیان) اتفاق می‌افتد. در این حالت، با پیچیده‌تر شدن مدل (مثلا بیشترشدن تعداد پارامترها)، ابتدا خطای ارزیابی کاهش یافته، پس از آن در جایی با پدیده‌ی بیش‌برازش روبه‌رو شده و خطای ارزیابی افزایش می‌یابد، اما با پیچیده‌ترشدن مدل، از جایی به بعد، برای بار دوم خطای ارزیابی کاهشی شده و عمومیت مدل به‌تر می‌شود!

تصویر زیر را ببینید 👇👇👇
👍18
Forwarded from School of AI (Hamidreza Hosseinkhani)
👍11
ربات انسان‌نمایی که ادعا میشه قدرتمندترین در جهان است، معرفی شد.

این ربات با نام Figure 02 معرفی شده و با حرکات ظریف و طبیعی خود، یک قدم به شبیه‌سازی دقیق حرکات انسان نزدیک‌تر شده

شرکت سازنده این ربات، Figure Robotics نام داره. این شرکت از حمایت شرکت‌های بزرگی مانند OpenAI، انویدیا، مایکروسافت و حتی جف بزوس (بنیانگذار آمازون) برخورداره

در کارخانه‌ی BMW، چه بلند کردن قطعات فولادی باشه چه مونتاژ ابزارآلات، این ربات از پس همه برمیاد

طبق اطلاعات ارائه شده، این ربات دارای 16 درجه آزادی در دست‌های خودش هست که به اون اجازه می‌ده وزنی معادل یک انسان را تحمل کنه

این ربات قادر به انجام انواع کارهای سخت و خسته‌کننده ست علاوه بر این، مدیرعامل شرکت سازنده، ادعا میکنه  که این ربات میتونه تا 20 ساعت به طور مداوم کار کنه

با بهره‌گیری از مدل‌های بزرگ زبانی OpenAI، توانایی این ربات در مکالمه و گفتگو به سطح بسیار بالایی رسیده 

این ربات حالا قادره به صورت روان و مستقیم با انسان‌ها صحبت کنه. این ویژگی به لطف توانایی‌های پیشرفته‌ی پردازش زبان طبیعی هست که از مدل‌های زبانی بزرگ OpenAI نشأت می‌گیره
Tensorflow(@CVision)
ربات انسان‌نمایی که ادعا میشه قدرتمندترین در جهان است، معرفی شد. این ربات با نام Figure 02 معرفی شده و با حرکات ظریف و طبیعی خود، یک قدم به شبیه‌سازی دقیق حرکات انسان نزدیک‌تر شده شرکت سازنده این ربات، Figure Robotics نام داره. این شرکت از حمایت شرکت‌های…
طبق اعلام رسمی، ربات Figure 02 از نظر سخت‌افزار و نرم‌افزار دستخوش تغییرات اساسی شده. برخی از مهم‌ترین ویژگی‌های جدید این ربات عبارتند از:

سیستم بینایی پیشرفته: مجهز به 6 دوربین باکیفیت و هوش مصنوعی برای درک بهتر محیط اطراف.

باتری قدرتمندتر: عمر باتری 50 درصد افزایش یافته

قدرت محاسباتی بیشتر: توانایی پردازش اطلاعات و یادگیری ماشینی سه برابر شده

دست‌های ماهرتر: نسل چهارم دست‌های ربات با ظرفیت حمل 25 کیلوگرم

طراحی بهبودیافته: سیم‌کشی داخلی بهینه شده و ظاهر ربات زیباتر و قابل اعتمادتر شده

ساختار مستحکم‌تر: استفاده از ساختار بیرونی (اگزواسکلتون) برای افزایش استحکام و پایداری.

گفتگوی صوتی مستقیم: امکان برقراری ارتباط صوتی روان و بدون واسطه با ربات.


در قسمت سر، تنه‌ی جلو و تنه‌ی عقب در مجموع 6 دوربین مجهز شده که همراه با یک مدل زبانی بصری روی خود ربات کار می‌کنه

این ربات با استفاده از سیستم بینایی مبتنی بر هوش مصنوعی، قادره که دنیای فیزیکی را درک کنه و موقعیت اشیاء را تشخیص بده و استدلال‌های بصری ساده را انجام بده
Tensorflow(@CVision)
طبق اعلام رسمی، ربات Figure 02 از نظر سخت‌افزار و نرم‌افزار دستخوش تغییرات اساسی شده. برخی از مهم‌ترین ویژگی‌های جدید این ربات عبارتند از: سیستم بینایی پیشرفته: مجهز به 6 دوربین باکیفیت و هوش مصنوعی برای درک بهتر محیط اطراف. باتری قدرتمندتر: عمر باتری 50…
شرکت Figure AI در سال 2022 تأسیس شد و در سال 2023 اولین محصول خود یعنی Figure 01 را معرفی کرد. طبق ادعای شرکت Figure 01 اولین ربات انسان‌نمای تجاری در جهانه

در ماه فوریه‌ی امسال، این شرکت موفق شد مبلغ 6.75 میلیارد دلار را از سرمایه‌گذاران بزرگی مثل OpenAI، مایکروسافت، انویدیا و جف بزوس جذب کنه، با این سرمایه‌گذاری، ارزش این شرکت به 26 میلیارد دلار رسید و به یکی از جذاب‌ترین شرکت‌های فعال در حوزه ربات‌های انسان‌نما تبدیل شد

تنها چند هفته بعد، ربات Figure 01 با بهره‌گیری از مدل‌های زبانی بزرگ OpenAI به نمایش گذاشته شد. این ربات به لطف این ارتقاء، توانایی شنیدن، صحبت کردن و انجام حرکات پیچیده را پیدا کرده بود و همه را شگفت‌زده کرده
Tensorflow(@CVision)
اکثر عموم جامعه درگیر مسایل عام و روزمره ای مثل تورم، مسایل مربوط به سلامتی، دنبال کردن اخبار جنگ، سیاستمداران و ... هستند اما جنگ اصلی در بکارگیری قدرت هوش مصنوعی خلاصه شده بخوابم بپذیریم یا نه اکثر مردم از دیدگاه گردانندگان قدرت موجوداتی مصرف گرا و هزینه…
قبلا در این مورد بحث کرده بودیم، کارگران انسانی شغل خودشون رو به دو دلیل عمده در دنیای مبتنی بر هوش مصنوعی از دست خواهند داد

یک: نبود مهارت
دو : سرعت پایین تطبیق پذیری

کسی که نتونه مهارت هاش رو با هوش مصنوعی تلفیق کنه در طوفان پیشرفت های هوش مصنوعی محو خواهد شد. در واقع کسی برنده هست که بتونه قدرت هوش مصنوعی رو به عنوان ابزار کارامند در کسب و کارش به کار ببنده، اما چرا ؟

یک افزایش سود دو کاهش هزینه های انسانی!

همینطور که مطلعید شرکت اینتل چند روز پیش اعلام کرد که بیش از ۱۰ هزار نفر از کارمندان خودش رو اخراج خواهد کرد و هزینه‌های خود را ۱۰ میلیارد دلار کاهش خواهد داد.

این کار با سه هدف عمده انجام شد

کاهش سود و درآمد: اینتل در ماه‌های اخیر با کاهش قابل توجه سود و درآمد روبرو بوده

افزایش هزینه‌ها: هزینه‌های عملیاتی اینتل به دلیل رقابت شدید در بازار و سرمایه‌گذاری‌های سنگین، افزایش یافته

نیاز به بازنگری در استراتژی: اینتل در تلاشه تا با تغییر استراتژی خود و کاهش هزینه‌ها، به سودآوری برسه

این موضوع رو به دولت ها خصوصا دولت ایران که یک ساختار اداری بسیار ناکارآمد با کارمندان زیاد داره بسط بدید. دولت بزرگ یعنی هزینه های زیاد، هزینه های زیاد در جایی که درآمد و سود در خروجی ساختار بی معناست منجر به افزایش اعتبار در سیستم بانکی و در نهایت خلق پول بدون پشتوانه می‌شود . خلق پول بدون پشتوانه در نهایت منجر به تورم و تورم ریشه تمام فساد های انسانی در بعد فرهنگی، اخلاقی، اقتصادی و ... در دنیای نوین هست
👍14
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت ژیژو AI برای اولین بار یک مدل متن به ویدیو رو به صورت متن‌باز منتشر کرد

شرکت های چینی با سرعت بسیار زیادی در حال رقابت با مدل های آمریکایی مثل Sora هستند که در یک ماه اخیر مدل های بسیار خوبی رو عرضه کردن

این اولین مدل هوش مصنوعی تولید ویدیو هست که برای استفاده تجاری آزاده .در عرض 5 ساعت، این پروژه در گیت‌هاب بیش از ۴ هزار ستاره گرفته

لازم به ذکر که مدل CogVideoX شرکت ژیژو AI در چندین اندازه مختلف ارائه میشه و مدلی که این بار به صورت متن‌باز منتشر شده، CogVideoX-2B هست

این مدل برای inference با دقت FP-16 تنها به 18 گیگابایت حافظه گرافیکی نیاز داره، البته خروجی که من با اجرای مدل روی کارت گرافیک RTX 4090 گرفتم زیاد قابل قبول نبود

متن پرامتی که برای ویدیو بالا وارد وارد کردم:
Achaemenid soldiers are playing football. A number of spectators dressed in ancient Iranian clothing are cheering them on. The camera pans around the filed

https://github.com/THUDM/CogVideo
12👍3😁1😢1
به طور کلی، برای استفاده از مدل‌های زبانی بزرگ روی دستگاه‌های شخصی مثل گوشی، کامپیوتر یا دستگاه‌های کوچک مثل رزبری پای، باید دو مشکل اصلی رو حل کنیم: مشکل فضای ذخیره سازی و مشکل محاسبات.

یکی از روش‌های معمول برای حل این مشکل، کاهش دقت مدل هست. یعنی اینکه اعداد داخل مدل رو به جای اینکه با دقت خیلی بالا ذخیره کنیم، با دقت کمتری ذخیره می‌کنیم. مثلاً به جای اینکه هر عدد رو با 32 بیت ذخیره کنیم، با 4 یا 3 بیت ذخیره‌ش می‌کنیم. این کار باعث میشه که حجم مدل خیلی کمتر بشه و محاسبات هم ساده‌تر و سریع‌تر انجام بشن.

اما این به این معنیه که در هنگام انجام محاسبات، ما نیاز به انجام یک نوع خاص از ضرب ماتریس داریم که در آن از اعداد با دقت‌های مختلف استفاده می‌شه. این نوع ضرب ماتریس، ضرب ماتریس با دقت مختلط (mpGEMM) نامیده میشه. در این نوع ضرب، وزن‌های مدل از دقت کمتری برخوردار هستند، در حالی که مقادیر فعال‌سازی (که نتایج محاسبات قبلی هستند) از دقت بالاتری برخوردارند.

https://www.tensorflow.org/guide/mixed_precision
👍9😁1
Tensorflow(@CVision)
به طور کلی، برای استفاده از مدل‌های زبانی بزرگ روی دستگاه‌های شخصی مثل گوشی، کامپیوتر یا دستگاه‌های کوچک مثل رزبری پای، باید دو مشکل اصلی رو حل کنیم: مشکل فضای ذخیره سازی و مشکل محاسبات. یکی از روش‌های معمول برای حل این مشکل، کاهش دقت مدل هست. یعنی اینکه…
با این حال، سیستم‌ها و سخت‌افزارهای موجود به طور طبیعی از این نوع ضرب ماتریس پشتیبانی نمی‌کنند. بنابراین، معمولاً وزن‌های مدل با دقت پایین رو به دقت بالاتر تبدیل می‌کنند تا بتوان از اونها در محاسبات استفاده کرد. این فرایند رو "کوانتیزاسیون معکوس" می‌نامند.

برای حل این مشکل، تکنولوژی جدیدی به نام T-MAC از یک روش محاسباتی جدید استفاده می‌کنه که بر اساس "جدول جستجو" هست. با استفاده از این روش، نیازی به تبدیل وزن‌ها به دقت بالاتر نیست و میتونیم مستقیماً ضرب ماتریس با دقت مختلط رو انجام داد.

به این ترتیب، T-MAC نه تنها عملکرد استنتاج (inference) رو بهبود می‌بخشه، بلکه مدل رو یکپارچه‌تر و قابل توسعه‌تر می‌کند. به خصوص برای دستگاه‌های کم‌مصرف و با منابع محدود بسیار مناسب است.

علاوه بر این، T-MAC به شتاب‌دهنده‌های سخت‌افزاری خاصی مانند NPU یا GPU وابسته نیست و می‌تونه فقط با استفاده از CPU مدل رو اجرا کنه. حتی در برخی موارد، سرعت استنتاج اون میتونه از شتاب‌دهنده‌های تخصصی هم بیشتر باشه.

وقتی مدل llama-2-7B-4bit را اجرا می‌کنیم، حتی با استفاده از پردازنده‌های تخصصی هوش مصنوعی (NPU) هم می‌توانیم حداکثر 10.4 توکن در ثانیه تولید کنیم. اما با استفاده از پردازنده معمولی (CPU) و تکنولوژی T-MAC، با تنها دو هسته پردازنده می‌تونیم به سرعت 12.6 توکن در ثانیه برسیم و در بهترین حالت، این سرعت تا 22 توکن در ثانیه هم می‌رسه


حتی روی دستگاهی با مشخصات پایین مثل رزبری پای 5، تکنولوژی T-MAC می‌تونه مدل 3B BitNet-b1.58 رو با سرعت 11 توکن در ثانیه اجرا کنه

https://github.com/microsoft/T-MAC
👍14
مدل زبانی جدیدی به نام Falcon Mamba 7B معرفی شده که خیلی قدرتمنده! این مدل میتونه متن‌های خیلی بلند رو بدون اینکه نیاز به سخت‌افزار خیلی قوی داشته باشه، پردازش کنه. این یعنی می‌تونه کارهای خلاقانه‌ای مثل نوشتن داستان یا مقاله انجام بده

این مدل بر پایه نسل اول Mamba ساخته شده

Mamba
یک مدل فضای حالته (State Space Model) که ویژگی‌های شبکه‌های عصبی بازگشتی (RNN) و شبکه‌های عصبی کانولوشنی (CNN) را در خود جای داده . با استفاده از یک مکانیزم انتخابی، این مدل می‌توانه بسته به ورودی فعلی، اطلاعات را به طور انتخابی حفظ یا فراموش کنه و به این ترتیب، کارایی پردازش متن را بهبود بخشه

علاوه بر این، Mamba از یک الگوریتم موازی طراحی شده برای سخت‌افزار استفاده می‌کنه که به صورت بازگشتی اجرا می‌شه و از دسترسی‌های ورودی/خروجی بین سطوح حافظه GPU جلوگیری می‌کنه، در نتیجه باعث افزایش کارایی محاسباتی میشه

با حذف مکانیزم attention، به طور موثر مشکل کندی محاسبات مدل در پردازش دنباله‌های طولانی را برطرف کرده از طرفی این مدل می‌توانه دنباله‌هایی با طول نامحدود را پردازش کنه، بدون اینکه نیاز به حافظه بیشتری داشته باشه

صرف نظر از طول متن زمینه، زمان تولید هر توکن تقریباً ثابت هستش!

https://huggingface.co/blog/falconmamba#hardware-performance
👍192
doubao
 قابلیت تولید موسیقی را راه اندازی کرد: کاربران می‌تونن با یک کلیک، شعر و موسیقی تولید کنن

 هوش مصنوعی "دو بائو" متعلق به شرکت بایت‌دنس، قابلیت تولید موسیقی را راه اندازی کرده. کاربران می‌توانن با وارد کردن یک موضوع یا متن ترانه‌ای که خودشان نوشته‌ان در بخش "تولید موسیقی" دو بائو، سبک، احساس و صدای موسیقی را انتخاب کنن و در عرض حدود یک دقیقه، یک آهنگ کامل تولید کنن. به این ترتیب، هر کسی می‌توانه لذت خلق و بیان موسیقیایی را تجربه کنه!

در حال حاضر، این مدل قابلیت تولید موسیقی در 11 سبک مختلف مانند فولک، هیپ هاپ، آر اند بی و همچنین سبک‌های کمتر شناخته شده‌ای مانند جاز، رگی و موسیقی الکترونیک را ارائه می‌ده. کاربران می‌تونن صدای خواننده را به صورت مردانه یا زنانه انتخاب کنن. صدای تولید شده، از نظر وضوح کلمات و روان بودن بسیار خوب عمل میکنه. همچنین، برای اینکه موسیقی تولید شده توسط هوش مصنوعی بتونه احساسات کاربران را بهتر بیان کنه، این مدل حالات احساسی مختلفی مانند شادی، غم و ... را به صورت پیش‌فرض تنظیم کرده. با استفاده از doubao، کاربران می‌تونند موسیقی‌هایی با ویژگی‌های شخصی خودشون بسازن

https://www.doubao.com/chat/?from_logout=1
👌3👍1
Tensorflow(@CVision)
doubao  قابلیت تولید موسیقی را راه اندازی کرد: کاربران می‌تونن با یک کلیک، شعر و موسیقی تولید کنن  هوش مصنوعی "دو بائو" متعلق به شرکت بایت‌دنس، قابلیت تولید موسیقی را راه اندازی کرده. کاربران می‌توانن با وارد کردن یک موضوع یا متن ترانه‌ای که خودشان نوشته‌ان…
به عنوان مثال، اگر عبارت "یک نفر در عصر تابستان در حال دوچرخه‌سواری است و غروب خورشید نارنجی رنگ را در دوردست می‌بیند" را وارد کنین و سبک موسیقی را روی "آر اند بی" و احساس را روی "عاشقانه" تنظیم کنید، این مدل به طور خودکار یک قطعه موسیقی و متن ترانه مرتبط با آن را می‌نویسه و می‌سازه و بر اساس متن ترانه، کاور آهنگ را نیز به طور خودکار طراحی می‌کنه
7👍1
این هوش مصنوعی نه تنها کد مینویسه، بلکه می‌تونه مشکلات را حل کنه و تصمیمات منطقی بگیره، درست مانند یک برنامه‌نویس انسانی اون هم فقط در عرض ۸۴ ثانیه و تیم توسعه دهنده این مدل فقط از پنج نفر تشکیل شده. این مدل که 
Genie
 نام داره و ادعا میکنه که در حال حاضر قدرتمندترین هوش مصنوعی روی زمینه و می‌تونه مانند انسان فکر و عمل کنه

به چهار روش مختلف میتونید Genie را به کار بگیرین که یکی از اون روشهای جالب توجه دادن لینک issue در گیت‌هاب به مدل هست 

به عنوان مثال، برای حل یک Issue در گیت‌هاب، ابتدا لینک یک مخزن (repo) را به Genie می‌دهم. پس از اون، Genie به طور خودکار شروع به تحلیل اون مسئله می‌کنه

تصور کنین شما به Genie بگین که یک باگ در برنامتون وجود داره. Genie شروع می‌کنه به بررسی کدهای شما، فایل‌های تنظیمات و هر چیز دیگری که فکر کنه که ممکنه به اون کمک کنه تا مشکل را پیدا کنه. این مدل این کار را تا زمانی ادامه می‌ده که به خط کد مشکل‌دار برسه

Genie
 پس از انجام تحلیل‌های لازم، به طور خودکار شروع به تولید کد و اجرای اون می‌کنه تا ببینه که آیا مشکل حل شده یا خیر

اگر در حین اجرای کد، خطایی رخ بده، Genie تنها به بخش‌هایی که مشکل دارن برمی‌گرده و دوباره اون‌ها را تحلیل، کد‌نویسی و اجرا می‌کنه تا زمانی که کد بدون هیچ مشکلی اجرا شه و تمام این کارها فقط 84 ثانیه طول می‌کشه!

سرعت تحولات اینقدر در این حوزه بالاست که واقعا بروز بودن غیر ممکنه!

https://cosine.sh/blog/genie-technical-report
🔥18👍74
از یه LLM مثل جی‌پی‌تی۴ بخوای بوی یه چادر مسافرتی خیس بارون رو حس کنه، خیلی مودبانه میگه نه. ولی اگه ازش بخوای اون بو رو برات توصیف کنه، شروع می‌کنه به شعر گفتن از «هوای پر از انتظار» و «بوی تازه و خاکی»، بدون اینکه اصلا بارون دیده باشه یا دماغ داشته باشه که بتونه اینجوری قضاوت کنه! یه توضیح ممکن اینه که هوش مصنوعی داره فقط از روی متن‌هایی که تو داده‌های آموزشی زیادش بوده، تقلید می‌کنه، نه اینکه واقعا بوی بارون یا چیزی دیگه رو درک کنه.

اما اینکه چشم ندارن، یعنی مدل‌های زبانی هیچوقت نمی‌تونن بفهمن که شیر از گربه خونگی بزرگتره؟

فیلسوفا و دانشمندان مدت‌ها فکر می‌کردن که توانایی فهمیدن معنی زبان، نشونه‌ی هوش انسانیه و درمورد اینکه چه چیزایی لازم داریم تا بتونیم این کار رو انجام بدیم، زیاد اندیشیدن

دانشمندان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) در تلاش برای کشف راز کارکرد مدل‌های زبانی، نتایج جالبی پیدا کردن. به نظر می‌رسه این مدل‌ها برای بهتر جواب دادن، دارن سعی می‌کنن دنیای واقعی رو خودشون بفهمند.

این تیم اول یه سری پازل ساده به اسم کارل ساختن. این پازلا درباره دادن دستور به یه ربات تو یه دنیای شبیه‌سازی شده بود. بعد این مدل رو با راه حل های این پازلا آموزش دادن، اما بدون اینکه نشون بدن راه حل ها چطور کار می‌کنن. در آخر، با استفاده از یه تکنیک هوش مصنوعی به اسم "probing"، دانشمندان رفتن داخل ذهن مدل و دیدن که وقتی داره جواب جدید می‌سازه، چطور فکر می‌کنه.

بعد از اینکه مدل رو با تعداد زیادی پازل آموزش دادن، مدل خودش یه تصویر ذهنی از دنیایی که توش پازلا حل می‌شد، ساخته. این خیلی جالبه چون مدل هیچ وقت این دنیا رو ندیده بود.
یعنی مدل توانسته با استفاده از اطلاعات پازلاها، خودش یه دنیای مجازی بسازه و درکش کنه. این باعث شده که دانشمندا به این فکر کنن که شاید برای یادگیری زبان، به اطلاعات کمتری از اون چیزی که فکر می‌کردیم نیاز داریم. همچنین، این احتمال وجود داره که مدل‌های زبانی در آینده بتونن خیلی بهتر از الان زبان رو بفهمند.

نویسندگان مقاله میگن اولش که شروع کردیم، مدل زبانی دستورهای بیخود و الکی می‌داد. اما کم کم که آموزشش دادیم، رسیدیم به جایی که مدل تونست تو ۹۲.۴ درصد مواقع دستورهای درست بده. این خیلی برامون هیجان‌انگیز بود چون فکر کردیم اگه مدل بتونه با این دقت کار کنه، شاید بتونه معنی کلمات رو هم بفهمه. این شد نقطه شروع ما برای فهمیدن اینکه آیا مدل‌های زبانی واقعا متن رو می‌فهمن یا نه. حالا می‌بینیم که این مدل‌ها خیلی بیشتر از اینکه فقط کلمات رو کنار هم بچینن، کار بلدن

ادمه دارد ...

https://arxiv.org/pdf/2305.11169
17👍11
Tensorflow(@CVision)
از یه LLM مثل جی‌پی‌تی۴ بخوای بوی یه چادر مسافرتی خیس بارون رو حس کنه، خیلی مودبانه میگه نه. ولی اگه ازش بخوای اون بو رو برات توصیف کنه، شروع می‌کنه به شعر گفتن از «هوای پر از انتظار» و «بوی تازه و خاکی»، بدون اینکه اصلا بارون دیده باشه یا دماغ داشته باشه…
probe

وظیفه داشت بفهمه مدل زبانی چطور فکر می‌کنه و دستورها چه معنی میدن. معلوم شد که مدل زبانی یه تصویر ذهنی از حرکت ربات برای هر دستور می‌سازه. هر چی مدل زبانی بهتر می‌تونست پازل‌ها رو حل کنه، این تصویر ذهنی هم دقیق‌تر می‌شد. این یعنی مدل زبانی داشت کم کم معنی دستورها رو می‌فهمید. بعد از یه مدت، مدل زبانی تونست دستورهای کاملی بده که ربات رو درست حرکت می‌داد.

مدل زبانی مثل بچه کوچیکه یاد می‌گیره حرف بزنه. اولش فقط تکرار می‌کنه و حرفاش بی‌معنیه. بعدش یاد می‌گیره کلمات چطور کنار هم قرار می‌گیرن (قواعد زبان). اینجوری می‌تونه دستورهایی بده که شبیه جواب درست باشه، ولی بازم کار نمی‌کنه.
کم کم دستورهای مدل زبانی بهتر می‌شن. وقتی مدل زبانی معنی کلمات رو می‌فهمه، شروع می‌کنه به دادن دستورهایی که دقیقا همون کاری رو می‌کنن که خواسته شده، مثل یه بچه که جمله‌های درست می‌سازه.

این تحقیق مستقیما به یه سوال مهم تو هوش مصنوعی میپردازه: آیا قابلیت‌های عجیب مدل‌های زبانی بزرگ فقط به خاطر پیدا کردن الگو تو داده‌های زیاد هست یا این مدل‌ها واقعا معنی چیزی که دارن روش کار می‌کنن رو می‌فهمن؟

نویسنده مقاله میگه این تحقیق نشون می‌ده که مدل زبانی یه مدل ذهنی از دنیای شبیه‌سازی شده می‌سازه، حتی اگه اصلا یاد نگرفته باشه این کار رو بکنه.

این آزمایش بیشتر از قبل نشون داد که مدل‌های زبانی می‌تونن معنی عمیق کلمات رو بفهمن. با این حال، نویسنده قبول داره که مقاله شون محدودیت‌هایی داره: اونا از یه زبان برنامه‌نویسی خیلی ساده و یه مدل کوچیک استفاده کردن. تو کار بعدی شون می‌خوان از یه محیط کلی‌تر استفاده کنن. هرچند این تحقیق نمی‌گه چطور مدل زبانی رو سریع‌تر آموزش بدیم که معنی رو بفهمه، ولی فکر می‌کنه تحقیقات بعدی می‌تونن با استفاده از این یافته‌ها، روش آموزش مدل‌های زبانی رو بهتر کنن.
👍62
This media is not supported in your browser
VIEW IN TELEGRAM
تن الن تورینگ هم توی گور می‌لرزه وقتی بهش بگی هوش مصنوعی خلاصه شد در مدل های با میلیاردها پارامتر که بر روی پیشبینی کلمه بعدی آموزش دیده اند
🔥32👍14😁11🤔1
دوستانی که قبلا محتوا خریدند، و قصد ثبت نام دارند، لطفا به پشتیبانی پیام دهند که مبلغ محتوا کسر گردد
ما آتش رو اختراع کردیم، بارها و بارها خرابکاری کردیم، و بعدش کپسول آتش‌نشانی، راه خروج اضطراری، آژیر آتش و آتش‌نشانی رو اختراع کردیم!

هر پستانداری روی این سیاره به طور غریزی تعادل طبیعی با محیط اطرافش برقرار می‌کنه، اما شما انسان‌ها این کار را نمی‌کنید. شما به جایی نقل مکان می‌کنید و تکثیر و تکثیر می‌شین تا تمام منابع طبیعی مصرف شه و در نهایت تنها راه بقای شما گسترش به محل دیگست. موجود دیگری روی این سیاره وجود داره که از الگوی مشابهی پیروی می‌کنه. میدونید چیه؟ یک ویروس!

Life 3.0 📚

https://youtu.be/rEXUxVzJhuM?feature=shared
👍16🤔31😢1
قبلاً اگه می‌خواستید یه فیلم دو ساعته رو به یه هوش مصنوعی نشون بدین و ازش سوال بپرسین، باید کلی صبر می‌کردین تا جوابتونو بده. تازه خیلی وقتا هم جواب درست و حسابی نمی‌داد!

ولی حالا یه مدل جدید به اسم mPLUG-Owl3 توسط علی بابا منتشر شده. این مدل می‌تونه تو عرض فقط ۴ ثانیه یه فیلم دو ساعته رو کامل ببینه و بعدش هر سوالی که ازش بپرسین رو جواب بده.

فرقی هم نداره که ازش بپرسین وسط فیلم چه اتفاقی افتاد یا آخرش چی شد، این مدل همه چی رو یادش می‌مونه و جوابتونو با جزئیات میده. انگار که خودش داره فیلم رو براتون تعریف می‌کنه


mPLUG-Owl3 
یک مدل زبانی بزرگ چندحالته هست که برای حل چالش‌ درک دنباله‌های طولانی تصاویر طراحی شده، بدین منظور ماژولی بنام hyper attention  رو پیشنهاد میدن که سرعت درک دنباله‌های تصویری طولانی در مدل‌های زبانی بزرگ چندحالته رو تا شش برابر افزایش میده و پردازش دنباله‌های تصویری تا هشت برابر طولانی‌تر رو امکان‌پذیر می‌کنه

https://www.arxiv.org/abs/2408.04840
👍17