Tensorflow(@CVision)
طبق اعلام رسمی، ربات Figure 02 از نظر سختافزار و نرمافزار دستخوش تغییرات اساسی شده. برخی از مهمترین ویژگیهای جدید این ربات عبارتند از: سیستم بینایی پیشرفته: مجهز به 6 دوربین باکیفیت و هوش مصنوعی برای درک بهتر محیط اطراف. باتری قدرتمندتر: عمر باتری 50…
شرکت Figure AI در سال 2022 تأسیس شد و در سال 2023 اولین محصول خود یعنی Figure 01 را معرفی کرد. طبق ادعای شرکت Figure 01 اولین ربات انساننمای تجاری در جهانه
در ماه فوریهی امسال، این شرکت موفق شد مبلغ 6.75 میلیارد دلار را از سرمایهگذاران بزرگی مثل OpenAI، مایکروسافت، انویدیا و جف بزوس جذب کنه، با این سرمایهگذاری، ارزش این شرکت به 26 میلیارد دلار رسید و به یکی از جذابترین شرکتهای فعال در حوزه رباتهای انساننما تبدیل شد
تنها چند هفته بعد، ربات Figure 01 با بهرهگیری از مدلهای زبانی بزرگ OpenAI به نمایش گذاشته شد. این ربات به لطف این ارتقاء، توانایی شنیدن، صحبت کردن و انجام حرکات پیچیده را پیدا کرده بود و همه را شگفتزده کرده
در ماه فوریهی امسال، این شرکت موفق شد مبلغ 6.75 میلیارد دلار را از سرمایهگذاران بزرگی مثل OpenAI، مایکروسافت، انویدیا و جف بزوس جذب کنه، با این سرمایهگذاری، ارزش این شرکت به 26 میلیارد دلار رسید و به یکی از جذابترین شرکتهای فعال در حوزه رباتهای انساننما تبدیل شد
تنها چند هفته بعد، ربات Figure 01 با بهرهگیری از مدلهای زبانی بزرگ OpenAI به نمایش گذاشته شد. این ربات به لطف این ارتقاء، توانایی شنیدن، صحبت کردن و انجام حرکات پیچیده را پیدا کرده بود و همه را شگفتزده کرده
Tensorflow(@CVision)
اکثر عموم جامعه درگیر مسایل عام و روزمره ای مثل تورم، مسایل مربوط به سلامتی، دنبال کردن اخبار جنگ، سیاستمداران و ... هستند اما جنگ اصلی در بکارگیری قدرت هوش مصنوعی خلاصه شده بخوابم بپذیریم یا نه اکثر مردم از دیدگاه گردانندگان قدرت موجوداتی مصرف گرا و هزینه…
قبلا در این مورد بحث کرده بودیم، کارگران انسانی شغل خودشون رو به دو دلیل عمده در دنیای مبتنی بر هوش مصنوعی از دست خواهند داد
یک: نبود مهارت
دو : سرعت پایین تطبیق پذیری
کسی که نتونه مهارت هاش رو با هوش مصنوعی تلفیق کنه در طوفان پیشرفت های هوش مصنوعی محو خواهد شد. در واقع کسی برنده هست که بتونه قدرت هوش مصنوعی رو به عنوان ابزار کارامند در کسب و کارش به کار ببنده، اما چرا ؟
یک افزایش سود دو کاهش هزینه های انسانی!
همینطور که مطلعید شرکت اینتل چند روز پیش اعلام کرد که بیش از ۱۰ هزار نفر از کارمندان خودش رو اخراج خواهد کرد و هزینههای خود را ۱۰ میلیارد دلار کاهش خواهد داد.
این کار با سه هدف عمده انجام شد
کاهش سود و درآمد: اینتل در ماههای اخیر با کاهش قابل توجه سود و درآمد روبرو بوده
افزایش هزینهها: هزینههای عملیاتی اینتل به دلیل رقابت شدید در بازار و سرمایهگذاریهای سنگین، افزایش یافته
نیاز به بازنگری در استراتژی: اینتل در تلاشه تا با تغییر استراتژی خود و کاهش هزینهها، به سودآوری برسه
این موضوع رو به دولت ها خصوصا دولت ایران که یک ساختار اداری بسیار ناکارآمد با کارمندان زیاد داره بسط بدید. دولت بزرگ یعنی هزینه های زیاد، هزینه های زیاد در جایی که درآمد و سود در خروجی ساختار بی معناست منجر به افزایش اعتبار در سیستم بانکی و در نهایت خلق پول بدون پشتوانه میشود . خلق پول بدون پشتوانه در نهایت منجر به تورم و تورم ریشه تمام فساد های انسانی در بعد فرهنگی، اخلاقی، اقتصادی و ... در دنیای نوین هست
یک: نبود مهارت
دو : سرعت پایین تطبیق پذیری
کسی که نتونه مهارت هاش رو با هوش مصنوعی تلفیق کنه در طوفان پیشرفت های هوش مصنوعی محو خواهد شد. در واقع کسی برنده هست که بتونه قدرت هوش مصنوعی رو به عنوان ابزار کارامند در کسب و کارش به کار ببنده، اما چرا ؟
یک افزایش سود دو کاهش هزینه های انسانی!
همینطور که مطلعید شرکت اینتل چند روز پیش اعلام کرد که بیش از ۱۰ هزار نفر از کارمندان خودش رو اخراج خواهد کرد و هزینههای خود را ۱۰ میلیارد دلار کاهش خواهد داد.
این کار با سه هدف عمده انجام شد
کاهش سود و درآمد: اینتل در ماههای اخیر با کاهش قابل توجه سود و درآمد روبرو بوده
افزایش هزینهها: هزینههای عملیاتی اینتل به دلیل رقابت شدید در بازار و سرمایهگذاریهای سنگین، افزایش یافته
نیاز به بازنگری در استراتژی: اینتل در تلاشه تا با تغییر استراتژی خود و کاهش هزینهها، به سودآوری برسه
این موضوع رو به دولت ها خصوصا دولت ایران که یک ساختار اداری بسیار ناکارآمد با کارمندان زیاد داره بسط بدید. دولت بزرگ یعنی هزینه های زیاد، هزینه های زیاد در جایی که درآمد و سود در خروجی ساختار بی معناست منجر به افزایش اعتبار در سیستم بانکی و در نهایت خلق پول بدون پشتوانه میشود . خلق پول بدون پشتوانه در نهایت منجر به تورم و تورم ریشه تمام فساد های انسانی در بعد فرهنگی، اخلاقی، اقتصادی و ... در دنیای نوین هست
👍14
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت ژیژو AI برای اولین بار یک مدل متن به ویدیو رو به صورت متنباز منتشر کرد
شرکت های چینی با سرعت بسیار زیادی در حال رقابت با مدل های آمریکایی مثل Sora هستند که در یک ماه اخیر مدل های بسیار خوبی رو عرضه کردن
این اولین مدل هوش مصنوعی تولید ویدیو هست که برای استفاده تجاری آزاده .در عرض 5 ساعت، این پروژه در گیتهاب بیش از ۴ هزار ستاره گرفته
لازم به ذکر که مدل CogVideoX شرکت ژیژو AI در چندین اندازه مختلف ارائه میشه و مدلی که این بار به صورت متنباز منتشر شده، CogVideoX-2B هست
این مدل برای inference با دقت FP-16 تنها به 18 گیگابایت حافظه گرافیکی نیاز داره، البته خروجی که من با اجرای مدل روی کارت گرافیک RTX 4090 گرفتم زیاد قابل قبول نبود
متن پرامتی که برای ویدیو بالا وارد وارد کردم:
Achaemenid soldiers are playing football. A number of spectators dressed in ancient Iranian clothing are cheering them on. The camera pans around the filed
https://github.com/THUDM/CogVideo
شرکت های چینی با سرعت بسیار زیادی در حال رقابت با مدل های آمریکایی مثل Sora هستند که در یک ماه اخیر مدل های بسیار خوبی رو عرضه کردن
این اولین مدل هوش مصنوعی تولید ویدیو هست که برای استفاده تجاری آزاده .در عرض 5 ساعت، این پروژه در گیتهاب بیش از ۴ هزار ستاره گرفته
لازم به ذکر که مدل CogVideoX شرکت ژیژو AI در چندین اندازه مختلف ارائه میشه و مدلی که این بار به صورت متنباز منتشر شده، CogVideoX-2B هست
این مدل برای inference با دقت FP-16 تنها به 18 گیگابایت حافظه گرافیکی نیاز داره، البته خروجی که من با اجرای مدل روی کارت گرافیک RTX 4090 گرفتم زیاد قابل قبول نبود
متن پرامتی که برای ویدیو بالا وارد وارد کردم:
Achaemenid soldiers are playing football. A number of spectators dressed in ancient Iranian clothing are cheering them on. The camera pans around the filed
https://github.com/THUDM/CogVideo
❤12👍3😁1😢1
به طور کلی، برای استفاده از مدلهای زبانی بزرگ روی دستگاههای شخصی مثل گوشی، کامپیوتر یا دستگاههای کوچک مثل رزبری پای، باید دو مشکل اصلی رو حل کنیم: مشکل فضای ذخیره سازی و مشکل محاسبات.
یکی از روشهای معمول برای حل این مشکل، کاهش دقت مدل هست. یعنی اینکه اعداد داخل مدل رو به جای اینکه با دقت خیلی بالا ذخیره کنیم، با دقت کمتری ذخیره میکنیم. مثلاً به جای اینکه هر عدد رو با 32 بیت ذخیره کنیم، با 4 یا 3 بیت ذخیرهش میکنیم. این کار باعث میشه که حجم مدل خیلی کمتر بشه و محاسبات هم سادهتر و سریعتر انجام بشن.
اما این به این معنیه که در هنگام انجام محاسبات، ما نیاز به انجام یک نوع خاص از ضرب ماتریس داریم که در آن از اعداد با دقتهای مختلف استفاده میشه. این نوع ضرب ماتریس، ضرب ماتریس با دقت مختلط (mpGEMM) نامیده میشه. در این نوع ضرب، وزنهای مدل از دقت کمتری برخوردار هستند، در حالی که مقادیر فعالسازی (که نتایج محاسبات قبلی هستند) از دقت بالاتری برخوردارند.
https://www.tensorflow.org/guide/mixed_precision
یکی از روشهای معمول برای حل این مشکل، کاهش دقت مدل هست. یعنی اینکه اعداد داخل مدل رو به جای اینکه با دقت خیلی بالا ذخیره کنیم، با دقت کمتری ذخیره میکنیم. مثلاً به جای اینکه هر عدد رو با 32 بیت ذخیره کنیم، با 4 یا 3 بیت ذخیرهش میکنیم. این کار باعث میشه که حجم مدل خیلی کمتر بشه و محاسبات هم سادهتر و سریعتر انجام بشن.
اما این به این معنیه که در هنگام انجام محاسبات، ما نیاز به انجام یک نوع خاص از ضرب ماتریس داریم که در آن از اعداد با دقتهای مختلف استفاده میشه. این نوع ضرب ماتریس، ضرب ماتریس با دقت مختلط (mpGEMM) نامیده میشه. در این نوع ضرب، وزنهای مدل از دقت کمتری برخوردار هستند، در حالی که مقادیر فعالسازی (که نتایج محاسبات قبلی هستند) از دقت بالاتری برخوردارند.
https://www.tensorflow.org/guide/mixed_precision
TensorFlow
Mixed precision | TensorFlow Core
👍9😁1
Tensorflow(@CVision)
به طور کلی، برای استفاده از مدلهای زبانی بزرگ روی دستگاههای شخصی مثل گوشی، کامپیوتر یا دستگاههای کوچک مثل رزبری پای، باید دو مشکل اصلی رو حل کنیم: مشکل فضای ذخیره سازی و مشکل محاسبات. یکی از روشهای معمول برای حل این مشکل، کاهش دقت مدل هست. یعنی اینکه…
با این حال، سیستمها و سختافزارهای موجود به طور طبیعی از این نوع ضرب ماتریس پشتیبانی نمیکنند. بنابراین، معمولاً وزنهای مدل با دقت پایین رو به دقت بالاتر تبدیل میکنند تا بتوان از اونها در محاسبات استفاده کرد. این فرایند رو "کوانتیزاسیون معکوس" مینامند.
برای حل این مشکل، تکنولوژی جدیدی به نام T-MAC از یک روش محاسباتی جدید استفاده میکنه که بر اساس "جدول جستجو" هست. با استفاده از این روش، نیازی به تبدیل وزنها به دقت بالاتر نیست و میتونیم مستقیماً ضرب ماتریس با دقت مختلط رو انجام داد.
به این ترتیب، T-MAC نه تنها عملکرد استنتاج (inference) رو بهبود میبخشه، بلکه مدل رو یکپارچهتر و قابل توسعهتر میکند. به خصوص برای دستگاههای کممصرف و با منابع محدود بسیار مناسب است.
علاوه بر این، T-MAC به شتابدهندههای سختافزاری خاصی مانند NPU یا GPU وابسته نیست و میتونه فقط با استفاده از CPU مدل رو اجرا کنه. حتی در برخی موارد، سرعت استنتاج اون میتونه از شتابدهندههای تخصصی هم بیشتر باشه.
وقتی مدل llama-2-7B-4bit را اجرا میکنیم، حتی با استفاده از پردازندههای تخصصی هوش مصنوعی (NPU) هم میتوانیم حداکثر 10.4 توکن در ثانیه تولید کنیم. اما با استفاده از پردازنده معمولی (CPU) و تکنولوژی T-MAC، با تنها دو هسته پردازنده میتونیم به سرعت 12.6 توکن در ثانیه برسیم و در بهترین حالت، این سرعت تا 22 توکن در ثانیه هم میرسه
حتی روی دستگاهی با مشخصات پایین مثل رزبری پای 5، تکنولوژی T-MAC میتونه مدل 3B BitNet-b1.58 رو با سرعت 11 توکن در ثانیه اجرا کنه
https://github.com/microsoft/T-MAC
برای حل این مشکل، تکنولوژی جدیدی به نام T-MAC از یک روش محاسباتی جدید استفاده میکنه که بر اساس "جدول جستجو" هست. با استفاده از این روش، نیازی به تبدیل وزنها به دقت بالاتر نیست و میتونیم مستقیماً ضرب ماتریس با دقت مختلط رو انجام داد.
به این ترتیب، T-MAC نه تنها عملکرد استنتاج (inference) رو بهبود میبخشه، بلکه مدل رو یکپارچهتر و قابل توسعهتر میکند. به خصوص برای دستگاههای کممصرف و با منابع محدود بسیار مناسب است.
علاوه بر این، T-MAC به شتابدهندههای سختافزاری خاصی مانند NPU یا GPU وابسته نیست و میتونه فقط با استفاده از CPU مدل رو اجرا کنه. حتی در برخی موارد، سرعت استنتاج اون میتونه از شتابدهندههای تخصصی هم بیشتر باشه.
وقتی مدل llama-2-7B-4bit را اجرا میکنیم، حتی با استفاده از پردازندههای تخصصی هوش مصنوعی (NPU) هم میتوانیم حداکثر 10.4 توکن در ثانیه تولید کنیم. اما با استفاده از پردازنده معمولی (CPU) و تکنولوژی T-MAC، با تنها دو هسته پردازنده میتونیم به سرعت 12.6 توکن در ثانیه برسیم و در بهترین حالت، این سرعت تا 22 توکن در ثانیه هم میرسه
حتی روی دستگاهی با مشخصات پایین مثل رزبری پای 5، تکنولوژی T-MAC میتونه مدل 3B BitNet-b1.58 رو با سرعت 11 توکن در ثانیه اجرا کنه
https://github.com/microsoft/T-MAC
GitHub
GitHub - microsoft/T-MAC: Low-bit LLM inference on CPU/NPU with lookup table
Low-bit LLM inference on CPU/NPU with lookup table - microsoft/T-MAC
👍14
مدل زبانی جدیدی به نام Falcon Mamba 7B معرفی شده که خیلی قدرتمنده! این مدل میتونه متنهای خیلی بلند رو بدون اینکه نیاز به سختافزار خیلی قوی داشته باشه، پردازش کنه. این یعنی میتونه کارهای خلاقانهای مثل نوشتن داستان یا مقاله انجام بده
این مدل بر پایه نسل اول Mamba ساخته شده
Mamba
یک مدل فضای حالته (State Space Model) که ویژگیهای شبکههای عصبی بازگشتی (RNN) و شبکههای عصبی کانولوشنی (CNN) را در خود جای داده . با استفاده از یک مکانیزم انتخابی، این مدل میتوانه بسته به ورودی فعلی، اطلاعات را به طور انتخابی حفظ یا فراموش کنه و به این ترتیب، کارایی پردازش متن را بهبود بخشه
علاوه بر این، Mamba از یک الگوریتم موازی طراحی شده برای سختافزار استفاده میکنه که به صورت بازگشتی اجرا میشه و از دسترسیهای ورودی/خروجی بین سطوح حافظه GPU جلوگیری میکنه، در نتیجه باعث افزایش کارایی محاسباتی میشه
با حذف مکانیزم attention، به طور موثر مشکل کندی محاسبات مدل در پردازش دنبالههای طولانی را برطرف کرده از طرفی این مدل میتوانه دنبالههایی با طول نامحدود را پردازش کنه، بدون اینکه نیاز به حافظه بیشتری داشته باشه
صرف نظر از طول متن زمینه، زمان تولید هر توکن تقریباً ثابت هستش!
https://huggingface.co/blog/falconmamba#hardware-performance
این مدل بر پایه نسل اول Mamba ساخته شده
Mamba
یک مدل فضای حالته (State Space Model) که ویژگیهای شبکههای عصبی بازگشتی (RNN) و شبکههای عصبی کانولوشنی (CNN) را در خود جای داده . با استفاده از یک مکانیزم انتخابی، این مدل میتوانه بسته به ورودی فعلی، اطلاعات را به طور انتخابی حفظ یا فراموش کنه و به این ترتیب، کارایی پردازش متن را بهبود بخشه
علاوه بر این، Mamba از یک الگوریتم موازی طراحی شده برای سختافزار استفاده میکنه که به صورت بازگشتی اجرا میشه و از دسترسیهای ورودی/خروجی بین سطوح حافظه GPU جلوگیری میکنه، در نتیجه باعث افزایش کارایی محاسباتی میشه
با حذف مکانیزم attention، به طور موثر مشکل کندی محاسبات مدل در پردازش دنبالههای طولانی را برطرف کرده از طرفی این مدل میتوانه دنبالههایی با طول نامحدود را پردازش کنه، بدون اینکه نیاز به حافظه بیشتری داشته باشه
صرف نظر از طول متن زمینه، زمان تولید هر توکن تقریباً ثابت هستش!
https://huggingface.co/blog/falconmamba#hardware-performance
👍19❤2
doubao
قابلیت تولید موسیقی را راه اندازی کرد: کاربران میتونن با یک کلیک، شعر و موسیقی تولید کنن
هوش مصنوعی "دو بائو" متعلق به شرکت بایتدنس، قابلیت تولید موسیقی را راه اندازی کرده. کاربران میتوانن با وارد کردن یک موضوع یا متن ترانهای که خودشان نوشتهان در بخش "تولید موسیقی" دو بائو، سبک، احساس و صدای موسیقی را انتخاب کنن و در عرض حدود یک دقیقه، یک آهنگ کامل تولید کنن. به این ترتیب، هر کسی میتوانه لذت خلق و بیان موسیقیایی را تجربه کنه!
در حال حاضر، این مدل قابلیت تولید موسیقی در 11 سبک مختلف مانند فولک، هیپ هاپ، آر اند بی و همچنین سبکهای کمتر شناخته شدهای مانند جاز، رگی و موسیقی الکترونیک را ارائه میده. کاربران میتونن صدای خواننده را به صورت مردانه یا زنانه انتخاب کنن. صدای تولید شده، از نظر وضوح کلمات و روان بودن بسیار خوب عمل میکنه. همچنین، برای اینکه موسیقی تولید شده توسط هوش مصنوعی بتونه احساسات کاربران را بهتر بیان کنه، این مدل حالات احساسی مختلفی مانند شادی، غم و ... را به صورت پیشفرض تنظیم کرده. با استفاده از doubao، کاربران میتونند موسیقیهایی با ویژگیهای شخصی خودشون بسازن
https://www.doubao.com/chat/?from_logout=1
قابلیت تولید موسیقی را راه اندازی کرد: کاربران میتونن با یک کلیک، شعر و موسیقی تولید کنن
هوش مصنوعی "دو بائو" متعلق به شرکت بایتدنس، قابلیت تولید موسیقی را راه اندازی کرده. کاربران میتوانن با وارد کردن یک موضوع یا متن ترانهای که خودشان نوشتهان در بخش "تولید موسیقی" دو بائو، سبک، احساس و صدای موسیقی را انتخاب کنن و در عرض حدود یک دقیقه، یک آهنگ کامل تولید کنن. به این ترتیب، هر کسی میتوانه لذت خلق و بیان موسیقیایی را تجربه کنه!
در حال حاضر، این مدل قابلیت تولید موسیقی در 11 سبک مختلف مانند فولک، هیپ هاپ، آر اند بی و همچنین سبکهای کمتر شناخته شدهای مانند جاز، رگی و موسیقی الکترونیک را ارائه میده. کاربران میتونن صدای خواننده را به صورت مردانه یا زنانه انتخاب کنن. صدای تولید شده، از نظر وضوح کلمات و روان بودن بسیار خوب عمل میکنه. همچنین، برای اینکه موسیقی تولید شده توسط هوش مصنوعی بتونه احساسات کاربران را بهتر بیان کنه، این مدل حالات احساسی مختلفی مانند شادی، غم و ... را به صورت پیشفرض تنظیم کرده. با استفاده از doubao، کاربران میتونند موسیقیهایی با ویژگیهای شخصی خودشون بسازن
https://www.doubao.com/chat/?from_logout=1
Doubao
豆包
豆包是你的 AI 聊天智能对话问答助手,写作文案翻译编程全能工具。豆包为你答疑解惑,提供灵感,辅助创作,也可以和你畅聊任何你感兴趣的话题。
👌3👍1
Tensorflow(@CVision)
doubao قابلیت تولید موسیقی را راه اندازی کرد: کاربران میتونن با یک کلیک، شعر و موسیقی تولید کنن هوش مصنوعی "دو بائو" متعلق به شرکت بایتدنس، قابلیت تولید موسیقی را راه اندازی کرده. کاربران میتوانن با وارد کردن یک موضوع یا متن ترانهای که خودشان نوشتهان…
به عنوان مثال، اگر عبارت "یک نفر در عصر تابستان در حال دوچرخهسواری است و غروب خورشید نارنجی رنگ را در دوردست میبیند" را وارد کنین و سبک موسیقی را روی "آر اند بی" و احساس را روی "عاشقانه" تنظیم کنید، این مدل به طور خودکار یک قطعه موسیقی و متن ترانه مرتبط با آن را مینویسه و میسازه و بر اساس متن ترانه، کاور آهنگ را نیز به طور خودکار طراحی میکنه
❤7👍1
این هوش مصنوعی نه تنها کد مینویسه، بلکه میتونه مشکلات را حل کنه و تصمیمات منطقی بگیره، درست مانند یک برنامهنویس انسانی اون هم فقط در عرض ۸۴ ثانیه و تیم توسعه دهنده این مدل فقط از پنج نفر تشکیل شده. این مدل که
Genie
نام داره و ادعا میکنه که در حال حاضر قدرتمندترین هوش مصنوعی روی زمینه و میتونه مانند انسان فکر و عمل کنه
به چهار روش مختلف میتونید Genie را به کار بگیرین که یکی از اون روشهای جالب توجه دادن لینک issue در گیتهاب به مدل هست
به عنوان مثال، برای حل یک Issue در گیتهاب، ابتدا لینک یک مخزن (repo) را به Genie میدهم. پس از اون، Genie به طور خودکار شروع به تحلیل اون مسئله میکنه
تصور کنین شما به Genie بگین که یک باگ در برنامتون وجود داره. Genie شروع میکنه به بررسی کدهای شما، فایلهای تنظیمات و هر چیز دیگری که فکر کنه که ممکنه به اون کمک کنه تا مشکل را پیدا کنه. این مدل این کار را تا زمانی ادامه میده که به خط کد مشکلدار برسه
Genie
پس از انجام تحلیلهای لازم، به طور خودکار شروع به تولید کد و اجرای اون میکنه تا ببینه که آیا مشکل حل شده یا خیر
اگر در حین اجرای کد، خطایی رخ بده، Genie تنها به بخشهایی که مشکل دارن برمیگرده و دوباره اونها را تحلیل، کدنویسی و اجرا میکنه تا زمانی که کد بدون هیچ مشکلی اجرا شه و تمام این کارها فقط 84 ثانیه طول میکشه!
سرعت تحولات اینقدر در این حوزه بالاست که واقعا بروز بودن غیر ممکنه!
https://cosine.sh/blog/genie-technical-report
Genie
نام داره و ادعا میکنه که در حال حاضر قدرتمندترین هوش مصنوعی روی زمینه و میتونه مانند انسان فکر و عمل کنه
به چهار روش مختلف میتونید Genie را به کار بگیرین که یکی از اون روشهای جالب توجه دادن لینک issue در گیتهاب به مدل هست
به عنوان مثال، برای حل یک Issue در گیتهاب، ابتدا لینک یک مخزن (repo) را به Genie میدهم. پس از اون، Genie به طور خودکار شروع به تحلیل اون مسئله میکنه
تصور کنین شما به Genie بگین که یک باگ در برنامتون وجود داره. Genie شروع میکنه به بررسی کدهای شما، فایلهای تنظیمات و هر چیز دیگری که فکر کنه که ممکنه به اون کمک کنه تا مشکل را پیدا کنه. این مدل این کار را تا زمانی ادامه میده که به خط کد مشکلدار برسه
Genie
پس از انجام تحلیلهای لازم، به طور خودکار شروع به تولید کد و اجرای اون میکنه تا ببینه که آیا مشکل حل شده یا خیر
اگر در حین اجرای کد، خطایی رخ بده، Genie تنها به بخشهایی که مشکل دارن برمیگرده و دوباره اونها را تحلیل، کدنویسی و اجرا میکنه تا زمانی که کد بدون هیچ مشکلی اجرا شه و تمام این کارها فقط 84 ثانیه طول میکشه!
سرعت تحولات اینقدر در این حوزه بالاست که واقعا بروز بودن غیر ممکنه!
https://cosine.sh/blog/genie-technical-report
🔥18👍7❤4
از یه LLM مثل جیپیتی۴ بخوای بوی یه چادر مسافرتی خیس بارون رو حس کنه، خیلی مودبانه میگه نه. ولی اگه ازش بخوای اون بو رو برات توصیف کنه، شروع میکنه به شعر گفتن از «هوای پر از انتظار» و «بوی تازه و خاکی»، بدون اینکه اصلا بارون دیده باشه یا دماغ داشته باشه که بتونه اینجوری قضاوت کنه! یه توضیح ممکن اینه که هوش مصنوعی داره فقط از روی متنهایی که تو دادههای آموزشی زیادش بوده، تقلید میکنه، نه اینکه واقعا بوی بارون یا چیزی دیگه رو درک کنه.
اما اینکه چشم ندارن، یعنی مدلهای زبانی هیچوقت نمیتونن بفهمن که شیر از گربه خونگی بزرگتره؟
فیلسوفا و دانشمندان مدتها فکر میکردن که توانایی فهمیدن معنی زبان، نشونهی هوش انسانیه و درمورد اینکه چه چیزایی لازم داریم تا بتونیم این کار رو انجام بدیم، زیاد اندیشیدن
دانشمندان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) در تلاش برای کشف راز کارکرد مدلهای زبانی، نتایج جالبی پیدا کردن. به نظر میرسه این مدلها برای بهتر جواب دادن، دارن سعی میکنن دنیای واقعی رو خودشون بفهمند.
این تیم اول یه سری پازل ساده به اسم کارل ساختن. این پازلا درباره دادن دستور به یه ربات تو یه دنیای شبیهسازی شده بود. بعد این مدل رو با راه حل های این پازلا آموزش دادن، اما بدون اینکه نشون بدن راه حل ها چطور کار میکنن. در آخر، با استفاده از یه تکنیک هوش مصنوعی به اسم "probing"، دانشمندان رفتن داخل ذهن مدل و دیدن که وقتی داره جواب جدید میسازه، چطور فکر میکنه.
بعد از اینکه مدل رو با تعداد زیادی پازل آموزش دادن، مدل خودش یه تصویر ذهنی از دنیایی که توش پازلا حل میشد، ساخته. این خیلی جالبه چون مدل هیچ وقت این دنیا رو ندیده بود.
یعنی مدل توانسته با استفاده از اطلاعات پازلاها، خودش یه دنیای مجازی بسازه و درکش کنه. این باعث شده که دانشمندا به این فکر کنن که شاید برای یادگیری زبان، به اطلاعات کمتری از اون چیزی که فکر میکردیم نیاز داریم. همچنین، این احتمال وجود داره که مدلهای زبانی در آینده بتونن خیلی بهتر از الان زبان رو بفهمند.
نویسندگان مقاله میگن اولش که شروع کردیم، مدل زبانی دستورهای بیخود و الکی میداد. اما کم کم که آموزشش دادیم، رسیدیم به جایی که مدل تونست تو ۹۲.۴ درصد مواقع دستورهای درست بده. این خیلی برامون هیجانانگیز بود چون فکر کردیم اگه مدل بتونه با این دقت کار کنه، شاید بتونه معنی کلمات رو هم بفهمه. این شد نقطه شروع ما برای فهمیدن اینکه آیا مدلهای زبانی واقعا متن رو میفهمن یا نه. حالا میبینیم که این مدلها خیلی بیشتر از اینکه فقط کلمات رو کنار هم بچینن، کار بلدن
ادمه دارد ...
https://arxiv.org/pdf/2305.11169
اما اینکه چشم ندارن، یعنی مدلهای زبانی هیچوقت نمیتونن بفهمن که شیر از گربه خونگی بزرگتره؟
فیلسوفا و دانشمندان مدتها فکر میکردن که توانایی فهمیدن معنی زبان، نشونهی هوش انسانیه و درمورد اینکه چه چیزایی لازم داریم تا بتونیم این کار رو انجام بدیم، زیاد اندیشیدن
دانشمندان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) در تلاش برای کشف راز کارکرد مدلهای زبانی، نتایج جالبی پیدا کردن. به نظر میرسه این مدلها برای بهتر جواب دادن، دارن سعی میکنن دنیای واقعی رو خودشون بفهمند.
این تیم اول یه سری پازل ساده به اسم کارل ساختن. این پازلا درباره دادن دستور به یه ربات تو یه دنیای شبیهسازی شده بود. بعد این مدل رو با راه حل های این پازلا آموزش دادن، اما بدون اینکه نشون بدن راه حل ها چطور کار میکنن. در آخر، با استفاده از یه تکنیک هوش مصنوعی به اسم "probing"، دانشمندان رفتن داخل ذهن مدل و دیدن که وقتی داره جواب جدید میسازه، چطور فکر میکنه.
بعد از اینکه مدل رو با تعداد زیادی پازل آموزش دادن، مدل خودش یه تصویر ذهنی از دنیایی که توش پازلا حل میشد، ساخته. این خیلی جالبه چون مدل هیچ وقت این دنیا رو ندیده بود.
یعنی مدل توانسته با استفاده از اطلاعات پازلاها، خودش یه دنیای مجازی بسازه و درکش کنه. این باعث شده که دانشمندا به این فکر کنن که شاید برای یادگیری زبان، به اطلاعات کمتری از اون چیزی که فکر میکردیم نیاز داریم. همچنین، این احتمال وجود داره که مدلهای زبانی در آینده بتونن خیلی بهتر از الان زبان رو بفهمند.
نویسندگان مقاله میگن اولش که شروع کردیم، مدل زبانی دستورهای بیخود و الکی میداد. اما کم کم که آموزشش دادیم، رسیدیم به جایی که مدل تونست تو ۹۲.۴ درصد مواقع دستورهای درست بده. این خیلی برامون هیجانانگیز بود چون فکر کردیم اگه مدل بتونه با این دقت کار کنه، شاید بتونه معنی کلمات رو هم بفهمه. این شد نقطه شروع ما برای فهمیدن اینکه آیا مدلهای زبانی واقعا متن رو میفهمن یا نه. حالا میبینیم که این مدلها خیلی بیشتر از اینکه فقط کلمات رو کنار هم بچینن، کار بلدن
ادمه دارد ...
https://arxiv.org/pdf/2305.11169
❤17👍11
Tensorflow(@CVision)
از یه LLM مثل جیپیتی۴ بخوای بوی یه چادر مسافرتی خیس بارون رو حس کنه، خیلی مودبانه میگه نه. ولی اگه ازش بخوای اون بو رو برات توصیف کنه، شروع میکنه به شعر گفتن از «هوای پر از انتظار» و «بوی تازه و خاکی»، بدون اینکه اصلا بارون دیده باشه یا دماغ داشته باشه…
probe
وظیفه داشت بفهمه مدل زبانی چطور فکر میکنه و دستورها چه معنی میدن. معلوم شد که مدل زبانی یه تصویر ذهنی از حرکت ربات برای هر دستور میسازه. هر چی مدل زبانی بهتر میتونست پازلها رو حل کنه، این تصویر ذهنی هم دقیقتر میشد. این یعنی مدل زبانی داشت کم کم معنی دستورها رو میفهمید. بعد از یه مدت، مدل زبانی تونست دستورهای کاملی بده که ربات رو درست حرکت میداد.
مدل زبانی مثل بچه کوچیکه یاد میگیره حرف بزنه. اولش فقط تکرار میکنه و حرفاش بیمعنیه. بعدش یاد میگیره کلمات چطور کنار هم قرار میگیرن (قواعد زبان). اینجوری میتونه دستورهایی بده که شبیه جواب درست باشه، ولی بازم کار نمیکنه.
کم کم دستورهای مدل زبانی بهتر میشن. وقتی مدل زبانی معنی کلمات رو میفهمه، شروع میکنه به دادن دستورهایی که دقیقا همون کاری رو میکنن که خواسته شده، مثل یه بچه که جملههای درست میسازه.
این تحقیق مستقیما به یه سوال مهم تو هوش مصنوعی میپردازه: آیا قابلیتهای عجیب مدلهای زبانی بزرگ فقط به خاطر پیدا کردن الگو تو دادههای زیاد هست یا این مدلها واقعا معنی چیزی که دارن روش کار میکنن رو میفهمن؟
نویسنده مقاله میگه این تحقیق نشون میده که مدل زبانی یه مدل ذهنی از دنیای شبیهسازی شده میسازه، حتی اگه اصلا یاد نگرفته باشه این کار رو بکنه.
این آزمایش بیشتر از قبل نشون داد که مدلهای زبانی میتونن معنی عمیق کلمات رو بفهمن. با این حال، نویسنده قبول داره که مقاله شون محدودیتهایی داره: اونا از یه زبان برنامهنویسی خیلی ساده و یه مدل کوچیک استفاده کردن. تو کار بعدی شون میخوان از یه محیط کلیتر استفاده کنن. هرچند این تحقیق نمیگه چطور مدل زبانی رو سریعتر آموزش بدیم که معنی رو بفهمه، ولی فکر میکنه تحقیقات بعدی میتونن با استفاده از این یافتهها، روش آموزش مدلهای زبانی رو بهتر کنن.
وظیفه داشت بفهمه مدل زبانی چطور فکر میکنه و دستورها چه معنی میدن. معلوم شد که مدل زبانی یه تصویر ذهنی از حرکت ربات برای هر دستور میسازه. هر چی مدل زبانی بهتر میتونست پازلها رو حل کنه، این تصویر ذهنی هم دقیقتر میشد. این یعنی مدل زبانی داشت کم کم معنی دستورها رو میفهمید. بعد از یه مدت، مدل زبانی تونست دستورهای کاملی بده که ربات رو درست حرکت میداد.
مدل زبانی مثل بچه کوچیکه یاد میگیره حرف بزنه. اولش فقط تکرار میکنه و حرفاش بیمعنیه. بعدش یاد میگیره کلمات چطور کنار هم قرار میگیرن (قواعد زبان). اینجوری میتونه دستورهایی بده که شبیه جواب درست باشه، ولی بازم کار نمیکنه.
کم کم دستورهای مدل زبانی بهتر میشن. وقتی مدل زبانی معنی کلمات رو میفهمه، شروع میکنه به دادن دستورهایی که دقیقا همون کاری رو میکنن که خواسته شده، مثل یه بچه که جملههای درست میسازه.
این تحقیق مستقیما به یه سوال مهم تو هوش مصنوعی میپردازه: آیا قابلیتهای عجیب مدلهای زبانی بزرگ فقط به خاطر پیدا کردن الگو تو دادههای زیاد هست یا این مدلها واقعا معنی چیزی که دارن روش کار میکنن رو میفهمن؟
نویسنده مقاله میگه این تحقیق نشون میده که مدل زبانی یه مدل ذهنی از دنیای شبیهسازی شده میسازه، حتی اگه اصلا یاد نگرفته باشه این کار رو بکنه.
این آزمایش بیشتر از قبل نشون داد که مدلهای زبانی میتونن معنی عمیق کلمات رو بفهمن. با این حال، نویسنده قبول داره که مقاله شون محدودیتهایی داره: اونا از یه زبان برنامهنویسی خیلی ساده و یه مدل کوچیک استفاده کردن. تو کار بعدی شون میخوان از یه محیط کلیتر استفاده کنن. هرچند این تحقیق نمیگه چطور مدل زبانی رو سریعتر آموزش بدیم که معنی رو بفهمه، ولی فکر میکنه تحقیقات بعدی میتونن با استفاده از این یافتهها، روش آموزش مدلهای زبانی رو بهتر کنن.
👍6❤2
This media is not supported in your browser
VIEW IN TELEGRAM
تن الن تورینگ هم توی گور میلرزه وقتی بهش بگی هوش مصنوعی خلاصه شد در مدل های با میلیاردها پارامتر که بر روی پیشبینی کلمه بعدی آموزش دیده اند
🔥32👍14😁11🤔1
دوستانی که قبلا محتوا خریدند، و قصد ثبت نام دارند، لطفا به پشتیبانی پیام دهند که مبلغ محتوا کسر گردد
ما آتش رو اختراع کردیم، بارها و بارها خرابکاری کردیم، و بعدش کپسول آتشنشانی، راه خروج اضطراری، آژیر آتش و آتشنشانی رو اختراع کردیم!
هر پستانداری روی این سیاره به طور غریزی تعادل طبیعی با محیط اطرافش برقرار میکنه، اما شما انسانها این کار را نمیکنید. شما به جایی نقل مکان میکنید و تکثیر و تکثیر میشین تا تمام منابع طبیعی مصرف شه و در نهایت تنها راه بقای شما گسترش به محل دیگست. موجود دیگری روی این سیاره وجود داره که از الگوی مشابهی پیروی میکنه. میدونید چیه؟ یک ویروس!
Life 3.0 📚
https://youtu.be/rEXUxVzJhuM?feature=shared
هر پستانداری روی این سیاره به طور غریزی تعادل طبیعی با محیط اطرافش برقرار میکنه، اما شما انسانها این کار را نمیکنید. شما به جایی نقل مکان میکنید و تکثیر و تکثیر میشین تا تمام منابع طبیعی مصرف شه و در نهایت تنها راه بقای شما گسترش به محل دیگست. موجود دیگری روی این سیاره وجود داره که از الگوی مشابهی پیروی میکنه. میدونید چیه؟ یک ویروس!
Life 3.0 📚
https://youtu.be/rEXUxVzJhuM?feature=shared
YouTube
Vangelis Hymne (original version) Hymn
"Hymne" by Vangelis, from the "Opera Sauvage" album. This is the original version, which seems hard to find on Youtube. You'll find a lot of cover versions, and also Vangelis' own remake (Retitled "Hymn") on the "Portraits" compilation CD, but this is the…
👍16🤔3❤1😢1
قبلاً اگه میخواستید یه فیلم دو ساعته رو به یه هوش مصنوعی نشون بدین و ازش سوال بپرسین، باید کلی صبر میکردین تا جوابتونو بده. تازه خیلی وقتا هم جواب درست و حسابی نمیداد!
ولی حالا یه مدل جدید به اسم mPLUG-Owl3 توسط علی بابا منتشر شده. این مدل میتونه تو عرض فقط ۴ ثانیه یه فیلم دو ساعته رو کامل ببینه و بعدش هر سوالی که ازش بپرسین رو جواب بده.
فرقی هم نداره که ازش بپرسین وسط فیلم چه اتفاقی افتاد یا آخرش چی شد، این مدل همه چی رو یادش میمونه و جوابتونو با جزئیات میده. انگار که خودش داره فیلم رو براتون تعریف میکنه
mPLUG-Owl3
یک مدل زبانی بزرگ چندحالته هست که برای حل چالش درک دنبالههای طولانی تصاویر طراحی شده، بدین منظور ماژولی بنام hyper attention رو پیشنهاد میدن که سرعت درک دنبالههای تصویری طولانی در مدلهای زبانی بزرگ چندحالته رو تا شش برابر افزایش میده و پردازش دنبالههای تصویری تا هشت برابر طولانیتر رو امکانپذیر میکنه
https://www.arxiv.org/abs/2408.04840
ولی حالا یه مدل جدید به اسم mPLUG-Owl3 توسط علی بابا منتشر شده. این مدل میتونه تو عرض فقط ۴ ثانیه یه فیلم دو ساعته رو کامل ببینه و بعدش هر سوالی که ازش بپرسین رو جواب بده.
فرقی هم نداره که ازش بپرسین وسط فیلم چه اتفاقی افتاد یا آخرش چی شد، این مدل همه چی رو یادش میمونه و جوابتونو با جزئیات میده. انگار که خودش داره فیلم رو براتون تعریف میکنه
mPLUG-Owl3
یک مدل زبانی بزرگ چندحالته هست که برای حل چالش درک دنبالههای طولانی تصاویر طراحی شده، بدین منظور ماژولی بنام hyper attention رو پیشنهاد میدن که سرعت درک دنبالههای تصویری طولانی در مدلهای زبانی بزرگ چندحالته رو تا شش برابر افزایش میده و پردازش دنبالههای تصویری تا هشت برابر طولانیتر رو امکانپذیر میکنه
https://www.arxiv.org/abs/2408.04840
arXiv.org
mPLUG-Owl3: Towards Long Image-Sequence Understanding in...
Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in executing instructions for a variety of single-image tasks. Despite this progress, significant challenges...
👍17
Forwarded from 🚀 کلاسویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته
This media is not supported in your browser
VIEW IN TELEGRAM
🎓ثبت نام دوره تعاملی هوش مصنوعی و دیپ لرنینگ🎓
📢کلاس ویژن با همکاری مجموعه دانشبنیان شناسا برگزار میکند
🧠دوره کامل یادگیری عمیق با TensorFlow/Keras🧑💻👩💻
🔗لینک ثبت نام و اطلاعات دوره
✔️ آموزشهای آنلاین و جلسات رفع اشکال (15 جلسه)
✔️ محتوای ضبطشده (بالغ بر 40 ساعت)
✔️ گواهی پایان دوره
✔️ تسهیل ورود به بازارکار
👤مدرس: علیرضا اخوانپور
- مدرس دانشگاه،
- مدیر فنی مجموعه دانشبنین شناسا؛
- مدرس و مشاور هوش مصنوعی
🗓شروع از 19 شهریور
~~~~~~~~~~~~~
🎉کد تخفیف ویژه، برای ثبت نام زود هنگام:
📞سوالات و راهنمایی پیرامون دوره و روال ثبت نام: @classvision_support
🔍اطلاعات تکمیلی و اطلاعیه های بعدی: @class_vision
🔗لینک ثبت نام و اطلاعات دوره
📢کلاس ویژن با همکاری مجموعه دانشبنیان شناسا برگزار میکند
🧠دوره کامل یادگیری عمیق با TensorFlow/Keras🧑💻👩💻
🔗لینک ثبت نام و اطلاعات دوره
✔️ آموزشهای آنلاین و جلسات رفع اشکال (15 جلسه)
✔️ محتوای ضبطشده (بالغ بر 40 ساعت)
✔️ گواهی پایان دوره
✔️ تسهیل ورود به بازارکار
👤مدرس: علیرضا اخوانپور
- مدرس دانشگاه،
- مدیر فنی مجموعه دانشبنین شناسا؛
- مدرس و مشاور هوش مصنوعی
🗓شروع از 19 شهریور
~~~~~~~~~~~~~
🎉کد تخفیف ویژه، برای ثبت نام زود هنگام:
deep_early_register
📞سوالات و راهنمایی پیرامون دوره و روال ثبت نام: @classvision_support
🔍اطلاعات تکمیلی و اطلاعیه های بعدی: @class_vision
🔗لینک ثبت نام و اطلاعات دوره
👍9❤3😁2
ویدیوی معرفی دو تبلیغ بالا با این سرویس رایگان هوش مصنوعی ایجاد شده است.
تصویر با
https://app.leonardo.ai/
و تبدیل تصویر به ویدیو با:
https://lumalabs.ai/
————————
https://t.iss.one/cvision/3660
https://t.iss.one/cvision/3661
تصویر با
https://app.leonardo.ai/
و تبدیل تصویر به ویدیو با:
https://lumalabs.ai/
————————
https://t.iss.one/cvision/3660
https://t.iss.one/cvision/3661
❤2👍2
Forwarded from 🚀 کلاسویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته
This media is not supported in your browser
VIEW IN TELEGRAM
📢🎉ثبت نام دومین دوره جامع یادگیری عمیق کلاس ویژن آغاز شد.
کد تخفیف 700.000 تومانی ویژه ثبت نام زود هنگام برای 10 نفر ثبت نامی اول
🔗لینک ثبت نام و اطلاعات دوره
✅دسترسی مادام العمر به محتوای کلاس
✅دسترسی به محتوا + کلاسهای رفع اشکال + تمرین و پروژه و تصحیح + مدرک + معرفی به بازارکار
🧑🏫مدرس: علیرضا اخوانپور
🎁در انتهای دوره دانشجویان برتر به شرکت های فعال در زمینه هوش مصنوعی برای انجام مصاحبه معرفی خواهند شد.
🕔کلاس های رفع اشکال از بازه 19 شهریور تا 25 آذر با مدرس دوره
کد تخفیف 700.000 تومانی ویژه ثبت نام زود هنگام برای 10 نفر ثبت نامی اول
deep_early_register🔗لینک ثبت نام و اطلاعات دوره
✅دسترسی مادام العمر به محتوای کلاس
✅دسترسی به محتوا + کلاسهای رفع اشکال + تمرین و پروژه و تصحیح + مدرک + معرفی به بازارکار
🧑🏫مدرس: علیرضا اخوانپور
🎁در انتهای دوره دانشجویان برتر به شرکت های فعال در زمینه هوش مصنوعی برای انجام مصاحبه معرفی خواهند شد.
🕔کلاس های رفع اشکال از بازه 19 شهریور تا 25 آذر با مدرس دوره
👍6❤1😁1🤯1
Restoring speaker voices with zero-shot cross-lingual voice transfer for TTS
https://research.google/blog/restoring-speaker-voices-with-zero-shot-cross-lingual-voice-transfer-for-tts/
https://research.google/blog/restoring-speaker-voices-with-zero-shot-cross-lingual-voice-transfer-for-tts/
👍2