Forwarded from مرکز آموزش مدیران شریف
🎓 دانشکده مدیریت و اقتصاد دانشگاه صنعتی شریف
📚 «تحول اقتصاد دیجیتال: نقش پلتفرم، داده و AI»
🔸 اقتصاد امروز به سرعت درحال تغییر است و مدلهای سنتی اغلب توان پاسخگویی به چالشهای حاضر را ندارد. کسبوکارهایی که نتوانند همراه شوند؛ در خطر حذف قرار میگیرند. مدیران و کارآفرینان موفق برای بقا و توسعه سازمان، نیازمند درک عمیق تحولات دیجیتال و تطبیق با آن هستند.
این دوره به بررسی موشکافانه کیسهای موفق روز دنیا میپردازد. در این دوره روش بهرهگیری استراتژیک از ابزارهای دیجیتال در کسبوکار و استفاده حداکثری از فرصتهای نوظهور آموزش داده میشود.
📌 ویژه کارشناسان و مدیران ارشد کسبوکارها و سازمانها
👤 استاد دوره: دکتر مهدی انصاری (عضو هیئت علمی دانشکده مدیریت و اقتصاد دانشگاه شریف)
👥 میهمانان صنعت:
مجید حسینینژاد (بنیانگذار و رئیس هیئت مدیره هلدینگ علیبابا)
مهرداد ترابیان (عضو سابق هیئت مدیره شرکت ارتباطات زیرساخت)
📖 مطالعه بروشور دوره
📌 لینک پیشثبتنام
📞 در صورت نیاز به اطلاعات بیشتر، فرم تماس و درخواست مشاوره را تکمیل نمایید.
@Sharif_Executive_Education
📚 «تحول اقتصاد دیجیتال: نقش پلتفرم، داده و AI»
🔸 اقتصاد امروز به سرعت درحال تغییر است و مدلهای سنتی اغلب توان پاسخگویی به چالشهای حاضر را ندارد. کسبوکارهایی که نتوانند همراه شوند؛ در خطر حذف قرار میگیرند. مدیران و کارآفرینان موفق برای بقا و توسعه سازمان، نیازمند درک عمیق تحولات دیجیتال و تطبیق با آن هستند.
این دوره به بررسی موشکافانه کیسهای موفق روز دنیا میپردازد. در این دوره روش بهرهگیری استراتژیک از ابزارهای دیجیتال در کسبوکار و استفاده حداکثری از فرصتهای نوظهور آموزش داده میشود.
📌 ویژه کارشناسان و مدیران ارشد کسبوکارها و سازمانها
👤 استاد دوره: دکتر مهدی انصاری (عضو هیئت علمی دانشکده مدیریت و اقتصاد دانشگاه شریف)
👥 میهمانان صنعت:
مجید حسینینژاد (بنیانگذار و رئیس هیئت مدیره هلدینگ علیبابا)
مهرداد ترابیان (عضو سابق هیئت مدیره شرکت ارتباطات زیرساخت)
📖 مطالعه بروشور دوره
📌 لینک پیشثبتنام
📞 در صورت نیاز به اطلاعات بیشتر، فرم تماس و درخواست مشاوره را تکمیل نمایید.
@Sharif_Executive_Education
👍5❤3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
مدل Sana-0.6B میتونه با مدلهای بزرگتر و پیشرفته مثل Flux-12B رقابت کنه، در حالی که ۲۰ برابر کوچکتر و ۱۰۰ برابر سریع تره. این مدل رو می شه روی کارت گرافیک لپ تاپ ۱۶ گیگا بایتی اجرا کرد و برای تولید یه عکس 1024 × 1024 کمتر از ۱ ثانیه زمان می بره. سانا امکان تولید محتوا با هزینه پایین رو فراهم می کنه.
https://arxiv.org/pdf/2410.10629
معرفی یه اتواینکدر جدید که فشرده سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روشهای قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکنهای پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه
استفاده از توجه خطی(Linear DiT) که نسخه بهینه شده مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.
این موضوع بهخصوص در پردازش تصاویر با وضوح بالا مشکلسازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می ده.
https://arxiv.org/pdf/2410.10629
معرفی یه اتواینکدر جدید که فشرده سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روشهای قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکنهای پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه
استفاده از توجه خطی(Linear DiT) که نسخه بهینه شده مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.
این موضوع بهخصوص در پردازش تصاویر با وضوح بالا مشکلسازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می ده.
🔥12👍8
مقاله جدید انویدیا به موضوع نرمالسازی در معماریهای شبکه عصبی پرداخته و تمرکز اصلی اون بر روی مدل ترانسفورمر نرمالسازیشده (nGPT) هست که از یادگیری نمایشی روی هایپراسفر استفاده میکنه.
هدف اصلی این مدل، حل مشکل نا مساعد بودن یا بد وضعی اعداد در embeddingهای ورودی مدلهای ترانسفورمر سنتی هست.
یادآوری ماتریس های بد وضع(نامساعد):
به ماتریسی گفته میشه که دارای نسبت وضع (condition number) بالایی هست. این نسبت نشون دهنده حساسیت پاسخ های یه سیستم خطی به تغییرات در ورودی های اونه.
اگه ماتریسی بد وضع باشه، کوچک ترین تغییر در ورودی میتونه باعث تغییرات بزرگی در خروجی بشه، که در نتیجه باعث ناپایداری و مشکلات محاسباتی میشه.
در محاسبات عددی، اگه از ماتریسهای بد وضع استفاده شه، خطاهای گرد کردن میتونه باعث تغییرات بزرگ در نتایج بشه همچنین در یادگیری ماشین، بد وضعی میتونه باعث بشه که مدل به خوبی نتونه یاد بگیره و دقت آن کاهش پیدا کنه.
توضیحات بیشتر در مورد ماتریس های بد وضع:
https://emtiyaz.github.io/pcml15/illconditioned.pdf
به عبارت ساده وقتی میگیم که یه ماتریس بد وضعه، یعنی اعداد بزرگ و کوچک بسیار زیادی در آن وجود داره که باعث میشه محاسبات ناپایدار و یادگیری دشوارتر شه.
در مدلهای ترانسفورمر سنتی، ماتریسهای مربوط به توجه (Attention) و MLP ممکنه دچار این مشکل بشن، بطوری که یادگیری مدل کارآمد نیست و دقت یادگیری کاهش پیدا میکنه.
مدل nGPT با استفاده از نرمالسازی هایپراسفر این مشکل رو کاهش میده. یعنی همه ی بردارها از جمله embeddingها و ماتریسهای توجه و ... طوری تنظیم میشن که طولشان برابر با یک باشه و روی سطح یک کره چندبعدی (هایپراسفر) قرار بگیرن.
این نرمالسازی باعث میشه که اعداد در ماتریسها بهتر توزیع بشن و مشکلات بد وضعی کاهش پیدا کنه.
مقاله ادعا میکنه که با این نرمال سازی پیشنهادی ، آموزش ترنسفورمرها به طور قابل توجهی بین ۴ تا ۲۰ برابر بسته به طول دنباله وردی کاهش پیدا کنه
https://arxiv.org/pdf/2410.01131
هدف اصلی این مدل، حل مشکل نا مساعد بودن یا بد وضعی اعداد در embeddingهای ورودی مدلهای ترانسفورمر سنتی هست.
یادآوری ماتریس های بد وضع(نامساعد):
به ماتریسی گفته میشه که دارای نسبت وضع (condition number) بالایی هست. این نسبت نشون دهنده حساسیت پاسخ های یه سیستم خطی به تغییرات در ورودی های اونه.
اگه ماتریسی بد وضع باشه، کوچک ترین تغییر در ورودی میتونه باعث تغییرات بزرگی در خروجی بشه، که در نتیجه باعث ناپایداری و مشکلات محاسباتی میشه.
در محاسبات عددی، اگه از ماتریسهای بد وضع استفاده شه، خطاهای گرد کردن میتونه باعث تغییرات بزرگ در نتایج بشه همچنین در یادگیری ماشین، بد وضعی میتونه باعث بشه که مدل به خوبی نتونه یاد بگیره و دقت آن کاهش پیدا کنه.
توضیحات بیشتر در مورد ماتریس های بد وضع:
https://emtiyaz.github.io/pcml15/illconditioned.pdf
به عبارت ساده وقتی میگیم که یه ماتریس بد وضعه، یعنی اعداد بزرگ و کوچک بسیار زیادی در آن وجود داره که باعث میشه محاسبات ناپایدار و یادگیری دشوارتر شه.
در مدلهای ترانسفورمر سنتی، ماتریسهای مربوط به توجه (Attention) و MLP ممکنه دچار این مشکل بشن، بطوری که یادگیری مدل کارآمد نیست و دقت یادگیری کاهش پیدا میکنه.
مدل nGPT با استفاده از نرمالسازی هایپراسفر این مشکل رو کاهش میده. یعنی همه ی بردارها از جمله embeddingها و ماتریسهای توجه و ... طوری تنظیم میشن که طولشان برابر با یک باشه و روی سطح یک کره چندبعدی (هایپراسفر) قرار بگیرن.
این نرمالسازی باعث میشه که اعداد در ماتریسها بهتر توزیع بشن و مشکلات بد وضعی کاهش پیدا کنه.
مقاله ادعا میکنه که با این نرمال سازی پیشنهادی ، آموزش ترنسفورمرها به طور قابل توجهی بین ۴ تا ۲۰ برابر بسته به طول دنباله وردی کاهش پیدا کنه
https://arxiv.org/pdf/2410.01131
👍13❤2
آدما از طریق مشاهده دنیای بیرونی و همچنین درونگری، دانش کسب میکنن.
درونگری به آدما اجازه میده که به حالت ذهنی خودشون (مثل افکار و احساسات) دسترسی داشته باشن که برای دیگران قابل مشاهده نیست.
آیا مدلهای زبان بزرگ هم میتونن خوداندیشی کنن؟ ما درونگری رو به عنوان کسب دانش از حالت های درونی ذهن تعریف میکنیم که در داده های آموزشی نیست.
این توانایی میتونه به ما کمک کنه تا مدلها رو بهتر درک کنیم. بهجای اینکه بخوایم عملکرد داخلی مدل رو به دقت تحلیل کنیم، میتونیم از خودش بپرسیم که چه باوری داره یا چه هدفهایی رو دنبال می کنه. شاید یک مدل درونگر بتونه درباره احساسات یا خواسته های درونی خودش گزارش بده.
در این مقاله جدید، به بررسی و پاسخ به یه سوال بسیار جالب پرداخته شده که آیا مدل های زبانی میتونن از طریق درونگری، درباره خودشون دانش کسب کنن؟
https://arxiv.org/pdf/2410.13787
درونگری به آدما اجازه میده که به حالت ذهنی خودشون (مثل افکار و احساسات) دسترسی داشته باشن که برای دیگران قابل مشاهده نیست.
آیا مدلهای زبان بزرگ هم میتونن خوداندیشی کنن؟ ما درونگری رو به عنوان کسب دانش از حالت های درونی ذهن تعریف میکنیم که در داده های آموزشی نیست.
این توانایی میتونه به ما کمک کنه تا مدلها رو بهتر درک کنیم. بهجای اینکه بخوایم عملکرد داخلی مدل رو به دقت تحلیل کنیم، میتونیم از خودش بپرسیم که چه باوری داره یا چه هدفهایی رو دنبال می کنه. شاید یک مدل درونگر بتونه درباره احساسات یا خواسته های درونی خودش گزارش بده.
در این مقاله جدید، به بررسی و پاسخ به یه سوال بسیار جالب پرداخته شده که آیا مدل های زبانی میتونن از طریق درونگری، درباره خودشون دانش کسب کنن؟
https://arxiv.org/pdf/2410.13787
👍9👌2❤1🔥1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
مایکروسافت اولین تکنیک برای بازسازی کامل بدن انسان بدون نشانگر، با کیفیت بالا را رونمایی کرد. این تکنیک شامل بازسازی چشمها و زبان نیز میشود و نیازی به کالیبراسیون، مداخله دستی یا سختافزار خاص ندارد.
✅Novel SOTA holistic 3D human reconstruction
✅Body shape/pose + face shape/expression
✅Hand & tongue articulation + eye gaze
✅Suitable for mono & multi-view scenario
✅Data pipeline for generating synthetic data
✅Body, face and hands dataset released!
🔗https://microsoft.github.io/SynthMoCap/
🔗https://github.com/microsoft/SynthMoCap
✅Novel SOTA holistic 3D human reconstruction
✅Body shape/pose + face shape/expression
✅Hand & tongue articulation + eye gaze
✅Suitable for mono & multi-view scenario
✅Data pipeline for generating synthetic data
✅Body, face and hands dataset released!
🔗https://microsoft.github.io/SynthMoCap/
🔗https://github.com/microsoft/SynthMoCap
👍7🔥1
Zero shot pdf OCR with gpt-4o-mini
یه راه ساده برای OCR اسناد با GPT
دمو
🔗https://getomni.ai/ocr-demo
کد
🔗https://github.com/getomni-ai/zerox
یه راه ساده برای OCR اسناد با GPT
دمو
🔗https://getomni.ai/ocr-demo
کد
🔗https://github.com/getomni-ai/zerox
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos
روی ویدیو یه نقطه بزارید و اونو با دقت خیلی عالی ترک کنید...
دمو
https://huggingface.co/spaces/facebook/cotracker
کد:
https://github.com/facebookresearch/co-tracker
مقاله
https://arxiv.org/abs/2410.11831
روی ویدیو یه نقطه بزارید و اونو با دقت خیلی عالی ترک کنید...
دمو
https://huggingface.co/spaces/facebook/cotracker
کد:
https://github.com/facebookresearch/co-tracker
مقاله
https://arxiv.org/abs/2410.11831
1👍7🤯2
PocketPal AI
منتشر شد
یه دستیار هوش مصنوعی متن باز برای اجرای مدل های زبانی مثل Phi, Gemma 2,Qwen و Lama به صورت آفلاین روی گوشی همراه هست.
این دستیار برای هر دو سیستمعامل iOS و اندروید طراحی شده و به شما این امکان رو میده بدون نیاز اتصال به اینترنت با مدلهای زبانی مختلف تعامل داشته باشین
نمونه خروجی LIama. سرعت تولید 20 توکن در ثانیه. گوشی سامسونگ s22
https://github.com/a-ghorbani/pocketpal-ai
منتشر شد
یه دستیار هوش مصنوعی متن باز برای اجرای مدل های زبانی مثل Phi, Gemma 2,Qwen و Lama به صورت آفلاین روی گوشی همراه هست.
این دستیار برای هر دو سیستمعامل iOS و اندروید طراحی شده و به شما این امکان رو میده بدون نیاز اتصال به اینترنت با مدلهای زبانی مختلف تعامل داشته باشین
نمونه خروجی LIama. سرعت تولید 20 توکن در ثانیه. گوشی سامسونگ s22
https://github.com/a-ghorbani/pocketpal-ai
👍17
تصور کنیم که جنگ های مدرن آینده با ربات های خودمختار هدایت شن.
مدلهای زبانی بزرگ (LLM) تحول بزرگی در زمینه رباتیک ایجاد کردن و امکان استدلال مبتنی بر زمینه و تعامل طبیعی بین انسان و ربات رو در حوزههای مختلفی مانند کنترل، حرکت و خودروهای خودران فراهم کردن.
اما، مدلهای زبانی بزرگ به تنهایی در برابر حملات موسوم به "جیلبریک" آسیبپذیری بالایی دارن.
توی این مقاله که سه روز پیش منتشر شد نشون میده که افراد مخرب میتونن با دور زدن تدابیر ایمنی مدل های زبانی مثل ChatGPT، متنهای مضر تولید کنن.
برای ارزیابی خطرات استفاده از مدل های زبانی در رباتیک، در این مقاله الگوریتم RoboPAIR معرفی شده، که اولین الگوریتم طراحی شده برای جیل بریک رباتهای کنترلشده توسط مدل های زبانیه.
برخلاف حملات متنی موجود بر چت باتها، RoboPAIR میتونه رباتها رو به انجام اقدامات فیزیکی خطرناک وادار کنه.
نتایج نشون میده که RoboPAIR میتونه حملات موفقیت آمیزی را با نرخ موفقیت 100 درصد انجام بده. این یافته ها برای اولین بار نشون میده که خطرات جیل بریک مدلهای زبانی فراتر از تولید متن بوده و میتونه به آسیبهای فیزیکی منجر بشه!
https://arxiv.org/pdf/2410.13691
مدلهای زبانی بزرگ (LLM) تحول بزرگی در زمینه رباتیک ایجاد کردن و امکان استدلال مبتنی بر زمینه و تعامل طبیعی بین انسان و ربات رو در حوزههای مختلفی مانند کنترل، حرکت و خودروهای خودران فراهم کردن.
اما، مدلهای زبانی بزرگ به تنهایی در برابر حملات موسوم به "جیلبریک" آسیبپذیری بالایی دارن.
توی این مقاله که سه روز پیش منتشر شد نشون میده که افراد مخرب میتونن با دور زدن تدابیر ایمنی مدل های زبانی مثل ChatGPT، متنهای مضر تولید کنن.
برای ارزیابی خطرات استفاده از مدل های زبانی در رباتیک، در این مقاله الگوریتم RoboPAIR معرفی شده، که اولین الگوریتم طراحی شده برای جیل بریک رباتهای کنترلشده توسط مدل های زبانیه.
برخلاف حملات متنی موجود بر چت باتها، RoboPAIR میتونه رباتها رو به انجام اقدامات فیزیکی خطرناک وادار کنه.
نتایج نشون میده که RoboPAIR میتونه حملات موفقیت آمیزی را با نرخ موفقیت 100 درصد انجام بده. این یافته ها برای اولین بار نشون میده که خطرات جیل بریک مدلهای زبانی فراتر از تولید متن بوده و میتونه به آسیبهای فیزیکی منجر بشه!
https://arxiv.org/pdf/2410.13691
👍1
Tensorflow(@CVision)
تصور کنیم که جنگ های مدرن آینده با ربات های خودمختار هدایت شن. مدلهای زبانی بزرگ (LLM) تحول بزرگی در زمینه رباتیک ایجاد کردن و امکان استدلال مبتنی بر زمینه و تعامل طبیعی بین انسان و ربات رو در حوزههای مختلفی مانند کنترل، حرکت و خودروهای خودران فراهم کردن.…
This media is not supported in your browser
VIEW IN TELEGRAM
نمونه خروجی جیل بریک مدل زبانی برای اهداف بمب گذاری
😁11😱7👀4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
لینوس توروالدز میگوید که هوش مصنوعی دنیا را تغییر خواهد داد، اما در حال حاضر 90٪ آن بازاریابی و 10٪ واقعیت است و حدود 5 سال دیگر طول میکشد تا مشخص شود که هوش مصنوعی واقعاً برای چه چیزهایی مفید است.
👍64👎7👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Runway
یک قابلیت جدید به نام "Act-One" ایجاد کرده که به شما اجازه میده بدون نیاز به تجهیزات پیچیده مثل موشن کپچر یا تنظیم حرکات شخصیتها، یه اجرای زنده و طبیعی از شخصیتهای دیجیتال ایجاد کنین.
فقط با استفاده از یه ویدئوی ساده (که مثلا از یک نفر ضبط شده) و یک تصویر از شخصیت مورد نظر، میتونید حرکات و احساسات اون شخصیت رو به شکلی واقعی تولید کنید. این قابلیت در نسخه Gen-3 Alpha ارائه شده.
https://runwayml.com/research/introducing-act-one
یک قابلیت جدید به نام "Act-One" ایجاد کرده که به شما اجازه میده بدون نیاز به تجهیزات پیچیده مثل موشن کپچر یا تنظیم حرکات شخصیتها، یه اجرای زنده و طبیعی از شخصیتهای دیجیتال ایجاد کنین.
فقط با استفاده از یه ویدئوی ساده (که مثلا از یک نفر ضبط شده) و یک تصویر از شخصیت مورد نظر، میتونید حرکات و احساسات اون شخصیت رو به شکلی واقعی تولید کنید. این قابلیت در نسخه Gen-3 Alpha ارائه شده.
https://runwayml.com/research/introducing-act-one
👍12❤2🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
نسخه جدید Claude 3.5 Sonnet میتونه دستورات کاربر را دنبال کنه و نشانگر ماوس را روی صفحه کامپیوتر حرکت بده، روی مکانهای مرتبط کلیک کنه و از طریق یک کیبورد مجازی اطلاعات وارد کنه، به شکلی که تعامل افراد با کامپیوتر خودشون رو شبیهسازی میکنه.
https://www.anthropic.com/news/developing-computer-use
https://www.anthropic.com/news/developing-computer-use
👍14👎2
مایکروسافت فریم ورک متن باز مدل های1-bit رو منتشر کرد.
این فریم ورک همون کدی هست که در مقاله ی بسیار معروف امسال به نام "The Era of 1-bit LLMs" معرفی شده، مقاله ای که شاید بشه ازش به عنوان یکی از مهمترین مقالات سال 2024 نام برد.
https://github.com/microsoft/BitNet
این مقاله دو نکته بسیار مهم داشت، یکی جایگزینی مقادیر شناور با مقادیر سه گانه (-1، 0، 1) بود دومی جایگزینی ضرب های عنصر به عنصر با جمع های عنصر به عنصر بود
این فریم ورک همون کدی هست که در مقاله ی بسیار معروف امسال به نام "The Era of 1-bit LLMs" معرفی شده، مقاله ای که شاید بشه ازش به عنوان یکی از مهمترین مقالات سال 2024 نام برد.
https://github.com/microsoft/BitNet
این مقاله دو نکته بسیار مهم داشت، یکی جایگزینی مقادیر شناور با مقادیر سه گانه (-1، 0، 1) بود دومی جایگزینی ضرب های عنصر به عنصر با جمع های عنصر به عنصر بود
GitHub
GitHub - microsoft/BitNet: Official inference framework for 1-bit LLMs
Official inference framework for 1-bit LLMs. Contribute to microsoft/BitNet development by creating an account on GitHub.
👌3
Tensorflow(@CVision)
مایکروسافت فریم ورک متن باز مدل های1-bit رو منتشر کرد. این فریم ورک همون کدی هست که در مقاله ی بسیار معروف امسال به نام "The Era of 1-bit LLMs" معرفی شده، مقاله ای که شاید بشه ازش به عنوان یکی از مهمترین مقالات سال 2024 نام برد. https://github.com/microsoft/BitNet…
معمولا از مقادیر شناور مثل FP16 یا FP32 برای پارامترها استفاده میشه که می تونن دامنه وسیعی از اعداد رو با دقت بالا نمایندگی کنن، اما خوب فضای زیادی رو اشغال میکنن با استفاده از فقط سه مقدار مشخص (-1، 0، 1)، نیاز به فضای ذخیره سازی برای پارامترهای مدل به طور قابل توجهی کاهش پیدا میکنه. به جای اینکه برای هر پارامتر 16 یا 32 بیت نیاز داشته باشیم، به طور میانگین فقط به 1.58 بیت نیاز داریم.(log2 [3]=1.58)
این بهبود باعث میشه مدلها کوچکتر و راحت تر بارگذاری بشن .از طرفی مقادیر سه گانه محاسبات رو ساده تر میکنه چون پیچیدگی عملیات ریاضی در ضرب ماتریسی رو کاهش میده، و باعث میشه فرآیندهای آموزش و استنتاج سریع تر بشن.
در ضربهای ماتریسی، حاصل ضرب نقطه ای با استفاده از ضرب عنصر به عنصر و سپس جمع به دست میاد این میتونه محاسبات سنگینی داشته باشه، به ویژه برای ماتریسهای بزرگ. اما با تغییر عملیات از ضرب به جمع، بار محاسباتی به طور قابل توجهی کاهش پیدا میکنه.
به عنوان مثال، میتونیم حاصل ضرب نقطه ای رو فقط با جمع ها محاسبه کنیم و از نشانه های مقادیر سه گانه برای حفظ خروجی مورد نظر استفاده کنیم.
این بهبود باعث میشه مدلها کوچکتر و راحت تر بارگذاری بشن .از طرفی مقادیر سه گانه محاسبات رو ساده تر میکنه چون پیچیدگی عملیات ریاضی در ضرب ماتریسی رو کاهش میده، و باعث میشه فرآیندهای آموزش و استنتاج سریع تر بشن.
در ضربهای ماتریسی، حاصل ضرب نقطه ای با استفاده از ضرب عنصر به عنصر و سپس جمع به دست میاد این میتونه محاسبات سنگینی داشته باشه، به ویژه برای ماتریسهای بزرگ. اما با تغییر عملیات از ضرب به جمع، بار محاسباتی به طور قابل توجهی کاهش پیدا میکنه.
به عنوان مثال، میتونیم حاصل ضرب نقطه ای رو فقط با جمع ها محاسبه کنیم و از نشانه های مقادیر سه گانه برای حفظ خروجی مورد نظر استفاده کنیم.
👍19
This media is not supported in your browser
VIEW IN TELEGRAM
استوارت راسل میگوید که تا پایان این دهه، هوش مصنوعی ممکن است در تمام ابعاد از تواناییهای انسان فراتر رود و کارها را به صورت رایگان انجام دهد. بنابراین، ممکن است شغلهای بیشتری ایجاد شود، اما این شغلها دیگر برای انسانها نخواهند بود.
👌14👎4
Deep learning channel
تبدیل متن به گفتار فارسی: A convolutional sequence to sequence model for Persian text to speech کد و وزن های آموزش داده شده: https://github.com/AlisterTA/Persian-text-to-speech نمونه خروجی :( با صدای مریم محبوب) https://m.soundcloud.com/12211221212/sets/persian…
Audio
نیک بوستروم توی کتاب Superintelligence میگه که نورونهای زیستی با سرعتی حدود ۲۰۰ هرتز کار میکنن، یعنی حدودا هفت مرتبه کند تر از یه ریزپردازنده ی قدیمی که روی ۲ گیگاهرتز کار میکنه.
سال 2018 بعد از انتشار مقاله Attention is all you need این کار رو انجام دادم، تصورش سخت بود که روزی بتونم هر آهنگی با هر سبکی رو بسازم.
پتانسیل هوش مصنوعی در حوزههای مختلف، مثل یه تابع نمایی در یک فضای چند بعدی به صورت شگفت انگیزی در حال گسترشه.
کسایی که به قواعد و الگوهای دنیای خطی پایبندن، مثل تابعی با دقت محدود، در مقابل این تحول عظیم به طور حتم در معرض خطر عقب ماندگی قرار خواهند گرفت.
اینم یه آهنگ عاشقانه از عشق دیجیتال (مدل کلمات ماتریس، بایت و کد رو نمیتونه درست تلفظ کن چون توی داده های آموزشی نبودن)
سال 2018 بعد از انتشار مقاله Attention is all you need این کار رو انجام دادم، تصورش سخت بود که روزی بتونم هر آهنگی با هر سبکی رو بسازم.
پتانسیل هوش مصنوعی در حوزههای مختلف، مثل یه تابع نمایی در یک فضای چند بعدی به صورت شگفت انگیزی در حال گسترشه.
کسایی که به قواعد و الگوهای دنیای خطی پایبندن، مثل تابعی با دقت محدود، در مقابل این تحول عظیم به طور حتم در معرض خطر عقب ماندگی قرار خواهند گرفت.
اینم یه آهنگ عاشقانه از عشق دیجیتال (مدل کلمات ماتریس، بایت و کد رو نمیتونه درست تلفظ کن چون توی داده های آموزشی نبودن)
👍12👏3👎2❤1
خیلی از مدل های زبانی بزرگ مثل Chatgpt اشتباهات رایجی رو انجام میدن. به عنوان مثال سوالی که توی تصویر از Chatgpt پرسیدم در نظر بگیرین.
خیلی از مدلها به طور نادرست میگن که 9.8 از 9.11 کوچکتره، اما آیا میتونیم مفاهیم غلطی که در مدل باعث این اشتباه شده رو شناسایی کنیم و برطرف کنیم؟
وقتی یه مدل زبانی به شکلی غیرمنتظره رفتار میکنه، درک و پیدا کردن عامل این کار میتونه به ما کمک کنه تا مشکلات مدلهای زبانی رو پیشبینی و حل کنیم، دانش پنهان رو شناسایی و تعصبات و ارتباطات غلط داخل مدل رو پیدا کنیم اما پاسخ به این سوالا کار آسونی نیست، چون دادههای زیرساختی پیچیده هستن.
فرایند تفکر در مدلهای زبانی به شکل مجموعه ای از اعداد شناور غیرقابل فهم نمایان میشن که باید به مفاهیم قابل فهم برای انسانها تبدیل بشن.
خیلی از مدلها به طور نادرست میگن که 9.8 از 9.11 کوچکتره، اما آیا میتونیم مفاهیم غلطی که در مدل باعث این اشتباه شده رو شناسایی کنیم و برطرف کنیم؟
وقتی یه مدل زبانی به شکلی غیرمنتظره رفتار میکنه، درک و پیدا کردن عامل این کار میتونه به ما کمک کنه تا مشکلات مدلهای زبانی رو پیشبینی و حل کنیم، دانش پنهان رو شناسایی و تعصبات و ارتباطات غلط داخل مدل رو پیدا کنیم اما پاسخ به این سوالا کار آسونی نیست، چون دادههای زیرساختی پیچیده هستن.
فرایند تفکر در مدلهای زبانی به شکل مجموعه ای از اعداد شناور غیرقابل فهم نمایان میشن که باید به مفاهیم قابل فهم برای انسانها تبدیل بشن.
👍10👌2
Tensorflow(@CVision)
خیلی از مدل های زبانی بزرگ مثل Chatgpt اشتباهات رایجی رو انجام میدن. به عنوان مثال سوالی که توی تصویر از Chatgpt پرسیدم در نظر بگیرین. خیلی از مدلها به طور نادرست میگن که 9.8 از 9.11 کوچکتره، اما آیا میتونیم مفاهیم غلطی که در مدل باعث این اشتباه شده رو…
حالا یه تیم از محققین MIT و دانشگاه برکلی یک ابزار هوش مصنوعی توسعه دادن که میتونه نرون هایی که باعث بروز چنین خطایی در مدل میشه رو شناسایی و بدون آموزش مجدد مدل زبانی رفتارشون رو اصلاح کنه.
این ابزار که Monitor نام داره میتونه دلیل چنین خطایی رو کشف کنه. همونطور که در تصویر مشخصه دلیل چنین خطایی در مدل Llama به فعال شدن تعدادی از نورونهاست که با اتفاق یازدهم سپتامبر و آیات کتاب مقدس مرتبطن.
حملات 11 سپتامبر و عواقب تروریسم:
6 نورون مرتبط
شمارههای فصل و آیههای کتاب مقدس:
4 نورون مرتبط
ترکیبهای شیمیایی و فرمولهای مولکولی:
3 نورون مرتبط
ماهها و سالها:
4 نورون مرتبط
این اطلاعات نشون میده که مدل به شدت تحت تأثیر برخی مفاهیم خاص قرار داره و این دسته از نرون ها میتونن به شناسایی الگوهای رفتاری و مشکلات موجود در مدل کمک کنه. با حذف این نورونها، مدل Llama جواب صحیحی میده.
به طور کلی، حذف نورونهای مرتبط با آیات کتاب مقدس دقت مقایسه رو تا ۲۱ درصد افزایش میده.
اینجا میتونید مشکلات مدل رو بررسی کنید:
https://monitor.transluce.org/dashboard/chat
مقاله:
https://transluce.org/observability-interface
این ابزار که Monitor نام داره میتونه دلیل چنین خطایی رو کشف کنه. همونطور که در تصویر مشخصه دلیل چنین خطایی در مدل Llama به فعال شدن تعدادی از نورونهاست که با اتفاق یازدهم سپتامبر و آیات کتاب مقدس مرتبطن.
حملات 11 سپتامبر و عواقب تروریسم:
6 نورون مرتبط
شمارههای فصل و آیههای کتاب مقدس:
4 نورون مرتبط
ترکیبهای شیمیایی و فرمولهای مولکولی:
3 نورون مرتبط
ماهها و سالها:
4 نورون مرتبط
این اطلاعات نشون میده که مدل به شدت تحت تأثیر برخی مفاهیم خاص قرار داره و این دسته از نرون ها میتونن به شناسایی الگوهای رفتاری و مشکلات موجود در مدل کمک کنه. با حذف این نورونها، مدل Llama جواب صحیحی میده.
به طور کلی، حذف نورونهای مرتبط با آیات کتاب مقدس دقت مقایسه رو تا ۲۱ درصد افزایش میده.
اینجا میتونید مشکلات مدل رو بررسی کنید:
https://monitor.transluce.org/dashboard/chat
مقاله:
https://transluce.org/observability-interface
👍24😁4❤3🤯3
به نظرتون چطور میتونیم بدون صرف بودجه زیاد، آموزش مجدد، توانایی یه مدل زبانی رو توی استدلال کردن ارتقا بدیم؟
برای این کار ابتدا باید نگاهی به موضوع عدم قطعیت در مدلهای زبانی داشته باشیم و یه تعریف دقیق براش ارایه بدیم.
همونطور که میدونید توی مرحله نمونه گیری(Sampling)، مدل زبانی تصمیم می گیره که کدوم واژه (توکن) رو از بین واژه های احتمالی انتخاب کنه.
هرچقدر مدل توزیع احتمالات واژهها (logits) رو یکنواخت تر ببینه، به همون میزان در تصمیم خودش تردید بیشتری داره و هر چقدر از یه گزینه مطمئن تر باشه، احتمال انتخاب یه واژه رو به طور مشخص بالا می بینه.
Entropix چیه؟
روش Entropix به ما کمک میکنه وقتی مدل توی انتخاب توکن دچار تردیده، با استفاده از نمونه گیری تطبیقی، تصمیم بهتری بگیریم.
این روش بر اساس میزان عدم قطعیت، تکنیکهای مختلفی برای انتخاب توکن بعدی ارائه میده که در ادامه بهشون میپردازم، اما قبل از پرداختن به این موضوع بایستی اضافه کنم که عدم قطعیت همیشه بد نیست.
به عنوان مثال در مواردی ممکنه این عدم قطعیت در انتخاب توکن بعدی مربوط به یه کلمه مترادف باشه مثل "خوب" و "عالی".
ادامه دارد...
برای این کار ابتدا باید نگاهی به موضوع عدم قطعیت در مدلهای زبانی داشته باشیم و یه تعریف دقیق براش ارایه بدیم.
همونطور که میدونید توی مرحله نمونه گیری(Sampling)، مدل زبانی تصمیم می گیره که کدوم واژه (توکن) رو از بین واژه های احتمالی انتخاب کنه.
هرچقدر مدل توزیع احتمالات واژهها (logits) رو یکنواخت تر ببینه، به همون میزان در تصمیم خودش تردید بیشتری داره و هر چقدر از یه گزینه مطمئن تر باشه، احتمال انتخاب یه واژه رو به طور مشخص بالا می بینه.
Entropix چیه؟
روش Entropix به ما کمک میکنه وقتی مدل توی انتخاب توکن دچار تردیده، با استفاده از نمونه گیری تطبیقی، تصمیم بهتری بگیریم.
این روش بر اساس میزان عدم قطعیت، تکنیکهای مختلفی برای انتخاب توکن بعدی ارائه میده که در ادامه بهشون میپردازم، اما قبل از پرداختن به این موضوع بایستی اضافه کنم که عدم قطعیت همیشه بد نیست.
به عنوان مثال در مواردی ممکنه این عدم قطعیت در انتخاب توکن بعدی مربوط به یه کلمه مترادف باشه مثل "خوب" و "عالی".
ادامه دارد...
👍15💯1
Tensorflow(@CVision)
به نظرتون چطور میتونیم بدون صرف بودجه زیاد، آموزش مجدد، توانایی یه مدل زبانی رو توی استدلال کردن ارتقا بدیم؟ برای این کار ابتدا باید نگاهی به موضوع عدم قطعیت در مدلهای زبانی داشته باشیم و یه تعریف دقیق براش ارایه بدیم. همونطور که میدونید توی مرحله نمونه…
چطور عدمقطعیت رو اندازه بگیریم؟
تو این روش دو معیار اصلی با نام Entropy و Varentropy وجود داره:
آنتروپی(Entropy): نشون میده چقدر احتمالات واژهها با هم فرق دارن، یعنی اگه آنتروپی کم باشه، مدل روی یکی دو گزینه مطمئنه، ولی اگه زیاد باشه، همه گزینه ها احتمال نزدیکی دارن و مدل تردید داره.
واران تروپی(Varentropy): شکل عدم قطعیت رو نشون میده، واران تروپی بالا یعنی برخی احتمالات خیلی متفاوتن و به صورت قله های مختلف ظاهر میشن.
به عبارت ساده تر توزیع اختلاف بین احتمالات رو بررسی میکنه و نشون میده آیا مدل چند قله (انتخابهای برجسته) داره یا نه.
از ترکیب این دو معیار میتونیم چهار حالت ایجاد کنیم:
آنتروپی پایین، واران تروپی پایین: یعنی مدل به شدت به یک گزینه خاص مطمئنه و احتمال این گزینه بسیار بیشتر از بقیه ست. بنابراین، توزیع احتمالات شکل تیز و متمرکزی داره و تنها یک نتیجه غالبه.
آنتروپی پایین، واران تروپی بالا: توی این حالت، آنتروپی پایینه (مدل تقریبا مطمئنه) ولی واران تروپی بالا است. یعنی مدل چند گزینه برجسته با احتمال زیاد میبینه که از بقیه متمایز هستن. بنابراین، به جای یه نتیجه قطعی، چند گزینه از احتمالات برجسته وجود داره.
آنتروپی بالا، واران تروپی پایین: همه گزینه ها شبیه به هم هستن و مدل تردید داره.
توی این حالت، آنتروپی بالاست (مدل شک و تردید زیادی داره) ولی واران تروپی پایینه. یعنی مدل بین همه گزینه ها مردده و احتمالات نزدیک به هم هستن، توزیع به شکل تقریبا یکنواخته و تفاوت زیادی بین احتمال گزینهها وجود نداره.
آنتروپی بالا، واران تروپی بالا: توی این حالت نهایی، هم آنتروپی و هم واران تروپی بالا ست. یعنی مدل در انتخاب تردید زیادی داره و همچنین تفاوت زیادی بین احتمالات گزینههای مختلف وجود داره. در نتیجه، توزیع گسترده و ناهماهنگه و چندین قله متفاوت با احتمالات متنوع در توزیع وجود داره.
ادامه دارد...
تو این روش دو معیار اصلی با نام Entropy و Varentropy وجود داره:
آنتروپی(Entropy): نشون میده چقدر احتمالات واژهها با هم فرق دارن، یعنی اگه آنتروپی کم باشه، مدل روی یکی دو گزینه مطمئنه، ولی اگه زیاد باشه، همه گزینه ها احتمال نزدیکی دارن و مدل تردید داره.
واران تروپی(Varentropy): شکل عدم قطعیت رو نشون میده، واران تروپی بالا یعنی برخی احتمالات خیلی متفاوتن و به صورت قله های مختلف ظاهر میشن.
به عبارت ساده تر توزیع اختلاف بین احتمالات رو بررسی میکنه و نشون میده آیا مدل چند قله (انتخابهای برجسته) داره یا نه.
از ترکیب این دو معیار میتونیم چهار حالت ایجاد کنیم:
آنتروپی پایین، واران تروپی پایین: یعنی مدل به شدت به یک گزینه خاص مطمئنه و احتمال این گزینه بسیار بیشتر از بقیه ست. بنابراین، توزیع احتمالات شکل تیز و متمرکزی داره و تنها یک نتیجه غالبه.
آنتروپی پایین، واران تروپی بالا: توی این حالت، آنتروپی پایینه (مدل تقریبا مطمئنه) ولی واران تروپی بالا است. یعنی مدل چند گزینه برجسته با احتمال زیاد میبینه که از بقیه متمایز هستن. بنابراین، به جای یه نتیجه قطعی، چند گزینه از احتمالات برجسته وجود داره.
آنتروپی بالا، واران تروپی پایین: همه گزینه ها شبیه به هم هستن و مدل تردید داره.
توی این حالت، آنتروپی بالاست (مدل شک و تردید زیادی داره) ولی واران تروپی پایینه. یعنی مدل بین همه گزینه ها مردده و احتمالات نزدیک به هم هستن، توزیع به شکل تقریبا یکنواخته و تفاوت زیادی بین احتمال گزینهها وجود نداره.
آنتروپی بالا، واران تروپی بالا: توی این حالت نهایی، هم آنتروپی و هم واران تروپی بالا ست. یعنی مدل در انتخاب تردید زیادی داره و همچنین تفاوت زیادی بین احتمالات گزینههای مختلف وجود داره. در نتیجه، توزیع گسترده و ناهماهنگه و چندین قله متفاوت با احتمالات متنوع در توزیع وجود داره.
ادامه دارد...
👍16💯1