Tensorflow(@CVision)
15.2K subscribers
1.29K photos
310 videos
81 files
2.54K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت:
https://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

لینک گروه:
@tf2keras
Download Telegram
Forwarded from School of AI
اگر دموهای GPT-4o براتون جذاب بود، احتمالا تا الان به مدل‌های بینایی-زبان (Vision-Language Models) هم علاقه‌مند شده‌اید. مدل‌هایی که تصویر و نوشتار را به‌صورت هم‌زمان دریافت و درک کرده و متنی مرتبط را در خروجی تولید می‌کنند.

امروز گوگل خانواده‌ای از مدل‌های VLM اوپن‌سورس به نام PaliGemma معرفی کرد.

این مدل از کد‌کننده‌ی تصویر موجود در مدل SigLip-So400m برای کدکردن تصویر ورودی استفاده کرده و به‌کمک مدل Gemma-2B که یک مدل decoder-only است، متن خروجی را تولید می‌کند.

گیت‌هاب:
https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/README.md

هاگینگ‌فیس:
https://huggingface.co/blog/paligemma
👍11
گوگل با Veo رقیبی قدرتمند برای SORA معرفی کرد

Google just released VEO, the SORA competitor.

https://deepmind.google/technologies/veo/
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
ویدئویی از دمو عملکرد Project Astra دستیار هوش مصنوعی گوگل

♨️♨️♨️♨️♨️
〰️〰️〰️〰️〰️
💡 @cvision 💡
〰️〰️〰️〰️〰️
🔥5👍4👌2
Forwarded from School of AI
همون‌طور که می‌دونید، استارتاپ Neuralink به‌تازگی تایید FDA برای کاشت ایمپنت خود در مغز انسان رو گرفت و اون رو در مغز اولین انسان قرار داد.

این ایمپلنت تعداد ۶۴ نخ (نازک‌تر از مو) دارد که روی هر کدام از آن‌ها ۱۶ عدد الکترود نصب شده که قادرند سیگنال‌های الکتریکی ناشی از فعال‌شدن یاخته‌های عصبی را اندازه‌گیری کنند.

این نخ‌ها توسط یک روبات جراح، وارد بخش Motor Cotex مغز که مسئول تبدیل فکر به عمل و حرکت دادن اندام‌هاست، می‌شود. بنابراین در هر لحظه که شخص به عملی فکر می‌کند، ۱۰۲۴ سیگنال از سلول‌های motor cortex خوانده شده و با بلوتوث به اپلیکیشن موبایل ارسال می‌شود.

پردازش این سیگنال‌ها و آموزش مدل‌های یادگیری ماشین روی آن‌ها امکان کنترل کامپیوتر توسط ذهن (Brain-Computer Interface) را می‌دهد.

با این‌که در اولین آزمایش انسانی، تعدادی از نخ‌ها خود‌به‌خود از مغز بیمار خارج شده، اما پژوهش‌گران همچنان مشغول جمع‌آوری داده از سایر الکترودها اند و امروز اطلاع دادند که بیمار توانسته بازی Webgrid رو با امتیاز ۸/۰۱ (که بسیار نزدیک به انجام با دست است) انجام دهد.

شما هم می‌تونید از لینک زیر این بازی رو انجام بدید:
https://neuralink.com/webgrid/

به نظرتو شما هدف Neuralink از انتشار این بازی چیست؟ جمع آوری داده از بازی‌های انجام شده یا تبلیغات؟!
👍51
Forwarded from School of AI
پژوهش‌گرها (و دانشجو‌ها) همیشه دل‌شون می‌خواد که یه نفر باشه که هر مقاله‌ای رو که می‌گن بره بخونه، بیاد خلاصه‌شو بهشون بگه و انقدری خوب مقاله رو فهمیده باشه که پرسش‌هاشون رو هم پاسخ بده و خلاصه یه پارتنری باشه که بشینن در مورد مقاله با هم صحبت کنن.

خوب گوگل زحمت این رو هم کشید ☺️

https://illuminate.withgoogle.com/
👍203
Forwarded from School of AI
اگه از خوراک‌های تکراری‌ خسته شدی می‌تونی به کمک هوش مصنوعی جدید گوگل دستور پخت خوراک‌های ترکیبی از دو کشور مختلف رو امتحان کنی!

https://artsandculture.google.com/
👍6
ظاهرا شرکت هواوی که خواسته از این هیاهوی هوش مصنوعی سهمی داشته باشه بدجوری ضایع شده!

هواوی اخیراً تولید کننده تصویر یا image generator خود را ارائه کرده و معلوم شد که این شرکت آنقدر در مورد آن نامطمئن بوده که هاردکدی را نوشته بوده که با 6 ثانیه تاخیر، یه تصویر از پیش آماده شده را از یک پوشه بر میداشته و نشون میداده که ارور داده و با متن ارور لو رفتن!!

البته خبرو فقط تو ردیت دیدم، جای معتبری هنوز تایید نکرده!

https://www.reddit.com/r/facepalm/comments/1csuf74/huawei_just_accidentally_revealed_that_their_new/
😁40😱3👍2🤔2👌1
خبر خوب برای کارکنان مرکز تماس:
تلطیف صدای تماس گیرندگان خشمگین با هوش مصنوعی(😡==>😘)

تیم SoftBank فناوری توسعه داده که خلق و خوی مشتریان را تشخیص داده و در صورت لزوم از شدت خشم و فریاد آنها کاسته و صدای تلطیف شده را برای اپراتور پخش میکند  و به اپراتورها کمک می کند تا استرس نگیره و ناراحت نشه :)
چقدر مهربون!
https://www.reuters.com/technology/softbank-corp-aims-help-call-centre-workers-by-softening-angry-customer-calls-2024-05-16/
😁19👍5😢1👌1
این ویدیو یه صحبت با جفری هینتون است:

https://youtu.be/tP-4njhyGvo

خلاصه:

آقای هینتون اول دنبال فهمیدن کارکرد مغز بود ولی از یافته‌های علوم اعصاب ناامید شد.
به یادگیری با الگوریتم بیشتر علاقه پیدا کرد و سراغ هوش مصنوعی رفت.
درباره همکاری با افراد دیگه تو این زمینه صحبت میکنه.
فکر میکنه مدل‌های زبان بزرگ فقط کلمه بعدی رو حدس نمیزنن بلکه معنی کل جمله رو درک میکنن.
به این اشاره میکنه که این مدل‌ها شاید حتی از فهم انسان هم فراتر برن.
روش فعلی آموزش هوش مصنوعی با حجم زیادی از اطلاعات رو تایید میکنه ولی میگه شاید الگوریتم‌های یادگیری دیگری هم باشن که موفق باشن.
در آخر، باحال‌ترین دستاورد پژوهشی خودش رو کارش با Sejnowski میدونه.
👍122🙏2👏1
Media is too big
VIEW IN TELEGRAM
به نظرتون این دموها واقعیه یا ...؟
👍4🤔3😱2
Forwarded from School of AI
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهش‌گران دانشگاه میشیگان، یک Diffusion Model معرفی کرده‌اند که با دریافت یک پرامپت متنی برای صوت (در کنار تصویر)، صدا نیز تولید می‌کند.

این مدل در واقع به صدا نیز به شکل تصویر نگاه کرده (spectrograms) و آن را می‌سازد.


مقاله:
arxiv.org/pdf/2405.12221
بلاگ‌پُست:
ificl.github.io/images-that-sound
گیت‌هاب:
github.com/IFICL/images-that-sound
👍6🔥5
Forwarded from School of AI
شرکت OpenAI محبوب‌ترین صدای ChatGPT موسوم به Sky را که در دموهای چند روز پیش این شرکت وجود داشت، حذف کرد.

این صدا، الهام‌گرفته‌شده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشه‌ی این فیلم) و نارضایتی وی، حذف شد.

https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/
🤯14😢4
Forwarded from School of AI
همون‌طور که می‌دونید، به‌تازگی مدل‌های چندوجهی (Multimodal Models) و به‌طور خاص مدل‌های بینایی-زبان (Vision-Language Models) بسیار محبوب شده‌اند.

این مدل‌ها معمولا به‌طور همزمان یک تصویر و یک نوشتار را در ورودی دریافت می‌کنند. خروجی این مدل‌ها ممکن‌ست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو.

از مدل‌های تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایل‌اند از مدل‌های اوپن-سورس و رایگان استفاده کنند.

به‌تازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عمل‌کرد فوق‌العاده‌ای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکن‌ست برای اجرا روی دستگاه‌های ضعیف مناسب نباشد.

گزینه‌ی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما به‌نسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) دقت قابل قبولی دارد و حتی در آزمون VQAv2 از GPT-4o هم به‌تر عمل می‌کند.

لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاین‌تیون می‌کند.

https://blog.roboflow.com/finetuning-moondream2/
👍112
📷 ویندوز ۱۱ در به‌روزرسانی جدید خود پشتیبانی کاملی از فایل‌های 7Zip و TAR را بدون نیاز به نصب برنامه فراهم کرده

blogs.windows.com/windows-insider/2024/05/17/announcing-windows-11-insider-preview-build-22635-3640-beta-channel
👍18🤩2😁1
Forwarded from School of AI
شاید شنیده باشید که در هنگام آموزش شبکه‌های عصبی، وقتی اندازه‌ی batch ها را x برابر می‌کنید، به‌تر‌ست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ برابر (اگر الگوریتم آموزش Adam است) کنید.

مثلا در LLM ها که بیش‌تر از الگوریتم آموزشی Adam استفاده می‌شود، اندازه‌ی batch ها را تا حدی که GPU شما خطای Out_Of_Memory نمی‌دهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر می‌کنید، نرخ آموزش را ۱/۴ برابر کنید.

این مقاله‌ی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه می‌دهد.

https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/

پی‌نوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را به‌صورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آن‌جا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش به‌صورت کسینوسی کم می‌شود.
👍18🙏1
Forwarded from School of AI
یکی دیگه از VLM ها که به‌تازگی توسط HuggingFace معرفی شده، Idefics2 است.

این مدل نیز مانند PaliGemma هشت میلیارد پارامتر دارد.

قابلیت دریافت دنباله‌ای از تصاویر (مثلا تکه‌ای از یک ویدئو) را دارد.

تصاویر با رزولوشن و aspect ratio خودشان پردازش می‌شوند.

قابلیت OCR بسیار خوبی دارد.

تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانع‌ست.


بلاگ‌پست معرفی:
https://huggingface.co/blog/idefics2

مقاله:
https://arxiv.org/pdf/2405.02246

مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2

فاین‌تیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
👍3
مدل YOLOv10 منتشر شد!🔥
مقاله :
https://arxiv.org/pdf/2405.14458
گیت‌هاب :
https://github.com/THU-MIG/yolov10/
🔥16👍32
📢500.000 تومان تخفیف ویژه تا 18 خرداد برای دوره‌ی جامع یادگیری عمیق:🎉

کد تخفیف:
jame_feugy

——
https://t.iss.one/class_vision/665
👍3