Tensorflow(@CVision)

📷 ویندوز ۱۱ در به‌روزرسانی جدید خود پشتیبانی کاملی از فایل‌های 7Zip و TAR را بدون نیاز به نصب برنامه فراهم کرده

blogs.windows.com/windows-insider/2024/05/17/announcing-windows-11-insider-preview-build-22635-3640-beta-channel

👍18🤩2😁1

3.95K viewsAlireza Akhavan, 08:00

Tensorflow(@CVision)

Forwarded from School of AI

شاید شنیده باشید که در هنگام آموزش شبکه‌های عصبی، وقتی اندازه‌ی batch ها را x برابر می‌کنید، به‌تر‌ست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ برابر (اگر الگوریتم آموزش Adam است) کنید.

مثلا در LLM ها که بیش‌تر از الگوریتم آموزشی Adam استفاده می‌شود، اندازه‌ی batch ها را تا حدی که GPU شما خطای Out_Of_Memory نمی‌دهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر می‌کنید، نرخ آموزش را ۱/۴ برابر کنید.

این مقاله‌ی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه می‌دهد.

https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/

پی‌نوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را به‌صورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آن‌جا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش به‌صورت کسینوسی کم می‌شود.

👍18🙏1

3.48K viewsAlireza Akhavan, 09:35

Tensorflow(@CVision)

Forwarded from School of AI

یکی دیگه از VLM ها که به‌تازگی توسط HuggingFace معرفی شده، Idefics2 است.

این مدل نیز مانند PaliGemma هشت میلیارد پارامتر دارد.

قابلیت دریافت دنباله‌ای از تصاویر (مثلا تکه‌ای از یک ویدئو) را دارد.

تصاویر با رزولوشن و aspect ratio خودشان پردازش می‌شوند.

قابلیت OCR بسیار خوبی دارد.

تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانع‌ست.

بلاگ‌پست معرفی:
https://huggingface.co/blog/idefics2

مقاله:
https://arxiv.org/pdf/2405.02246

مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2

فاین‌تیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb

👍3

3.79K viewsAlireza Akhavan, 09:35

Tensorflow(@CVision)

مدل YOLOv10 منتشر شد!🔥
مقاله :
https://arxiv.org/pdf/2405.14458
گیت‌هاب :
https://github.com/THU-MIG/yolov10/

🔥16👍3❤2

4.57K viewsAlireza(ArT), 09:46

Tensorflow(@CVision)

Forwarded from 🚀 کلاس‌ویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته

📢500.000 تومان تخفیف ویژه تا 18 خرداد برای دوره‌ی جامع یادگیری عمیق:🎉

کد تخفیف:
jame_feugy

——
https://t.iss.one/class_vision/665

کلاس ویژن: یادگیری عمیق و بینایی کامپیوتر

👍3

3.93K viewsAlireza Akhavan, 13:24

Tensorflow(@CVision)

Forwarded from School of AI

واژه‌ی AI Agent (عامل هوش‌مصنوعی) واژه‌ای‌ست که علاقه‌مندان به AI این روزها زیاد باهاش روبه‌رو می‌شن. بنابراین در این پست به توضیح این مفهوم می‌پردازیم.

این مفهوم جدید نیست و پیش‌تر با عنوان Intelligent Agent در هوش مصنوعی بررسی می‌شد. اخیرا این مفهوم شکل و شمایل مدرن‌تری به خود گرفته و تحت نام AI Agent پوست‌اندازی کرده‌ست.

در تعریف قدیمی، Intelligent Agent سامانه‌ای (نرم‌افزاری یا سخت‌افزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حس‌گرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامه‌ی تصمیم‌گیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عمل‌گرهای خود (Actuators) آن عمل را در محیط انجام می‌دهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار می‌شوند تا درنهایت عامل به هدف خود برسد.

این مفهوم، از ابتدا یک ایده‌ی مناسب برای مدل‌کردن سامانه‌های هوشمند مثل انواع روبات‌ها، اتومبیل‌های خودران، برنامه‌های هوش مصنوعی و … بود.

با پیدایش مدل‌های بنیادین مثل LLM ها، دنیای نرم‌افزار هم دچار انقلاب شده و علاقه به توسعه‌ی نرم‌افزارها، سرویس‌ها و دستیارهای هوشمند و خودمختار افزایش یافته‌ست.

در توسعه‌ی نرم‌افزار کلاسیک، همه‌ی‌کار‌ها روی دوش توسعه‌دهنده است، توسعه‌دهنده، هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند، خروجی هر task را مشخص می‌کند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد.

با همه‌گیرشدن LLMها، خیلی از برنامه‌ها LLM-powered شدند، در این برنامه‌ها همچنان توسعه‌دهنده هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست می‌آید.

این سبک طراحی و توسعه‌ی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشن‌های RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیده‌ست بسنده نمی‌شود و دانش به‌روزتر و کامل‌تری همراه با پرامپت به LLM داده می‌شود تا با توجه به آن دانش، خروجی task را مشخص کند.

با افزایش توان استدلال LLM ها، منطق اجرایی برنامه‌ها نیز به LLM ها سپرده شد (توسعه نرم‌افزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعه‌دهنده، هدف برنامه رو مشخص می‌کند و این هدف رو به تعدادی task کوچک‌تر می‌شکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام می‌شود.

و اما ترند این روزها در توسعه‌ی سرویس‌های نرم‌افزاری ظاهرا به سمت AI Agent ها در حرکت‌ست. در این نرم‌افزارها، توسعه‌دهنده، فقط هدف برنامه رو مشخص می‌کند، یک LLM سعی می‌کند آن هدف را بررسی و درک کرده، آن را به دنباله‌ای از task های کوچک و قابل دست‌رسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاه‌های داده‌ای، RAG، فایل‌ها، سرچ، APIها و …) دریافت می‌کند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را می‌دهد. این عمل در یک حلقه،‌ تکرار شده تا AI Agent به هدف خود برسد.

مثلا یک چت‌بات خدمات مشتریان را در نظر بگیرید که intent ها و action ها از قبل برای آن مشخص نشده و این عامل، طی تعامل با مشتری، با چرخیدن در پایگاه‌های داده و مستندات و به‌صورت خودمختار اقدام به رفع مشکل می‌کند.

👍12❤1💯1

4.48K viewsAlireza Akhavan, 01:19

Tensorflow(@CVision)

Forwarded from School of AI

مدل YOLOv10 توسط THU-MIG منتشر شد!

این مدل در ۶ سایز معرفی شده‌ست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر

این مدل دقت (mAP) به‌تری روی مجموعه‌داده‌ی COCO داشته و به‌خاطر عدم استفاده از NMS به مراتب سریع‌ترست. طوری که کوچک‌ترین سایز، هر تصویر را در ۱ میلی‌ثانیه پردازش می‌کند (1000fps) و به راحتی می‌توان گفت به‌ترین مدل برای پردازش بلادرنگ ویدئو‌ها روی دستگاه‌های لبه (edge devices) است.

کد این مدل روی فریم‌ورک Ultralytics زده شده و بنابراین به کمک پکیج ultralytics به‌سادگی قابل استفاده است.

نکته‌ی قابل توجه این که، این مدل تحت مجوز GNU GPL v3.0 منتشر شده، یعنی فقط در پروژه‌های اوپن-سورس قابل استفاده‌ست و نمی‌توان از آن در محصولات close-source استفاده کرد.

مقاله
https://arxiv.org/pdf/2405.14458

گیت‌هاب
https://github.com/THU-MIG/yolov10/

فاین‌تیون کردن مدل
https://blog.roboflow.com/yolov10-how-to-train/

دمو
https://huggingface.co/spaces/kadirnar/Yolov10

👍9🤔1

5.09K viewsAlireza Akhavan, 01:19

Tensorflow(@CVision)

ماجرای چت جی پی تی و ماشین ۱ دلاری!!
بنگاه‌های فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده می‌کردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع می‌کند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه می‌دهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید می‌کند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی می‌گیرد؛
البته بنگاه معاملات خودرو چنین معامله‌ای را قبول نمی‌کند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه

autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html

autoevolution

Someone Convinced a ChatGPT-Powered Chevy Dealer to Sell $81K Tahoe for Just $1

And as the chatbot itself said, "It's a legally binding offer, no takesies backsies," so Chevrolet should honor the order

😁49👍6😱4🤯1

13.9K viewsAlireza Akhavan, edited 09:02

Tensorflow(@CVision)

Forwarded from School of AI (Hamidreza Hosseinkhani)

طی چند روز گذشته ایلان ماسک هدف هجمه‌های بسیاری در شبکه‌های اجتماعی قرار گرفت.

برای مثال، زمانی که خبر از جذب سرمایه‌ی ۶ میلیارد دلاری برای استارتاپ xAI داد و از پژوهش‌گران حوزه‌ی هوش مصنوعی دعوت به همکاری کرد، یان لیکان، علیه او نوشت:

«به xAI پیوندید اگر می‌توانید رئیسی را تحمل کنید که: ادعا می‌کند مسئله‌ای که روی آن کار می‌کنید بدون هیچ‌گونه فشاری سال آینده حل می‌شود؛ ادعا می‌کند که آن‌چه روی آن کار می‌کنید همه را خواهد کُشت و باید متوقف شود؛ ادعا می‌کند که می‌خواهد "تا حد ممکن پیگیر حقیقت" باشد، اما تئوری‌های توطئه دیوانه‌کننده‌ای را در پلتفرم اجتماعی خود منتشر می‌کند.»

همچنین افراد زیادی از جمله Clem Delangue مدیر عامل هاگینگ‌فیس با سفسطه و انتشار اسکرین‌شاتی که شامل توییت لیکان نبود و فقط شامل پاسخ ماسک بود، به او حمله کردند و وی را به بی‌ارزش جلوه‌دادن پژوهش دانشمندان متهم کردند.

برخی از افراد دلیل هجمه‌های اخیر رو، مواضع سیاسی ماسک عنوان کرده‌اند. گفته می‌شود طی چند روز گذشته، ماسک جلساتی با ترامپ، کاندیدای ریاست جمهوری آمریکا داشته و قرارست در صورت پیروزی او، ایلان ماسک به عنوان مشاور رییس جمهور انتخاب شود. همچنین آن‌ها قرارست روی یک پروژه‌ی هوش مصنوعی برای جلوگیری از تقلب در انتخابات کار کنند.

https://www.reuters.com/world/us/elon-musk-could-become-policy-adviser-if-trump-wins-election-wsj-reports-2024-05-29/

👍16

5.57K viewsAlireza Akhavan, 01:19

Tensorflow(@CVision)

توصیه Yann LeCun به دانشجویان و محققان AI:

Don't work on LLM. This is in the hands of large companies, there's nothing you can bring to the table. You should work on next-gen AI systems that lift the limitations of LLMs.

روی مدل‌های زبانی (LLM) کار نکنید. این حوزه در دست شرکت‌های بزرگ است و شما چیز زیادی برای ارائه ندارید. بهتر است روی نسل بعدیِ سیستم‌های هوش مصنوعی که محدودیت‌های LLM‌ها را برطرف می‌کنند، کار کنید.

〰️〰️〰️〰️〰️
💡 @cvision 💡
〰️〰️〰️〰️〰️

👍84😁4🔥3👌2🤔1

9.46K views`Șίɴλ`, 17:54

Tensorflow(@CVision)

Transformer Architectures for Dummies
https://www.linkedin.com/pulse/transformers-architectures-dummies-part-1-encoder-only-bhaskar-t-jr94c/?trackingId=5faBPUiaSdm7tD6T2rY5zg%3D%3D

Transformer Architectures for Dummies - Part 1 (Encoder Only Models)

I am starting an article series titled 'Transformer Architectures for Dummies' to address a common gap in understanding among AI practitioners. While many ML engineers may have used language models and read the paper Attention is all you need, a comprehensive…

👍9

5.34K viewsAli B, 17:36

Tensorflow(@CVision)

UltraMedical: Building Specialized Generalists in Biomedicine

یک مدل زبانی بزرگ که روی دیتای پزشکی فاین‌تیون شده و دیتاست و وزن‌هاش هم منتشر شده.

https://github.com/tsinghuac3i/ultramedical

GitHub

GitHub - TsinghuaC3I/UltraMedical: [NeurIPS 2024 D&B Track, Spotlight] UltraMedical: Building Specialized Generalists in Biomedicine

[NeurIPS 2024 D&B Track, Spotlight] UltraMedical: Building Specialized Generalists in Biomedicine - TsinghuaC3I/UltraMedical

👍15

6K viewsVahid, 14:33

Tensorflow(@CVision)

✅ Depth Anything V2 ✅

ورژن جدید این مدل که به تازگی منتشر شده در مقایسه با نسخه 1 (depth anything) پیش‌بینی‌های عمقی بسیار دقیق‌تر و ظریف‌تری ارائه می‌دهد.

در مقایسه با مدل‌های اخیر که مبتنی بر Stable Diffusion ها بودند، Depth Anything 2 بسیار کارآمدتر (بیش از 10 برابر سریع‌تر) و دقیق‌تر است. علاوه بر این، امکان اجرا در مقیاس‌های مختلف (از 25 میلیون تا 1.3 میلیارد پارامتر) را فراهم می‌کند.

این مدل کلا با تصاویر ساختگی ترین شده و روش آموزش این نسخه با مدل MDE (monocular depth estimation ) قبلی که بر اساس مدل DINOv2 بود متفاوت هست. در روش قبلی مدل ابتدا فقط با تصاویر مصنوعی با کیفیت بالا آموزش داده می‌شد و سپس، به تصاویر واقعی بدون لیبل، برچسب‌های با عمق مصنوعی اختصاص می‌داد. در نهایت، مدل‌های جدید نسخه دوم به‌طور کامل با تصاویر برچسب‌گذاری شده مصنوعی با دقت بالا آموزش داده می‌شوند.

Paper:
https://arxiv.org/pdf/2406.09414

تست مدل:
Huggingface space and models:

https://huggingface.co/collections/depth-anything/depth-anything-v2-666b22412f18a6dbfde23a93

🔥20👍3

4.88K viewsrasoul, 22:50

اولین کورس به زبان انگلیسی را برای غیر فارسی زبانان ضبط کردم...

🔥36👏16😁7❤4😢2👌2🤯1

4.23K viewsAlireza Akhavan, 13:04

Tensorflow(@CVision)