Tensorflow(@CVision)
15.3K subscribers
1.29K photos
310 videos
81 files
2.54K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت:
https://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

لینک گروه:
@tf2keras
Download Telegram
⚡️مدل جدید GPT-4 Omni برای ChatGPT امروز معرفی شد و به صورت رایگان در دسترس همه است!

✔️مدل جدید بسیار هوشمندتر و بهتر از تمام نسخه های قدیمی است.

🔊📸📝لازم به ذکر است این مدل روی صوت، تصویر و متن نیز کار میکنه.


https://openai.com/index/hello-gpt-4o
11
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️مدل جدید GPT-4 Omni برای ChatGPT امروز معرفی شد و  به صورت رایگان در دسترس همه است!

✔️مدل جدید بسیار هوشمندتر و بهتر از تمام نسخه های قدیمی است.

🔊📸📝لازم به ذکر است این مدل روی صوت، تصویر و متن نیز کار میکنه.


https://openai.com/index/hello-gpt-4o
👍19
میدانید دیروز شرکت OpenAI از GPT-4o جدیدترین نسخه ChatGPT رو نمایی کرد 🤖

🆕 با GPT-4o، آخرین پیشرفت OpenAI، که برای عملکرد فوق العاده سریع و کیفیت استثنایی در 50 زبان طراحی شده است، آشنا شویم...

1️⃣ با GPT-4o به راحتی متون، تصاویر و صدا را میتوان مدیریت کرد و به توسعه دهندگان این امکان را می دهد تا با استفاده از OpenAI API به راحتی نوآوری کنند.

2️⃣ مدل ارائه شده ی GPT-4o با سرعتی دو برابر ولی هزینه ی معادل نیمی از هزینه نسل قبلی خود، یعنی GPT-4 Turbo، نوید کارایی بی نظیر و مقرون به صرفه را می دهد.

3️⃣ هوش مصنوعی OpenAI با افتخار "هوش عاطفی" GPT-4o را برجسته می کند، که به طرز ماهرانه ای تعاملات و وقفه های کاربر را مدیریت می کند.

4️⃣ فراتر از ترجمه، GPT-4o با توانایی خود در تغییر تن صدا، افزودن درام یا ...، تحت تاثیر قرار می‌دهد.

5️⃣ اما این همه ماجرا نیست – اعضای تیم مهارت های ریاضی و کمک های کدنویسی GPT-4o را به نمایش گذاشتند و آن را به عنوان رقیب قدرتمندی برای GitHub Copilot مایکروسافت معرفی کردند.


@cvision
15👍7🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
یکی از ویژگی های برجسته این مدل جدید صدای واقعی آن است که مطابق با ترجیحات شما سازگار می شود.

@cvision
👍72
This media is not supported in your browser
VIEW IN TELEGRAM
این مدل، GPT-4o می تواند کمیک نیز تولید کند!
یاد گرفته است که شخصیت های شما را به خاطر بسپارد و آنها را در صحنه های مختلف خلق کند.
👍10
این بنده خدا هم با ورژن جدید chatgpt کارتون دخترشو درست کرده...

https://twitter.com/danielkempe/status/1790096679384883217

به اسم فروشگاه و اسم رو بسته دست دختره هم توجه کنید :)
👍62
This media is not supported in your browser
VIEW IN TELEGRAM
پاسخ روشن ایلان ماسک به یک خبرنگار 🔥

سوال: به نظر شما چه کسی برنده کاخ سفید در سال 2024 خواهد بود؟

پاسخ ایلان ماسک: فکر می کنید چه کسی برنده کاخ سفید در سال 2032 خواهد شد؟
کدام نوع هوش مصنوعی؟
ترنسفورمر یا دیفیوژن؟
🔥23💯4😁3🤔2👍1
Forwarded from School of AI
توسعه‌دهندگان از همین امروز می‌توانند در فریم‌ورک LangChain از مدل GPT-4o از طریق API استفاده کنند.

در این کد نمونه، آدرس یک تصویر به مدل داده شده و از مدل خواسته شده محتوای تصویر را شرح دهد.

https://python.langchain.com/v0.1/docs/integrations/chat/openai/
👍4
اگر دوست داشتید ما را در اینستاگرام نیز دنبال کنید:

@class.vision
🙏https://www.instagram.com/class.vision/
3🔥3👍1
خلاصه ارائه دیروز OpenAI و شفاف‌سازی برخی اصطلاحات و زمان‌بندی

دیروز OpenAI ارائه خیلی جالبی داشت که سریع ترند شد! بیایید باهم خلاصه‌وار به اون نگاهی بندازیم و چند تا اصطلاح و زمان‌بندی رو روشن کنیم.

پیشنهاد می‌کنم دو تا داکیومنت کوتاه رو که دیروز منتشر شدن بخونید:

1️⃣ [لینک اول توضیح دسترسی به GPT-4، GPT-4 Turbo و GPT-4o]
2️⃣ [لینک دوم درباره قابلیت‌های صوتی جدید چت‌جی‌پی‌تی و رایگان شدن آن]

شاید با دیدن قابلیت‌های صوتی جدید در چت‌جی‌پی‌تی وسوسه شدید اون رو امتحان کنید، ولی متاسفانه باید فعلا صبر کنید😩.

چت‌جی‌پی‌تی فعلا به روش قدیمی جواب شما رو میده. یعنی متن رو به صوت و برعکس تبدیل می‌کنه، نه با اون سرعت و هوشمندی‌ای که توی نمایش‌ها دیدیم.
در حال حاضر، چت‌جی‌پی‌تی از قابلیت “حالت صوتی” که از اول وجود داشته برای پشتیبانی از صدا استفاده می‌کنه. قابلیت‌های صوتی و تصویری جدید GPT-4o به زودی به چت‌جی‌پی‌تی اضافه میشه. (بیشتر در این مورد پایین توضیح میدیم).

یعنی مدل هوشمند جدید با روش قدیمی (کندتر) با شما صحبت می‌کنه. مدل سریع‌تر و جدیدتر به زودی در دسترس قرار می‌گیره، بله، و حتی بعدا می‌تونه آواز هم بخونه!

اون اپلیکیشن با تمام امکاناتی که توی نمایش دیدیم، آماده‌ست، ولی فعلا فقط برای مک. به تدریج در مناطق و حساب‌های کاربری مختلف عرضه میشه. چت‌جی‌پی‌تی به شما اطلاع میده.

برای ویندوز فعلا خبری نیست: قراره اواخر امسال نسخه ویندوز هم عرضه بشه.

درباره محدودیت پیام: "کاربران پلاس می‌تونن تا ۸۰ پیام هر ۳ ساعت با GPT-4o و تا ۴۰ پیام هر ۳ ساعت با GPT-4 ارسال کنن. ممکنه این محدودیت در ساعات اوج ترافیک برای اینکه GPT-4 و GPT-4o برای تعداد بیشتری از افراد در دسترس باشه، کاهش پیدا کنه." برای حساب‌های رایگان، این محدودیت می‌تونه خیلی کم باشه، مخصوصا اگه سرور نزدیک شما شلوغ باشه. حتی گاهی اوقات فقط ۲ تا ۴ پیام. اول از همه محدودیت حساب‌های رایگان کم میشه و به ۳.۵ تا پیام در هر ۳ ساعت تغییر می‌کنه.

ظرفیت حافظه مدل GPT-4o هم 128 کیلوبایت هست. خیلی زیاده. برای ۹۵ درصد از کاربران خیلی زیاده. به طور کلی این مقدار، حجم متن و پیام‌های یه چت رو شامل میشه که مدل برای پاسخ دادن به شما توی حافظه نگه میداره تا بر اساس اطلاعاتی که "تو مغزش داره" جواب بده.

مدل جدید تصاویر رو بهتر درک می‌کنه: قابلیت‌های تصویری GPT-4o عملکرد بهتری نسبت به GPT-4 توربو داره.

دو برابر سریع‌تره (این توی چت‌جی‌پی‌تی قابل توجهه): GPT-4o دو برابر سریع‌تر از GPT-4 توربو هست.

پشتیبانی GPT-4o از زبان‌های غیرانگلیسی نسبت به GPT-4 توربو بهبود پیدا کرده.

برای علاقه‌مندان به API:
قیمت: GPT-4o نسبت به GPT-4 توربو ۵۰ درصد ارزون‌تره و قیمتش ۵ دلار به ازای هر یک میلیون توکن ورودی و ۱۵ دلار به ازای هر یک میلیون توکن خروجی هست.
محدودیت سرعت: محدودیت سرعت GPT-4o پنج برابر بیشتر از GPT-4 توربو هست - تا ۱۰ میلیون توکن در دقیقه.

این قابلیت‌های چندوجهی به تدریج فعال میشن. مثلا تبدیل صدا به صدا، تصویر به تصویر، و مکالمه با ویدیو. فکر می‌کنم به زودی شاهد آپدیت DALL·E 3 یا یه روش کاملا جدید برای تولید تصویر باشیم. باید صبر کنیم.

در همین حال، GPT-4o در تست‌های مختلف عملکرد بهتری نسبت به مدل‌های دیگه داره و به صورت رایگان در چت‌جی‌پی‌تی در دسترسه.

🖇مطالب مرتبط:
https://t.iss.one/cvision/3513
https://t.iss.one/cvision/3514
https://t.iss.one/cvision/3517
https://t.iss.one/cvision/3518
https://t.iss.one/cvision/3519

@cvision
👍6👌5
⚡️ گوگل I/O 2024: هوش مصنوعی، اندروید 15 و دنیایی از نوآوری ها! ⚡️

غول فناوری، گوگل، در رویداد I/O 2024، از جدیدترین دستاوردهای خود در زمینه هوش مصنوعی، اندروید و موارد دیگر رونمایی کرد.

اندروید 15 نیز با آپدیت های جذاب و کارآمد، تجربه کار با گوشی های هوشمند را متحول خواهد کرد.

♨️♨️♨️♨️♨️
〰️〰️〰️〰️〰️
💡 @cvision 💡
〰️〰️〰️〰️〰️
🔥4
قابلیت Ask Photos: جستجوی هوشمندانه در دنیای تصاویرتان!

قابلیت Ask Photos، که به تازگی توسط گوگل در Google Photos معرفی شده، انقلابی در نحوه جستجو و مدیریت تصاویر ایجاد کرده است. این قابلیت به شما امکان می دهد تا با استفاده از زبان طبیعی و به جای کلمات کلیدی، به سادگی و به سرعت تصاویر مورد نظرتان را پیدا کنید.

تصور کنید: می خواهید عکس هایتان را بر اساس مکان، زمان، افراد حاضر در عکس یا حتی اشیاء موجود در آنها جستجو کنید. Ask Photos با درک دقیق محتوای تصاویر، به شما کمک می کند تا به راحتی به این خواسته خود برسید.

علاوه بر این، Ask Photos می تواند برای یافتن تصاویر مشابه، بهترین عکس از یک رویداد خاص و یا حتی خاطراتتان در مورد یک مکان خاص نیز مورد استفاده قرار گیرد.

این قابلیت در حال حاضر برای مشترکین Google One در زبان انگلیسی در دسترس است و به زودی برای سایر زبان ها و کاربران نیز ارائه خواهد شد.

♨️♨️♨️♨️♨️
〰️〰️〰️〰️〰️
💡 @cvision 💡
〰️〰️〰️〰️〰️
👌5👍3
♨️ با AI Overviews، دنیای اطلاعات در دستان شماست! ♨️

این قابلیت جدید گوگل، به شما کمک می‌کند تا به سرعت و به سادگی، خلاصه‌ای جامع و دقیق از هر موضوعی که به آن علاقه دارید، دریافت کنید.

قابلیت AI Overviews با استفاده از هوش مصنوعی قدرتمند گوگل، منابع مختلف مانند مقالات، وب‌سایت‌ها و حتی کتاب‌ها را تجزیه و تحلیل می‌کند و مهم‌ترین نکات را به صورت خلاصه‌ای خواندنی به شما ارائه می‌دهد.

با AI Overviews می‌توانید:

💢 در زمان خود صرفه‌جویی کنید و به سرعت به اطلاعات مورد نیازتان دسترسی پیدا کنید.
💢 دانش خود را در هر زمینه‌ای افزایش دهید، بدون اینکه نیاز به مطالعه‌ی حجم زیادی از مطالب داشته باشید.
💢 موضوعات پیچیده را به سادگی درک کنید و از جزئیات مهم آنها آگاه شوید.

قابلیت AI Overviews در حال حاضر به زبان انگلیسی در دسترس است، اما به زودی به زبان‌های دیگر نیز ترجمه خواهد شد.

♨️♨️♨️♨️♨️
〰️〰️〰️〰️〰️
💡 @cvision 💡
〰️〰️〰️〰️〰️
👍4👌3
چشم به آینده با هوش مصنوعی Astra گوگل!
در رویداد Google I/O 2024، شاهد رونمایی از پروژه‌ی Astra، یک دستیار هوش مصنوعی فوق‌العاده، بودیم.


گوگل با رونمایی از «پروژه Astra» مستقیماً قابلیت‌های جدید ChatGPT را هدف گرفت.
پروژه Astra با استفاده از هوش مصنوعی قدرتمند Gemini، به شما کمک می‌کند تا با دنیای اطرافتان به گونه‌ای جدید تعامل داشته باشید.

طبق ویدئویی که گوگل روز گذشته به‌نمایش گذاشت، این دستیار هوشمند می‌تواند:

♨️ محیط اطراف شما را درک کند و به سوالات در مورد آن پاسخ دهد.
♨️ اشیاء گمشده شما را پیدا کند.
♨️ منابع ایجاد صدا را در محیط تان مشخص کند.
... و بسیاری کارهای شگفت‌انگیز دیگر!

پروژه Astra نه تنها روی گوشی‌های هوشمند، بلکه روی عینک‌های هوشمند نیز قابل استفاده است. ️ این امر تجربه‌ای کاملاً جدید و فراگیر از هوش مصنوعی را به ارمغان می‌آورد.

پروژه‌ی Astra هنوز در مراحل اولیه توسعه قرار دارد و به برنامه‌‌ی انتشار عمومی آن اشاره‌ای نشده است.

♨️♨️♨️♨️♨️
〰️〰️〰️〰️〰️
💡 @cvision 💡
〰️〰️〰️〰️〰️
8👍6🔥1🤩1
Forwarded from School of AI
اگر دموهای GPT-4o براتون جذاب بود، احتمالا تا الان به مدل‌های بینایی-زبان (Vision-Language Models) هم علاقه‌مند شده‌اید. مدل‌هایی که تصویر و نوشتار را به‌صورت هم‌زمان دریافت و درک کرده و متنی مرتبط را در خروجی تولید می‌کنند.

امروز گوگل خانواده‌ای از مدل‌های VLM اوپن‌سورس به نام PaliGemma معرفی کرد.

این مدل از کد‌کننده‌ی تصویر موجود در مدل SigLip-So400m برای کدکردن تصویر ورودی استفاده کرده و به‌کمک مدل Gemma-2B که یک مدل decoder-only است، متن خروجی را تولید می‌کند.

گیت‌هاب:
https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/README.md

هاگینگ‌فیس:
https://huggingface.co/blog/paligemma
👍11
گوگل با Veo رقیبی قدرتمند برای SORA معرفی کرد

Google just released VEO, the SORA competitor.

https://deepmind.google/technologies/veo/
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
ویدئویی از دمو عملکرد Project Astra دستیار هوش مصنوعی گوگل

♨️♨️♨️♨️♨️
〰️〰️〰️〰️〰️
💡 @cvision 💡
〰️〰️〰️〰️〰️
🔥5👍4👌2
Forwarded from School of AI
همون‌طور که می‌دونید، استارتاپ Neuralink به‌تازگی تایید FDA برای کاشت ایمپنت خود در مغز انسان رو گرفت و اون رو در مغز اولین انسان قرار داد.

این ایمپلنت تعداد ۶۴ نخ (نازک‌تر از مو) دارد که روی هر کدام از آن‌ها ۱۶ عدد الکترود نصب شده که قادرند سیگنال‌های الکتریکی ناشی از فعال‌شدن یاخته‌های عصبی را اندازه‌گیری کنند.

این نخ‌ها توسط یک روبات جراح، وارد بخش Motor Cotex مغز که مسئول تبدیل فکر به عمل و حرکت دادن اندام‌هاست، می‌شود. بنابراین در هر لحظه که شخص به عملی فکر می‌کند، ۱۰۲۴ سیگنال از سلول‌های motor cortex خوانده شده و با بلوتوث به اپلیکیشن موبایل ارسال می‌شود.

پردازش این سیگنال‌ها و آموزش مدل‌های یادگیری ماشین روی آن‌ها امکان کنترل کامپیوتر توسط ذهن (Brain-Computer Interface) را می‌دهد.

با این‌که در اولین آزمایش انسانی، تعدادی از نخ‌ها خود‌به‌خود از مغز بیمار خارج شده، اما پژوهش‌گران همچنان مشغول جمع‌آوری داده از سایر الکترودها اند و امروز اطلاع دادند که بیمار توانسته بازی Webgrid رو با امتیاز ۸/۰۱ (که بسیار نزدیک به انجام با دست است) انجام دهد.

شما هم می‌تونید از لینک زیر این بازی رو انجام بدید:
https://neuralink.com/webgrid/

به نظرتو شما هدف Neuralink از انتشار این بازی چیست؟ جمع آوری داده از بازی‌های انجام شده یا تبلیغات؟!
👍51
Forwarded from School of AI
پژوهش‌گرها (و دانشجو‌ها) همیشه دل‌شون می‌خواد که یه نفر باشه که هر مقاله‌ای رو که می‌گن بره بخونه، بیاد خلاصه‌شو بهشون بگه و انقدری خوب مقاله رو فهمیده باشه که پرسش‌هاشون رو هم پاسخ بده و خلاصه یه پارتنری باشه که بشینن در مورد مقاله با هم صحبت کنن.

خوب گوگل زحمت این رو هم کشید ☺️

https://illuminate.withgoogle.com/
👍203