Msnp's binary thoughts
618 subscribers
159 photos
7 videos
6 files
110 links
Last seen alive: Long time ago
Download Telegram
Channel created
Channel name was changed to «Msnp's binary toughts»
A Dilemma in AI Development

Recently, I attended an AI gathering with university students to discuss ideas and innovations. The event was enlightening until an incident sparked some deep thoughts.

An electrical engineering student proposed an AI secretary for CEOs and managers. The idea was that when you call a manager, this AI would answer, allowing you to interact, make appointments, inquire about free time, and handle other secretarial tasks.

The student's explanation of the implementation involved buzzwords like deep learning and machine learning, clearly demonstrating a lack of understanding. While the proposal was flawed, it made me ponder two significant issues:

1. The Feasibility Paradox

You can always propose using various AI techniques \- gradient boosting trees for audio processing, thousands of estimators, etc. But at what point can we definitively say an idea is unfeasible without actually implementing it?

What if implementation begins, and we enter an endless cycle of excuses?
• "We need more computational power."
• "We require more data."
• "We must add more layers and estimators."

Each failure leads to another attempt, ad infinitum.

The philosophical question arises: How far back must we step to see that the puzzle pieces don't fit? At what level does the violation occur?
• The atoms are good
• The molecules are good
• The material is good
• The structure is good
• ...and so on

2. The Knowledge-Application Gap

When you're familiar with a concept \(like Gradient Boosted Decision Trees in machine learning\) and suggest applying it to a problem, there's often a fundamental issue in the deduction process.

The critical question is: When and how do you discover this flaw without actual implementation?

These reflections highlight the complexities in AI development and the importance of critical thinking in the face of technological hype.
🔥3
Forwarded from DeepMind AI Expert (M.Sadegh)
حاشیه‌ای عجیب درباره مدل جدید Reflection 70B

دنیای #هوش_مصنوعی این روزها شاهد یک جنجال جدیده! مدل Reflection 70B که توسط HyperWrite و matt shumer ساخته شده، حسابی سر و صدا به پا کرده. چرا؟ چون عملکردش با ادعاهایی که شده همخونی نداره و بحث شفافیت در توسعه AI رو داغ کرده.

این مدل که قرار بود یه رویکرد انقلاب باشه، حالا زیر سایه انتقادها قرار گرفته. بعضی‌ها حتی این ماجرا رو با جنجال LK-99 تو دنیای ابررساناها مقایسه می‌کنن!

چند تا نکته جالب:

۱. شفافیت زیر سوال: خیلی‌ها میگن نکنه این Reflection 70B فقط یه wrapperروی مدل‌های قبلیه، مخصوصاً Claude 3.5 .

۲. عملکرد نامطمئن: کاربرها میگن نتایج اعلام شده قابل تکرار نیست. حتی بعضی محققها با خطاهای عجیب و غریب روبرو شدن.

۳. واکنش سازنده: مت شومر، مدیر HyperWrite، میگه مشکل از وزن‌های مدله و قول داده تو نسخه بعدی (Reflection 405B) همه چی درست میشه.

اگه می‌خواید بیشتر بدونید، یه ویدیو هست که همه چیز رو مفصل توضیح داده. حتماً ببینید!
اینم توییت مدیر فنی hyperbolic labs در مورد این موضوع.

#ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
🔥2
بالاخره اولین پست تلگراممو تو یه کانال حرفه‌ای نوشتم.
هر چند که موضوع کوچیکی عه
ولی بابتش خیلی خوشحالم
👏3
my first contribution on DSpy for fixing a bug and a warning message
💯1
This was how we ended up winning the second place for the freaking third time.🤦
Both in my opinion and the main referee what we did in just 24 hours was a masterpiece.
As he said the reason was because there were 6 other referees and in summing it up these things can happen
🔥3
Media is too big
VIEW IN TELEGRAM
Randomly,out of nowhere. I did an elevator pitch
It was a good speech and I could pitch my idea
2
Dancing In The Dark
Imagine Dragons
The freaking beat
I want it
I love it ❤️‍🔥
😍1
Forwarded from Tensorflow(@CVision) (Alister ☄️)
This media is not supported in your browser
VIEW IN TELEGRAM
مدل Sana-0.6B می‌تونه با مدل‌های بزرگتر و پیشرفته مثل Flux-12B رقابت کنه، در حالی که ۲۰ برابر کوچکتر و ۱۰۰ برابر سریع‌تره. این مدل رو می‌شه روی کارت گرافیک لپ‌ تاپ ۱۶ گیگا بایتی اجرا کرد و برای تولید یه عکس 1024 × 1024 کمتر از ۱ ثانیه زمان می‌ بره. سانا امکان تولید محتوا با هزینه پایین رو فراهم می‌ کنه.  

https://arxiv.org/pdf/2410.10629

معرفی یه اتواینکدر جدید که فشرده‌ سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روش‌های قبلی با فشرده سازی 8 برابری)  و باعث کاهش تعداد توکن‌های پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه

استفاده از توجه خطی (Linear DiT) که نسخه بهینه‌ شده‌ مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی  O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه. این موضوع به‌خصوص در پردازش تصاویر با وضوح بالا مشکل‌سازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می‌ ده.
🔥1
آزمایشگاه بینایی کامپیوتر با ارائه آقای محمد صادق نعمت پور با موضوع:

🔰 مقدمه ای بر llm agents and agentic workflow

میزبان شما خواهد بود.

📅 دوشنبه ۳۰ مهر ماه ۱۴۰۳

🕓 ساعت ۱۶:۰۰

📍آزمایشگاه بینایی کامپیوتر، دانشکده کامپیوتر، دانشگاه علم و صنعت

لینک مجازی
https://meet.google.com/qne-zihr-rwx
3
This media is not supported in your browser
VIEW IN TELEGRAM
‏بالاخره kaggle agent من که کل تابستون رو روش کار میکردم آماده Release شد.🥳
این agent می‌تونه بصورت خودمختار مسائل kaggle رو فقط با دادن یه لینک حل کنه

لینک ریپو پروژه :

https://github.com/MSNP1381/kaggle-Agent
🔥3🤩1
https://x.com/MSNP/status/1847929521820848488?t=n4-hLxzkKAgkBELzLDTWIw&s=19
پست توییتر من به ایمپرشن 15.7k ای رسید و سرش خیلی خوشحالم
🔥3
میخوام از امشب ماژول knowledge injection رو شروع کنم به توسعه فک کنم با مشغولیت هایی که دارم یه ماهه تموم کنمش
🤩3👍1
Forwarded from Tensorflow(@CVision) (Alister ☄️)
This media is not supported in your browser
VIEW IN TELEGRAM
چند روز پیش درباره نسخه جدید Claude 3.5 Sonnet نوشتم که تعامل و دستورات کاربر با کامپیوتر رو از طریق کیبورد مجازی یا صدا فراهم کرده.

کاری که احتمالا این مدل انجام میده شناسایی مطمئن آیکون‌ها و عناصر قابل ‌تعامل توی رابط کاربری و درک مفهوم و معنای عناصر مختلف در تصویر و ارتباط دقیق این عناصر با عملی که کاربر می‌خواد انجام بده، هست.

امروز مایکرسافت OmniParser رو به صورت متن باز ارائه کرد. OmniParser  یه ماژول جمع ‌و جور(با سرعت بالا) برای پردازش صفحه هست و میتونه عکس‌ های رابط  کاربری رو به عناصر ساختار یافته تبدیل کنه. 

این ماژول رو می‌شه با مدل‌ های مختلف متن باز زبانی تلفیق کرد تا عامل ‌هایی ساخت که بتونن روی رابط ‌های کاربری عمل کنن، مثل کاری که Claude 3.5 Sonnet انجام میده با این تفاوت که به صورت لوکال اجرا میشه و 100% در کنترل خودتونه.
 
کد :
https://github.com/microsoft/OmniParser
 
لینک مقاله:
 https://arxiv.org/abs/2408.00203