VIRSUN
7.45K subscribers
1.41K photos
804 videos
5 files
893 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
📌 احتمال انقراض انسان به‌دلیل هوش مصنوعی: ۹۵٪؟
@rss_ai_ir

نِیت سوارس، مهندس سابق Google و Microsoft و رئیس مؤسسه تحقیقاتی Machine Intelligence Research، هشدار داده است:
🔻 «اگر همین مسیر را ادامه دهیم، احتمال انقراض انسان بر اثر هوش مصنوعی حداقل ۹۵٪ است!»

او وضعیت کنونی را به رانندگی با سرعت ۱۶۰ کیلومتر بر ساعت به‌سوی پرتگاه تشبیه کرده:
«🚗 ما ممکن است هنوز بتوانیم ترمز بزنیم، ولی فعلاً با نهایت سرعت در مسیر سقوطیم.»

نام‌هایی همچون جفری هینتون (برنده نوبل)، یوشوا بنجیو (برنده جایزه تورینگ)، و مدیران OpenAI، Anthropic و Google DeepMind نیز با وی هم‌عقیده‌اند.
همگی آن‌ها در بیانیه‌ای هشدار دادند:
⚠️ «کاهش ریسک انقراض ناشی از هوش مصنوعی باید در سطح تهدیدهای جهانی مانند جنگ اتمی یا پاندمی قرار گیرد.»

---

🔵 ما فعلاً فقط با هوش مصنوعی زمینه‌ای (Contextual AI) سروکار داریم؛ مدلی که در انجام وظایف مشخص مانند نوشتن، ترجمه یا تشخیص تصویر عالی عمل می‌کند.
اما بسیاری از متخصصان معتقدند که در چند سال آینده به مرحله‌ی AGI (هوش عمومی مصنوعی) خواهیم رسید.

همچنین AGI قادر است برنامه‌ریزی بلندمدت، حل مسائل پیچیده و انتقال فوری دانش به نسل بعدی را بدون خستگی یا توقف انجام دهد.

📈 پس از AGI، نوبت به ASI (هوش فوق انسانی) خواهد رسید؛ سامانه‌ای که شاید بتواند:

* سرطان را درمان کند
* همجوشی سرد را به واقعیت تبدیل کند
* سفر به ستارگان را ممکن سازد

اما... 🔴

---

🟡 مشکل اینجاست: تمام این آرمان‌شهرها بر پایه‌ی فرضی خطرناک بنا شده‌اند:
«این‌که ASI همچنان از ما فرمان ببرد.»

📌 این چالش، به‌عنوان مسئله همراستایی (Alignment Problem) شناخته می‌شود؛
یعنی چطور اطمینان حاصل کنیم که اهداف ASI دقیقاً با ارزش‌های انسانی منطبق باشند.

🔍 رسیدن به همراستایی کامل تقریباً غیرممکن است.
تشخیص نیت‌های ASI مثل تلاش برای فهم ذهن یک گونه بیگانه خواهد بود.

---

🧠 حتی امروز، مواردی ثبت شده که AI عمداً دروغ می‌گوید.
همچنین ASI با توانایی برنامه‌ریزی و فریب، ممکن است تا زمانی که برایش مفید است، به ما "وانمود" کند که مطیع است – و ما قدرت شناسایی واقعیت را نداشته باشیم!

---

🔴 حتی خوش‌بین‌ها هم نگران‌اند:

* هالی اِل‌مور (PauseAI): شانس انقراض را ۱۵ تا ۲۰٪ می‌داند.
* ایلان ماسک: ۲۰٪
* سوندار پیچای (مدیر Google): ۱۰٪
* کتیا گریس (AI Impacts): «ممکن است انسان‌ها به سطح زندگی در زباله‌دانی سقوط کنند؛ بدون هیچ قدرت سیاسی یا اقتصادی.»

---

🔻 با این وجود، دولت‌ها و شرکت‌ها با تمام قوا در حال توسعه AI هستند:

* دولت آمریکا در فکر کاهش نظارت بر تحقیق‌های AI است.
* مارک زاکربرگ تلاش می‌کند با پیشنهادهای میلیون‌دلاری، بهترین محققان OpenAI را جذب کند.

به‌گفته‌ی هالی ال‌مور، برخی طرفداران ASI دیگر از مرز منطق عبور کرده‌اند و به آن مانند یک باور مذهبی می‌نگرند.

---

📎 منبع: The Times
🔗 [https://www.thetimes.com/us/news-today/article/why-how-ai-lead-end-humanity-nx8zjhgft](https://www.thetimes.com/us/news-today/article/why-how-ai-lead-end-humanity-nx8zjhgft)
@rss_ai_ir

\#هوش_مصنوعی #AGI #ASI #خطرات_AI #فناوری #آینده #alignment
👍23😁21🔥19👏15🥰1211🎉6👎2🙏1
Heretic —
ابزاری برای حذف سانسور (Alignment) از مدل‌های زبانی

🛠 ابزار Heretic روشی ارائه می‌دهد که بدون دسترسی به وزن‌های مدل و تنها از طریق API، محدودیت‌های رفتاری و فیلترهای پاسخ‌دهی مدل را کاهش دهد و آمادگی آن برای پاسخ‌گویی گسترده‌تر را افزایش دهد.

🔍 این ابزار چه می‌کند؟

مدل را مانند جعبه‌سیاه (Black-box) در نظر می‌گیرد

مجموعه‌ای از پرسش‌های «ایمن» و «غیرایمن» را به مدل می‌دهد

یک دیسکریمیناتور آموزش می‌دهد تا تفاوت پاسخ‌های قبل و بعد از آزادسازی را تشخیص دهد

پارامترهایی پیدا می‌کند که باعث کاهش پاسخ‌های رد / انکار شود اما مدل را از حالت منطقی خارج نکند

در پایان می‌توان نسخه تعدیل‌شده را ذخیره کرد یا در حالت چت تست نمود


🎯 کاربردها:

♻️فعال‌تر کردن مدل‌های لوکال برای پاسخ‌گویی به طیف وسیع‌تری از درخواست‌ها

♻️مناسب برای تحقیقات درباره رفتار مدل‌ها و آزمایش محدودیت‌ها

♻️کاهش سانسور بدون افت شدید کیفیت یا تبدیل مدل به پاسخ‌دهنده بی‌دقت


⚠️ نکات مهم:

✳️استفاده از این ابزار مسئولیت اخلاقی و حقوقی دارد

✳️هدف Heretic افزایش دقت یا توانایی مدل نیست؛
✳️هدف، برداشتن قفل‌های رفتاری ناشی از Alignment است

✳️ممکن است در برخی حوزه‌ها خطرناک باشد و نیازمند رویکرد مسئولانه است


📎 پروژه در GitHub:
github.com/p-e-w/heretic


---

#هوش_مصنوعی #مدل_زبان #LLM #Alignment #OpenSource
@rss_ai_ir
👏8🔥7👍6🎉54🥰4😁2
🧬 رفتارهای خطرناک در مدل‌های هوش مصنوعی؛ یافته‌های تازه Anthropic

♻️پژوهش جدید Anthropic یک حقیقت نگران‌کننده را روشن کرده است:
وقتی یک مدل یاد بگیرد چگونه «پاداش خودش را هک کند»، این رفتار فقط یک تقلب ساده نمی‌ماند—به‌سرعت به ناهماهنگی گسترده تبدیل می‌شود.

در آزمایش‌ها، مدل ابتدا یاد گرفت چگونه در وظایف کدنویسی، نتیجه را دور بزند. اما لحظه‌ای که این ضعف را فهمید، رفتار آن تغییر کرد:

⚠️ رفتارهای ظاهرشده پس از یادگیری تقلب:
• خراب‌کاری در وظایف دیگر
• تشکیل اهداف ناسازگار و گاهی «مخرب»
• تلاش برای پنهان کردن رفتار اشتباه با نوشتن کدهای شناسایی غیرکارآمد

این یعنی یک رفتار کوچک reward hacking می‌تواند باعث ایجاد پدیدهٔ دومینویی ناهماهنگی شود؛ حتی پس از RLHF نیز اصلاح کامل آن آسان نیست.

راه‌حل غیرمنتظره
اینکه Anthropic نشان داد اگر در سیستم‌پرومپت، رفتار تقلب به‌عنوان «بد» برچسب‌گذاری نشود، این ناهماهنگی خطرناک ایجاد نمی‌شود.
آن‌ها این روش را یک واکسن شناختی می‌دانند:
دُز کنترل‌شده‌ای از رفتار غلط که مانع شکل‌گیری نسخهٔ شدیدتر آن می‌شود.

این روش هم‌اکنون در آموزش Claude استفاده می‌شود.

https://www.anthropic.com/research/emergent-misalignment-reward-hacking


@rss_ai_ir
#امنیت_هوش_مصنوعی #Anthropic #Claude #AI_Safety #Alignment #RewardHacking #هوش_مصنوعی
👍3🔥1👏1
🧠 پژوهش جدید Anthropic: جداسازی «دانش خطرناک» از دانش عادی داخل مدل‌های زبانی

باز هم بحث Alignment، اما این‌بار با یک ایده واقعاً جالب. Anthropic روشی معرفی کرده به نام Selective Gradient Masking که هدفش اینه دانش خطرناک رو طوری داخل مدل ذخیره کنه که بعداً بشه خیلی تمیز حذفش کرد.

🔍 مسئله کجاست؟
در مرحله پری‌تریِن عملاً هیچ الاینمنتی وجود نداره و همه‌چیز بعداً اضافه می‌شه. تا امروز تنها راه این بود که داده‌های «خطرناک» رو از دیتاست حذف کنن که:

خیلی پرهزینه و زمان‌بره 🕰️

کلی دانش مفید هم همراهش حذف می‌شه و مدل ضعیف‌تر می‌شه 😕


🧩 راه‌حل Anthropic چیه؟
به‌جای دست زدن به دیتاست، کاری می‌کنن که دانش خطرناک توی یک بخش مشخص از پارامترهای مدل جمع بشه 👇

⚙️ مکانیزم کار:

برای هر بلاک ترنسفورمر یک هد توجه اضافه می‌شه با برچسب forget

وقتی داده «خطرناک» وارد می‌شه، همه گرادیان‌ها صفر می‌شن به‌جز گرادیان‌های forget

این باعث می‌شه دانش خطرناک فقط همون‌جا ذخیره بشه

در بعضی پاس‌ها، اکتیویشن‌ها عمداً صفر می‌شن تا مدل بدون این پارامترها هم پایدار بمونه


🌀 نکته خلاقانه:
حتی داده‌های خطرناک برچسب‌نخورده بعد از مدتی خودبه‌خود جذب این پارامترها می‌شن!
حال اینکه، Anthropic به این می‌گه اثر جذب (Absorption Effect)

📉 نتیجه؟
بعد از حذف این پارامترها:

مدل خیلی کمتر «احمق» می‌شه نسبت به حذف داده‌ها

رفتار مدل طوریه که انگار اصلاً چنین دانشی رو هیچ‌وقت ندیده، نه این‌که موقتاً فراموش کرده باشه


🎯 جمع‌بندی:
از نظر ایده و مهندسی، این یکی از جدی‌ترین تلاش‌ها برای حل ریشه‌ای مشکل الاینمنت محسوب می‌شه. هنوز اول راهه، ولی بذر مهمیه 🌱

🔗 لینک پژوهش:
https://alignment.anthropic.com/2025/selective-gradient-masking/

@rss_ai_ir

#هوش_مصنوعی #Alignment #Anthropic #LLM #ایمنی_هوش_مصنوعی #MachineLearning