PyTorch Howsam
3K subscribers
337 photos
48 videos
5 files
472 links
از هوش مصنوعی میگیم...

ارتباط با ادمین
@howsam_support
Download Telegram
تحقیقات امنیت Wiz :
روز گذشته در حالی که DeepSeek در بحبوحه مذاکرات با هند بود، دیتای بیش از یک میلیون چت کاربر افشا شد.
پس از اطلاع‌رسانی Wiz Research، شرکت DeepSeek به‌سرعت پایگاه داده را ایمن‌سازی کرد.
در این نفوذ، یک مهاجم نه‌تنها می‌توانست لاگ‌های حساس و پیام‌های متنی چت را بازیابی کند
بلکه می‌توانست اطلاعات محرمانه، رمزهای عبور و فایل‌های محلی را مستقیماً از سرور استخراج کند.

مایکروسافت :
مدل DeepSeek-R1 رو به Azure و GitHub اضافه کرد.

هواوی Ascend 910C :
مدل R1 ابتدا با استفاده از بیش از دو هزار GPU H800 از انویدیا آموزش داده شده است. اما نکته مهم این است که اکنون هواوی می‌تواند پردازنده‌های خود را برای اجرای این مدل به کار بگیرد.
این تحول، می‌تواند بزرگ‌ترین تهدید برای تسلط انویدیا بر بازار هوش مصنوعی باشد.
تا پیش از این، شرکت‌های چینی برای هم آموزش (Training) و هم استنتاج (Inference) مدل‌های خود به پردازنده‌های گرافیکی انویدیا و AMD وابسته بودند.
〰️ اما اکنون، هواوی در حال پر کردن این خلأ است و چین را یک قدم دیگر به خودکفایی در صنعت هوش مصنوعی نزدیک‌تر می‌کند.
🟡 مدل‌های DeepSeek هم به AWS اضافه شد.
همچنین می‌توانید از AWS Trainium و AWS Inferentia برای استقرار مدل‌های DeepSeek-R1-Distill به‌صورت مقرون‌به‌صرفه از طریق Amazon Elastic Compute Cloud (Amazon EC2) یا Amazon SageMaker AI استفاده کنید.

تایوان 🇹🇼 و ایتالیا 🇮🇹 ، استفاده از DeepSeek را در نهادهای دولتی و زیرساخت، به دلیل نگرانی‌های امنیت ملی و قوانین حفاظت از داده‌ها، ممنوع کردند.

💣 آلتمن :
من شخصاً فکر می‌کنم که باید استراتژی متفاوتی برای اوپن سورس داشته باشیم.
همه در OpenAI این دیدگاه را ندارند و همچنین این در حال حاضر بالاترین اولویت ما نیست.
ما مدل‌های بهتری تولید خواهیم کرد، اما فاصله‌ای که در سال‌های گذشته داشتیم، کمتر خواهد شد.

مدل جدید OpenAI به نام o3-mini هنوز فرآیند استدلال خود را مخفی نگه می‌دارد، ما در حال کار روی نمایش جزئیات بیشتری نسبت به امروز هستیم.
و همچنین در صورت امکان، مایل هستیم هزینه استفاده از ChatGPT را در آینده کاهش دهیم.
Fine Tune DeepSeek R1 Build a Medical Chatbot

در این ویدیو به شما نحوه‌ی فاین‌تیون کردن مدل DeepSeek R1، را با استفاده از LoRA (Low-Rank Adaptation) آموزش می‌دهد.
در این آموزش، از Kaggle، Hugging Face و Weights & Biases نیز استفاده خواهد کرد.
در پایان، شما مهارت‌های لازم برای شخصی‌سازی DeepSeek R1 در کاربردهای خاص مانند استدلال پزشکی را خواهید داشت.
بریتانیا اولین کشوری خواهد بود که استفاده از ابزارهای هوش مصنوعی برای تولید محتوای سوءاستفاده جنسی از کودکان را جرم انگاری می‌کند.

این کشور قوانینی را تصویب خواهد کرد که داشتن، ایجاد یا توزیع ابزارهای هوش مصنوعی که محتوای جنسی مرتبط با کودکان را تولید می‌کنند، غیرقانونی اعلام می‌کند.

این اقدام در راستای مقابله با پدیده‌ای است که Yvette Cooper وزیر بریتانیا، از آن به عنوان یک معضل رو به رشد یاد کرده است.

ایجاد یا توزیع ابزارهای هوش مصنوعی که تصاویر سوءاستفاده‌آمیز از کودکان را تولید می‌کنند، جرم محسوب شده و مجازات آن تا پنج سال زندان خواهد بود.
این ابزارها با استفاده از تکنیک‌هایی مانند "برهنه‌سازی" تصاویر واقعی کودکان یا "جایگزینی چهره کودکان دیگر روی تصاویر موجود" اقدام به تولید محتوای مجرمانه می‌کنند.

CSAM = Child Sex Abuse Material
شرکت بریتانیایی (Fractile) با حمایت ناتو (NATO) وارد بازی می شود.

شرکت Fractile، یک طراح تراشه بریتانیایی، در حال توسعه تراشه‌های هوش مصنوعی که از معماری محاسبات IMC برای انجام عملیات استنتاج هوش مصنوعی در دیتاسنترها استفاده می‌کند و در حال حاضر تراشه‌های آزمایشی خود را در تیم‌های لندن و بریستول تولید می‌کند.

پت گلسینگر، مدیرعامل سابق Intel، به عنوان Angel Investor به Fractile پیوست.
این همکاری به شرکت کمک کرده تا برای تولید تراشه‌های دیتاسنتر، سرمایه‌گذاری بیشتری جذب کند.
تاکنون، Fractile با حمایت ناتو، ۱۵ میلیون پوند جمع‌آوری کرده است.
تیمی از توسعه‌دهندگان AI Hugging Face، از جمله توماس وُلف، ادعا می‌کنند که نسخه‌ای open از ابزار تحقیقاتی OpenAI را ساخته‌اند.

پروژه Open Deep Research از تیم Hugging Face
شامل یک مدل هوش مصنوعی (مدل o1 از OpenAI) و Agentic Framework است که به مدل کمک می‌کند تا تحلیل‌های خود را برنامه‌ریزی کند و از ابزارهایی مانند موتورهای جستجو استفاده کند.
مدل o1 یک مدل اختصاصی و غیررایگان است، اما تیم Hugging Face می‌گوید که عملکرد بهتری نسبت به مدل‌های باز مانند DeepSeek R1 دارد.

طبق گفته‌های تیم توسعه، Open Deep Research می‌تواند به‌طور خودکار در وب جستجو کند، صفحات را اسکرول کند، فایل‌ها را تغییر دهد و حتی داده‌ها را پردازش و محاسبات انجام دهد.

در معیار GAIA (بنچمارک برای General AI Assistants)، Open Deep Research امتیاز 54٪ کسب کرده است.
در مقایسه، ابزار تحقیق عمیق OpenAI امتیاز 67.36٪ دارد.
معلم دل‌ها، معلم معلم‌ها، خوشگل پسر، آقای Andrej Karpathy، ویدئوی جدیدی منتشر کرده! 👏

موضوع ویدئو: Deep Dive into LLMs like ChatGPT

مدت زمان: 3 ساعت و 30 دقیقه

فهرست مطالب:
introduction
pretraining data (internet)
tokenization
neural network I/O
neural network internals
inference
GPT-2: training and inference
Llama 3.1 base model inference 🔴
pretraining to post-training
post-training data (conversations)
hallucinations, tool use, knowledge/working memory
knowledge of self
models need tokens to think
tokenization revisited: models struggle with spelling
jagged intelligence
supervised finetuning to reinforcement learning
reinforcement learning 🔥
DeepSeek-R1 🔥
AlphaGo
reinforcement learning from human feedback (RLHF)
preview of things to come
keeping track of LLMs
where to find LLMs
grand summary


باید در اسرع وقت زمان باز کنم و ببینمش. احتمالا مشاهده این ویدئو به یک روز کاری (8 ساعت) زمان نیاز داره.

لینک
Please open Telegram to view this post
VIEW IN TELEGRAM
آقای Sebastian Raschka بلاگ پستی درباره Reasoning در LLM-ها نوشته. در ادامه خلاصه‌ای از این پست رو آوردم. هرچند پیشنهاد میشه که پست کامل خونده بشه. لینک


قبل از DeepSeek-R1، تقویت توانایی استدلال (Reasoning) در مدل‌ها معمولا مبتنی بر فاین‌تیون باناظر و یادگیری تقویتی (SFT+RL) بود. به این شکل که بعد از مرحله Pretrain، مدل‌ها ابتدا با یادگیری باناظر و سپس با یادگیری تقویتی آموزش داده میشدن تا قابلیت استدلال بهبود پیدا کند.

با اومدن DeepSeek-R1، روش‌های کارآمد دیگه‌ای هم برای افزایش توانایی استدلال در مدل‌ها معرفی شد:
* روش فقط یادگیری تقویتی (Pure RL)
* روش فقط یادگیری باناظر (Pure SFT)

در روش Pure RL، مدل DeepSeek-R1-Zero توسعه داده شد. در این روش، به جای استفاده از فیدبک انسانی، دو Reward به نام‌های Accuracy و Format تعریف شدن. برای مثال، در پرامپت‌ها و سوال‌های کدنویسی، Accuracy Reward بر اساس تست‌کیس‌ها و کامپایلر LeetCode تعیین میشه. یعنی مدل کد تولید میکنه، کامپایلر بررسی کرده و بر اساس صحت خروجی، به مدل فیدبک میده. 👏

این روش Pure RL باعث شد که مدل بدون نیاز به فیدبک انسانی توانایی استدلالش ارتقا پیدا کنه؛ یک دستاورد کلیدی که احتمالا در ماه‌های آینده بیشتر در موردش خواهیم شنید. تصویر بالا نشون میده DeepSeek-R1-Zero که فقط با RL آموزش دیده، چگونه یک مسئله ریاضی رو حل میکنه.

روش دوم، فقط یادگیری باناظر (SFT) هست. دیپ‌سیک یک‌ سری مدل کوچک‌تر بر پایه Llama 3 و Qwen 2.5 رو با SFT آموزش داد و جالب اینکه حتی این مدل‌ها هم تنها با SFT قابلیت استدلال پیدا کردند.

البته، وقتی مدل‌های کوچک رو با روش Pure RL آموزش دادن، عملکرد چندان جالبی نداشتن. این نشون میده که مدل‌های بزرگ‌تر (مثل DeepSeek-V3) می‌تونن با Pure RL قابلیت استدلال پیدا کنند، در حالی که مدل‌های کوچک‌تر بیشتر با Pure SFT به این توانایی می‌رسن.
Please open Telegram to view this post
VIEW IN TELEGRAM
اولین کنفرانس فناوری مستقل در سوریه پس از ۵ دهه

این کنفرانس دو روزه با عنوان SYNC 25 توسط گروهی از سوری‌های مقیم سیلیکون ولی سازمان‌دهی شد و شامل کارگاه‌ها و بحث‌هایی در مورد هوش مصنوعی و امنیت داده بود. هدف این برنامه، ایجاد ارتباط میان سیلیکون ولی و اکوسیستم فناوری نوظهور سوریه بود.

گروه برگزارکننده SYNC 25، که شامل کارآفرینان و سرمایه‌گذاران سوری‌تبار از سیلیکون ولی است، قصد دارد در پنج سال آینده ۲۵,۰۰۰ شغل جدید در بخش فناوری سوریه ایجاد کند.
مدل Zonos-v0.1 یک مدل پیشرفته تبدیل متن به گفتار (TTS) open-weight است که بر روی بیش از ۲۰۰ هزار ساعت گفتار چندزبانه متنوع آموزش دیده و کیفیتی هم‌تراز یا حتی بالاتر از برترین ارائه‌دهندگان TTS ارائه می‌دهد.

قادر است گفتاری بسیار طبیعی را از ورودی متنی تولید کند، به‌ویژه زمانی که یک کد صدای گوینده یا پیشوند صوتی ارائه شود.
همچنین، با دریافت تنها چند ثانیه نمونه صوتی، می‌تواند شبیه‌سازی صدای افراد را با دقت بالا انجام دهد.

این مدل امکان کنترل دقیق بر ویژگی‌های صوتی از جمله سرعت گفتار، تغییرات زیر و بمی صدا، کیفیت صوت و احساسات (مانند شادی، ترس، غم و عصبانیت) را فراهم می‌کند.

خروجی صوتی این مدل به‌طور پیش‌فرض با کیفیت ۴۴ کیلوهرتز تولید می‌شود.

کمپانی Zyphra یک کمپانی هوش مصنوعی مستقر در Palo Alto کالیفرنیا است.
که در حال توسعه MaiaOS یک سیستم عامل چندحالته (Multimodal Agent System) برای کسب‌وکارها که تحقیقات پیشرفته ای در زمینه معماری‌های نسل جدید شبکه‌های عصبی، حافظه بلندمدت و یادگیری تقویتی می کنند، می باشد.

Github : Zonos-v0

Playground : Zonos
داشتم یک پروژه ای رو بررسی میکردم به نام "جبیر"
نوشته :

Available Models :
Jabir 400B
Jabir 400B Online
J1
Choqok, 1 billion parameters.
Hormoz, 8 Billion parameters (Mann-E)

طبق ApiDocs برای استفاده از API باید به این صورت استفاده کرد:
completion = client.chat.completions.create(
model = "jabir-400b",
messages = [
{
"role": "user",
"content": "who are you?"
}
]
)


برای تست فنی و امنیت و... به رسم گل یا پوچ 👊🏻🫲🏻
گفتم یه خالی بازیمون نشه ؟ بشه ! 🙊

از PostMan به این آدرس :
https://openai.jabirproject.org/v1/chat/completions


دیتارو با ساختار ساده و بدون مقدار ارسال کردم 😈 ( حالت raw )
{
"model" : "",
"messages" : [
{"role" : "","content" : ""}
]
}


نتیجه ...؟
PyTorch Howsam
داشتم یک پروژه ای رو بررسی میکردم به نام "جبیر" نوشته : Available Models : Jabir 400B Jabir 400B Online J1 Choqok, 1 billion parameters. Hormoz, 8 Billion parameters (Mann-E) طبق ApiDocs برای استفاده از API باید به این صورت استفاده کرد: completion = cli…
اینکه ارور هندلینگ رو هواست، به کنار!

نکته جالب تر این هست که پرامپت و ... به Pollinations ارسال میشه !
یعنی به این آدرس :

https://text.pollinations.ai/openai/chat/completions
PyTorch Howsam
اینکه ارور هندلینگ رو هواست، به کنار! نکته جالب تر این هست که پرامپت و ... به Pollinations ارسال میشه ! یعنی به این آدرس : https://text.pollinations.ai/openai/chat/completions
و در تست بعدی، حتی اگر هم به این صورت ارسال بشه

{
"model" : "jabir-400b-online",
"messages" : [
{"role" : "","content" : ""},
{"role" : "","content" : ""}
]
}


بازم به ارور جدیدی یعنی [ KeyError: 'choices' ] میخورید.

یعنی حتی ساده ترین موارد هم چک و بررسی نشده در این پروژه!
به عبارتی در پروژه ی Jabir مهم نیست که شما چه مدلی رو انتخاب میکنید!
چون پرامپت های شما به جای دیگری ارسال میشه!
برای امیرمحمد خالقی غمگینم. 💔
در سراسر جهان، نوزادان از یک روش مشترک برای برقراری ارتباط استفاده می‌کنند:
گریه کردن.

اما اگر راهی وجود داشت که گریه‌های نوزاد را به مدلی زبانی تبدیل کند که هوش مصنوعی بتواند آن را درک کند؟
این دقیقاً همان چیزی است که Senthil Komar، توسعه‌دهنده نرم‌افزار، در تلاش برای انجام آن است.
همراه او باشید تا ببینید چگونه با استفاده از Vertex AI Studio، Gemini و سایر ابزارهای هوش مصنوعی گوگل، برنامه‌ای با Flutter نوشته و توسعه می‌دهد که گریه‌های نوزاد را پردازش، تحلیل و سپس به راه‌حل‌های قابل اجرا برای والدین دسته‌بندی می‌کند.

#Flutter #Gemini #VertexAIStudio

Youtube : Translating baby sounds using Google AI
مدل جدید xAI به نام Grok 3 منتشر شد!

امتیاز 1400 ELO در LMArena و رتبه 1
دقت 52٪ در AIME 24 – (و 96٪ با استدلال!)
دقت 75٪ در GPQA – (و 85٪ با استدلال)
دقت 57٪ در LiveCodeBench – (و 80٪ با استدلال)

همچنین در مسابقه جدید ریاضی AIME 2025 با 93٪ امتیاز از مدل o3-mini-high پیشی گرفت!

مشاهده ارائه در X
The AI CUDA Engineer:
Agentic CUDA Kernel Discovery, Optimization and Composition

مهندس CUDA مبتنی بر هوش مصنوعی قادر است کرنل‌های CUDA با بهره‌وری بالا تولید کند و سرعت اجرای عملیات یادگیری ماشین در PyTorch را ۱۰ تا ۱۰۰ برابر افزایش دهد. این سیستم کرنل‌های CUDA بسیار بهینه‌تری نسبت به کرنل‌های رایج تولیدی در صنعت ارائه می‌دهد.
چند ساعتی از انتشار (با محدودیت زمانی) Grok-3 میگذره

مسئله پریمیوم Strobogrammatic Number III لیت کد رو بهش دادم و تست کردم
چیزی که chatgpt حل کرد ، همون بار اول مسئله و ساختار حل مسئله رو درک کرد و توی کلاس Solution ، بدون خطا ، درست و بهینه حل کرد.
اما Grok زد به جاده خاکی و ساختار مسئله رو درست متوجه نشد مثل DeepSeek
در ادامه ی چت با Grok و DeepSeek ساختار اولیه کلاس مسئله رو ارسال کردم :
class Solution:
def strobogrammaticInRange(self, low: str, high: str) -> int:


این بار Grok ساختار مسئله رو شناخت ، اما اشتباه حل کرد.
از طرفی DeepSeek هم ساختار رو فهمید و هم بهینه حل کرد.