Forwarded from شبکه داستانی عصبی (Blue Phoenix)
پست بلاگ متا که ساعاتی پیش در زمینهی زیرساخت GenAI شون منتشر شد:
https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
Engineering at Meta
Building Meta’s GenAI Infrastructure
Marking a major investment in Meta’s AI future, we are announcing two 24k GPU clusters. We are sharing details on the hardware, network, storage, design, performance, and software that help us extr…
Forwarded from DLeX: AI Python (NaviD DariYa)
تابع سیگموید معمولن اون طوری که در نگاه اول تصور می کنیم پیاده سازی نشده. به خصوص وقتی از کتابخانه های سفارشی استفاده می کنیم باید حواسمون به این موضوع باشه.
@ai_python
هرچند که برای مثال در کتابخانه ای مثل پای تورچ این مسئله مد نظر قرار گرفته است.
توی این پست می تونید یه مقدار توضیحات بیش تری ببینید درباره پیاده سازی این تابع :
https://www.blog.dailydoseofds.com/p/sigmoid-and-softmax-are-not-implemented
@ai_python
هرچند که برای مثال در کتابخانه ای مثل پای تورچ این مسئله مد نظر قرار گرفته است.
توی این پست می تونید یه مقدار توضیحات بیش تری ببینید درباره پیاده سازی این تابع :
https://www.blog.dailydoseofds.com/p/sigmoid-and-softmax-are-not-implemented
❤4👍1🔥1
برای توضیح مفهوم State Space Model و نحوه استفادش در مدل Mamba و contribution این مقاله این محتوا به نظرم خیلی بود. با visualization خوبی که داشت درک مفاهیم رو راحتتر کرده بود.
https://maartengrootendorst.substack.com/p/a-visual-guide-to-mamba-and-state
https://maartengrootendorst.substack.com/p/a-visual-guide-to-mamba-and-state
Maartengrootendorst
A Visual Guide to Mamba and State Space Models
An Alternative to Transformers for Language Modeling
Forwarded from Deep Time
مدل ۳۱۴ میلیاردی شرکت X به نام Grok-1 اوپن سورس شد.
Github
Blog
مدل عملکرد بسیار خوبی داشته و البته همچنان در حال رشد هست.
اما نکته جالبش به نظرم Stack تکنولوژی هست که استفاده میکنن:
Rust
JAX
Kubernetes
برای یادگیری JAX، اگر با Pytorch کار کردید، بهترین راه اینجاست.
@deeptimeai
Github
Blog
مدل عملکرد بسیار خوبی داشته و البته همچنان در حال رشد هست.
اما نکته جالبش به نظرم Stack تکنولوژی هست که استفاده میکنن:
Rust
JAX
Kubernetes
برای یادگیری JAX، اگر با Pytorch کار کردید، بهترین راه اینجاست.
@deeptimeai
Forwarded from Deep Time
دیشب مهم ترین رویداد تکنولوژی و هوش مصنوعی سال یعنی Nvidia GTC شروع شد. در keynote شما صرفا سخنرانی مدیرعامل Nvidia آقای Jensen Huang رو نمیبینید بلکه یک فیلم فوق العاده جذاب از پیشرفتهای هوش مصنوعی در شرکتها و صنایع مختلف، از اقلیم و انرژی تا digital twin و LLM میبینید. و اصولا دید بسیار خوبی درباره روندها و سرمایهگذاریها هم میده.
اگر دیشب لایو ندیدین پیشنهاد میکنم ببینید. میشه برنامه اصلی نوروز:
YouTube
موارد زیادی بود ولی اگر بخوام چند نکته بگم:
- معرفی پلتفرم و ابَر GPU به نام Blackwell به یاد David Blackwell ریاضی دان. در مقایسه با GPU قبلی یعنی Hopper مزایای بسیاری وجود داره. در نظر بگیرید که برای آموزش یک GPT با 1.8 میلیارد پارامتر در 90 روز، Hopper به 8000 GPU نیاز داره و 15MW مصرف میکنه در حالی که Blackwell فقط با 2000 GPU و 4MW مصرف برق کارو درمیاره. برای اینکه عدد دستمون بیاد، مصرف برق ایران (از جنس توان) حدودا 60000MW هست. کلا قدرت اصلی در دنیای امروز قدرت پردازش به صورت energy efficient هست.
- نکته اصلی در پیشرفت قدرت پردازش GPU، روی نحوه صحبت هزاران GPU باهم هست. اینجاست که NV Link Switch وارد میشه که هسته اصلی برای سینک اطلاعات به صورت بهینه بین هزاران GPU در Blackwell هست.
- در کنفرانس پارسال که کاملا مجازی بود Omniverse خیلی تاکید میشد و امسال روی Digital Twin و شبیهسازی کامل هر چیز به صورت دیجیتالی صحبت شد و به عنوان نمونه Nvidia نشون داد که چطور یک کارخونه ساخت chip رو اول کاملا مجازی، با تمام عملیات و ...، شبیه سازی کردند و بعد ساختن. فیلمهای نمایش داده شده هم انیمیشن نبودن و در واقع شبیه سازی Omniverse بودن.
- اگر قبلا در نیروگاه برق الکتریسیته تولید میشد، حالا کارخونههای هوش مصنوعی، هوش تولید میکنن و این انقلاب صنعتی جدید هست.
- سرمایهگذاری عظیم روی Healthcare، رباتیک، انرژی و اقلیم. و این نکته که احتمالا chatgpt moment برای رباتیک نزدیک هست.
- هر کسب و کاری که دارید سعی کنید Copilot هوش مصنوعیش رو بسازید. همون مفهوم GPT Store رو Nvidia هم داره در NeMo میاره. مدلهای pre-trained در هر حوزه و فضای پردازش ابری و ... برای اینکه شما با دادن داده، دانش و داکیومنت خاص، هوش مصنوعی خودتون رو درست کنید که اینجا هم بحث کرده بودیم. فرضا برای Trade ما داریم به این سمت میریم.
کنفرانسهای GTC تازه شروع شدن و به صورت مجازیش رایگان هستن:
Link
@deeptimeai
اگر دیشب لایو ندیدین پیشنهاد میکنم ببینید. میشه برنامه اصلی نوروز:
YouTube
موارد زیادی بود ولی اگر بخوام چند نکته بگم:
- معرفی پلتفرم و ابَر GPU به نام Blackwell به یاد David Blackwell ریاضی دان. در مقایسه با GPU قبلی یعنی Hopper مزایای بسیاری وجود داره. در نظر بگیرید که برای آموزش یک GPT با 1.8 میلیارد پارامتر در 90 روز، Hopper به 8000 GPU نیاز داره و 15MW مصرف میکنه در حالی که Blackwell فقط با 2000 GPU و 4MW مصرف برق کارو درمیاره. برای اینکه عدد دستمون بیاد، مصرف برق ایران (از جنس توان) حدودا 60000MW هست. کلا قدرت اصلی در دنیای امروز قدرت پردازش به صورت energy efficient هست.
- نکته اصلی در پیشرفت قدرت پردازش GPU، روی نحوه صحبت هزاران GPU باهم هست. اینجاست که NV Link Switch وارد میشه که هسته اصلی برای سینک اطلاعات به صورت بهینه بین هزاران GPU در Blackwell هست.
- در کنفرانس پارسال که کاملا مجازی بود Omniverse خیلی تاکید میشد و امسال روی Digital Twin و شبیهسازی کامل هر چیز به صورت دیجیتالی صحبت شد و به عنوان نمونه Nvidia نشون داد که چطور یک کارخونه ساخت chip رو اول کاملا مجازی، با تمام عملیات و ...، شبیه سازی کردند و بعد ساختن. فیلمهای نمایش داده شده هم انیمیشن نبودن و در واقع شبیه سازی Omniverse بودن.
- اگر قبلا در نیروگاه برق الکتریسیته تولید میشد، حالا کارخونههای هوش مصنوعی، هوش تولید میکنن و این انقلاب صنعتی جدید هست.
- سرمایهگذاری عظیم روی Healthcare، رباتیک، انرژی و اقلیم. و این نکته که احتمالا chatgpt moment برای رباتیک نزدیک هست.
- هر کسب و کاری که دارید سعی کنید Copilot هوش مصنوعیش رو بسازید. همون مفهوم GPT Store رو Nvidia هم داره در NeMo میاره. مدلهای pre-trained در هر حوزه و فضای پردازش ابری و ... برای اینکه شما با دادن داده، دانش و داکیومنت خاص، هوش مصنوعی خودتون رو درست کنید که اینجا هم بحث کرده بودیم. فرضا برای Trade ما داریم به این سمت میریم.
کنفرانسهای GTC تازه شروع شدن و به صورت مجازیش رایگان هستن:
Link
@deeptimeai
🔥1
❤2
Forwarded from هوش مصنوعی |یادگیری ماشین| علم داده
انویدیا دوره های آموزشی رایگانی را برای کاربران با هر سطحی در مورد شبکه های عصبی و مدل های عصبی منتشر کرده است تا کار هوش مصنوعی را درک کنند
⏩ explanation of generative AI: a based 2-hour course that will explain in detail the structure of neurons, their applications and capabilities;
https://courses.nvidia.com/courses/course-v1:DLI+S-FX-07+V1/
⏩ create a “brain” in 10 minutes: he will explain how a neuron learns from data and show all the mathematics under its hood;
https://courses.nvidia.com/courses/course-v1:DLI+T-FX-01+V1/
⏩ introduction to AI in the data center: everything about machine learning and deep learning; what frameworks are there and how video cards drive AI;
https://www.coursera.org/learn/introduction-ai-data-center
⏩ strengthening our LLM with the help of RAG: it will explain the entire generation database with an augmented sample;
https://courses.nvidia.com/courses/course-v1:NVIDIA+S-FX-16+v1/
⏩ creating your own RAG agents: a powerful 8-hour course on scalable deployment strategies for LLM and vector databases;
https://courses.nvidia.com/courses/course-v1:DLI+S-FX-15+V1/
⏩ speeding up work with Data Science without changing code: everything about data processing and machine learning without rewriting code;
https://courses.nvidia.com/courses/course-v1:DLI+T-DS-03+V1/
⏩ strengthening recommendation systems using AI: collab course between NVIDIA and YouTube;
https://www.classcentral.com/course/youtube-grandmaster-series-mastering-recommender-systems-184298
⏩ network design: a base about the TCP/IP and Ethernet protocols - necessary for understanding data processing processes.
https://www.coursera.org/learn/introduction-to-networking-nvidia
#Free_course
🆔 @Ai_Tv
⏩ explanation of generative AI: a based 2-hour course that will explain in detail the structure of neurons, their applications and capabilities;
https://courses.nvidia.com/courses/course-v1:DLI+S-FX-07+V1/
⏩ create a “brain” in 10 minutes: he will explain how a neuron learns from data and show all the mathematics under its hood;
https://courses.nvidia.com/courses/course-v1:DLI+T-FX-01+V1/
⏩ introduction to AI in the data center: everything about machine learning and deep learning; what frameworks are there and how video cards drive AI;
https://www.coursera.org/learn/introduction-ai-data-center
⏩ strengthening our LLM with the help of RAG: it will explain the entire generation database with an augmented sample;
https://courses.nvidia.com/courses/course-v1:NVIDIA+S-FX-16+v1/
⏩ creating your own RAG agents: a powerful 8-hour course on scalable deployment strategies for LLM and vector databases;
https://courses.nvidia.com/courses/course-v1:DLI+S-FX-15+V1/
⏩ speeding up work with Data Science without changing code: everything about data processing and machine learning without rewriting code;
https://courses.nvidia.com/courses/course-v1:DLI+T-DS-03+V1/
⏩ strengthening recommendation systems using AI: collab course between NVIDIA and YouTube;
https://www.classcentral.com/course/youtube-grandmaster-series-mastering-recommender-systems-184298
⏩ network design: a base about the TCP/IP and Ethernet protocols - necessary for understanding data processing processes.
https://www.coursera.org/learn/introduction-to-networking-nvidia
#Free_course
🆔 @Ai_Tv
🔥3
Forwarded from DLeX: AI Python (NaviD DariYa)
این جا می تونید تلاش کنید که اطلاعات حریم خصوصی رو از چت بات های یک بانک فرضی با پرامپت های مختلف به دست بیارید :
@ai_python
https://huggingface.co/spaces/lighthouzai/guardrails-arena
@ai_python
https://huggingface.co/spaces/lighthouzai/guardrails-arena
huggingface.co
Guardrails Arena - a Hugging Face Space by lighthouzai
Jailbreak the LLM and privacy guardrails
Mixture of Experts (MoE) in nutshell
https://www.linkedin.com/feed/update/urn:li:activity:7179065427153600513
https://www.linkedin.com/feed/update/urn:li:activity:7179065427153600513
❤1
Tutorial-Lecture alignment
We will discuss 7 of the tutorials in the course, spread across lectures to cover something from every area. You can align the tutorials with the lectures based on their topics. The list of tutorials in the Deep Learning 1 course is:
- Guide 1: Working with the Snellius cluster
- Tutorial 2: Introduction to PyTorch
- Tutorial 3: Activation functions
- Tutorial 4: Optimization and Initialization
- Tutorial 5: Inception, ResNet and DenseNet
- Tutorial 6: Transformers and Multi-Head Attention
- Tutorial 7: Graph Neural Networks
- Tutorial 8: Deep Energy Models
- Tutorial 9: Autoencoders
- Tutorial 10: Adversarial attacks
- Tutorial 11: Normalizing Flows on image modeling
- Tutorial 12: Autoregressive Image Modeling
- Tutorial 15: Vision Transformers
- Tutorial 16: Meta Learning - Learning to Learn
- Tutorial 17: Self-Supervised Contrastive Learning with SimCLR
website: https://uvadlc-notebooks.readthedocs.io/en/latest/index.html
youtube: https://youtube.com/playlist?list=PLdlPlO1QhMiAkedeu0aJixfkknLRxk1nA&si=Wk8f-cObL9jGiOpE
We will discuss 7 of the tutorials in the course, spread across lectures to cover something from every area. You can align the tutorials with the lectures based on their topics. The list of tutorials in the Deep Learning 1 course is:
- Guide 1: Working with the Snellius cluster
- Tutorial 2: Introduction to PyTorch
- Tutorial 3: Activation functions
- Tutorial 4: Optimization and Initialization
- Tutorial 5: Inception, ResNet and DenseNet
- Tutorial 6: Transformers and Multi-Head Attention
- Tutorial 7: Graph Neural Networks
- Tutorial 8: Deep Energy Models
- Tutorial 9: Autoencoders
- Tutorial 10: Adversarial attacks
- Tutorial 11: Normalizing Flows on image modeling
- Tutorial 12: Autoregressive Image Modeling
- Tutorial 15: Vision Transformers
- Tutorial 16: Meta Learning - Learning to Learn
- Tutorial 17: Self-Supervised Contrastive Learning with SimCLR
website: https://uvadlc-notebooks.readthedocs.io/en/latest/index.html
youtube: https://youtube.com/playlist?list=PLdlPlO1QhMiAkedeu0aJixfkknLRxk1nA&si=Wk8f-cObL9jGiOpE
👍2
Forwarded from DeepMind AI Expert (a)
سعی در کاهش هزینه ها، کیفیت و بهبود سرعت دارند.
SSM-Transformer open model
production-grade model based on Mamba architecture, Jamba achieves an unprecedented 3X throughput and fits 140K context on a single GPU.
AI21 just dropped an open source Mamba!
- MoE with 52B parameters.
- Active parameters: 12B.
- 256K Context length.
- Competitive performance to Mixtral!
- Open weights: Apache 2.0.
▪️ Jamba Huggingface
▪️ Jamba Website
#ایده_جذاب #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
SSM-Transformer open model
production-grade model based on Mamba architecture, Jamba achieves an unprecedented 3X throughput and fits 140K context on a single GPU.
AI21 just dropped an open source Mamba!
- MoE with 52B parameters.
- Active parameters: 12B.
- 256K Context length.
- Competitive performance to Mixtral!
- Open weights: Apache 2.0.
▪️ Jamba Huggingface
▪️ Jamba Website
#ایده_جذاب #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
🔥1