This media is not supported in your browser
VIEW IN TELEGRAM
قابلیتهای هوش مصنوعی توی ساخت ویدیو هرروز ترسناکتر میشه. توی مدت کم چقدر توی لبخوانی فقط پیشرفت داشته!
AI capabilities in making videos os getting crazier than ever before. Specially in lip syncing
🤠 یه مقاله بانمک خوندم امروز. در مورد اینکه یه مدل بسازیم مخصوص پیشبینی کردن اینکه آخر یه جمله چه ایموجیای بذاریم بهتره.
بریم بیینیم در مورد چیه اصلا
بریم بیینیم در مورد چیه اصلا
I came across a funny article today. it was about building a model that predicts which emoji fits best at the end of a sentence.
Let’s check out what it’s all about!
چکیده
🚏 این پروژه پیشبینی ایموجی از روی متنهای کوتاه (مثل توییت) رو با چهار مدل یادگیری عمیق بررسی میکنه:
شبکه ساده (Feedforward)، CNN، Transformer و BERT.
از دیتاست TweetEval استفاده شده و برای حل مشکل نامتوازن بودن کلاسها (یعنی بعضی ایموجیها خیلی بیشتر از بقیه میان)
از روشهایی مثل focal loss و منظمسازی استفاده کردن.
نتیجهها نشون دادن که BERT بهترین عملکرد کلی رو داشت چون قبلاً آموزش دیده، ولی CNN تو ایموجیهای نادر بهتر عمل کرد.
این تحقیق نشون میده انتخاب معماری و تنظیم درست هایپرپارامترها برای پیشبینی ایموجی خیلی مهمه و میتونه به تعامل بهتر انسان و کامپیوتر کمک کنه.
🔰 @scopeofai | #papers
🚏 این پروژه پیشبینی ایموجی از روی متنهای کوتاه (مثل توییت) رو با چهار مدل یادگیری عمیق بررسی میکنه:
شبکه ساده (Feedforward)، CNN، Transformer و BERT.
از دیتاست TweetEval استفاده شده و برای حل مشکل نامتوازن بودن کلاسها (یعنی بعضی ایموجیها خیلی بیشتر از بقیه میان)
از روشهایی مثل focal loss و منظمسازی استفاده کردن.
نتیجهها نشون دادن که BERT بهترین عملکرد کلی رو داشت چون قبلاً آموزش دیده، ولی CNN تو ایموجیهای نادر بهتر عمل کرد.
این تحقیق نشون میده انتخاب معماری و تنظیم درست هایپرپارامترها برای پیشبینی ایموجی خیلی مهمه و میتونه به تعامل بهتر انسان و کامپیوتر کمک کنه.
Abstract (What’s the big picture?)
The paper studies how to predict which emoji best fits a short text (like a tweet). They test four deep learning models:
CNN (captures patterns in word sequences)
Transformer (self-attention to model relationships)
BERT (pretrained on lots of text, strongest)
BERT is best overall (because of pretraining and context handling).
🔰 @scopeofai | #papers
مقدمه / مسئله و هدف
🔍 کار این پروژه اینه که مدلی بسازه که بتونه تشخیص بده کدوم ایموجی بیشتر به یه پیام کوتاه میخوره.
این کار شبیه تحلیل احساساته، چون باید از روی کلمات حالوهوای متن رو بفهمه.
اهداف پروژه:
🔸 ساختن مدلی که بتونه پیامهای کوتاه رو به ایموجی مناسب وصل کنه
🔸 بهتر کردن پیشبینی برای ایموجیهای کماستفاده
🔸 مقایسه مدلها و روشهای تنظیمشون تا بفهمیم کدوم بهتر جواب میده
🔸 ساختن مدلی که بتونه تغییر معنای ایموجیهارو بفهمه ( "😭" الان بیشتر به معنای خندیدن استفاده ميشه تا خود گریه)
🔰 @scopeofai | #papers
🔍 کار این پروژه اینه که مدلی بسازه که بتونه تشخیص بده کدوم ایموجی بیشتر به یه پیام کوتاه میخوره.
این کار شبیه تحلیل احساساته، چون باید از روی کلمات حالوهوای متن رو بفهمه.
اهداف پروژه:
🔸 ساختن مدلی که بتونه پیامهای کوتاه رو به ایموجی مناسب وصل کنه
🔸 بهتر کردن پیشبینی برای ایموجیهای کماستفاده
🔸 مقایسه مدلها و روشهای تنظیمشون تا بفهمیم کدوم بهتر جواب میده
🔸 ساختن مدلی که بتونه تغییر معنای ایموجیهارو بفهمه ( "😭" الان بیشتر به معنای خندیدن استفاده ميشه تا خود گریه)
Introduction
Emojis are like a shorthand for emotions in text. Predicting the right emoji is basically sentiment analysis with extra nuance.
Problem: Some emojis (❤️) appear way more often than others 🎄, making training biased.
Goal: Build models that don’t just predict frequent emojis, but also learn rare ones and handle context changes
🔰 @scopeofai | #papers
دیتاست
از دیتاست TweetEval استفاده کردن:
شامل دو ستون که ستون اول توییته و ستون دوم ایموجیای که بهش نسبت داده میشه
۴۵هزار نمونه آموزش، ۵ هزار نمونه برای اعتبارسنجی و ۵۰ هزار تست.
مشکل: بعضی ایموجیها (❤️) خیلی زیاد تکرار شدن، بعضی خیلی کم مثل 😏 یا 😅
🔰 @scopeofai | #papers
از دیتاست TweetEval استفاده کردن:
شامل دو ستون که ستون اول توییته و ستون دوم ایموجیای که بهش نسبت داده میشه
۴۵هزار نمونه آموزش، ۵ هزار نمونه برای اعتبارسنجی و ۵۰ هزار تست.
مشکل: بعضی ایموجیها (❤️) خیلی زیاد تکرار شدن، بعضی خیلی کم مثل 😏 یا 😅
Dataset
TweetEval Emoji Dataset (tweets + 20 emoji classes).
~45K training, 5K validation, 50K test.
Class imbalance: ❤️ is everywhere; 😏 or 😅 are rare.
This imbalance makes the problem realistic but harder
🔰 @scopeofai | #papers
نتایج
BERT: ٪بهترین عملکرد → دقت ۴۴
قوی روی ایموجیهای پرکاربرد و مشخص (❤️، 🎄، 🇺🇸). ضعیف روی ایموجیهای کمیاب یا مشابه.
CNN: ٪دقت ۳۳
خوب روی ایموجیهایی با الگوهای مشخص (🎄، 🔥).
Transformer: ٪دقت ~۳۰
بهتر از شبکه ساده، ولی overfitting زیاد.
شبکه ساده: ضعیفترین (۲۸٪). خیلی سادهست برای این کار.
🔰 @scopeofai | #papers
BERT: ٪بهترین عملکرد → دقت ۴۴
قوی روی ایموجیهای پرکاربرد و مشخص (❤️، 🎄، 🇺🇸). ضعیف روی ایموجیهای کمیاب یا مشابه.
CNN: ٪دقت ۳۳
خوب روی ایموجیهایی با الگوهای مشخص (🎄، 🔥).
Transformer: ٪دقت ~۳۰
بهتر از شبکه ساده، ولی overfitting زیاد.
شبکه ساده: ضعیفترین (۲۸٪). خیلی سادهست برای این کار.
Results
BERT: Best accuracy (44%) + best weighted F1 (0.45). Strong on frequent emojis and distinctive ones (❤️, 🎄, 🇺🇸). Weak on rare/ambiguous emojis.
CNN: Second best (33%). Great at spotting emojis tied to clear word patterns (🎄, 🔥).
Transformer: Moderate (30%). Better than feedforward but still overfit.
Feedforward: Weakest (28%). Too simple to capture nuance.
👉 BERT wins because of pretraining + context awareness. CNN is a good backup for spotting distinct keywords.
🔰 @scopeofai | #papers
نتیجهگیری
انتخاب معماری خیلی تاثیر داره. BERT بهترین بود چون از قبل آموزش دیده.
مشکل بزرگ: نامتوازن بودن دادهها (ایموجی قلب خیلی بیشتر از بقیه بود).
همهی مدلها روی ایموجیهای واضح خوب بودن ولی روی ایموجیهای مشابه (💙💜❤️) یا کمیاب بد عمل کردن.
کاربردها: کیبورد گوشیت بهتر عمل میکنه، میشه با این مدل محتوای شبکههای اجتماعی رو بهتر درک کرد (شاید)
کارهای آینده: دادهسازی بیشتر، مدلهای ترکیبی، روشهای جدید برای حل مشکل ایموجیهای نادر
🔰 @scopeofai | #papers
انتخاب معماری خیلی تاثیر داره. BERT بهترین بود چون از قبل آموزش دیده.
مشکل بزرگ: نامتوازن بودن دادهها (ایموجی قلب خیلی بیشتر از بقیه بود).
همهی مدلها روی ایموجیهای واضح خوب بودن ولی روی ایموجیهای مشابه (💙💜❤️) یا کمیاب بد عمل کردن.
کاربردها: کیبورد گوشیت بهتر عمل میکنه، میشه با این مدل محتوای شبکههای اجتماعی رو بهتر درک کرد (شاید)
کارهای آینده: دادهسازی بیشتر، مدلهای ترکیبی، روشهای جدید برای حل مشکل ایموجیهای نادر
Conclusion
Architecture choice is crucial: simple models underperform, pretrained BERT dominates.
Imbalance is still a big issue: hearts dominate, subtle distinctions (💜 vs 💙 vs ❤️) are hard.
Applications: Smarter keyboards, content moderation, sentiment analysis improvements.
Future work: Data augmentation, hybrid models, contrastive learning.
👉 Core insight: Emoji prediction is a fun but serious testbed for emotional NLP—teaches us a lot about how models grasp subtle sentiment
🔰 @scopeofai | #papers
این خبر یهذره قدیمیه اما بشنوینش:
🔵 شرکت متا به یه مهندس هوش مصنوعی یک میلیارد دلار در ازای چهارسال کار پیشنهاد کرد
و طرف پیشنهاد رو رد کرد!
هزینههای که شرکتهای تاپ برای کسب برتری توی حوزه هوش مصنوعی پرداخت میکنن واقعا عجیبه
⚫️ @scopeofai | #tweets
🔵 شرکت متا به یه مهندس هوش مصنوعی یک میلیارد دلار در ازای چهارسال کار پیشنهاد کرد
و طرف پیشنهاد رو رد کرد!
هزینههای که شرکتهای تاپ برای کسب برتری توی حوزه هوش مصنوعی پرداخت میکنن واقعا عجیبه
⚫️ @scopeofai | #tweets
🐳 شرکت DeepSeek بی سروصدا مدل جدیدش رو منتشر کرده: DeepSeek V3.1 با ۶۸۵ میلیارد پارامتر.
این مدل رو میتونید از Hugging Face رایگان دانلود کنید. ظرفیتش تا ۱۲۸ هزار توکن رو مدیریت میکنه ( یه کتاب ۴۰۰ صفحهای رو توی یه لحظه میخونه)
📰 @scopeofai | #news
این مدل رو میتونید از Hugging Face رایگان دانلود کنید. ظرفیتش تا ۱۲۸ هزار توکن رو مدیریت میکنه ( یه کتاب ۴۰۰ صفحهای رو توی یه لحظه میخونه)
DeepSeek just quietly dropped DeepSeek V3.1—a massive 685-billion parameter, open-source model now available on Hugging Face. It’s fast, handles up to 128,000 tokens in one go (like reading a 400-page book instantly), and competes with top-tier AIs from OpenAI and Anthropic. What’s cooler?
📰 @scopeofai | #news
👍1🤯1
🔏 به تازگی ChatGPT ویژگی جدید ساخت فلشکارت رو به خودش اضافه کرده و میتونه برای هر موضوعی که بخوایید براتون فلشکارت درست کنه. فقط باید توی پرامپتتون ذکر کنید که از quizgpt برای این کار استفاده کن
📰 @scopeofai | #news
ChatGPT has recently added a new flashcard feature. It can now create flashcards for any topic you want . you just need to mention in your prompt that you want to use quizgpt for it.
📰 @scopeofai | #news
👍1
💡 ابزار SightEngine میتونه با دقت بالایی تشخیص بده که تصویر و یا ویدیو با هوش مصنوعی ساخته شده یا نه. خیلی سریع کار میکنه و واقعا دقتش زیاده. تازه میتونه بهت کامل بگه چه مدلی برای ساخت تصویر استفاده شده. ماهانه رایگان میتونی 2000 تا عملیات باهاش انجام بدی.
🧰 @scopeofai | #tools
SightEngine can accurately detect whether an image or video was created with AI. It’s super fast and highly precise — and it can even tell you which model was used to generate the image. You also get 2,000 free operations per month.
🧰 @scopeofai | #tools
❤1👍1
راستشو بگم از مطالب کانال راضی نیستم. حس میکنم زیادی عامهپسند و سادهان و هرکسی میتونه همچنین محتوایی تولید کنه.
میخوام روند تولید محتوارو به یه سمت و سوی تخصصیتر ببرم. شما هم موافقید با این تغییر؟
میخوام روند تولید محتوارو به یه سمت و سوی تخصصیتر ببرم. شما هم موافقید با این تغییر؟
👌3
شبکه عصبی دقیقاً چیه؟
🧠 شبکه عصبی یه مدل محاسباتیه که از ساختار مغز الهام گرفته. دادهها وارد لایه ورودی میشن، توی لایههای مخفی حسابی پردازش میشن (با تغییر وزنها و بایاسها) و در نهایت توی لایه خروجی جواب میگیریم.
مکانیزم یادگیریش هم ساده ولی عمیقه: مدل یه پیشبینی میکنه، خطاش اندازهگیری میشه، و بعد با الگوریتمهایی مثل پسانتشار خطا (Backpropagation) وزنها اصلاح میشن. تکرار همین چرخه باعث میشه شبکه کمکم هوشمندتر بشه.
🦴 @scopeofai | #concepts
🧠 شبکه عصبی یه مدل محاسباتیه که از ساختار مغز الهام گرفته. دادهها وارد لایه ورودی میشن، توی لایههای مخفی حسابی پردازش میشن (با تغییر وزنها و بایاسها) و در نهایت توی لایه خروجی جواب میگیریم.
مکانیزم یادگیریش هم ساده ولی عمیقه: مدل یه پیشبینی میکنه، خطاش اندازهگیری میشه، و بعد با الگوریتمهایی مثل پسانتشار خطا (Backpropagation) وزنها اصلاح میشن. تکرار همین چرخه باعث میشه شبکه کمکم هوشمندتر بشه.
A neural network is a computational system inspired by how our brains work. It consists of layers of artificial nodes—neurons—that process data step by step
Input layer: Receives raw data (e.g., images, numbers, text).
Hidden layers: Process that data through interconnected neurons, adjusting internal values called weights and biases to improve accuracy
Output layer: Generates a prediction or classification.
The network learns by making predictions, measuring how off they are using a loss function, and then tweaking those weights and biases
🦴 @scopeofai | #concepts
انواع شبکههای عصبی
⚱ همهی شبکهها یه شکل نیستن؛ هر معماری برای مسئلهای خاص طراحی شده:
🔹Feedforward (MLP): جریان یکطرفه داده. ساده و پایهای، ولی برای دستهبندی و پیشبینیهای معمولی خیلی کاربردیه
🔹CNN (Convolutional Neural Network): مخصوص بینایی ماشین. لایههای کانولوشن ویژگیهای تصویر رو خودشون استخراج میکنن؛ برای تشخیص چهره، اشیا و هر چیزی که پای پیکسل وسطه، فوقالعادهست
🔹RNN (Recurrent Neural Network): مناسب دادههای ترتیبی. چون حافظه داخلی داره، میتونه وابستگی بین دادههای پشتسرهم رو بفهمه
🔹DNN (Deep Neural Network): همون شبکههای عمیق با چندین لایه مخفی. هرچی شبکه عمیقتر باشه، قابلیت یادگیری الگوهای پیچیدهتر هم بیشتر میشه
( بعدا به اینا عمیقتر هم میپردازیم)
🦴 @scopeofai | #concepts
⚱ همهی شبکهها یه شکل نیستن؛ هر معماری برای مسئلهای خاص طراحی شده:
🔹Feedforward (MLP): جریان یکطرفه داده. ساده و پایهای، ولی برای دستهبندی و پیشبینیهای معمولی خیلی کاربردیه
🔹CNN (Convolutional Neural Network): مخصوص بینایی ماشین. لایههای کانولوشن ویژگیهای تصویر رو خودشون استخراج میکنن؛ برای تشخیص چهره، اشیا و هر چیزی که پای پیکسل وسطه، فوقالعادهست
🔹RNN (Recurrent Neural Network): مناسب دادههای ترتیبی. چون حافظه داخلی داره، میتونه وابستگی بین دادههای پشتسرهم رو بفهمه
🔹DNN (Deep Neural Network): همون شبکههای عمیق با چندین لایه مخفی. هرچی شبکه عمیقتر باشه، قابلیت یادگیری الگوهای پیچیدهتر هم بیشتر میشه
( بعدا به اینا عمیقتر هم میپردازیم)
Different architectures exist to tackle various challenges. The main ones:
🔹Feedforward Neural Networks (MLPs): Data moves straight from input to output. Great for general tasks like classification and pattern recognition
🔹Convolutional Neural Networks (CNNs): Built for vision tasks—images, object detection, segmentation. They use convolutional layers to automatically extract features, making them incredibly efficient
🔹Recurrent Neural Networks (RNNs): Designed for sequential data—text, speech, time series. They "remember" past info via feedback loops. LSTMs and GRUs improve their ability to handle long-range dependencies
🔹Deep Neural Networks (DNNs): Simply NNs with multiple hidden layers—depth allows learning highly complex patterns
🦴 @scopeofai | #concepts
کاربردهای شبکههای عصبی
تقریباً در تمام حوزههای هوش مصنوعی ردپای شبکههای عصبی دیده میشه:
🔅 بینایی ماشین: از فیلترهای اینستاگرام تا سیستمهای تشخیص چهره و ماشینهای خودران.
🔉 پردازش زبان طبیعی: ترجمه ماشینی، چتباتها، مدلهای مولد متن.
🎙پردازش صوتی: تشخیص گفتار، تولید موسیقی یا صدا با هوش مصنوعی.
⏳ تحلیل سریهای زمانی: پیشبینی بازارهای مالی، تحلیل روندها، تشخیص ناهنجاریها.
🦴 @scopeofai | #concepts
تقریباً در تمام حوزههای هوش مصنوعی ردپای شبکههای عصبی دیده میشه:
🔅 بینایی ماشین: از فیلترهای اینستاگرام تا سیستمهای تشخیص چهره و ماشینهای خودران.
🔉 پردازش زبان طبیعی: ترجمه ماشینی، چتباتها، مدلهای مولد متن.
🎙پردازش صوتی: تشخیص گفتار، تولید موسیقی یا صدا با هوش مصنوعی.
⏳ تحلیل سریهای زمانی: پیشبینی بازارهای مالی، تحلیل روندها، تشخیص ناهنجاریها.
3) What Are Neural Networks Used For?
Neural networks are everywhere:
Image recognition & computer vision — think facial recognition, object detection, video analysis (thanks to CNNs)
Language & audio tasks — including speech recognition, translation, text generation using RNNs and more modern variants like transformers
Predictive & time-series modeling — especially in areas like finance, forecasting, or any data that needs pattern detection
Everyday tech — voice assistants, self-driving cars, logistics, security cameras—you name it
🦴 @scopeofai | #concepts
محدودیتها و چالشها
قدرت بالا به معنی بینقص بودن نیست:
▫️داده و محاسبات سنگین: شبکههای عمیق برای آموزش نیاز به دیتاستهای بزرگ و GPU/TPU دارن.
▫️جعبه سیاه بودن: تصمیمگیری شبکه قابل توضیح نیست. شفافیت (Explainability) همچنان یه چالش جدیه.
▫️پیچیدگی در آموزش: مسائلی مثل vanishing gradient یا انتخاب معماری درست، کار رو سخت میکنن.
▫️Overfitting: وقتی داده کافی یا متنوع نداشته باشی، مدل به جای یادگیری الگو، فقط دادهی آموزشی رو حفظ میکنه
🦴 @scopeofai | #concepts
قدرت بالا به معنی بینقص بودن نیست:
▫️داده و محاسبات سنگین: شبکههای عمیق برای آموزش نیاز به دیتاستهای بزرگ و GPU/TPU دارن.
▫️جعبه سیاه بودن: تصمیمگیری شبکه قابل توضیح نیست. شفافیت (Explainability) همچنان یه چالش جدیه.
▫️پیچیدگی در آموزش: مسائلی مثل vanishing gradient یا انتخاب معماری درست، کار رو سخت میکنن.
▫️Overfitting: وقتی داده کافی یا متنوع نداشته باشی، مدل به جای یادگیری الگو، فقط دادهی آموزشی رو حفظ میکنه
What Are the Limitations of Neural Networks?
As powerful as they are, neural networks aren’t perfect:
▫️Data-hungry & compute-intensive: They need massive datasets and hardware (GPUs, TPUs) to train well
▫️Opaque “black box” nature: Often hard to understand how they reach a decision—explainability is a growing concern
▫️Training complexity: Deep or recurrent networks can suffer from problems like vanishing gradients, and setting up architectures and training regimes is non-trivial
▫️Overfitting & generalization risk: Without enough diverse data, models can learn “noise” instead of true patterns and fail on new data
🦴 @scopeofai | #concepts