مقدمه / مسئله و هدف
🔍 کار این پروژه اینه که مدلی بسازه که بتونه تشخیص بده کدوم ایموجی بیشتر به یه پیام کوتاه میخوره.
این کار شبیه تحلیل احساساته، چون باید از روی کلمات حالوهوای متن رو بفهمه.
اهداف پروژه:
🔸 ساختن مدلی که بتونه پیامهای کوتاه رو به ایموجی مناسب وصل کنه
🔸 بهتر کردن پیشبینی برای ایموجیهای کماستفاده
🔸 مقایسه مدلها و روشهای تنظیمشون تا بفهمیم کدوم بهتر جواب میده
🔸 ساختن مدلی که بتونه تغییر معنای ایموجیهارو بفهمه ( "😭" الان بیشتر به معنای خندیدن استفاده ميشه تا خود گریه)
🔰 @scopeofai | #papers
🔍 کار این پروژه اینه که مدلی بسازه که بتونه تشخیص بده کدوم ایموجی بیشتر به یه پیام کوتاه میخوره.
این کار شبیه تحلیل احساساته، چون باید از روی کلمات حالوهوای متن رو بفهمه.
اهداف پروژه:
🔸 ساختن مدلی که بتونه پیامهای کوتاه رو به ایموجی مناسب وصل کنه
🔸 بهتر کردن پیشبینی برای ایموجیهای کماستفاده
🔸 مقایسه مدلها و روشهای تنظیمشون تا بفهمیم کدوم بهتر جواب میده
🔸 ساختن مدلی که بتونه تغییر معنای ایموجیهارو بفهمه ( "😭" الان بیشتر به معنای خندیدن استفاده ميشه تا خود گریه)
Introduction
Emojis are like a shorthand for emotions in text. Predicting the right emoji is basically sentiment analysis with extra nuance.
Problem: Some emojis (❤️) appear way more often than others 🎄, making training biased.
Goal: Build models that don’t just predict frequent emojis, but also learn rare ones and handle context changes
🔰 @scopeofai | #papers
دیتاست
از دیتاست TweetEval استفاده کردن:
شامل دو ستون که ستون اول توییته و ستون دوم ایموجیای که بهش نسبت داده میشه
۴۵هزار نمونه آموزش، ۵ هزار نمونه برای اعتبارسنجی و ۵۰ هزار تست.
مشکل: بعضی ایموجیها (❤️) خیلی زیاد تکرار شدن، بعضی خیلی کم مثل 😏 یا 😅
🔰 @scopeofai | #papers
از دیتاست TweetEval استفاده کردن:
شامل دو ستون که ستون اول توییته و ستون دوم ایموجیای که بهش نسبت داده میشه
۴۵هزار نمونه آموزش، ۵ هزار نمونه برای اعتبارسنجی و ۵۰ هزار تست.
مشکل: بعضی ایموجیها (❤️) خیلی زیاد تکرار شدن، بعضی خیلی کم مثل 😏 یا 😅
Dataset
TweetEval Emoji Dataset (tweets + 20 emoji classes).
~45K training, 5K validation, 50K test.
Class imbalance: ❤️ is everywhere; 😏 or 😅 are rare.
This imbalance makes the problem realistic but harder
🔰 @scopeofai | #papers
نتایج
BERT: ٪بهترین عملکرد → دقت ۴۴
قوی روی ایموجیهای پرکاربرد و مشخص (❤️، 🎄، 🇺🇸). ضعیف روی ایموجیهای کمیاب یا مشابه.
CNN: ٪دقت ۳۳
خوب روی ایموجیهایی با الگوهای مشخص (🎄، 🔥).
Transformer: ٪دقت ~۳۰
بهتر از شبکه ساده، ولی overfitting زیاد.
شبکه ساده: ضعیفترین (۲۸٪). خیلی سادهست برای این کار.
🔰 @scopeofai | #papers
BERT: ٪بهترین عملکرد → دقت ۴۴
قوی روی ایموجیهای پرکاربرد و مشخص (❤️، 🎄، 🇺🇸). ضعیف روی ایموجیهای کمیاب یا مشابه.
CNN: ٪دقت ۳۳
خوب روی ایموجیهایی با الگوهای مشخص (🎄، 🔥).
Transformer: ٪دقت ~۳۰
بهتر از شبکه ساده، ولی overfitting زیاد.
شبکه ساده: ضعیفترین (۲۸٪). خیلی سادهست برای این کار.
Results
BERT: Best accuracy (44%) + best weighted F1 (0.45). Strong on frequent emojis and distinctive ones (❤️, 🎄, 🇺🇸). Weak on rare/ambiguous emojis.
CNN: Second best (33%). Great at spotting emojis tied to clear word patterns (🎄, 🔥).
Transformer: Moderate (30%). Better than feedforward but still overfit.
Feedforward: Weakest (28%). Too simple to capture nuance.
👉 BERT wins because of pretraining + context awareness. CNN is a good backup for spotting distinct keywords.
🔰 @scopeofai | #papers
نتیجهگیری
انتخاب معماری خیلی تاثیر داره. BERT بهترین بود چون از قبل آموزش دیده.
مشکل بزرگ: نامتوازن بودن دادهها (ایموجی قلب خیلی بیشتر از بقیه بود).
همهی مدلها روی ایموجیهای واضح خوب بودن ولی روی ایموجیهای مشابه (💙💜❤️) یا کمیاب بد عمل کردن.
کاربردها: کیبورد گوشیت بهتر عمل میکنه، میشه با این مدل محتوای شبکههای اجتماعی رو بهتر درک کرد (شاید)
کارهای آینده: دادهسازی بیشتر، مدلهای ترکیبی، روشهای جدید برای حل مشکل ایموجیهای نادر
🔰 @scopeofai | #papers
انتخاب معماری خیلی تاثیر داره. BERT بهترین بود چون از قبل آموزش دیده.
مشکل بزرگ: نامتوازن بودن دادهها (ایموجی قلب خیلی بیشتر از بقیه بود).
همهی مدلها روی ایموجیهای واضح خوب بودن ولی روی ایموجیهای مشابه (💙💜❤️) یا کمیاب بد عمل کردن.
کاربردها: کیبورد گوشیت بهتر عمل میکنه، میشه با این مدل محتوای شبکههای اجتماعی رو بهتر درک کرد (شاید)
کارهای آینده: دادهسازی بیشتر، مدلهای ترکیبی، روشهای جدید برای حل مشکل ایموجیهای نادر
Conclusion
Architecture choice is crucial: simple models underperform, pretrained BERT dominates.
Imbalance is still a big issue: hearts dominate, subtle distinctions (💜 vs 💙 vs ❤️) are hard.
Applications: Smarter keyboards, content moderation, sentiment analysis improvements.
Future work: Data augmentation, hybrid models, contrastive learning.
👉 Core insight: Emoji prediction is a fun but serious testbed for emotional NLP—teaches us a lot about how models grasp subtle sentiment
🔰 @scopeofai | #papers
این خبر یهذره قدیمیه اما بشنوینش:
🔵 شرکت متا به یه مهندس هوش مصنوعی یک میلیارد دلار در ازای چهارسال کار پیشنهاد کرد
و طرف پیشنهاد رو رد کرد!
هزینههای که شرکتهای تاپ برای کسب برتری توی حوزه هوش مصنوعی پرداخت میکنن واقعا عجیبه
⚫️ @scopeofai | #tweets
🔵 شرکت متا به یه مهندس هوش مصنوعی یک میلیارد دلار در ازای چهارسال کار پیشنهاد کرد
و طرف پیشنهاد رو رد کرد!
هزینههای که شرکتهای تاپ برای کسب برتری توی حوزه هوش مصنوعی پرداخت میکنن واقعا عجیبه
⚫️ @scopeofai | #tweets
🐳 شرکت DeepSeek بی سروصدا مدل جدیدش رو منتشر کرده: DeepSeek V3.1 با ۶۸۵ میلیارد پارامتر.
این مدل رو میتونید از Hugging Face رایگان دانلود کنید. ظرفیتش تا ۱۲۸ هزار توکن رو مدیریت میکنه ( یه کتاب ۴۰۰ صفحهای رو توی یه لحظه میخونه)
📰 @scopeofai | #news
این مدل رو میتونید از Hugging Face رایگان دانلود کنید. ظرفیتش تا ۱۲۸ هزار توکن رو مدیریت میکنه ( یه کتاب ۴۰۰ صفحهای رو توی یه لحظه میخونه)
DeepSeek just quietly dropped DeepSeek V3.1—a massive 685-billion parameter, open-source model now available on Hugging Face. It’s fast, handles up to 128,000 tokens in one go (like reading a 400-page book instantly), and competes with top-tier AIs from OpenAI and Anthropic. What’s cooler?
📰 @scopeofai | #news
👍1🤯1
🔏 به تازگی ChatGPT ویژگی جدید ساخت فلشکارت رو به خودش اضافه کرده و میتونه برای هر موضوعی که بخوایید براتون فلشکارت درست کنه. فقط باید توی پرامپتتون ذکر کنید که از quizgpt برای این کار استفاده کن
📰 @scopeofai | #news
ChatGPT has recently added a new flashcard feature. It can now create flashcards for any topic you want . you just need to mention in your prompt that you want to use quizgpt for it.
📰 @scopeofai | #news
👍1
💡 ابزار SightEngine میتونه با دقت بالایی تشخیص بده که تصویر و یا ویدیو با هوش مصنوعی ساخته شده یا نه. خیلی سریع کار میکنه و واقعا دقتش زیاده. تازه میتونه بهت کامل بگه چه مدلی برای ساخت تصویر استفاده شده. ماهانه رایگان میتونی 2000 تا عملیات باهاش انجام بدی.
🧰 @scopeofai | #tools
SightEngine can accurately detect whether an image or video was created with AI. It’s super fast and highly precise — and it can even tell you which model was used to generate the image. You also get 2,000 free operations per month.
🧰 @scopeofai | #tools
❤1👍1
راستشو بگم از مطالب کانال راضی نیستم. حس میکنم زیادی عامهپسند و سادهان و هرکسی میتونه همچنین محتوایی تولید کنه.
میخوام روند تولید محتوارو به یه سمت و سوی تخصصیتر ببرم. شما هم موافقید با این تغییر؟
میخوام روند تولید محتوارو به یه سمت و سوی تخصصیتر ببرم. شما هم موافقید با این تغییر؟
👌3