PyTorch Howsam
3.25K subscribers
370 photos
48 videos
6 files
508 links
از هوش مصنوعی میگیم...

ارتباط با ادمین
@howsam_support
Download Telegram
برای کلاس امروزم، سعی کردم قسمت خلاصه‌سازی نظرات کاربران دیجی‌کالا رو پیاده‌سازی کنم.

یک نمونه خروجی کار:
🟣 خلاصه دیدگاه‌های خریداران
اکثر کاربران از محتوا و نکات کاربردی کتاب صوتی و کیفیت صدای دوبله آن راضی هستند و آن را ارزشمند برای علاقه‌مندان به کارآفرینی و برنامه‌نویسی می‌دانند. برخی هم از بسته‌بندی، هدیه بودن محصول و قیمت مناسب صحبت کرده‌اند. با این وجود تعدادی از کاربران نظر منفی دارند و معتقدند محتوا زیاد علمی نیست یا بیش از حد شبیه یک رمان است و برای بازار ایران مناسب نیست یا امکان استفاده عملی در ایران محدود است. به طور کلی می‌توان گفت کتاب دیدگاهی مثبت با چند نکته انتقادی درباره ارزش آموزشی و تطبیق با شرایط داخلی دارد.

نکات مثبت:
- محتوای خوب و نکات کاربردی
- کیفیت صدای دوبله و صوت باکیفیت
- ارزش خرید بالا نسبت به قیمت/وجود تخفیف و هدیه

نکات منفی:
- محتوا بی‌ارزش یا پول سوزاندن/به درد نمی‌خورد برای برخی کاربران
- آموزشی محدود یا شبیه به رمان سطح پایین است
- مناسب نبودن یا محدودیت‌های عملی آن در ایران (وابستگی به iOS/اپل یا تحریم‌ها)


به نظرم نکات مثبت و منفی منطقی نیست.
تون TOON یا Token-Oriented Object Notation یک فرمت فشرده، خوانا برای انسان و مخصوص سریال‌سازی داده‌هاست که با هدف ارسال داده‌های ساختاریافته به مدل‌های زبانی بزرگ (LLM) طراحی شده تا مصرف توکن را به‌طور قابل توجهی کاهش دهد.

این فرمت جایگزینی برای JSON است و همان داده‌ها را با ساختار مشابه، اما توکن‌های کمتر منتقل می‌کند.

pip install python-toon==0.1.3


Github-ToonFormat

Github-ToonPython


PyPi-Python Toon 0.1.3
PyTorch Howsam
تون TOON یا Token-Oriented Object Notation یک فرمت فشرده، خوانا برای انسان و مخصوص سریال‌سازی داده‌هاست که با هدف ارسال داده‌های ساختاریافته به مدل‌های زبانی بزرگ (LLM) طراحی شده تا مصرف توکن را به‌طور قابل توجهی کاهش دهد. این فرمت جایگزینی برای JSON است…
با تشکر از علی بابت این پست، من با یک مثال از صفحه گیتهاب کارکرد این فرمت رو بیشتر توضیح میدم. جالبه...

ما معمولا از فرمت JSON برای ورودی دادن به LLM-ها استفاده می‌کنیم. مثلا:
{
"users": [
{ "id": 1, "name": "Alice", "role": "admin" },
{ "id": 2, "name": "Bob", "role": "user" }
]
}


اما، TOON همون اطلاعات مشابه را با توکن‌های کمتری بهمون میده. فرمت TOON مثال بالا:
users[2]{id,name,role}:
1,Alice,admin
2,Bob,user


تعداد توکن‌ها با توکنایزر GPT-4o در Tiktokenizer در مثال بالا:
* فرمت JSON برابر با 51
* فرمت TOON برابر با 24
امیررضا دانش و تجربه زیادی در یادگیری تقویتی داره. من در این وبینار شرکت کردم و توصیه می‌کنم دوستان علاقه‌مند به یادگیری تقویتی ثبت‌نام کنن.

اطلاعات بیشتر در لینکدین امیررضا: کلیک کنید!

لینک ثبت‌نام در وبینار: کلیک کنید!
قبلا، چند تا توییت بوک‌مارک کرده بودم که امروز دوباره نگاهشون کردم و جالب بودن. اینجا هم میذارم.

کامنت‌های توییت زیر رو هم بخونید. خودمم قبلا اینجا درباره Jina گفته بودم.
بهترین مدل Embedding که برای تسک های فارسی استفاده کردید چی بوده؟

اینجا اگر خواستید بنویسید تا بقیه هم استفاده کنن.

تو open-source ها qwen و Jina و Gemma Embedding تا اینجا برای من خوب کار کردن

لینک


توییت زیر از شایان هست که قبلا توی توییتر کار میکرده:
اگه می‌خواین بدونین ترند استارت‌آپ‌های هوش مصنوعی امسال چی بوده و ایده بگیرین که چه نوع استارت‌آپی خوبه و کجا جای کار داره و به چه سمتی داریم می‌ریم این ویدئو رو از دست ندین:
لینک
لینک توییت


آقای مهدی اللهیاری:
این به نظر میاد اومده از روی گیت هاب من درست کرده اینو. من اینجا ورژن جدیدتر با حدود ۴۵۰ تا use case: لینک
لینک توییت


این هم از نیما:
تو دیتاساینس اکثرا فقط بخش توسعه مدل رو یادمیگیرن. ولی نه تو دانشگاه، نه از kaggle یا کتابا پیاده سازی و پروداکشن کردن رو یادنمیگیرن. Databricks Free Edition به نظرم بهترین ابزار برای یادگیریه این مهارته. پروژه cloud based باهاش انجام بدین و پروداکت پیاده کنید، کاملا رایگانه!
لینک توییت
امروز، در کلاس شرکت داتین، درباره Prompt Engineering صحبت کردم.
فصل Prompt Engineering این کتاب رو خیلی دوست داشتم. سایر فصل‌های کتاب رو نخوندم، ولی دیگه واجب شد فصل‌های دیگه رو هم نگاهی بندازم.
وقتی میگم پروژه‌های جون‌دار انجام بدید تا رزومه وزن پیدا کنه، منظورم چنین پروژه‌هایی هست.

این کلاستر محاسباتی کوچک و زیبا، کارِ درخشانِ آقای محمدمتین ناصری، دانشجوی کارشناسی مهندسی کامپیوتر، در درس «اینترنت اشیا» است!
با استفاده از چند برد Raspberry Pi 4 که به‌صورت عمودی استک شده‌اند، محمدمتین موفق شده یک کلاستر واقعی کوبرنتیز (Kubernetes)+ OpenMPi راه‌اندازی کند که:
کاملاً کاربردی و مدیریت‌شده با k3s است
قابلیت اجرای محاسبات ماتریسی بزرگ و موازی را دارد
حدود ۳۰ گیگافلاپس توان محاسباتی ارائه می‌دهد (معادل یک کامپیوتر رومیزی قدرتمند چند سال پیش!)
همه‌ی این‌ها در فضای کمتر از یک جعبه کوچک و با مصرف برق بسیار پایین

این پروژه نه‌تنها نشان‌دهنده درک عمیق از مفاهیم توزیع‌شده و orchestration است، بلکه یک نمونه عالی از این حقیقت است که برای شروع کارهای بزرگ، لزوماً به سرورهای چندصدهزاردلاری نیاز نیست؛ گاهی چند برد کوچک و ذهن خلاق کافی است!
افتخار می‌کنم که چنین دانشجوی باانگیزه و توانمندی در کلاس درسمان داریم 👏
منبع پست در لینکدین


این پروژه هیچ ارتباطی به به من نداره، من فقط از لینکدین نقل قول کردم. لینک پست رو هم گذاشتم.
یک‌جایی توی مکالمه با جمنای، عبارت زیر رو به کار برد:
لحن زرد و "لینکدینی" به جای لحن علمی


منظورش که واضحه؛ من هم نسبت به یکسری پست‌های لینکدینی همین حس زرد بودن رو دارم. اما از خود جمنای خواستم که بیشتر درباره این عبارتی که نوشته بهم توضیح بده. خلاصه توضیحش رو در آوردم.

وقتی می‌گوییم یک متن «لحن لینکدینی» دارد، منظورمان اشاره به یک سبک خاص و کلیشه‌ای از نوشتار است که در چند سال اخیر در شبکه اجتماعی لینکدین (LinkedIn) بسیار شایع شده و حتی اصطلاح طنزآمیز «Broetry» (ترکیب Bro + Poetry) را برایش ساخته‌اند.

در اینجا ویژگی‌های این «لحن لینکدینی» را باز می‌کنم:

۱. دراماتیک‌سازی مصنوعی (The Artificial Drama)
در سبک لینکدینی، نویسنده سعی می‌کند معمولی‌ترین اتفاقات را به یک داستان حماسی تبدیل کند.

۲. جملات قصار و بریده‌بریده (Broetry Style)
اگر دقت کنید، متن‌های لینکدینی معمولاً پاراگراف‌های طولانی ندارند. هر جمله یک خط است و بین آن‌ها فاصله زیادی می‌گذارند تا در موبایل راحت خوانده شود (و کاربر بیشتر اسکرول کند که برای الگوریتم خوب است).

۳. تبدیل همه چیز به «درس موفقیت» (Toxic Positivity)
یکی از آزاردهنده‌ترین ویژگی‌های لحن لینکدینی این است که به زور می‌خواهد از هر چیزی «۵ درس برای زندگی» یا «فرمول طلایی موفقیت» بیرون بکشد.

۴. استفاده از کلمات پرطمطراق و توخالی (Buzzwords)
نویسندگان این سبک عاشق کلماتی هستند که هوشمندانه به نظر برسند اما بار معنایی خاصی نداشته باشند.

۵. اعتماد به نفس کاذب (False Authority)
در پست‌های لینکدینی، نویسنده (یا راوی) طوری صحبت می‌کند که انگار دانای کل است و حقایق مطلق را کشف کرده.

نمونه مثال:
لحن علمی/ژورنالیستی: "ایلیا سوتسکیور در سخنرانی خود اشاره کرد که با توجه به ساختار بیولوژیک مغز، احتمالاً هوش مصنوعی محدودیتی در یادگیری نخواهد داشت." (سندیت دارد، بی‌طرف است).

لحن لینکدینی/زرد: "آیا فکر می‌کنید مغزتان جادویی است؟ اشتباه می‌کنید! ایلیا سوتسکیور آب پاکی را روی دست همه ریخت. مغز شما فقط یک کامپیوتر است. برای شوکه‌کننده ترین حقیقت آماده باشید... 👇" (هیجانی، تهاجمی، کم‌مایه).


یک مورد هم من بگم:
توی این نوع پست‌های لینکدینی، هر جمله یک اموجی داره. خصوصا اینها: 🎯⛳️💯👌