Dataphile
2.98K subscribers
66 photos
7 videos
36 files
117 links
در این کانال مطالبی که دوست دارم رو قرار میدم و موضوع خاصی نداره. هر مطلبی دلم بخواد میذارم


https://twitter.com/vahidbaghi95
https://vahidbaghi.ir/blog
@VahidBaghi
Download Telegram
اخیرا یه چیزی رو کشف کردم در مورد prompt نویسی برای LLM ها. این موضوع که بهش بگید تو مختصص فلان هستی و فلان کار رو برای من بکن که از قبل همه میدونستیم. اما متوجه شدم اگر کلمه skeptic (شکاک) و paranoid رو توی persona بذارم نتایج بهتری میده. مثلا :

You are a skeptical and paranoid software security engineer
👍78
This media is not supported in your browser
VIEW IN TELEGRAM
بگایی جهانی اینترنت
👍4
من چند وقت پیش برای یه جایی مکانیزم حذف اکانت رو در راستای حق فراموشی، پیاده‌سازی کردم. تصور کاربر اینه که تمام اطلاعاتش Shift+Delete میشه. اما طبیعتا اینجوری نیست. به خصوص وقتی کاربر تراکنش های مالی انجام داده باشه یا سرویس مورد نظر trial (اعتبار رایگان) داشته باشه.

چیزی که میخوام بگم رو هر کسی که یه مقدار برنامه‌نویسی کرده باشه و بشینه یه مقدار فکر کنه به همین نتایج میرسه و چیز خاصی قرار نیست بگم.

مکانیزمی که پیاده سازی کردم در حقیقت بهش میگن Data Anonymization که از نظر من اگر دقیق و درست پیاده‌سازی بشه، خیلی فرقی با اون Shift+Delete نداره. یعنی رکورد کاربر از دیتابیس حذف نمیشه. فقط به جای ستون هایی که به هر شکلی میتونن هویت کاربر رو مشخص کنن، یه چیز رندوم قرار میگیره و آپدیت میشه. به این ترتیب این رکورد که Anonymized شده عملا معلوم نیست برای کی بوده. جزئیات دیگه‌ای هم داره که اگر بحث پیش بیاد میگم. صرفا دارم به نمای کلی رو میگم.

اما برای سیستمی که trial داره باید چیکار کنیم؟ مثلا میشه شماره تلفن کاربر رو به صورت hash شده یه جایی ذخیره کرد که وقتی اون کاربر احساس زرنگی کرد و بعد از حذف اکانت خواست دوباره ثبت نام کنه، نتونه دوباره اعتبار رایگان بگیره. الان حریم خصوصی کاربر هم نقض نشده. یعنی حتی اگر دوباره هم ثبت نام کنه، اکانت جدیدش به هیچ شکلی به اون رکورد قبلی متصل نمیشه. اما جلوی سوء استفاده هم گرفته شده.


البته تا زمانی که رسما Shift+Delete نشه، هزار تا اما و اگر ممکنه پیش بیاد. مثلا اینکه اون لیستی که hash شماره تلفن ها داخش وجود داره رو اگر یه نفر brute force کنه چی؟ خب salt میذاریم. اگر salt لو بره چی؟ یه کاری میکنیم لو نره. اصلا توی سرور نمیذاریم بمونه که لو بره. روشش رو تو پست های قبلی گفتم. خلاصه این اما و اگر ها، راه حل هایی داره که تا حد خوبی مشکل رو حل میکنه ولی تا زمانی که رسما Shift+Delete نشه، این اما و اگر ها تموم نمیشه و فکر نمیکنم سیستمی باشه که Shift+Delete کنه.
11👍51
Dataphile
جزئیات دیگه‌ای هم داره که اگر بحث پیش بیاد میگم. صرفا دارم به نمای کلی رو میگم.
تاکید میکنم که این قضیه مورد به مورد میتونه متفاوت باشه. قوانین برای پلتفرم های مختلف و همچنین در کشور های مختلف متفاوته. در این پست فقط میخواستم Data Anonymization رو بگم. Data Anonymization فقط یکی از قطعات پازل حذف اکانت کاربره.

دقیقا دلیل این جمله‌ای که نوشتم «جزئیات دیگه‌ای هم داره که اگر بحث پیش بیاد میگم. صرفا دارم به نمای کلی رو میگم.» همینه.
👍11
من موقع خرید کردن خیلی مرتب کردن بر اساس قیمت رو دوست دارم. یعنی حتی از سوپرمارکت بخوام پفک هم بخرم، از گران‌ترین به ارزان‌ترین مرتب میکنم و بعد داخل لیست میام پایین و طبق اون بودجه‌ای که میخوام خرج کنم یه چیزی رو انتخاب میکنم.


بعد برام سوال شد که گرون‌ترین محصول هر دسته‌بندی در کل سوپرمارکت های اسنپ تهران چیه؟ اول دیتا رو جمع کردم و بعد آنومالی های قیمت رو حذف کردم (چون قیمت بعضی محصولات اشتباه درج شده بود - مثلا سرکه چرا باید ۶۸ میلیون تومن باشه؟) و بعد این نمودار رو رسم کردم

فایل html رو در ادمه قرار میدم که بتونید خودتون هر دسته‌بندی رو باز کنید.

تنها نکته‌ای که به نظرم میرسه اینه که بعضی سوپرمارکت ها بعضی محصولات رو خیلی بیشتر از قیمتی که هست به مشتری فرو میکنن. آنومالی قیمت نیستا. مثلا یه محصولی ۸۰۰ تومنه، میفروشه ۱۵۰۰.
👍56
بازم من نظری روی valid بودن یا نبودن دیتا ندارم. قیمت بعضی محصولات عجیبه. حالا ممکنه اشتباه قیمت‌گذاری موقتی باشه یا گرون‌فروشی.
دلیل اینکه ۲۰ تا گرون‌ترین محصول هر دسته رو انتتخاب کردم دقیقا همین بود. یعنی دیدم با الگوریتم های تشخیص آنومالی هم نمیشه این قضیه رو متوجه شد، لذا تو هر دسته بندی به صورت دستی اون محصول گرون رو بررسی میکنم که آیا واقعا قیمتش همینه یا نه.

هدف نهایی؟ میخواستم خوراکی جدید پیدا کنم، در نتیجه ۷ میلیون رکورد رو آنالیز کردم 😂😂
👍33
Dataphile
اگر به GPU برای پردازش نیاز دارید سایت vast.ai هم گزینه خوبیه. قیمت هاش هم به نظرم مناسبه و پرداخت با کریپتو هم قبول میکنه. اگر دوست داشتید با لینک من ثبت نام کنید : https://cloud.vast.ai/?ref=61931
سرویس vast.ai گزینه پرداخت با coinbase رو هم اضافه کرده. قبلا فقط https://crypto.com رو قبول میکرد ولی الان با coinbase شما عملا هر رمزارزی در هر کیف‌پولی داشته باشید میتونید با یک کلیک خرید کنید. همین الان خودم با USDC که در کیف پول Trust Wallet داشتم حسابم رو شارژ کردم
👍9
دوست عزیزی که با این اکانت میای کانال رو چک میکنی. خیلی خوبی :)
1👍131
من تو یکی از سایت هام حتی اگر DevTools رو باز کنن هم نوتیف میگیرم 😂
چه جوری؟ اگر تو فایل css مثلا تکه کد زیر رو بذارید :
/*# sourceMappingURL=FILENAME.map */

یا مثلا توی فایل js تکه کد زیر رو بذارید :
//# sourceMappingURL=FILENAME.map

یه درخواست به FILENAME.map ارسال میکنه. چه زمانی این کار رو میکنه؟ زمانی که DevTools رو توی مرورگر باز کرده باشید که مثلا یه بررسی انجام بدید یا کرم بریزید. منم اونور log میکنم و سریع متوجه میشم یه نفر میخواد کرم بریزه 😂😂
4👍48
میدونید چرا به این چیزا و سایر مواردی که میگم فکر میکنم؟ تا حالا با اسپمر هندی مقابله کردید؟ هندی ها امام اسپمر ها هستن. یه بار باهاشون مقابله کنید قوی میشید 😂
👍29
این قضیه سردی و گرمی غذا ها که میگن؟
من برام جالبه با دیتا قضیه رو بررسی کنم. مثلا دیتای برنامه nutrition 4 (که متخصصان تغذیه استفاده میکنن) رو برداریم. جدول غذا هایی که اینا میگن سرد یا گرمه رو برداریم. یه الگوریتم clustering بزنیم ببینم چه چیز مشترکی بینشون وجود داره.
👍70
بحث هایی که با LLM ها میکنم :

- این متن رو برای کسی که در حد اورانگوتان میفهمه بازنویسی کن

- نه، ببین فرض کن کاربر گاوه. فرض کن الاغه. حالا دوباره متن رو بازنویسی کن

- آخه کاربری که در حد جلبک مغز نداره، چطوری جمله «لطفاً جهت ادامه، هویت خود را احراز نمایید» رو قرار متوجه بشه؟ ما رو باش که داریم از اورانگوتان کمک میگیریم برای کمک به یه اورانگوتان دیگه.
👍26
طرف ویدئو ساخته با این عنوان بعد تو کامنت ها یکی بهش ریده بعد اینجوری جواب داده :/

اینکه پاسپورت و آدرس یه کشور دیگه غیر از ایران رو موقع ثبت نام توی adsense وارد کنیم دیگه عنوان ویدئوش نمیشه «ساخت حساب گوگل ادسنس در ایران»

خب عقب افتاده اگر این مدارک رو داشتم اصلا به راهنمایی توی عقب افتاده نیاز نداشتم. خودم دستم کجه مگه ثبت نام کنم.
👍52
کانال Never miss a Point در یه جایی از ویدئوی زیر حلقه یگانه قدرت سائرون در اراب حلقه ها رو تشیبه میکنه به ChatGPT.
به نظرم خیلی جالبه. خیلی خلاصه بخوام بگم، میگه گالوم فریفته حلقه قدرت شد و استفاده و وابستگی شدید به اون باعث شد از خودش بی‌خود بشه. استفاده از AI هم اگر بی‌رویه باشه میتونه همین نتیجه رو بده.



https://www.youtube.com/watch?v=L0gEF5r6k4o
👍11
من تا حالا دو بار پول برای مشاوره مالیاتی دادم. دفعه اول یه وکیل دادگستری بود تو سایت کانون وکلا که نوشته بود تخصص مالیات داره و امتیازش هم بالا بود. یه مشت دری‌وری تحویل من داد. من اطلاعاتم از این وکیله بیشتر بود. مردک اومده برای من تاریخچه ویکی‌پدیا مالیات در جهان رو داره توضیح میده. نصف سوالاتم رو هم مبهم جواب داد (بلد نبود)

دفعه دوم به یکی از این موسسه های مالیاتی رفتم. انصافا اطلاعاتش خوب بود اما بازم یه جاهایی با تردید صحبت میکرد. در واقع دلیلش اینه که قانون مالیات اصلا واضح و شفاف نیست.

چند تا هم پادکست و وبینار گوش دادم در مورد مالیات. آخرش هم نفهمیدم بالاخره چه جوری یه حساب رو تجاری محسوب میکنن. اون قانون ۳۵ تراکنش و ۱۰۰ میلیون اینا رو نمیگم ها. اون داستانش فرق داره. یه قانون هم وجود داره که از مجموع واریزی به حساب های شما بیشتر از ۵۰۰ میلیون تومن بشه، بانک مرکزی به سازمان امور مالیاتی اطلاع میده و اون موقع میان سراغتون.

اون مشاوری که باهاش صحبت کردم میگفت همین الان جلوش یه مورد هست که بیشتر از ۵۰۰ تومن هم واریزی داشته اما مالیات براش نیومده. یه قانون ساده گفت. گفت ببین اثبات درآمدی بودن واریزی به حساب شما بر عهده سازمان امور مالیاتیه و اثبات عدم درآمدی بودن بر عهده شماست. یعنی اون باید ثابت کنه درآمد بوده. یه چیز دیگه هم گفت. گفت بخوان قانون رو سفت بگیرن، شاید ۹۰ درصد افراد مجرم مالیاتی بشن. نمیدونم در جریان هستید یا نه. اخیرا فرار از مالیات دیگه یه جریمه ساده نداره. مجرم هم حساب میشید!
5👍37
Dataphile
این اسنپ بهینه رو که ۳ سال پیش برای دوران سربازیم نوشته بودم، یه UI براش ساختم و یه مقدار تغییرش دادم و از طریق لینک زیر قابل استفاده‌ست. https://vahidbaghi.ir/snapp-snap/
این ماه هاست غیرفعاله. هر از گاهی بعضی ها دوباره تستش میکنن. با اینکه کامل dead شده اما log برام میاد. خلاصه دیگه کار نمیکنه :)