کارگروه علم داده
430 subscribers
458 photos
14 videos
119 files
431 links
ارتباط با ادمین:
@Smn_statistics
Download Telegram
@DataScience_ir - Python for Data Analysis.pdf
4.3 MB
🎯 جزوه آموزشی پایتون برای آنالیز داده‌ها
به همراه منابع + ویدیوهای آموزشی

👨🏻‍💻 دکتر کوین شپرد جزوه 400 صفحه‌ای دوره آموزشی پایتون برای آنالیز داده‌ها رو به همراه ویدیوهای آموزشی و منابع دوره در سایت شخصی خود منتشر کرده است. 💯

☑️ برای دسترسی به ویدوها و منابع دوره می‌تونید از لینک‌های زیر استفاده کنین:

🗂 دوره Python for DA :
📚 جزوه آموزشی: LINK
🎬 ویدیوهای دوره: LINK
🗃 گیت‌هاب: LINK
📂 سایت دوره: LINK

#️⃣ #علم_داده #DataScience

📊 دانشمند داده شوید :
📎
@DataScience_ir
💻 دیتاست شرکت‌های بزرگ ایرانی


1️⃣ دیتاست سایت دیوار

➡️ Kaggle | Huggingface


2️⃣ دیتاست سایت باسلام

➡️ Kaggle | Huggingface


3️⃣ دیتاست سایت دیجی‌کالا
➡️ Dataset


🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
⭕️ معرفی منابع رایگان یک استاد علوم داده!

👨🏻‍💻 مین دوگوکو استاد علوم داده، منابع اُپن سورسی که طی این سال ها در مسیر یادگیری علوم داده آموخته به صورت کاملا رایگان با علاقه مندان این حوزه به اشتراک گذاشته. در ادامه از زبان او با این منابع آشنا می‌شویم:


📙 ابتدا منابع یادگیری زبان برنامه نویسی R رو معرفی می کنم. من تمامی مطالبی که برای یادگیری این زبان برنامه نویسی نیاز دارین رو در سایت زیر به رایگان قرار داده ام. تمامی مطالب از جمله جزوه، تمرینات، ویدیوها و ... تماماً رایگان است.

◼️ https://learnr4free.com


📗 دومین منبع یادگیری کتاب Bayes Rules! است. این کتاب به صورت رایگان در سایت زیر در دسترس است. من بخش بزرگی از هویت استادی و محقق بودن خودم رو مدیون نوشتن این کتابم. در این فرآیند چیزهای زیادی یاد گرفتم.

◻️ https://bayesrulesbook.com


📘 در طی سه سال گذشته 9 دوره مختلف تدریس کردم. تدریس بخش مورد علاقه کار منه. می تونید از طریق لینک زیر به تمامی این دوره‌ها به همراه منابع، به صورت کاملا رایگان دسترسی داشته باشین.


◼️ https://mdogucu.ics.uci.edu/teaching.html
◻️ https://introdata.science
◼️ https://stats4cs.com
◻️ https://stats115.com


📒 من گَه‌گاه در وبلاگ datapedagogy درباره داده ها، آموزش داده ها و منابع مختلف علوم داده مطلب می نویسم. هم چنین نوشته های من که عمدتاً با دسترسی آزاد و رایگان هستند از طریق آدرس زیر قابل دسترس هستند:

◼️ https://mdogucu.ics.uci.edu/publications.html


#️⃣ #علم_داده #DataScience

📊 دانشمند داده شوید :
📎
@DataScience_ir
📚 بهترین منابع رایگان علوم داده دانشگاه MIT


👨🏻‍💻 بعضی کتابا فقط تئوری نیستن، مسیرتو می‌سازن. این لیست گلچینی از بهترین کتاب‌های رایگان دانشگاه MIT از اساتید معروف این دانشگاه در حوزه علوم داده‌اس.


✔️ این ۱۱ کتاب مثل قطب‌نما می‌مونن. از پایه‌ای‌ترین مفاهیم تا پیشرفته‌ترین الگوریتم‌ها:


1️⃣ کتاب Foundations of ML

✏️ یه مرجع کامل برای مفاهیم پایه‌ یادگیری ماشین.



2️⃣ کتاب Algorithms for Optimization

✏️ می‌خوای بفهمی مدل‌ها چطوری بهترین جواب رو پیدا می‌کنن؟ این کتابو بخون.



3️⃣ کتاب Algorithms for Decision

✏️ ترکیب یادگیری ماشین و آمار، برای تصمیم‌های منطقی و مؤثر مدل‌ها.



4️⃣ کتاب Algorithms for Validation

✏️ اعتبارسنجی علمی مدل‌ها؛ ارزیابی دقیق و درست از خروجی‌ها.



5️⃣ کتاب Deep Learning

✏️ اگر بخوای یه بار برای همیشه دیپ لرنینگ رو درست یاد بگیری، این کتاب باید انتخاب اولت باشه.



6️⃣ کتاب Reinforcement Learning

✏️ پدرخوانده‌ی کتاب‌های RL! فوق‌العاده مفهومی، دقیق و خوش‌ساخت.



7️⃣ کتاب Distributional RL

✏️ این کتاب بهت کمک می‌کنه مدل‌هایی طراحی کنی که بهتر عدم قطعیت رو درک می‌کنن.



8️⃣ کتاب Multi-Agent RL

✏️ یادگیری تقویتی توی محیط‌های چندعاملی.



9️⃣ کتاب Agents in the Long Game of AI

✏️ دیدی وسیع‌تر از "ایجنت‌ها" توی آینده‌ی هوش مصنوعی؛ ترکیب تکنیک و تفکر.



1️⃣ کتاب Fairness and ML

✏️ تبعیض توی مدل‌های ML؟ این کتاب با زبون ساده میگه چطوری مدل‌هات رو منصفانه‌تر بسازی.



1️⃣ کتاب Learning Theory

✏️ تئوری یادگیری با دید ریاضی عمیق؛ مناسب برای کسایی که دنبال درک مفهومی و دقیق هستن.



🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
👨🏻‍💻 انتشارات O'Reilly Media یکی از معتبرترین ناشران در حوزه برنامه‌نویسی، داده کاوی و AI، اومده 10 تا از کتاب‌های حوزه علوم داده رو به رایگان در اختیار علاقه مندان این حوزه قرار داده.

✔️ برای استفاده از نسخه آنلاین و PDF این کتاب‌ها می‌تونید از لینک‌های زیر استفاده کنین:👇


0⃣ کتاب Python Data Science Handbook

Online
PDF

1⃣ کتاب Python for Data Analysis

Online
PDF

🔢 کتاب Fundamentals of Data Vis

Online
PDF

🔢 کتاب R for Data Science

Online
PDF

🔢 کتاب Deep Learning for Coders

Online
PDF

🔢 کتاب DS at the Command Line

Online
PDF

🔢 کتاب Hands-On Data Visualization

Online
PDF

🔢 کتاب Think Stats

Online
PDF

🔢 کتاب Think Bayes

Online
PDF

🔢 کتاب Kafka, The Definitive Guide

Online
PDF



🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🖥 5 ریپوی گیت‌هاب
برای موفقیت در «مصاحبه‌های علم داده»


1️⃣ ریپوی 100Days of ML Code

یه چالش صد روزه برای آموزش یادگیری ماشین! این ریپو یه برنامه‌ریزی کامل برای صد روز یادگیری و تمرین کدنویسی رو بهت می‌ده تا با کلی از مباحث یادگیری ماشین آشنا بشی.

📎 لینک: GitHub-Repos



2️⃣ ریپوی Awesome Data Science

این مخزن یه لیست منتخب از منابع عالی علم داده مثل کتاب‌ها، نرم‌افزارها و ابزارهاست که توسط جامعه متن باز نگهداری می‌شه.

📎 لینک: GitHub-Repos



3️⃣ ریپوی Data Science for Beginners

مخزنی از مایکروسافت که یه دوره 10 هفته‌ای با 20 درس برای مبتدی‌ها داره. هر درس شامل ویدیو، کوییز، چالش و کلی موارد دیگه‌ست.

📎 لینک: GitHub-Repos



4️⃣ ریپوی ML Interviews

مخزنی شامل سوالات مصاحبه‌های یادگیری ماشین از مباحث پایه تا موضوعات پیچیده مثل شبکه‌های عصبی و یادگیری تقویتی.

📎 لینک: GitHub-Repos



5️⃣ ریپوی Data Science Python Notebooks

این مخزن شامل یه مجموعه نوت‌بوک‌های ژوپیتر در زمینه‌های مختلف علم داده مثل یادگیری عمیق، یادگیری ماشین، تحلیل داده‌ها و مباحث پایه پایتون هست.

📎 لینک: GitHub-Repos



🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
💠 داده‌های نامتوازن رو با این کتابخونه به سادگی بالانس کن!


👨🏻‍💻 هر کسی که با دیتا کار می‌کنه، حداقل یه بار با مشکل عدم توازن کلاس‌ها توی دیتاست‌ها مواجه شده. دم دست‌ترین و ساده‌ترین راه‌حلتون برای این مشکل؟

✔️ کتابخونه‌ی imbalanced-learn که روی scikit-learn ساخته شده!


🚨 یه سری قابلیت‌های مهم این کتابخونه:

1⃣ میشه با روش‌هایی مثل Random Oversampling یا SMOTE، کلاس‌های اقلیت رو با نمونه‌سازی جدید یا تکرار متعادل کرد.


🔢 ابزارهایی مثل Random Undersampling یا Tomek Links و ENN برای حذف داده‌های اضافی داره تا دیتاست رو تمیز و آماده کنی.


🔢 حتی می‌تونی تکنیک‌های ترکیبی مثل SMOTEEN یا SMOTETomek رو استفاده کنی تا هم نمونه‌سازی جدید داشته باشی، هم دیتا رو پاکسازی کنی.


🔢 راحت با pipeline‌های scikit-learn می‌تونی همه این روش‌ها رو بچسبونی به مدل‌ت و از کد زدن الکی خلاص شی.


🏳️‍🌈 imbalanced-learn
📖 Documentation
🐱 GitHub-Repos



🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1👎1
چرا پایتون رو انتخاب کردم؟

👨🏻‍💻 الکس وانگ پژوهشگر حوزه دیتا یه جمله باحال داره که میگه: "زندگی کوتاهه، پس از پایتون استفاده کن".😁

✏️ اولش که وارد حوزه داده شدم، یه عالمه ابزار و زبان برنامه نویسی جلوم بود و نمی‌دونستم از کجا شروع کنم. هرکسی یه چیزی پیشنهاد می‌داد و هر روزم اسم یه زبان یا ابزار جدیدو می‌شنیدم و واقعا گیج شده بودم. تا اینکه با پایتون آشنا شدم.

🏳️‍🌈 پایتون برای من فقط یه زبان برنامه‌نویسی نبود؛ یه جعبه ابزار کامل بود که از تمیز و مرتب کردن داده‌های کثیف با pandas، تا ساخت نمودارهای دیدنی با Matplotlib رو شامل می‌شد.

💸 شاید براتون جالب باشه که بدونین:

پایتون بیش از ۴۷۰ هزار کتابخونه و بسته تو PyPI داره و ۶۹٪ دیتا ساینتیست‌های دنیا ازش استفاده می‌کنن!

حالا من اومدم یه لیست جامع از پر کاربردترین این ابزارها رو اینجا قرار دادم:


1️⃣ پردازش داده‌ها:

CuPy / Datatable / Vaex / Pandas

Modin / Polars / NumPy


2️⃣ تحلیل آماری:

SciPy / PyMC3 / PyStan

Statsmodels / Lifelines / Pingouin


3️⃣ پردازش زبان طبیعی:

NLTK / BERT / spaCy / TextBlob

Polyglot / Genism / Pattern


4️⃣ تحلیل سری‌های زمانی:

Kats / Sktime / Darts

AutoTS / Prophet


5️⃣ مصورسازی داده‌ها:

Plotly / Altair / Matplotlib / Seaborn

Geoplotlib / Pygal / Folium / Bokeh


6️⃣ یادگیری ماشین:

JAX / Keras / Theano / XGBoost

Scikit-learn / TensorFlow / PyTorch


7️⃣ عملیات پایگاه داده:

Dask / PySpark / Ray

Koalas / Kafka / Hadoop


8️⃣ استخراج داده‌ها از وب:

Beautiful Soup / Scrapy

Octoparse / Selenium



🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
بهترین دیتاست‌ها برای پروژه‌های علوم داده
📄 16 منبع برای دسترسی به انواع دیتاست‌ها


👨🏻‍💻 اگه تا حالا دنبال داده‌های با کیفیت برای پروژه‌هاتون بودین و نمی‌دونستین از کجا پیداشون کنین، من اینجا براتون بهترین دیتاست‌های ممکن رو جمع آوری کردم!

💸 قراره با هم 16 تا از بهترین منابع دیتاست رو بررسی کنیم که می‌تونن پروژه‌هاتون رو به سطح جدیدی ببرن. از دیتاست‌های معروف کگل گرفته تا منابع آماری اتحادیه اروپا. پس اگه دنبال داده برای پروژه‌هاتون هستین، این لیست قطعاً به کارتون میاد.👌


1️⃣ وبسایت Kaggle

✏️ کگل یه پلتفرم معروف توی جامعه علم داده‌ست که دیتاست‌های متنوعی از حوزه‌های مختلف مثل سلامت، هنر، ورزش و غیره داره. استفاده ازش آسونه و یه انجمن فعال داره که می‌تونی سوالاتت رو بپرسی.


2️⃣ وبسایت UCI ML Repository

✏️ این مخزن که توسط دانشگاه کالیفرنیا پر از دیتاست‌های مناسب برای یادگیری ماشینه. برای تمرین و بهبود مهارت‌هاتون توی یادگیری ماشین، یه منبع عالیه.


3️⃣ وبسایت StrataScratch

✏️ این وبسایت دیتاست‌هایی از شرکت‌های واقعی داره که برای آماده شدن برای مصاحبه‌های علم داده خیلی مفیده.


4️⃣ وبسایت Google Dataset Search

✏️ این ابزار مثل گوگل یه سرچ معمولیه، ولی فقط روی پیدا کردن دیتاست‌ها تمرکز داره. از منابع مختلف مثل مقالات علمی و دیتابیس‌های دولتی داده‌ها رو براتون پیدا می‌کنه.


5️⃣ وبسایت AWS Public Datasets

✏️ برنامه دیتاست‌های عمومی AWS آمازون یه عالمه اُپن دیتا داره که می‌تونی با سرویس‌های ابری AWS ترکیب کنی. اگه پروژه‌هات به منابع محاسباتی بیشتری نیاز داشته باشه، اینجا خیلی کاربردیه.


6️⃣ وبسایت Data.gov

✏️ این سایت دیتاست‌های مختلفی از سازمان‌های آمریکایی داره. از کشاورزی و سلامت عمومی گرفته تا آموزش و محیط‌ زیست، هرچی بخوای اینجا می‌تونی پیدا کنی.


7️⃣ وبسایت FiveThirtyEight

✏️ این وبسایت داده‌ها و کدهای مربوط به مقالات و گرافیک‌های خودش رو به اشتراک می‌ذاره. اگه به داستان‌سرایی داده و پروژه‌های مرتبط با رویدادهای جاری علاقه داری، اینجا جای توست.


8️⃣ وبسایت The World Bank Open Data

✏️ این بانک داده از بانک جهانی شامل اطلاعات توسعه جهانیه. داده‌های اقتصادی، محیط‌زیستی و اجتماعی از کشورهای مختلف رو اینجا می‌تونی پیدا کنی.


9️⃣ وبسایت GitHub

✏️ گیت‌هاب فقط برای اشتراک‌گذاری کد نیست. خیلی از سازمان‌ها و کاربران دیتاست‌های خودشون رو اینجا قرار میدن که همراه با مستندات و کدهای تحلیلی هست.


1️⃣ وبسایت OpenML

✏️ این پلتفرم آنلاین برای یادگیری ماشین، نزدیک به ۵۴۰۰ دیتاست داره و به اشتراک‌گذاری، سازماندهی و بحث درباره داده‌ها و نتایج تجربیات یادگیری ماشین می‌پردازه.


1️⃣ وبسایت Reddit Datasets

✏️ این ساب‌ردیت یه منبع داده جامعه‌محوره. مردم اینجا دیتاست‌ها رو به اشتراک می‌ذارن و درخواست میدن.


1️⃣ وبسایت Eurostat

✏️ دفتر آماری اتحادیه اروپا، داده‌های آماری با کیفیتی درباره کشورهای عضو اتحادیه داره. از اقتصاد و جمعیت گرفته تا سلامت و تجارت، هر چی بخوای اینجا پیدا می‌کنی.


1️⃣ وبسایت The HDX

✏️ این پلتفرم باز توسط دفتر هماهنگی امور انسان‌ دوستانه سازمان ملل مدیریت میشه و داده‌های مربوط به بحران‌ها و شرایط اضطراری انسانی رو از سراسر جهان فراهم می‌کنه.


1️⃣ وبسایت The CDC

✏️ مرکز کنترل و پیشگیری از بیماری‌ها، داده‌های مرتبط با سلامت رو داره. اگه به موضوعات سلامت عمومی علاقه داری، اینجا پر از داده‌های کاربردیه.


1️⃣ وبسایت The Bureau of Labor Stat

✏️ سایت BLS داده‌های زیادی درباره شرایط اقتصادی آمریکا، بازار کار، تغییرات قیمتی و کیفیت زندگی داره. اگه به این موضوعات علاقه داری، اینجا پر از داده‌های کاربردیه.


1️⃣ وبسایت The NASA

✏️ ناسا بیشتر از 10000 دیتاست در زمینه هوافضا، علوم زمین، داده‌های خام و نرم‌افزار داره. اگه به این موضوعات علاقه داری، اینجا برات یه دنیا داده هست.



🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
1👌1
⚡️ ۷ تا کتابخونه پانداس که تحلیل‌هات رو ۱۰ برابر سریع‌تر و راحت‌تر می‌کنه!


1⃣ کتابخونه pingouin

✏️ تحلیل آماری ساده و سریع؛ از آزمون تی تا همبستگی!



🔢 کتابخونه ydata-profiling

✏️ یه گزارش کامل EDA فقط با یه خط کد!



🔢 کتابخونه Skimpy

✏️ یه نسخه تمیزتر و کامل‌تر از ()describe خود پانداس.



🔢 کتابخونه missingno

✏️ ویژوال‌سازی خلأهای دیتا؛ بفهمی دقیقاً کجاها دیتات ناقصه.



🔢 کتابخونه Modin

✏️ همون پانداس خودمونه ولی خیلی سریع‌تر. فقط کافیه import رو عوض کنی!



🔢 کتابخونه DuckDB

✏️ بدون نیاز به دیتابیس خارجی، مستقیم روی دیتافریم کوئری SQL بزن!



🔢 کتابخونه Pandaral·lel

✏️ کارای پانداس رو بین چندتا هسته پخش می‌کنه، سرعتت چند برابر می‌شه!



🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
📊 یه گنجینه‌ کامل برای مصورسازی داده‌ها!

👩🏻‍💻 من همیشه دنبال ایده‌های جدید برای ساخت نمودارهای خلاقانه برای پروژه‌هام بودم، اما پیدا کردن نمونه‌های جدید همیشه برام یه چالش بود. تا اینکه با dataviz-inspiration.com آشنا شدم!


✔️ سایت Dataviz Inspiration یه آرشیو فوق‌العاده از صدها پروژه‌ی خفن ویژوال‌سازی داده‌س که می‌تونین بر اساس نوع نمودار فیلترش کنین.

دقیقاً مثل پینترست، اما مخصوص تحلیلگرها!😎


✏️ چرا انقدر کاربردیه؟ وقتی ایده نداری، سریع یه عالمه نمونه جذاب پیدا می‌کنی. پروژه‌ها به دسته‌بندی‌های مختلف تقسیم شدن و لازم نیست ساعت‌ها دنبال نمونه‌ی مناسب بگردی. مهم‌تر از همه اینکه مرتب آپدیت میشه و پروژه‌های جدیدتر بهش اضافه میشه! 🤩

🔗 Dataviz Inspiration


🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
💠 دیتاست ۳۶۵ هزار آگهی شغلی جاب‌ویژن منتشر شد!


👨🏻‍💻 جاب‌ویژن برای اولین‌بار دیتاست بزرگی از آگهی‌های شغلی خودش رو با حفظ کامل محرمانگی اطلاعات روی Hugging Face منتشر کرده.

💳 انتشار این دیتاست بخشی از رویکرد مسئولیت اجتماعی جاب‌ویژنه و با هدف کمک به گسترش دانش تحلیل داده در ایران انجام شده. تمام داده‌ها قبل از انتشار به‌صورت ناشناس آماده‌سازی شدن تا هیچ اطلاعات شخصی یا محرمانه‌ای منتشر نشه.


📔 این دیتاست شامل چه اطلاعاتیه؟ عنوان شغل، نوع قرارداد، محل کار، سطح ارشدیت، محدوده حقوق و کلی داده دیگه از ابتدای ۱۴۰۱ تا پایان ۱۴۰۲.


🗂 کارهایی که می‌شه باهاش انجام داد:

بررسی روند تقاضای شغلی در نقاط مختلف
مقایسه فرصت‌های شغلی بین صنایع مختلف
تحلیل وضعیت حقوق و مزایا در طول زمان
ساخت مدل‌های هوشمند


📊 JobVision Jobposts Dataset
📊 JobVision Jobposts Dataset




🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
⭕️ دسترسی رایگان؛
🥇 به تمامی دوره‌های 365DataScience
بدون هیچ‌گونه محدودیتی!
📆 تا ۲۱ نوامبر


👨🏻‍💻 وبسایت 365DataScience به مدت ۱۵ روز، دسترسی رایگان و نامحدود به تمامی دوره‌های علوم داده رو، بدون نیاز به کارت اعتباری ایجاد کرده! 💯

⬅️ از همین امروز! فرصت دارین تا فقط با ایجاد یه حساب کاربری با یه ایمیل، رایگان به تمامی منابع زیر دسترسی داشته باشین:

🔢 بیش از ۱۱۵ دوره آموزشی و تخصصی علوم داده؛ (پایتون، SQL، تحلیل داده، یادگیری ماشین، هوش مصنوعی و...)

🔢 تمرین‌های عملی و مثال‌های کاربردی،

🔢 پروژه‌های واقعی،

🔢 گواهینامه‌های رایگان و معتبر پایان دوره.


✏️ با گذروندن این دوره‌ها می‌تونین یه نقشه راه کاملا منظم رو تجربه کنین، با تمرین‌های عملی دانش‌تون رو محک بزنین، روی پروژه‌های واقعی کار کنین و در نهایت گواهینامه‌های کاملا معتبر رو بدون هیچ هزینه‌ای دریافت کنین.

⭕️ فقط ۵ روز فرصت باقیست!


🆓 Free Access | Nov 6 – 21
📂 Sign Up Here
📃 PDF




🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
👨🏻‍💻 خیلی وقت‌ها پیش اومده که نیاز داشتین برای پروژتون، داده‌های خام رو از یه نمودار یا تصویر، داخل یه سند استخراج کنین. مخصوصا برای کارهای پژوهشی.

🔷 حتی بعضی‌ها رو دیدم که تصویر رو با نمودارش چاپ می‌کنن و مقادیر رو به صورت دستی وارد می‌کنن و اندازه گیری می‌کنن! اما الان میخوام نتیجه چند ساعت جستجوم در وب رو باهاتون به اشتراک بگذارم.

وبسایت WebPlotDigitizer !

📝 این وبسایت کار شما رو راحت می‌کنه و قابلیت این رو داره که داده‌های مدنظر شما رو از هر تصویر یا نموداری استخراج کنه. می تونید از این ابزار برای هر نموداری مثل هیستوگرام، مقیاس لگاریتمی، نمودار قطبی، حذف شبکه و غیره استفاده کنید. 100% عملی!

◼️ تصویرتون رو آپلود کنید.
◻️ مقیاس مدنظرتون رو با توجه به محورها تنظیم کنید.
◼️ تمام نقاط موردنظرتون رو انتخاب کنین.
◻️ انتقال به یک فایل یا کپی در کلیپ بورد.


🏷 Extract raw data
📚 WebPlotDigitizer


#️⃣ #علم_داده #DataScience

📊 دانشمند داده شوید :
📎
@DataScience_ir
💠 دیتاست ۳۶۵ هزار آگهی شغلی جاب‌ویژن منتشر شد!


👨🏻‍💻 جاب‌ویژن برای اولین‌بار دیتاست بزرگی از آگهی‌های شغلی خودش رو با حفظ کامل محرمانگی اطلاعات روی Hugging Face منتشر کرده.

💳 انتشار این دیتاست بخشی از رویکرد مسئولیت اجتماعی جاب‌ویژنه و با هدف کمک به گسترش دانش تحلیل داده در ایران انجام شده. تمام داده‌ها قبل از انتشار به‌صورت ناشناس آماده‌سازی شدن تا هیچ اطلاعات شخصی یا محرمانه‌ای منتشر نشه.


📔 این دیتاست شامل چه اطلاعاتیه؟ عنوان شغل، نوع قرارداد، محل کار، سطح ارشدیت، محدوده حقوق و کلی داده دیگه از ابتدای ۱۴۰۱ تا پایان ۱۴۰۲.


🗂 کارهایی که می‌شه باهاش انجام داد:

بررسی روند تقاضای شغلی در نقاط مختلف
مقایسه فرصت‌های شغلی بین صنایع مختلف
تحلیل وضعیت حقوق و مزایا در طول زمان
ساخت مدل‌های هوشمند


📊 JobVision Jobposts Dataset
📊 JobVision Jobposts Dataset




🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒3
۶ مرحله برای شروع هر پروژه داده‌ای


👨🏻‍💻 وقتی اولین پروژه علوم داده‌ات رو می‌خوای شروع کنی، پیش خودت میگی از کجا شروع کنم؟ تمیز کردن داده؟ ساخت مدل؟ داشبورد؟

✏️ واقعیت اینه که بدون یه ساختار منسجم برای انجام پروژه، حتی حرفه‌ای‌ترین‌ها هم گیر می‌کنن.

روش CRISP-DM دقیقاً برای همین موقع‌هاست. با این روش دیگه می‌دونی قدم بعدیت چیه، از کجا باید شروع کنی و چطور بری جلو.


1️⃣ درک کسب ‌و کار

⬅️ مشکل اصلی چیه؟ کی به نتیجه اهمیت می‌ده؟ خروجی تو قراره چه تصمیمی رو پیش ببره؟



2️⃣ درک داده

⬅️ چه داده‌هایی داری؟ چی کمه؟ چی به درد می‌خوره؟

اینجا کنجکاوی مهم‌تر از کدنویسیه.



3️⃣ آماده‌سازی داده

⬅️ تمیزکاری، ادغام و تغییر شکل داده.

میانبر نداره ولی می‌تونی کارای تکراری رو اتومات انجام بدی.



4️⃣ مدل‌سازی

⬅️ روشی رو انتخاب کن که به درد بیزینست بخوره.

دقت مهمه، ولی قابل توضیح بودن خیلی وقت‌ها مهم‌تره.



5️⃣ ارزیابی

⬅️ آیا واقعاً این مدل مشکل کسب ‌و کار رو حل می‌کنه؟ ذی‌نفع‌ها راضی هستن؟



6️⃣ استقرار و توسعه

⬅️ گاهی یه داشبورد ساده‌ست، گاهی یه پایپ‌لاین، یا حتی فقط یه گزارش اسلایدی.

خروجی باید به درد تصمیم ‌گیرنده هم بخوره، نه فقطبه درد رزومه تو.



❗️ می‌تونی ترتیب رو کمی تغییر بدی، ولی مرحله ۱ رو هیچ‌وقت نمی‌تونی جا بندازی. تا وقتی مسئله کسب ‌و کار رو درست نفهمی، هیچ ‌کدوم از مراحل بعدی ارزش نداره!



🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
📱 پیج اینستاگرام:
📊 @DataScience_fa
Please open Telegram to view this post
VIEW IN TELEGRAM
2