Data science
121 subscribers
9 photos
5 videos
2 files
10 links
این کانال برای علاقه مندان به دیتاساینس و هوش مصنوعی
تشکیل شده، از همراهی شما خرسندم
Download Telegram
Channel created
Channel photo updated
Data science
Video
From Raw Data to Real Insights:

Understanding the Journey of a Modern Data

Pipeline

A data pipeline generally consists of a sequence of stages or components that transfer data from its origin to a destination for analysis and utilization.

Here's an overview of the common stages and components in a data pipeline.

1. Collect

- Purpose: Gather raw data from various sources. This data can be generated by applications, sensors, devices, databases, or user interactions.

Components:

- Data Store: Holds operational data, often a database (e.g., relational databases, NoSQL stores).

- Data Stream: Handles real-time data feeds, often using sources like IoT devices, transactional systems, or event logs.

- Application Data: Collects data directly from applications, APIs, or web services.

2. Ingest

Purpose: Move collected data into the pipeline, transforming and consolidating it for further use.

Components:

Data Load: Transfers data from data stores and applications into the processing system.

Event Queue: Manages the flow of data, particularly streaming data, using tools like Apache Kafka or AWS Kinesis.

- Outcome: Data enters the processing layer, often in a more structured format, with consistent formats and time-stamping.

3. Store

Purpose: Persist data so it can be easily

accessed and processed.

- Components:

- Data Lake: A centralized storage repository for large amounts of structured,

semi-structured, and unstructured data.

- Data Warehouse: Structured storage for processed data, optimized for querying and

reporting.

- Lakehouse: Combines elements of data lakes and data warehouses to provide both raw and processed data storage.

- Outcome: Data is stored in various formats (raw, transformed, aggregated) and is accessible for compute and analysis.

4. Compute

Purpose: Process data to prepare it for

analysis and use.

- Components:

- Batch Processing: Periodic processing of large datasets, using frameworks like Apache

Spark or Hadoop.

- Stream Processing: Real-time processing of data streams, often using Apache Flink, Apache Kafka Streams, or AWS Kinesis Data Analytics.

Outcome: Data is processed into usable forms, such as aggregated tables, machine learning features, or transformed datasets.

5. Consume

- Purpose: Deliver data insights and enable its

use across various applications and user groups.

Components:

Data Science, Business Analysis, ML
https://www.linkedin.com/posts/sofia%D9%80mojahed_datascience-machinelearning-ai-activity-7282704774871891968-aKjj?utm_source=share&utm_medium=member_android

✍️ اهمیت تحلیل اکتشافی داده‌ها (EDA) در فرآیند علم داده

این مرحله پایه‌ای قوی برای مدل‌سازی و تحلیل دقیق‌تر داده‌ها ایجاد می‌کند. دلایل اهمیت EDA به شرح زیر هست:

1. درک بهتر داده‌ها
به شما کمک می‌کند تا داده‌ ها را عمیق‌تر بشناسید:
- نوع داده‌ها (عددی، دسته‌بندی‌شده، زمانی و غیره).
- دامنه مقادیر و رفتار متغیرها.
- الگوها و روندهای موجود در داده.


2. شناسایی کیفیت داده‌ها
- مقادیر گمشده (Missing Values): شناسایی و تصمیم‌گیری در مورد حذف یا جایگزینی آنها.
- داده‌های پرت (Outliers): یافتن مقادیری که ممکن است بر مدل تأثیر منفی بگذارند.
- داده‌های تکراری (Duplicate Data): حذف داده‌های اضافی برای بهبود کارایی.


3. کشف الگوها و روابط
امکان کشف روابط بین متغیرها را فراهم می‌کند:
- بررسی همبستگی (Correlation) بین متغیرها.
- شناسایی متغیرهای تأثیرگذار در هدف (Target Variable).
- کمک به تشخیص رفتار داده‌ها در شرایط مختلف.


4. آگاهی از چالش‌های داده
مشکلات پنهان در داده را آشکار می‌کند:
- وجود داده‌های ناقص یا ناهماهنگ.
- عدم تطابق توزیع داده‌ها با فرضیات مدل‌سازی (مانند نرمال بودن).
- تشخیص سوگیری‌های احتمالی.


5. انتخاب ویژگی‌های مهم (Feature Selection)
- شناسایی متغیرهای مرتبط و حذف متغیرهای کم‌اهمیت یا همبسته.
- کمک به کاهش ابعاد داده برای ساده‌تر کردن مدل‌سازی.


6. بهبود کیفیت مدل
- نتایج EDA می‌تواند به ایجاد مدل‌های دقیق‌تر کمک کند.
- تنظیم پیش‌پردازش مناسب (مانند نرمال‌سازی، تبدیل داده‌ها یا دسته‌بندی).
- جلوگیری از مشکلاتی مانند Overfitting یا Underfitting.


7. شناسایی نیاز به مهندسی ویژگی‌ها (Feature Engineering)
می‌تواند نیاز به ایجاد ویژگی‌های جدید (ترکیب، تبدیل یا استخراج ویژگی‌ها) را شناسایی کند.


8. تصمیم‌گیری استراتژیک
به دانشمند داده کمک می‌کند تا:
- درک بهتری از هدف پروژه داشته باشد.
- استراتژی مدل‌سازی مناسبی انتخاب کند (مانند انتخاب الگوریتم‌ها و روش‌های ارزیابی).


یک مثال از اهمیت آن در پروژه‌های واقعی،
فرض کنید که در یک پروژه پیش‌بینی قیمت مسکن:
- بدون EDA، ممکن است داده‌های پرت یا مقادیر گمشده نادیده گرفته شوند که دقت مدل را کاهش می‌دهد.
- با EDA، متغیرهایی مثل مساحت، تعداد اتاق‌ها یا موقعیت جغرافیایی که بیشترین تأثیر را دارند، شناسایی می‌شوند.

پس EDA یکی از مراحل کلیدی در علم داده است که پایه‌ای برای تمام مراحل بعدی مانند مدل‌سازی‌ و  ارزیابی فراهم می‌کند. صرف زمان برای EDA به معنای صرفه‌جویی در زمان و بهبود دقت در مراحل بعدی پروژه است.
#datascience
#machinelearning
#ai
سلام....
من اومدم با ی مطلب جالب دیگه 😊
از اونجایی که هم جنگو کار کردم و هم دیتاساینس، برای خودم خیلی جذابه که این دور رو باهم merge کنم و در موردش سرچ میکنم. شاید شما هم بخواید بدونید که
چطوری یک پروژه ی هوش مصنوعی رو وارد یک بک اند مثلاً جنگو کنید؟!
چون جنگو و هوش مصنوعی هر دو با زبان پایتون هست پس کار سختی نیست.
البته قبلا این کار رو برای RAG system که یک نوع LLM هست انجام دادم. خالی از لطف نیست تا در موردش بیشتر بحث بشه، روش های مختلفی هست، اما ساده ترین روش بنظرم این داکیومنتشن Django ai هست.
مراحل کار اینطوری هست که:
بعد از اینکه virtual environment رو ایجاد کردین، Django ai رو نصب میکنید، حتما دایرکتوری رو مشخص میکنید و سپس با کد :
python manage.py makemigrations
python manage.py migrate
عملیات مهم migration رو میزنید!

بعدش super user رو ایجاد میکنید(شاید از قبل هم داشته باشید!)،
بعد از اون run server و git clone داریم!
قسمت requirements.txt هم که جز لاینفک جنگو هست! پس فراموشش نکنید:
pip install -r requirements.txt
(اگه نصب دارید پس فقط آپدیتش کنید)

لینک داکیومنتشن Django ai هست
https://lnkd.in/dfmVGnim

اگه مطلب واستون جالبه و دوست داشتید برای دوستان تون share کنید. بر اساس ویوها و کامنت های شما محتواهای بعدی کانال رو میسازم.
نظر همراهانم ارزشمنده. ❣️
2
✍️ توضیح عملکرد متد های پایتون:
دستور append(item)— افزودن یک عنصر به انتهای لیست.

دستور remove(item) — حذف اولین مورد از یک مقدار خاص.

دستور insert(index, item) — قرار دادن یک عنصر در موقعیت خاصی در لیست. → زمانی که ترتیب عناصر حیاتی است، کاربرد دارد.

دستور pop([index]) — حذف و بازگشت یک عنصر با استفاده از اندیس آن. → معمولاً با append() در الگوریتم‌های مبتنی بر پشته همراه است.

دستور count(item) — تعداد دفعاتی که یک مقدار در لیست ظاهر می‌شود را برمی‌گرداند.

دستور index(item[, start[, end]]) — اولین موقعیت یک مقدار را پیدا می‌کند. → ضروری برای پیاده‌سازی جستجو یا منطق اعتبارسنجی.

دستور sort(key=None, reverse=False)— مرتب‌سازی عناصر در محل، با قوانین سفارشی اختیاری.

دستور reverse() — ترتیب لیست را معکوس می‌کند. → معمولاً در مکانیزم‌های لغو یا ویژگی‌های بازگشت استفاده می‌شود.

دستور copy() — یک کپی سطحی از لیست ایجاد می‌کند. → از تغییرات ناخواسته هنگام انتقال لیست‌ها بین توابع جلوگیری می‌کند.

دستور clear() — لیست را به‌طور کامل خالی می‌کند. → ایده‌آل برای بازنشانی ذخیره‌سازی موقت یا ساختارهای کش.
👍2
مراحل ساده برای کار با Git:

1. وضعیت اولیه
- یک مخزن راه دور دارید که شامل فایل README.md است.
- در ماشین محلی هیچ فایل پروژه‌ای وجود ندارد.

2. دستور
git clone <repository>


- کل مخزن راه دور به ماشین محلی کپی می‌شود.
- یک مخزن محلی متصل به مخزن راه دور ایجاد می‌شود.

3. ایجاد یک فایل جدید
- فایلی به نام
newfile.txt

در دایرکتوری کاری محلی ایجاد می‌کنید.
- این فایل در حالت untracked قرار دارد.

4. دستور
git add .


- تمام تغییرات در دایرکتوری کاری برای ثبت در commit بعدی آماده می‌شوند.

5. دستور

git commit -m "<message>"

- تغییرات آماده شده ثبت می‌شوند و یک commit جدید ایجاد می‌شود.

6. دستور

git push

-د commit ‌های محلی به مخزن راه دور بارگذاری می‌شوند.
👍4
💎 اهمیت کاربرد XGBoost:

همانطور که میدونید XGBoost یکی از قدرتمندترین الگوریتم‌ها در یادگیری ماشین است که به دلیل ویژگی‌های خاص خود در بسیاری از مسائل کاربرد دارد. برخی از مهم‌ترین مزایای XGBoost عبارتند از:

1. دقت بالا:
-ا XGBoost به دلیل استفاده از ,تقویت مدل‌های ضعیف (Weak Learners) و ترکیب آن‌ها ، قادر است دقت پیش‌بینی‌های خود را به طور چشمگیری افزایش دهد. این ویژگی باعث می‌شود که این الگوریتم در بسیاری از مسائل پیچیده یادگیری ماشین بسیار موفق باشد.

2.قابلیت استفاده در مسائل مختلف:
- این الگوریتم در انواع مسائل یادگیری ماشین ماننددسته‌بندی (classification)، رگرسیون (regression)، و حتی مسائل متوالی (ranking)کاربرد دارد. همچنین، می‌تواند برای داده‌های ساختاریافته و غیرساختاریافته استفاده شود.

3. پشتیبانی از داده‌های گمشده:
-ا XGBoost به طور خودکار می‌تواند با داده‌های گمشده (missing values) کنار بیاید و این یکی از ویژگی‌های قدرتمند این الگوریتم است که آن را برای استفاده در دنیای واقعی مناسب می‌سازد.

4. سرعت و کارایی بالا:
-ا XGBoost از پردازش موازی (parallel processing) و بهینه‌سازی‌های خاص برای افزایش سرعت آموزش مدل استفاده می‌کند. این الگوریتم در پروژه‌های بزرگ و پیچیده که نیاز به محاسبات سنگین دارند، عملکرد بسیار خوبی از خود نشان می‌دهد.

5.مقاومت در برابر overfitting:
-ا XGBoost از منظم‌سازی (regularization) برای کنترل پیچیدگی مدل و جلوگیری از بیش‌برازش (overfitting) استفاده می‌کند. این ویژگی در مشکلات با داده‌های نویزی و پراکنده بسیار مفید است.

6. قابلیت تنظیم پارامترها:
-ا XGBoost به شما این امکان را می‌دهد که پارامترهای مختلف مدل را برای بهینه‌سازی عملکرد تنظیم کنید. این انعطاف‌پذیری به شما کمک می‌کند تا بهترین مدل را برای داده‌ها و مسئله خود بسازید.

🔍مضرات و چالش‌ها:
با وجود مزایای متعدد، XGBoost نیز دارای برخی محدودیت‌ها و چالش‌ها است که باید در نظر گرفته شوند:

1. پیچیدگی تنظیم پارامترها:
- یکی از بزرگ‌ترین چالش‌ها در استفاده از XGBoost، تنظیم و بهینه‌سازی پارامترهای مدلاست. این الگوریتم دارای تعداد زیادی پارامتر است که هرکدام تأثیر زیادی بر عملکرد مدل دارند. بهینه‌سازی این پارامترها نیازمند تجربه و زمان زیادی است، به خصوص اگر داده‌ها پیچیده باشند.

2. زمان آموزش بالا در داده‌های بسیار بزرگ:
- در حالی که XGBoost برای داده‌های بزرگ بهینه‌سازی‌هایی مانند پردازش موازی دارد، زمان آموزش آن می‌تواند در مجموعه داده‌های بسیار بزرگ یا پیچیده افزایش یابد. حتی با وجود بهینه‌سازی‌های موجود، این الگوریتم ممکن است برای داده‌های خیلی حجیم نیاز به منابع محاسباتی زیادی داشته باشد.

3. حساسیت به داده‌های از هم گسیخته (Imbalanced Data):
- اگر داده‌ها آماری نامتوازن (imbalanced) داشته باشند، XGBoost ممکن است به درستی به کلاس‌های با نمونه‌های کمتر توجه نکند. اگرچه تکنیک‌هایی برای مقابله با این مسئله وجود دارد، اما همچنان نیاز به دقت و تنظیم دقیق مدل است.

4. نیاز به حافظه بالا:
-ا XGBoost به دلیل استفاده از درخت‌های تصمیم و نیاز به ذخیره‌سازی داده‌ها و ویژگی‌ها، می‌تواند حافظه زیادی مصرف کند. این مشکل به ویژه در داده‌های بزرگ یا پیچیده‌تر برجسته‌تر می‌شود.

5. عدم تفسیرپذیری:
- مانند بسیاری از مدل‌های مبتنی بر درخت‌های تصمیم، XGBoost می‌تواند به مدلی پیچیده و غیرشفاف تبدیل شود. این یعنی اینکه تفسیر اینکه چرا مدل به پیش‌بینی خاصی رسیده است، ممکن است دشوار باشد. این موضوع در کاربردهایی که نیاز به تفسیر دقیق تصمیمات مدل دارند (مانند پزشکی یا امور مالی) چالش‌برانگیز است.

6. نیاز به تنظیم دقیق برای استفاده در مسائل خاص:
- در برخی مسائل خاص، مانند داده‌های با ویژگی‌های گسسته (categorical features) یا دنباله‌ای، ممکن است XGBoost به اندازه مدل‌های خاص آن مسائل مانند شبکه‌های عصبی یا LSTM بهینه نباشد. در این مواقع، ممکن است الگوریتم‌های دیگر عملکرد بهتری ارائه دهند.

نتیجه‌گیری
پس XGBoost به دلیل دقت بالا، کارایی و انعطاف‌پذیری در بسیاری از مسائل یادگیری ماشین موفق است. با این حال، چالش‌هایی مانند نیاز به تنظیم دقیق پارامترها و زمان آموزش بالا در داده‌های بزرگ، به کاربر این امکان را می‌دهد که در انتخاب الگوریتم مناسب برای مسائل خاص دقت بیشتری داشته باشد.

لینک داکیومنتشن:
🔗https://xgboost.readthedocs.io/en/stable/
👍2
✍️ وب‌سایت Deep-ML:
🔗https://deep-ml.com
بستری برای تمرین و
یادگیری مباحث یادگیری ماشین و علوم داده فراهم کرده،
این پلتفرم شامل مسائل متنوعی در زمینه‌های مختلفی مانند جبر خطی، یادگیری ماشین، یادگیری عمیق، بینایی کامپیوتر و پردازش زبان طبیعی می‌باشد. مسائل توسط دانشمندان و مهندسان حرفه‌ای یادگیری ماشین طراحی شده و به‌طور مداوم به‌روزرسانی می‌شوند.
👍1
نمودار بالایی شغل هایی که سریع ترین رشد را در سالهای ۲۰۲۵ تا ۲۰۳۰ دارند نشون میده و نمودار پایین شغل هایی که decline می شوند!
همون طور که می‌بینید بیگ دیتا، هوش مصنوعی و فناوری های مالی در صدر جدول قرار گرفته ! 😍
👍1
گزارش آینده شغل ها ۲۰۲۵.pdf
15.7 MB
رفرنس مطلب بالا👆👆
👍1
‏خوشبختی چیزی نیست که بخواهی آن را به تملک خود درآوری،
‏خوشبختی کیفیت تفکرست،
‏حالت روحی‌ست
‏خوشبختی، ‏وابسته به جهان درون توست ...

#دافنه_دوموریه
This media is not supported in your browser
VIEW IN TELEGRAM
40 ML Interview Questions.pdf
2.7 MB
🔗🔗
40 سوال و جواب مصاحبه شغلی برای ماشین لرنینگ
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
سلام دوستان! 👋

امروز می‌خوام Data Copilot رو به شما معرفی کنیم؛ اولین دستیار هوشمند اختصاصی دیتاساینستیست‌ها از مجموعه Mito که تجربه‌ی کار با Jupyter Notebook رو کاملاً دگرگون می‌کنه!

ویژگی‌های برجسته Data Copilot:
-تولید کد به صورت فوری:تنها کافیست نیازتون رو بگید؛ Data Copilot به صورت خودکار کدهای لازم رو برای شما می‌نویسه.
- رفع سریع خطاها: خطاها در عرض چند ثانیه شناسایی و برطرف می‌شن.
- بهینه‌سازی کد: با پیشنهادهای هوشمند، کدهای شما بهینه‌تر و کارآمدتر می‌شن.
- مدیریت تعاملی دیتافریم‌ها و ساخت نمودار: دیتافریم‌های شما به صورت تعاملی مدیریت می‌شن و نمودارهای مورد نیاز به صورت خودکار ساخته می‌شن.
- پشتیبانی کامل از تحلیل داده: از پاکسازی داده‌ها تا ویژوال‌سازی، همه چیز رو پوشش می‌ده!

💡 نکته جالب: Data Copilot به صورت اوپن سورس عرضه شده و تنها کافیست دستور زیر رو در ترمینال اجرا کنید:

pip install mito-ai mitosheet

با Data Copilot، کارهای دیتاساینس شما سریع‌تر، راحت‌تر و بهینه‌تر می‌شه. حتماً امتحانش کنید و نظراتتون رو با ما به اشتراک بذارید!

#DataCopilot #Mito #DataScience #JupyterNotebook
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
😍👌 دیتا پاپلاین خلاصه و مفید
👍2
سلام دوستان 👋
آرزو دارم سال جدید سال موفقیت های بزرگ شما باشه
🌺🌺🌺🌺🌺🌺🌺

از این روزای تعطیلی با دیدن ویدیو و پروژه های مفید استفاده ببریم.

اینجا ی لینک کاربردی یوتیوب از وبسایت کگل گذاشتم که با شرکت گوگل دوره ی Generative AI in 5 days رو برگزار میکنند.

کلی presentation و play list های مفید برای دیتاساینس داره:

▶️https://youtube.com/@kaggle?si=WdGS3iYOJOczdCwK