Анализ данных (Data analysis)

Основные ОТЛИЧИЯ DATA ENGINEER, DATA SCIENTIST и DATA ANALYST

Источник

Основные ОТЛИЧИЯ DATA ENGINEER, DATA SCIENTIST и DATA ANALYST

Канал "Лучшая рабоота" https://youtu.be/I_NQPeMM9k0

Новая группа про Data Science ВКонтакте https://vk.com/pymagic

Курс Data Science для начинающих PyMagic
Подробная информация о курсе, программа обучения по ссылке - https://pymagic.ru

Instagram* h…

922 views15:57

Анализ данных (Data analysis)

Создание изображений

Читать

@data_analysis_ml

Дзен | Статьи

Создание изображений

Статья автора «Машинное обучение» в Дзене ✍: Ты можешь создавать изображения с нуля, используя NumPy и Pillow. В данном примере мы создаем три изображения.

751 viewsedited 15:58

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

Добро пожаловать в мир главного ит тренда - машинного обучения: @machinelearning_ru

В канале вы найдет :
📃Статьи ,
📚Книги
👨‍💻 Код
🔗Ссылки

и много другой полезной информации
#ArtificialIntelligence #DeepLearning
#MachineLearning #DataScience
#Python

1 канал вместо тысячи учебников и курсов 👇👇👇

🤖 @machinelearning_ru

👍8🔥1

2.47K viewsedited 11:11

Анализ данных (Data analysis)

📊

Pmdarima

Для достижения функциональности, аналогичной auto.arima в R, в рамках scikit-learn-подобного интерфейса, используйте Pmdarima.

Pmdarima - это статистическая библиотека, для анализа временных рядов на Python.

#Python #DataScience

• Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14❤3⚡2🔥1

6.18K views11:21

Анализ данных (Data analysis)

Большие датафреймы могут потреблять значительные объемы памяти. Если обрабатывать #данные небольшими фрагментами, то можно избежать нехватки памяти и получить доступ к данным быстрее.

В приведенном примере кода используется chunksize=100000, что работает примерно в 5495 раз быстрее, чем без использования chunksize.

#tips #datascience #junior

@data_analysis_ml

👍35🔥9❤6👎2

6.68K views11:13

Анализ данных (Data analysis)

⭐️

R1-V

Усиление способности к сверхобобщению в моделях языка зрения при затратах менее $3.

Модель 2B превосходит модель 72B в тестах OOD всего за 100 шагов обучения.

▪ Github

@data_analysis_ml

#ml #ai #datascience

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤7🔥4

6.51K views08:05

Анализ данных (Data analysis)

🐼

Pandas умирает медленной и мучительной смертью.

Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.

Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.

Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.

Я уже давно работаю с FireDucks

🦆

Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.

Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :


import fireducks.pandas as pd

Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:

python 
$ python -mfireducks.imhook yourfile[.]py

FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks побеждает с отрывом.

⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:
https://fireducks-dev.github.io/docs/benchmarks/

⭐️

Подписаться: @data_analysis_ml

#fireducks #Pandas #dataanalysis #datascience #python #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

👍46❤17🔥12🥱1🤨1

30.1K viewsedited 06:48

Анализ данных (Data analysis)

🖥

Aiopandas - легковесный патч для Pandas, который добавляет нативную async поддержку для самых популярных методов обработки данных: map, apply, applymap, aggregate и transform.

Позволяет без проблем передавать async функции в эти методы. Библиотека автоматически запустит их асинхронно, управляя количеством одновременно выполняемых задач с помощью параметра max_parallel.

✨ Ключевые возможности:

▪ Простая интеграция: Используйте как замену стандартным функциям Pandas, но теперь с полноценной поддержкой async функций.
▪ Контролируемый параллелизм: Автоматическое асинхронное выполнение ваших корутин с возможностью ограничить максимальное число параллельных задач (max_parallel). Идеально для управления нагрузкой на внешние сервисы!
▪ Гибкая обработка ошибок: Встроенные опции для управления ошибками во время выполнения: выбросить исключение (raise), проигнорировать (ignore) или записать в лог (log).
▪ Индикация прогресса: Встроенная поддержка tqdm для наглядного отслеживания процесса выполнения долгих операций в реальном времени.

🖥

Github: https://github.com/telekinesis-inc/aiopandas

#python #pandas #asyncio #async #datascience #программирование #обработкаданных #асинхронность

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤10🔥6

5.88K views08:09

Анализ данных (Data analysis)

📘 Introduction to Machine Learning* (Laurent Younes)

Что внутри:
- 📐 Математический фундамент: анализ, линейная алгебра, теория вероятностей
- ⚡ Оптимизация: SGD, проксимальные методы и др.
- 🤖 Алгоритмы с учителем: линейные модели, SVM, деревья, бустинг, нейросети
- 🎲 Генеративные модели: MCMC, графические модели, вариационные подходы, GAN
- 🔎 Без учителя: кластеризация, PCA, факторный анализ, обучение на многообразиях
- 📊 Теория: неравения концентрации, обобщающая способность моделей

Фундаментальный учебник, который соединяет математику и практику ML.

👉 https://arxiv.org/abs/2409.02668

#MachineLearning #DeepLearning #Mathematics #DataScience #DataScientist

🔥15❤9👍8

5.22K views13:00

Анализ данных (Data analysis)

🧠 DataMind - открытая система для умных дата-агентов

DataMind - это новая архитектура для создания универсальных агентов анализа данных, которые уже превосходят GPT-5 и DeepSeek-V3.1 по качеству рассуждений и работе с кодом.

🧩 Зачем создан DataMind
Сегодня большинство дата-агентов используют закрытые модели и зависят от промпт-инжиниринга.
Открытые решения не умеют устойчиво рассуждать по шагам и работать с разными форматами данных.
Команда DataMind решила эти три главные проблемы:
1. Недостаток качественных данных для обучения
2. Неправильные стратегии обучения
3. Ошибки при многошаговом исполнении кода

🔧 Как устроен DataMind
Система включает полный цикл - от генерации данных до обучения и выполнения задач.
Она использует:
- классификацию задач и создание запросов от простых к сложным
- фильтрацию траекторий через self-consistency (самопроверку ответов)
- комбинацию динамического обучения SFT и RL, что делает процесс стабильным
- оптимизированное выполнение кода в изолированной среде

📊 Результаты
- Модель DataMind-14B показала 71.16 % среднего результата и превзошла GPT-5 и DeepSeek-V3.1
- Лёгкая версия DataMind-7B стала лучшей среди open-source решений — 68.10 %, обучена на 12 000 траекторий

💡 Главные выводы
- Фильтрация через self-consistency эффективнее, чем выбор одной «лучшей» траектории
- Потери SFT стабилизируют обучение, но при ошибочной настройке вызывают колебания
- RL сокращает разрыв между моделями, но не меняет общий рейтинг

Команда открыла датасет DataMind-12K и модели DataMind-7B и 14B, чтобы сообщество могло строить своих аналитических агентов.

📄 Исследование: https://arxiv.org/abs/2509.25084
💻 Код: https://github.com/zjunlp/DataMind
📊 Модели и данные: https://huggingface.co/collections/zjunlp/datamind-687d90047c58bb1e3d901dd8)

#AI #DataScience #LLM #Agents #OpenSource #DataAnalysis #ReinforcementLearning #NLP

❤11🔥7👍3

2.96K views13:02

About

Blog

Apps

Platform