Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
273 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📌Генерация и отбор признаков в ML

Невероятно полезный и практический notebook на тему генерации и отбора признаков.
Здесь обсуждается очень много полезных вещей, освежить которые перед собеседованием не будет лишним

Вот некоторые из обсуждаемых тем:
🟡Типы признаков: вещественные, категориальные

🟡Преобразования категориальных признаков: label encoding, one-hot encoding, count encoding, кодирование по вещественному признаку, Target encoding, embedding, кодирование циклических категориальных признаков

🟡Преобразования вещественных признаков: бинаризация, округление, binning

🟡Отбор признаков: полный перебор, одномерный отбор признаков

📎 Notebook

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥65
⚡️ Phi-3 7B только что был выпущен и уверенно превосходит Llama-3 7B.

С MLU 75,3 модель приближается к 70-B моделям SOTA!! 🤯

Я не удивлюсь, если к концу года у нас появится модель 7B, которая превзойдет GPT-4.

https://arxiv.org/pdf/2404.14219.pdf

@data_analysis_ml
11🔥8👍4🤣2
🌟 С большой долей вероятности GPT-5 появится уже этим летом и будет значительно лучше прошлых моделей

🟡GPT-5, следующая LLM от OpenAI, находится в процессе разработки и должна быть запущена в течение нескольких месяцев, как сообщают независимые источники.

🟡GPT-5, скорее всего, будет ориентирован на корпоративных клиентов OpenAI, которые обеспечивают большую часть доходов компании. Потенциально, с запуском новой модели компания может создать систему уровней, подобную уровню Google Gemini LLM, с различными версиями моделей для разных целей и клиентов. В настоящее время модели GPT-4 и GPT-4 Turbo известны тем, что на них работает платный потребительский продукт ChatGPT Plus, а на модели GPT-3.5 – оригинальный и все еще бесплатный чатбот ChatGPT.

📎 Подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95🔥3
📌L1 и L2 регуляризация в ML

Регуляризация - подход, который позволяет снизить сложность модели за счет "штрафования" вектора параметров θ.
Это один из эфективных методов борьбы с "переобучением", наряду с кросс-валидацией и уменьшением количества фичей, о которых мы поговорим позже. Регуляризация дает возможность выделить фичи,которые вносят наибольший вклад в принятия решения, и снизить влияние фич создающих "шум".

Существует два вида регуляризации - L1 и L2, выбор вида регуляризации отвечает на вопрос "как штрафовать". Рассмотрим различия между ними.

📎 О L1 и L2
📎 Ещё статья (en)

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍203🔥2
☁️ Stable Diffusion запуск в облаке.

Видео

@data_analysis_ml
👍104🔥3
IDM-VON - модель, которая превосходит другие подходы, основанные на диффузии и GAN, для переноса любых деталей одежды на фотографии.

Только посмотрите на примеры выше)

Github: https://github.com/yisol/IDM-VTON
Demo: https://huggingface.co/spaces/yisol/IDM-VTON
Paper: https://arxiv.org/abs/2403.05139
Project: https://idm-vton.github.io/

@data_analysis_ml
🤣15👍134🔥4🌭2
Forwarded from Machinelearning
🍏 OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework by Apple

Сегодня Apple выпустили Openly.

- Новое семейство LM с открытым исходным кодом для обучения моделей и логического вывода
- Работает наравне с OLMo, но требует в 2 раза меньше токенов для обучения
- Модели для различных задач, включая базовые модели (например, CLIP и LLM), классификацию объектов, обнаружение объектов и семантическую сегментацию.

Cписок моделей и подробная информации о каждой из них:

- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-Instruct
- OpenELM-450M-Instruct
- OpenELM-1_1B-Instruct
- OpenELM-3B-Instruct

gitHub: https://github.com/apple/corenet
hf: https://huggingface.co/apple/OpenELM
abs: https://arxiv.org/abs/2404.14619

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥42
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 С Transformers.js, теперь вы можете запускать CLIP в своем браузере со скоростью более 20 кадров в секунду с использованием WebGPU для классификации изображений в режиме реального времени!

Как всегда, все работает на 100% локально, что означает, что вам не нужноAPI! 🔥

🔗 Демо: https://hf.co/spaces/Xenova/webgpu-clip

@data_analysis_ml
👍133🔥2
🖥 Обнаружение статистических выбросов в Python

Выбросы — значения или наблюдения, отклоняющиеся от других данных. Всегда нужно сравнивать наблюдение с другими значениями, полученными тем же способом, прежде чем называть их выбросами.

Имеет смысл формально выделять два класса выбросов: экстремальные значения и ошибки. Экстремальные значения интереснее, потому что они возможны, но маловероятны.

В этой статье — несколько подходов к обнаружению выбросов в Python; от простых методов, таких как описательная статистика (включая минимальные, максимальные значения, гистограмму, прямоугольную диаграмму и процентили), до более формальных методов, таких как фильтр Хэмпеля, тесты Граббса, Диксона и Рознера.

📎 Поехали
📎 Кстати, по анализу выбросов в R

#junior

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥64