Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📌L1 и L2 регуляризация в ML

Регуляризация - подход, который позволяет снизить сложность модели за счет "штрафования" вектора параметров θ.
Это один из эфективных методов борьбы с "переобучением", наряду с кросс-валидацией и уменьшением количества фичей, о которых мы поговорим позже. Регуляризация дает возможность выделить фичи,которые вносят наибольший вклад в принятия решения, и снизить влияние фич создающих "шум".

Существует два вида регуляризации - L1 и L2, выбор вида регуляризации отвечает на вопрос "как штрафовать". Рассмотрим различия между ними.

📎 О L1 и L2
📎 Ещё статья (en)

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍203🔥2
☁️ Stable Diffusion запуск в облаке.

Видео

@data_analysis_ml
👍104🔥3
IDM-VON - модель, которая превосходит другие подходы, основанные на диффузии и GAN, для переноса любых деталей одежды на фотографии.

Только посмотрите на примеры выше)

Github: https://github.com/yisol/IDM-VTON
Demo: https://huggingface.co/spaces/yisol/IDM-VTON
Paper: https://arxiv.org/abs/2403.05139
Project: https://idm-vton.github.io/

@data_analysis_ml
🤣15👍134🔥4🌭2
Forwarded from Machinelearning
🍏 OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework by Apple

Сегодня Apple выпустили Openly.

- Новое семейство LM с открытым исходным кодом для обучения моделей и логического вывода
- Работает наравне с OLMo, но требует в 2 раза меньше токенов для обучения
- Модели для различных задач, включая базовые модели (например, CLIP и LLM), классификацию объектов, обнаружение объектов и семантическую сегментацию.

Cписок моделей и подробная информации о каждой из них:

- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-Instruct
- OpenELM-450M-Instruct
- OpenELM-1_1B-Instruct
- OpenELM-3B-Instruct

gitHub: https://github.com/apple/corenet
hf: https://huggingface.co/apple/OpenELM
abs: https://arxiv.org/abs/2404.14619

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥42
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 С Transformers.js, теперь вы можете запускать CLIP в своем браузере со скоростью более 20 кадров в секунду с использованием WebGPU для классификации изображений в режиме реального времени!

Как всегда, все работает на 100% локально, что означает, что вам не нужноAPI! 🔥

🔗 Демо: https://hf.co/spaces/Xenova/webgpu-clip

@data_analysis_ml
👍133🔥2
🖥 Обнаружение статистических выбросов в Python

Выбросы — значения или наблюдения, отклоняющиеся от других данных. Всегда нужно сравнивать наблюдение с другими значениями, полученными тем же способом, прежде чем называть их выбросами.

Имеет смысл формально выделять два класса выбросов: экстремальные значения и ошибки. Экстремальные значения интереснее, потому что они возможны, но маловероятны.

В этой статье — несколько подходов к обнаружению выбросов в Python; от простых методов, таких как описательная статистика (включая минимальные, максимальные значения, гистограмму, прямоугольную диаграмму и процентили), до более формальных методов, таких как фильтр Хэмпеля, тесты Граббса, Диксона и Рознера.

📎 Поехали
📎 Кстати, по анализу выбросов в R

#junior

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥64
⚡️ Quix Streams - это облачная нативная библиотека для обработки данных в Kafka с использованием Python.

Инструмент разработан, чтобы предоставить возможности распределенной системы в виде легкой библиотеки, сочетая низкоуровневую масштабируемость и отказоустойчивость функций Kafka с простым в использовании интерфейсом Python.

Отлично подходит для новичков, которые хотят познакомиться с потоковой обработкой.

python -m pip install quixstreams

Github
Docs

@data_analysis_ml
👍74🔥3
⚡️ Snowflake только что запустила самую крупную модель с открытым исходным кодом на сегодняшний день.

482 млрд параметр MoE.

17 млрд. активных параметров и 128 экспертов, обученных на 3,5 Т токенов.

Даже описание данных с открытым исходным кодом!

pip install git+https://github.com/Snowflake-Labs/transformers.git@arctic

https://huggingface.co/Snowflake/snowflake-arctic-instruct

@data_analysis_ml
👍21🔥84🍌1
Эффективный способ быстрого освоения ChatGPT.

Создание правильных промптов и обучение нейронной сети - это долгий процесс, требующий значительных временных затрат.

Здесь разработан краткий курс из 5 уроков по ChatGPT. После его прохождения вы сможете создать 9 нейронных сетей, которые помогут вам:

▪️ найти ошибки и оптимизировать код
▪️ генерировать посты в Телеграме
▪️ создавать заголовки для рекламы
* отдать всю рутину на выполнение нейронке

Вы также сможете разработать своих нейро-помощников для продаж, маркетинга и других целей.

Бесплатный доступ доступен сразу после регистрации.

Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KYXR3
👍4