Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
📌Функции потерь в Python — простая реализация

Функции потерь Python являются важной частью ML-моделей. Эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического.

Существует несколько способов вычислить эту разницу.
В этом материале мы рассмотрим некоторые из наиболее распространенных функций потерь, а именно:
🟡Среднеквадратическая ошибка
🟡Средняя абсолютная ошибка
🟡Кросс-энтропийные потери

📎 Поехали

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍4🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Модель Metals Segment Anything (SAM) теперь может работать в вашем браузере с WebGPU (+ fp16), что означает скорость обработки изображений выросла в 8 раз (10 секунд = 1,25 секунды)! 🤯 ⚡️

Сегментация видео работает с прежней скоростью!

Все работает на 100% локально благодаря 🤗 Transformers.js и onnxruntime-web!

🔗 Demo: https://hf.co/spaces/Xenova/segment-anything-webgpu
👍12🔥52
🦾 Dataset of 15 trillion tokens

Только что был опубликован датасет из 15 триллионов токенов (столько же, сколько было использовано для обучения Llama 3)!!!

Скачайте его, пока он не был удален из-за авторских прав.

https://huggingface.co/datasets/HuggingFaceFW/fineweb

@data_analysis_ml
🔥15👍54
📌Генерация и отбор признаков в ML

Невероятно полезный и практический notebook на тему генерации и отбора признаков.
Здесь обсуждается очень много полезных вещей, освежить которые перед собеседованием не будет лишним

Вот некоторые из обсуждаемых тем:
🟡Типы признаков: вещественные, категориальные

🟡Преобразования категориальных признаков: label encoding, one-hot encoding, count encoding, кодирование по вещественному признаку, Target encoding, embedding, кодирование циклических категориальных признаков

🟡Преобразования вещественных признаков: бинаризация, округление, binning

🟡Отбор признаков: полный перебор, одномерный отбор признаков

📎 Notebook

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥65
⚡️ Phi-3 7B только что был выпущен и уверенно превосходит Llama-3 7B.

С MLU 75,3 модель приближается к 70-B моделям SOTA!! 🤯

Я не удивлюсь, если к концу года у нас появится модель 7B, которая превзойдет GPT-4.

https://arxiv.org/pdf/2404.14219.pdf

@data_analysis_ml
11🔥8👍4🤣2
🌟 С большой долей вероятности GPT-5 появится уже этим летом и будет значительно лучше прошлых моделей

🟡GPT-5, следующая LLM от OpenAI, находится в процессе разработки и должна быть запущена в течение нескольких месяцев, как сообщают независимые источники.

🟡GPT-5, скорее всего, будет ориентирован на корпоративных клиентов OpenAI, которые обеспечивают большую часть доходов компании. Потенциально, с запуском новой модели компания может создать систему уровней, подобную уровню Google Gemini LLM, с различными версиями моделей для разных целей и клиентов. В настоящее время модели GPT-4 и GPT-4 Turbo известны тем, что на них работает платный потребительский продукт ChatGPT Plus, а на модели GPT-3.5 – оригинальный и все еще бесплатный чатбот ChatGPT.

📎 Подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95🔥3
📌L1 и L2 регуляризация в ML

Регуляризация - подход, который позволяет снизить сложность модели за счет "штрафования" вектора параметров θ.
Это один из эфективных методов борьбы с "переобучением", наряду с кросс-валидацией и уменьшением количества фичей, о которых мы поговорим позже. Регуляризация дает возможность выделить фичи,которые вносят наибольший вклад в принятия решения, и снизить влияние фич создающих "шум".

Существует два вида регуляризации - L1 и L2, выбор вида регуляризации отвечает на вопрос "как штрафовать". Рассмотрим различия между ними.

📎 О L1 и L2
📎 Ещё статья (en)

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍203🔥2
☁️ Stable Diffusion запуск в облаке.

Видео

@data_analysis_ml
👍104🔥3
IDM-VON - модель, которая превосходит другие подходы, основанные на диффузии и GAN, для переноса любых деталей одежды на фотографии.

Только посмотрите на примеры выше)

Github: https://github.com/yisol/IDM-VTON
Demo: https://huggingface.co/spaces/yisol/IDM-VTON
Paper: https://arxiv.org/abs/2403.05139
Project: https://idm-vton.github.io/

@data_analysis_ml
🤣15👍134🔥4🌭2
Forwarded from Machinelearning
🍏 OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework by Apple

Сегодня Apple выпустили Openly.

- Новое семейство LM с открытым исходным кодом для обучения моделей и логического вывода
- Работает наравне с OLMo, но требует в 2 раза меньше токенов для обучения
- Модели для различных задач, включая базовые модели (например, CLIP и LLM), классификацию объектов, обнаружение объектов и семантическую сегментацию.

Cписок моделей и подробная информации о каждой из них:

- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-Instruct
- OpenELM-450M-Instruct
- OpenELM-1_1B-Instruct
- OpenELM-3B-Instruct

gitHub: https://github.com/apple/corenet
hf: https://huggingface.co/apple/OpenELM
abs: https://arxiv.org/abs/2404.14619

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥42