Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🚀 Google выпустила крутой учебник по промпт-инжинирингу!

В руководстве на 45 страницах содержатся советы для работы с Gemini, которые также применимы к другим нейронным сетям.

Это полноценное учебное пособие — понятное, доступное и красиво оформленное. В каждой главе вы найдете примеры использования, советы и понятные инструкции.

Книга содержит интересные с примеры по созданию промотав, как это может пригодиться именно вам.

📚 Книга

@data_analysis_ml
15👍9🔥9
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Полезные инструменты недели
LLaMa 3 - главный релиз недели: Новая SOTA в open-source! LLM с открытым исходным кодом, которая превосходит Claude 3 Opus... и дышит в спину GPT-4.Скорость работы составляет почти 300 токенов в секунду. LLAMA-3 - самая загружаемая модельна HF.🚀
Torchtune - новая PyTorch-библиотека для файнтюнинга LLM. Библиотека сделана на базе PyTorch и и поддерживает LLama2 7B/13B, Mistral 7B и Gemma 2B.
LLM Reka Core - новая передовая нейросеть способна обрабатывать текст, изображения, аудио и видео, чем выделяется среди других технологий в своем классе.
Microsoft Research анонсировала VASA-1 -ИИ генератор видео, который выглядит очень реалистично.
AutoCodeRover - это полностью автоматизированный инструмент для исправления ошибок на GitHub (исправление ошибок в разделе issues и генерации новых функций в проект).
Tkinter Designer — инструмент, который автоматически конвертирует дизайны Figma в код Tkinter GUI.
OmniFusion 1.1. - гибридная LLM для работы с картинками
VoiceCraft: Zero-Shot - мощный редактор речи и преобразователь Text2Speech

📚 Бесплатные книги недели:

Учебник, где собрана коллекция задачек о нейросетях, параллельно даётся необходимая теория с объяснением
Google выпустила крутой бесплатный учебник по промпт-инжинирингу!
Foundation of computer Vision
Бесплатня книга научная визуализация: Python + Matplotlib

📄Статьи:
Простейшая нейронная сеть, мой опыт и выводы
LOCOST и SPECTRUM, два подхода к суммаризации
Prepacking - простой метод, позволяющий увеличить скорость работы LLM в 6 раз и эффективность использования памяти в 16 раз .
Scaling Instructable Agents Across Many Simulated Worlds
Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов
На чем программируют суровый ML в Гугле
Заменят ли LLM людей в разметке данных для AI?
Как мы тестировали большие языковые модели для модерации отзывов

Распознавание лиц на микрокомпьютерах
Книга «Разработка приложений на базе GPT-4 и ChatGPT»
Что такое Charmed Kubeflow?
Linux of AI : Why Open Interpreter poised to completely disrupt how we interact with Technology?
The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest
From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications
The Topos of Transformer Networks
Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
Impact of Extensions on Browser Performance: An Empirical Study on Google Chrome
Increased LLM Vulnerabilities from Fine-tuning and Quantization
The Use of Generative Search Engines for Knowledge Work and Complex Tasks
94% on CIFAR-10 in 3.29 Seconds on a Single GPU

👨‍🎓 Бесплатные курсы недели
Машинное обучение на графах - бесплатный продвинутый курс: Машинное обучение на графах. Курс регулярно дополняется практическими задачками и слайдами. Автор Ксавье Брессон - профессор национального университета
Основы квантования - Новый краткий курс, созданный в сотрудничестве DeepLearning.AI
с Hugging
Курс Геопространственный анализ данных - Первый открытый русскоязычный курс по геоаналитике. Материалы курса будут полезны специалистам в области Data Scientist, поскольку позволят решать геопространственные задачи, а также проводить исследования в области Geospatial Data Science.

@data_analysis_ml
👍146🔥4❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
📌Функции потерь в Python — простая реализация

Функции потерь Python являются важной частью ML-моделей. Эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического.

Существует несколько способов вычислить эту разницу.
В этом материале мы рассмотрим некоторые из наиболее распространенных функций потерь, а именно:
🟡Среднеквадратическая ошибка
🟡Средняя абсолютная ошибка
🟡Кросс-энтропийные потери

📎 Поехали

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍4🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Модель Metals Segment Anything (SAM) теперь может работать в вашем браузере с WebGPU (+ fp16), что означает скорость обработки изображений выросла в 8 раз (10 секунд = 1,25 секунды)! 🤯 ⚡️

Сегментация видео работает с прежней скоростью!

Все работает на 100% локально благодаря 🤗 Transformers.js и onnxruntime-web!

🔗 Demo: https://hf.co/spaces/Xenova/segment-anything-webgpu
👍12🔥52
🦾 Dataset of 15 trillion tokens

Только что был опубликован датасет из 15 триллионов токенов (столько же, сколько было использовано для обучения Llama 3)!!!

Скачайте его, пока он не был удален из-за авторских прав.

https://huggingface.co/datasets/HuggingFaceFW/fineweb

@data_analysis_ml
🔥15👍54
📌Генерация и отбор признаков в ML

Невероятно полезный и практический notebook на тему генерации и отбора признаков.
Здесь обсуждается очень много полезных вещей, освежить которые перед собеседованием не будет лишним

Вот некоторые из обсуждаемых тем:
🟡Типы признаков: вещественные, категориальные

🟡Преобразования категориальных признаков: label encoding, one-hot encoding, count encoding, кодирование по вещественному признаку, Target encoding, embedding, кодирование циклических категориальных признаков

🟡Преобразования вещественных признаков: бинаризация, округление, binning

🟡Отбор признаков: полный перебор, одномерный отбор признаков

📎 Notebook

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥65
⚡️ Phi-3 7B только что был выпущен и уверенно превосходит Llama-3 7B.

С MLU 75,3 модель приближается к 70-B моделям SOTA!! 🤯

Я не удивлюсь, если к концу года у нас появится модель 7B, которая превзойдет GPT-4.

https://arxiv.org/pdf/2404.14219.pdf

@data_analysis_ml
11🔥8👍4🤣2
🌟 С большой долей вероятности GPT-5 появится уже этим летом и будет значительно лучше прошлых моделей

🟡GPT-5, следующая LLM от OpenAI, находится в процессе разработки и должна быть запущена в течение нескольких месяцев, как сообщают независимые источники.

🟡GPT-5, скорее всего, будет ориентирован на корпоративных клиентов OpenAI, которые обеспечивают большую часть доходов компании. Потенциально, с запуском новой модели компания может создать систему уровней, подобную уровню Google Gemini LLM, с различными версиями моделей для разных целей и клиентов. В настоящее время модели GPT-4 и GPT-4 Turbo известны тем, что на них работает платный потребительский продукт ChatGPT Plus, а на модели GPT-3.5 – оригинальный и все еще бесплатный чатбот ChatGPT.

📎 Подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95🔥3
📌L1 и L2 регуляризация в ML

Регуляризация - подход, который позволяет снизить сложность модели за счет "штрафования" вектора параметров θ.
Это один из эфективных методов борьбы с "переобучением", наряду с кросс-валидацией и уменьшением количества фичей, о которых мы поговорим позже. Регуляризация дает возможность выделить фичи,которые вносят наибольший вклад в принятия решения, и снизить влияние фич создающих "шум".

Существует два вида регуляризации - L1 и L2, выбор вида регуляризации отвечает на вопрос "как штрафовать". Рассмотрим различия между ними.

📎 О L1 и L2
📎 Ещё статья (en)

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍203🔥2
☁️ Stable Diffusion запуск в облаке.

Видео

@data_analysis_ml
👍104🔥3
IDM-VON - модель, которая превосходит другие подходы, основанные на диффузии и GAN, для переноса любых деталей одежды на фотографии.

Только посмотрите на примеры выше)

Github: https://github.com/yisol/IDM-VTON
Demo: https://huggingface.co/spaces/yisol/IDM-VTON
Paper: https://arxiv.org/abs/2403.05139
Project: https://idm-vton.github.io/

@data_analysis_ml
🤣15👍134🔥4🌭2
Forwarded from Machinelearning
🍏 OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework by Apple

Сегодня Apple выпустили Openly.

- Новое семейство LM с открытым исходным кодом для обучения моделей и логического вывода
- Работает наравне с OLMo, но требует в 2 раза меньше токенов для обучения
- Модели для различных задач, включая базовые модели (например, CLIP и LLM), классификацию объектов, обнаружение объектов и семантическую сегментацию.

Cписок моделей и подробная информации о каждой из них:

- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-Instruct
- OpenELM-450M-Instruct
- OpenELM-1_1B-Instruct
- OpenELM-3B-Instruct

gitHub: https://github.com/apple/corenet
hf: https://huggingface.co/apple/OpenELM
abs: https://arxiv.org/abs/2404.14619

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥42