Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🌟 Максимально наглядное объяснение Machine Learning

Зацените — сайт, посвящённый ML, который сплошь состоит из схем и диаграмм.
Здесь супер доступно и понятно описываются основные темы Машинного обучения, уж теперь то станет понятно абсолютно всё

🌟 Наслаждайтесь)

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3111🎉3🤨1
📌Годная шпаргалка по R для специалиста Data Science

Не так часто я упоминаю R в постах, а ведь это прекрасный инструмент, знание которого поможет там, где не справляется Python, Julia и другие ребята

Итак, с помощью R можно:
— Очистить и обработать данные. Например, для обработки массива информации о популярности разных товаров на R можно написать программу, которая сгруппирует данные о покупках по товарам, удалит дубли и подготовит таблицу для дальнейшей аналитики.

— Провести статистический тест. Посчитать среднюю продолжительность и увидеть, есть ли статистически значимая разница между несколькими показателями.

— Объединять данные из разных таблиц. Взять таблицы разных форматов, собрать из них данные и обрабатывать все как единый файл.

— Отрисовать интерактивный график. Распределить данные, отрегулировать параметры.

— Анализировать регрессионные модели. Выявить отношения между переменными — например, как доход магазина зависит от разных факторов.

— Провести другую математическую операцию. Объединить многомерные массивы, спрогнозировать величину, распознать текст. Для большинства задач есть готовые библиотеки, либо можно написать собственный код, используя широкий математический инструментарий.

А вот держите годную шпаргалку по R)

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍224🔥2🥰1🤨1
🔥 Первый пациент Neuralink с мозговым имплантом показал, как играет в шахматы на компьютере

В январе этого года первый парализованный доброволец перенёс операцию по установке в черепную коробку импланта Neuralink, который позволил ему научиться управлять курсором на ноутбуке при помощи мозговых импульсов. Компания на этой неделе опубликовала видео, демонстрирующие обретённые после этой операции добровольцем новые физические возможности.

В ходе трансляции, которую Neuralink предсказуемо осуществляла на платформе X, представитель компании представил аудитории 29-летнего Ноланда Арбоу (Noland Arbaugh), который восемь лет назад получил травму спинного мозга и утратил подвижность всех четырёх конечностей. Как пояснил сам находящийся в специальном кресле пациент, он не может двигать руками и ногами, а также не чувствует ничего ниже уровня плеч.

При этом сам доброволец находился во время трансляции в прекрасном расположении духа, много улыбался и шутил. По его словам, операцию по установке импланта он перенёс очень легко, из больницы его выписали уже на следующий день. После некоторой тренировки и настройки оборудования он научился управлять с помощью мысли курсором на экране ноутбука, и в первые дни появление подобной возможности настолько будоражило его эмоционально, что он просыпался в шесть утра и с нетерпением ждал, когда получит доступ к заветному ноутбуку.

📎 Читать подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
20👍11🔥3
🖥 TorchTune

Torch Tune - это встроенная библиотека Pytorch, позволяющая легко создавать, настраивать и экспериментировать с LLMS.

git clone https://github.com/pytorch/torchtune.git
cd torchtune
pip install -e .


Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93🥰3
⚡️ Nvidia и Dell представили ИИ-систему AI Factory для объединения ПК, СХД и сетевых устройств

На конференции Nvidia GTC компания Dell Technologies анонсировала систему AI Factory — корпоративное решение искусственного интеллекта, которое объединяет ноутбуки, ПК, системы хранения данных и сетевые устройства.

AI Factory включает вычислительные системы, системы хранения данных, сетевые устройства, рабочие станции и ноутбуки Dell с инфраструктурой искусственного интеллекта Nvidia и программным обеспечением Enterprise AI на основе технологий высокоскоростной сетевой структуры Spectrum-X.

AI Factory можно будет развернуть по всей корпоративной сети. Решение поддерживает также периферийное развёртывание с использованием рабочих станций Precision AI-ready, NVIDIA AI Workbench и серверов PowerEdge-XR и облачное развёртывание через поставщиков таких услуг. Dell и Nvidia развивают сотрудничество для создания крупномасштабной системы искусственного интеллекта на базе Dell PowerEdge XE9680 с последними графическими процессорами Nvidia, платформой Spectrum-X Ethernet и хранилищем Dell PowerScale F710.

AI Factory с поддерживает широкий спектр вариантов использования и приложений искусственного интеллекта. Решение предлагает поддержку всего жизненного цикла GenAI, от вывода и извлечения дополненной генерации (RAG) до настройки модели, разработки и обучения.

Решение будет доступно по подписке Dell Apex, а клиенты будут платить только за фактически использованные ресурсы.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍4🥰1
Forwarded from Machinelearning
🔥 Nvidia опубликовала в открытом доступе бесплатные обучающие курсы для пользователей любого уровня подготовки по нейросетям и нейромоделям для понимания работы ИИ

объяснение генеративного ИИ: базированный 2-часовой курс, который подробно объяснит устройство нейронок, их применение и возможности;

создаём «мозг» за 10 минут: объяснит, как нейронка обучается на данных и покажет всю математику у неё под капотом;

введение в ИИ в центре обработки данных: всё про машинное обучение и глубокое обучение; какие есть фреймворки и как видеокарты двигают ИИ;

усиляем свою LLM с помощью RAG: объяснит всю базу по генерации с дополненной выборкой;

создание своих RAG-агентов: мощнейший 8-часовой курс про масштабируемые стратегии развертывания для LLM и векторные базы данных;

ускорение работы с Data Science без изменения кода: всё об обработке данных и машинном обучении без переписываний кода;

усиление рекомендательных систем с помощью ИИ: курс-коллаб NVIDIA и YouTube;

устройство сетей: база про протоколы TCP/IP и Ethernet — необходимо для понимания процессов обработки данных.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍336🔥6🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 AnyV2V: новый фреймворк Plug-and-Play для любых задач редактирования видео.

- Сайт: https://tiger-ai-lab.github.io/AnyV2V/
- Код: https://github.com/TIGER-AI-Lab/AnyV2V
- arXiv: https://arxiv.org/abs/2403.14468
- Huggingface: https://huggingface.co/papers/2403.14468

@data_analysis_ml
👍113🔥2🥰2
🛠 Dataverse

Простое, стандартизированное и удобное в использовании решение для обработки данных и управления ими, для специалистов по обработке данных, аналитиков и разработчиков в эпоху LLM.

Даже если вы мало что знаете о Spark, вы можете легко использовать его через dataverse.

с Dataverse вы получаете возможность
использовать множество функций предварительной обработки данных без необходимости установки различных библиотек.
позволяет генерировать данные для анализа и обучения больших языковых моделей (LM).
вы можете с легкостью использовать Spark, независимо от вашего уровня знаний.
инструмент упрощает совместную работу пользователей с различным уровнем владения Spark.

pip install dataverse

⚙️ Github

@data_analysis_ml
👍104🥰1
📌Немного о lifecycle в DS

Жизненный цикл модели в Data Science — это многоэтапный процесс, в течении которого исследователи, инженеры и разработчики обучают, разрабатывают и обслуживают модель машинного обучения.

Разработка модели принципиально отличается от традиционной разработки и требует своего собственного уникального способа разработки. Скажем, модель машинного обучения — это приложение искусственного интеллекта (ИИ), которое дает возможность автоматически учиться и совершенствоваться на основе собственного опыта без явного участия человека.

Основная цель модели заключается в том, чтобы компания смогла использовать преимущества алгоритмов искусственного интеллекта и машинного обучения для получения дополнительных конкурентных преимуществ.

Основные этапы:
Анализ данных. Задача этого шага – понять слабые и сильные стороны в имеющихся данных, определить их достаточность, предложить идеи, как их использовать, и лучше понять бизнес-процессы заказчика.

Сбор данных. Сбор данных — это процесс сбора информации по интересующим переменным в установленной систематической форме, которая позволяет отвечать на поставленные вопросы исследования, проверять гипотезы и оценивать результаты.

Нормализация данных. Этот шаг в процессе подготовки — это место, где аналитики и инженеры данных обычно проводят большую часть своего времени: очистка и нормализация "грязных" данных.

Моделирование данных. Моделирование данных — это сложный процесс создания логического представления структуры данных.

Конструирование признаков. Конструирование признаков состоит из учета, статистической обработки и преобразования данных для выбора признаков, используемых в модели.

📎 Читать подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🥰422
🕐Pendulum

Хотя встроенный пакет datetime достаточно хорош для простых случаев работы с датами, он не подходит для комплексных задач.

Pendulum предлагает более интуитивно понятный и удобный для пользователя API для работы с датами и временем, это делает его удобной заменой стандартного класса datetime.

Github

@data_analysis_ml
17👍8🥰5
🖥 Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python

Держите полезную статью)
LDA — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую.

Некоторые мысли из статьи:
LDA может быть предпочтительнее логистической регрессии в ряде случаев.

Алгоритм LDA включает расчет априорных вероятностей и средних значений признаков, а также нахождение собственных векторов и значений.

Существуют другие подходы к решению задач через нахождение собственных векторов, такие как сингулярное разложение и метод наименьших квадратов.

Модификации LDA, такие как квадратичный дискриминантный анализ (QDA), гибкий дискриминантный анализ (FDA) и ядерный дискриминантный анализ (KDA), улучшают качество модели и увеличивают количество задач, в которых его можно применить.

Регуляризация поддерживается в LDA и его модификациях через степень сжатия ковариационной матрицы.

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🥰32❤‍🔥1