Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

46.3K subscribers

2.33K photos

269 videos

1 file

2.06K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

46.3K subscribers

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Платформа для разработки LLM-решений — Dify

Dify — это open-source платформа для разработки LLM-приложений.
Имеет интуитивно понятный интерфейс, позволяет настраивать весь рабочий процесс AI, конвейер RAG, возможности агентов, управление моделями, и многое другое
Всё это позволяет быстро перейти от прототипа к продукту.

🖥

🟡

Dify.AI

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍6🥰1

6.37K views11:32

Анализ данных (Data analysis)

🌟

CUDA/C++: с чего начиналось глубокое обучение

Думаю, многие слышали про победу AlexNet в 2012 году на конкурсе ImageNet и о начавшейся тогда революции в глубоком обучении.

Менее известным является тот факт, что код для AlexNet был написан с нуля на CUDA/C++ Алексом Крижевским. Репо называлось cuda-convnet и находилось на Google Code.
Вероятно, этот репозиторий Google Code был закрыт, но есть несколько форков на GitHub, например этот.

AlexNet — это было одно из первых громких применений CUDA для глубокого обучения, и именно размер нейросети, который был обеспечен CUDA, позволил этой сети получить такую высокую производительность в бенчмарке ImageNet.
На самом деле это было довольно сложное мульти-GPU приложение, включающее, например, распараллеливание моделей, когда 2 параллельных потока свертки разделяются между 2 GPU.

Также стоит понимать, что в это время в 2012 году (~12 лет назад) большая часть глубокого обучения проводилась в Matlab, на CPU, в игрушечных условиях, с экспериментами над всевозможными алгоритмами обучения, архитектурами и идеями оптимизации. Поэтому было очень ново и неожиданно увидеть, как Алекс, Илья и Джефф говорят: забудьте про все алгоритмы, просто возьмите стандартный ConvNet, сделайте его очень большим, обучите его на большом наборе данных (ImageNet) и просто реализуйте все это на CUDA/C++. И именно таким образом глубокое обучение как область получило большую искру.

Конечно, уже были намеки на сдвиг в сторону масштабирования, например, Matlab изначально поддерживал GPU, и большая часть работы в лаборатории Эндрю Ына в Стэнфорде в это время шла в направлении использования GPU для глубокого обучения и масштабирования.

▶️ Подробнее об истоках глубокого обучения в треде X

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤2🔥2⚡1

5.97K viewsedited 15:01

Анализ данных (Data analysis)

⚡️ Таблица инференса LLM на доллар.

Самая высокая стоимость у RTX 3090 24 ГБ.

https://tensordock.com/benchmarks

@data_analysis_ml

👍15🔥4❤3

5.59K viewsedited 06:36

Анализ данных (Data analysis)

🌟

Статистическое моделирование с PyMC

PyMC — это пакет Python для байесовского статистического моделирования, сфокусированный на продвинутых алгоритмах Марковской цепи Монте-Карло (MCMC) и вариационного вывода (VI). Гибкость и расширяемость позволяют применять PyMC для решения большого набора задач.

🖥

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍6🔥3

5.28K views08:02

Анализ данных (Data analysis)

📌

Julia для Data Science

Отличный ресурс о том, как использовать Julia в DS
Здесь очень подробно на примерах раскрыто всё, что нужно знать: от загрузки датасета до кластеризации/классификации

Есть целый раздел End-End, где показан весь процесс работы с данными на примере известных датасетов, вот например для Telco Churn

📎

Ноутбук

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤5🔥4

5.62K views10:03

Анализ данных (Data analysis)

🌟

sktime — упрощение работы с временными рядами

— pip install sktime

sktime — это Python-библиотека для анализа временных рядов, она предоставляет единый интерфейс для решения множества задач. В частности, это такие задачи как классификация, регрессия, кластеризация и прогнозирование временных рядов.
В комплект sktime входят алгоритмы изучения временных рядов и совместимые с scikit-learn инструменты для построения, настройки и проверки моделей временных рядов.

🖥

🟡

Доки

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18👍7🔥5

6.65K views15:03

Анализ данных (Data analysis)

⚡️ AnythingLLM: The all-in-one AI app you were looking for.

AnythingLLM — AI-приложение с возможностями RAG и AI Agent.

Это полнофункциональное приложение, в котором вы можете использовать коммерческие LLM или популярные open-source LLM для создания частного ChatGPT без цензуры и ограничений который можно запускать как локально, так и на сервер.

🖥

🟡

Страничка AnythingLLM

🟡

Презентация YouTube

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13👍8🔥3

6.09K views09:12

Анализ данных (Data analysis)

🌟

LangChain-Chatchat — LLM-приложение Q&A, использующее локальную базу знаний

⏩LangChain-Chatchat (ранее Langchain-ChatGLM) — это что-то наподобие поисковой системы на основе Langchain, которая может использовать локальные файлы.

⏩Основная идея Chatchat довольно проста, вот основные этапы процесса:
загрузка файлов базы знаний ⟶ чтение текста ⟶ сегментация текста ⟶ векторизация текста ⟶ векторизация вопроса ⟶ поиск вектора текста, наиболее похожего на вектор вопроса ⟶ найденный вектор добавляется в промпт в качестве контекста и вопроса ⟶ передается в LLM для генерации ответа

⏩А вот так можно начать работу с Chatchat:


git clone https://github.com/chatchat-space/Langchain-Chatchat.git
cd Langchain-Chatchat
pip install -r requirements.txt
pip install -r requirements_api.txt
pip install -r requirements_webui.txt

git lfs install
git clone https://huggingface.co/THUDM/chatglm2-6b
git clone https://huggingface.co/moka-ai/m3e-base

python copy_config_example.py
python init_database.py --recreate-vs

python startup.py -a

🖥

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍8❤5

6.63K views14:02

Анализ данных (Data analysis)

🔥

LightGBM — система градиентного бустинга для решения задач ML

— pip install lightgbm

Если подробнее, то LightGBM — это фреймворк для градиентного бустинга (GBT, GBDT, GBRT, GBM или MART) на основе алгоритмов дерева решений, используемая для ранжирования, классификации и многих других задач Machine Learning.

LightGBM разработан как распределенная и эффективная система, обладающая следующими преимуществами:
— Высокая скорость обучения и эффективность.
— Низкое потребление памяти.
— Высокая точность.
— Поддержка параллельного, распределенного и GPU-обучения.
— Возможность работы с большими объемами данных.

Благодаря этим преимуществам LightGBM широко используется во многих проектах, победивших в соревнованиях по Machine Learning.

🖥

🟡

🟡

Пример использования LightGBM на Kaggle

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20🔥7❤6

6.52K views07:36

Анализ данных (Data analysis)

🌟

Новая статья на Habr: разработчики из команды AllSee поделились опытом внедрения YandexGPT API в свои проекты

Авторы пишут, что официального SDK пока нет, поэтому они создали свой. Здесь полное решение, включая создание класса YandexGPT Thread для хранения и управления отдельными чатами.

Из интересного: в начале есть сравнение эффективности YandexGPT и ChatGPT в одной из задач. Две модели показали хорошие результаты, но стоимость нейросети от Яндекса вышла значительно меньше.

https://habr.com/ru/articles/812979/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤6🔥5🥱2

8.32K views12:32