Анализ данных (Data analysis)
46.3K subscribers
2.31K photos
265 videos
1 file
2.05K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
👨‍🎓Курс МФК МГУ "Нейронные сети и их применение в научных исследованиях"

Лекции:
- Новая суперспособность науки
- Как учить машины
- Линейные модели
- Сверточные сети
- Рекуррентные сети
- Трансформеры (часть 1)
- Трансформеры (часть 2). GPT
- Генеративные модели
- Обучение с подкреплением
- Нейрорендеринг
- Графовые сети
- Заключительная лекция

👉 Плейлист на Youtube

@data_analysis_ml
👍279🔥7🥱21❤‍🔥1
🖥 AutoGluon — библиотека Python, которая позволяет писать лаконичный код для задач ML

pip install autogluon

AutoGluon помогает несколькими строками кода обучать и использовать ML-модели;
позволяет решать задачи, связанные с изображениями, текстом, временными рядами и табличными данными.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥7👍2🤨2😐2
🌟 Kubeflow — экосистема open-source проектов для решения задач на каждом этапе развития ML-системы

Kubeflow делает ML на Kubernetes простым, переносимым и масштабируемым.
Цель Kubeflow — облегчить оркестрацию рабочих нагрузок ML в Kubernetes и предоставить возможность развертывать лучшие в своем классе инструменты в любой облачной инфраструктуре.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥63🥰21
🌟 RAGapp — простой способ использовать Agentic RAG

docker run -p 8000:8000 ragapp/ragapp

RAGapp позволяет легко использовать Agentic RAG в любом продакшене.
Так же прост в настройке, как и пользовательские GPT OpenAI, но в отличии от них RAGapp может быть развернут в вашей собственной облачной инфраструктуре с помощью Docker.
RAGapp создан с использованием LlamaIndex.

После запуска контейнера, нужно перейти на localhost:8000 и настроить RAGapp.
Можно подключить любые модели, в том числе и локальные (с помощью Ollama)

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍134🔥2
🌟 «Баннерная крутилка» — сервис, позволяющий выбрать несколько релевантных документов из базы в миллиард объявлений за 200 миллисекунд

Сервис выдерживает 700 тысяч RPS и более.
Решения для построения систем ранжирования подробно описаны в статье «Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду».

🟡Habr

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍4🔥4🥰2
🌟 Lance — современный колоночный формат данных для ML-приложений, реализованный на Rust

pip install pylance

Lance идеально подходит для создания поисковых систем и хранилищ данных, для масштабного обучения ML-моделей, для хранения таких данных как облака точек.
Поддерживает конвертацию из Parquet в 2 строки кода, при этом он быстрее Parquet в 100 раз.
Lance можно без проблем использовать с pandas, DuckDB, Polars, pyarrow и не только.

🖥 GitHub
🟡 Примеры использования

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍5🔥5
🌟 create-llama — самый простой способ создать приложение с помощью LlamaIndex

npx create-llama@latest
npm run dev


Create-llama позволяет создать мультиагентное full-stack приложение букально в 1 строчку кода.
Достаточно просто ввести npx create-llama, выбрать шаблон мультиагента и следовать инструкциям в файле README.

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍86🔥5
🌟 StreamingDataset — библиотека потоковой передачи данных для эффективного обучения нейронных сетей

pip install mosaicml-streaming

StreamingDataset — это библиотека Python, созданная, чтобы сделать обучение на больших наборах данных максимально быстрым, дешевым и масштабируемым.
StreamingDataset спроектирована для распределенного обучения больших ML-моделей — с максимальными гарантиями корректности, производительностью и простотой использования.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍4🔥3
🌟 Marvin — open-source набор инструментов для ML-приложений

pip install marvin -U

Marvin — это легковесный набор инструментов на Python для создания ML-приложений;
позволяет решать задачи классификации текста, извлечения информации из неструктурированных данных, генерирования синтетических данных, преобразования текста в речь и наоборот.
Marvin даже может генерировать изображения

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍9🔥4