Анализ данных (Data analysis)
46.3K subscribers
2.3K photos
264 videos
1 file
2.04K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🌟 scikit-learn-intelex — расширение от Intel для ускорения Scikit-learn

pip install scikit-learn-intelex

Scikit-learn-intelex позволяет ускорить существующий код scikit-learn за счёт использования более оптимизированных реализаций алгоритмов.
В зависимости от приложения ускорение может быть от 10 до 100 раз.

🖥 GitHub
🟡 Ноутбук с примерами использования scikit-learn-intelex

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥83
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Встречайте Stable Diffusion 3!

Самая лучшая бесплатная модель text-to-image.

Модель с 2 миллиардами параметров работает даже на ноутбуках,

Качество генерации —высочайшее, понимание промтов - на высочайшем уровне, генерирует даже картинки с текстом и все без ошибок!

Анонс
Hugging Face.
ComfyUI

@data_analysis_ml
👍10🔥92🥰1
Smol Vision 🐣

Полезные гайды для запуска, оптимизации и настройки самых современных Edge Vision моделей.

Github

@data_analysis_ml
👍63🔥3
⚡️ DALI — библиотека с GPU-ускорением, содержащая высокооптимизированные компоненты и движок для обработки данных для ускорения обучения моделей Deep Learning и не только

(для CUDA 12.0)
pip install nvidia-dali-cuda120

NVIDIA Data Loading Library (DALI) — это библиотека для загрузки и предобработки данных с GPU-ускорением для приложений Deep Learning.
DALI может использоваться в качестве замены встроенных загрузчиков данных в популярных фреймворках глубокого обучения.

DALI решает проблему узкого места CPU, перекладывая предобработку данных на GPU.

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥3👍1🥰1
🌟 Merlion — ML-фреймворк для анализа временных рядов

pip install salesforce-merlion[dashboard]

Merlion — это фреймворк Python для интеллектуального анализа временных рядов.
Merlion представляет собой набор ML-алгоритмов, позволяющих загружать и преобразовывать данные, строить и обучать модели, проводить обработку результатов моделирования и оценивать эффективности модели.

Merlion позволяет решать такие задачи как прогнозирование, обнаружение аномалий (как для одномерных, так и для многомерных временных рядов).

🖥 GitHub
🟡 Доки

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍226🔥5❤‍🔥1
Forwarded from Яндекс
🔴 Разработали библиотеку, чтобы быстрее обучать нейросети

YaFSDP оптимизирует использование ресурсов графических процессоров (GPU). Нейросети обучаются быстрее, а требования к вычислительным ресурсам снижаются. Это особенно важно для небольших компаний и научных проектов.

Библиотека рассчитана в первую очередь на большие языковые модели, но также может ускорять и обучение других типов нейросетей, например, рисующих картинки. Исходный код YaFSDP опубликован на GitHub, а на Хабре можно подробнее узнать о разработке библиотеки.

↗️ А зачем вообще большие компании делятся своими разработками с сообществом? Поговорили об этом в одном из выпусков yet another podcast — смотрите на YouTube.

Подписывайтесь @yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍32❤‍🔥2
🌟 Cognee — open-source фреймворк для работы с LLM, с графами и для векторного поиска

pip install cognee

Cognee поддерживает множество инструментов для различных операций:

— LanceDB или Neo4j для локального хранения графов и не только

— Qdrant и Weaviate для хранения векторных данных

— в качестве LLM можно использовать Anyscale или Ollama

🖥 GitHub
🟡 Доки
🟡 Попробовать в Colab'е
🟡 Обзор на YouTube

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍4🔥2🥰1
🌟 «R for Data Science» — open-source книга для дата-сайентистов

Здесь описывается практически всё, что только может пригодится среднестатистическому специалисту Data Science;
вот некоторые из раскрываемых тем:
— разведочный анализ данных (EDA)
— преобразование данных, удаление пропущенных значений, выбросов
— веб-скрепинг, сбор данных из открытых источников

📎 Книга «R for Data Science»

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍5🔥1🥰1😁1
🔥 Реализация архитектуры nanoGPT в электронной таблице — для полного понимания, как работает типичный трансформер

Внутренние операции любого трансформера можно свести к простым матричным вычислениям — собственно это и реализовано в этой таблице.

Таблица воспроизводит структуру nanoGPT от Андрея Карпати с ~85000 параметрами.
И эта таблица представляет собой систему предсказания следующих символов на основе предыдущих, то есть для простоты каждый токен — это символ; для уменьшения сложности токенизируются только буквы A/B/C.

На прикреплённых изображениях — механизм самовнимания и полный вид всей таблицы

🖥 GitHub
🟡 Тред в X

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥6👍5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Thread — типо Jupyter Notebook, но не совсем, — позволяет генерировать и редактировать код, коммуницируя при этом с GPT

pip install thread-dev

Thread — это Jupyter Notebook на максималках, в нём можно использовать естественный язык для создания ячеек, редактирования кода, задавать вопросы GPT или исправлять ошибки, при всём этом можно редактировать работать с кодом, как в обычном Jupyter Notebook.
После установки для запуска достаточно прописать thread или jupyter thread

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍96
📚Grog book - это приложение streamlit, которое позволяет создавать книги из промптов с помощью Llama3 в Groq.

Оно неплохо работает с научно-популярными книгами и создает гаввы за считанные секунды.

Github
Приложение

@data_analysis_ml
👍74🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 Depth Anything 2 - новая версия модели для анализа сцен, которая определяет глубину каждого пикселя.

Новая модель 10 раз предыдущая SoTA!


💪 Модели различных размеров (от 25 миллионов до 1,3 миллиарда параметров) доступны на Hugging face Hub

https://huggingface.co/collections/depth-anything/depth-anything-v2-666b22412f18a6dbfde23a93

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍125🔥5👏1