Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
269 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🚀 Window ops

Эта библиотека для анализа данных, которая содержит функции альтернативы pd.Series.rolling и pd.Series.expanding,которые позволяют получить ускорение за счет использования оптимизированных под numba функций, работающих с массивами numpy.

pip install window-ops

Github
Документация

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5🔥2😱1
⚡️ OneFormer: Один трансформер для управления универсальной сегментацией изображений.

Модель позволяет решать три разных задачи сегментации: semantic, instance и panoptic segmentation.

🦒colab: https://github.com/camenduru/OneFormer-colab
🌐page: https://praeclarumjj3.github.io/oneformer
📄paper: https://arxiv.org/abs/2211.06220
🧬code: https://github.com/SHI-Labs/OneFormer

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍2🔥1🥰1
🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
100 вопросов для подготовки к собесу Data Science
Сколько ядер CPU можно использовать параллельно в Python?
Вот так я изучаю ML
PLC Allen Bradley подключение с помощью Python
Ortools — библиотека для решения задачи VRP
4 миллиарда операторов if
Python без типов: таким он когда-то был
Вы точно хотите быть Data Scientist-ом?
Введение в SQL & СУБД на примере доступа к данным через Python
Plotting and Data Visualization with Matplotlib
Applications of Data Science
Semantic Search Over Satellite Images Using Qdrant
Introduction to Data Science
A Comprehensive Guide: How Deepchecks Evaluate the Large Language Model
Appreciating the "Learning Problem" - Why AI will never replace your job
Best JavaScript Chart Libraries 2024: Finding the Right Fit for Your JS Applications
NumPy Arrays: An Introduction
Hungarian GP 2022 Qualifying, and see what we can
I built Hippotable for in-browser data analysis
Десять самых ярких ИИ-работ от NVIDIA Research за 2023 год

Посмотреть:
🌐 100 вопросов с собеседований Data Science — часть 1 ( 36:48)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг ( 00:40)
🌐 💡задача #Python: Бинарный поиск #python #программирование #код #yotube #питон #собеседование ( 00:41)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг ( 01:00)
🌐 Evaluating Recommendation Algorithms at Delivery Hero - Manchit Madan ( 23:01)
🌐 ODSC Webinar | Open source Data Lake Management, Curation, Governance for New & Growing Companies ( 46:07)
🌐 Stable Diffusion AI: 100 Cats Per Second…For Free! ( 08:21)

Хорошего дня!

@data_analysis_ml
16👍12🔥2
🎓 Бесплатный курс от Weights & Biases: Валидация данных в конвейерах ML.

Научитесь поддерживать качество данных и использовать TensorFlow Data Validation,получите практический опыт проверки данных для создания надежных конвейеров ML.

https://www.wandb.courses/courses/data-validation-for-machine-learning

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍3🔥3
💻 Создайте ИИ-клон из своих чатов вWhatsApp

Этот репозиторий поможет вам создать чатбота с ИИ, используя ваши чаты WhatsApp в качестве обучающих данных.

По умолчанию используется модель Mistral-7B-Instruct-v0.2.

Код в этом репозитории в значительной степени опирается на llama-recipes (https://github.com/facebookresearch/llama-recipes), где вы можете найти больше примеров того, что можно делать с моделями llama.

Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163🔥2
🌟 Что ждет ИИ в 2024 году? В последнем выпуске The Batch на deeplearning.ai, множество ИИ-экспертов рассказывают о своих надеждах и прогнозах на ИИ в наступившем году.

В их обширных статьях рассматриваются новые инструменты ИИ, рассуждения о последующем экспоненциальном росте ИИ и многое другое.

https://deeplearning.ai/the-batch/issue-229/

@data_analysis_ml
👍205🔥3
📊 Facets

Проект Facets предоставляет инструменты визуализации для понимания и анализа наборов данных машинного обучения: Facets Overview и Facets Dive.

Визуализации реализованы в виде веб-компонентов Polymer и могут быть легко встроены в блокноты Jupyter или веб-страницы.

Прмеры визуализаций можно найти на странице описания проекта Facets: pair-code.github.io/facets/

Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍262🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
💻 Чтобы расширить возможности вашего терминала за счет автозаполнения кода, подобного IDE, используйте Fig.

Это позволит ускорить рабочий процесс и сократить количество опечаток и ошибок, особенно при работе с длинными или сложными командами.

https://fig.io/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥42👎1
🚕 Как Uber вычисляет время прибытия со скоростью полмиллиона запросов в секунду

📌 Читать

@data_analysis_ml
👍24🔥63🥰1
⚡️ Nvidia и Suno анонсировали модели Parakeet RNNT.

Parakeet превосходит Open AI Whisper и занимает первое место в таблице лидеров Open ASR

Demo: https://huggingface.co/spaces/nvidia/parakeet-rnnt-1.1b

https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

@data_analysis_ml
🔥12👍32
⚡️ ExLlamaV2: самая быстрая библиотека для работы с LLM

Квантизация больших языковых моделей (Large Language Models, LLM) — наиболее популярный подход для уменьшения размера этих моделей и ускорения вывода. GPTQ (Post-Training Quantization for GPT, пост-тренировочная квантизация GPT) — один из алгоритмов, обеспечивающих потрясающую производительность на графических процессорах. По сравнению с неквантированными моделями, он использует почти в 3 раза меньше VRAM (Video Random Access Memory, оперативная видеопамять), обеспечивая при этом аналогичный уровень точности и более высокую скорость генерации. GPTQ стал настолько популярным, что недавно был напрямую интегрирован в библиотеку Transformers.

ExLlamaV2  — это библиотека, позволяющая выжать еще больше производительности из GPTQ. Благодаря новым ядрам, она оптимизирована для (молниеносно) быстрого вывода. Кроме того, в ней представлен новый формат квантизации EXL2, обеспечивающий большую гибкость при хранении весов.

В этой статье рассмотрим, как квантировать базовые модели в формате EXL2 и как их запускать. Код доступен на GitHub и Google Colab.

📌 Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥41🤨1
⚡️ mergekit - это инструмент для слияния предварительно обученных языковых моделей.

Может выполняться полностью на CPU или ускоряться с помощью всего 8 ГБ VRAM.

Проект поддерживает множество алгоритмов.

Github
Colab

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🥰1
⚡️ Swarms in Torch - это экспериментальный репозиторий, созданный для работы с роевыми алгоритмами.

Благодаря целому ряду полезных алгоритмов, включая Particle Swarm Optimization (PSO), Ant Colony, Sakana, Mambas Swarm и других, реализованных с помощью PyTorch, вы сможете легко использовать мощь роевых технологий в своих проектах.

pip3 install swarms-torch

Github
Документация

@data_analysis_ml
👍12🔥53
⚡️ Вышел LiteLlama

Подобие LLaMa 2, однако с существенно меньшим размером модели, LiteLlama-460M-1T имеет 460M параметров, обученных на 1T токенах.

https://huggingface.co/ahxt/LiteLlama-460M-1T

@data_analysis_ml
👍10🔥31
Построение языковых агентов в виде графов графов

Новый анонс LangChain v0.1.0 - LangGraph.

🤖 Инструмент был протестирован командой разработчиков langchain в течение последних шести месяцев и выглядит, как лучший способ создания агентов LLM.

🌀 Основное нововведение - простое определение циклов агента. Это невероятно важно для агентов, которые часто описываются как выполнение LLM в цикле for.

Библиотека предоставляет интерфейс для создания циклических графов, с настраиваемыми, определяемыми пользователем переходами между узлами.

pip install langgraph

Github
Пример с кодом создания агента

@data_analysis_ml
👍132🔥2
⚡️Более 20 иллюстрированных ИИ гайдов по от Abacus AI.

https://blog.abacus.ai/blog/category/ai-education

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍132😐2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 НАСА размещает на #AWS более 9 000 продуктов данных о нашей планете!

🚀
В этом хранилище представлен полный список данных НАСА по наукам о Земле, доступных для исследований и анализа. Данные управляются и поддерживаются программой НАСА "Системы данных по наукам о Земле" (ESDS), которая обеспечивает доступность и удобство использования данных.

Узнайте, как легко найти и загрузить данных с помощью последнего руководства по #leafmap. 📚🔎

📓 Notebook: https://leafmap.org/notebooks/88_nasa_earth_data
🗂️ Data Catalog: https://github.com/opengeos/NASA-Earth-Data
🎥 Video: https://youtu.be/0ytxNNvc2Hg

#opendata #geospatial #python #dataviz #NASA

@data_analysis_ml
18👍13🔥7👎1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Build LLM Apps with LangChain.js

GitHub недавно сообщили, что JavaScript снова стал самым популярным языком программирования в мире. Чтобы поддержать веб-разработчиков, изучающих и разрабатывающих генеративный ИИ, deeplearning_ai только что запустили новый краткий курс по JavaScript.

В курсе Build LLM Apps with LangChain.js вы познакомитесь с элементами, характерными для разработки ИИ, включая:

(i) использование парсеров данных для получения данных из распространенных источников
(ii) промпты, которые используются для создания контекста LLM
(iii) Модули для поддержки RAG, такие как разделители текста и интеграция с векторными хранилищами
(iv) Работа с различными моделями для написания ИИ-приложений
(v) парсеры, которые извлекают и форматируют выходные данные для обработки последующим кодом.

Вы также будете работать с языком LangChain, который позволяет легко составлять последовательности (также называемые цепочками) модулей для выполнения сложных задач с помощью LLM.

Собрав все это воедино, вы поработаете над разговорным LLM-приложением для ответов на вопросы, способным использовать внешние данные в качестве контекста.

📌 Курс

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥21👎1
🖥 Pandas vs Polars vs SQL

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍496🔥4🏆3😢2🤨2