Анализ данных (Data analysis)
46.3K subscribers
2.32K photos
269 videos
1 file
2.05K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🔥 The-incredible-pytorch

В этом репозитории собраны лучшие учебники, проекты, библиотеки, видео, статьи, книги и все, что связано с невероятным PyTorch.

🔗 https://github.com/ritchieng/the-incredible-pytorch

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥6❤‍🔥44
7 фреймворков для работы с LLM

1. vLLM
vLLM  —  быстрая и простая в использовании библиотека для вывода и поддержания LLM. Достигается 14-кратное  —  24-кратное увеличение производительности по сравнению с HuggingFace Transformers (HF) и 2,2-кратное  —  2,5-кратное по сравнению с HuggingFace Text Generation Inference (TGI).

2. Text Generation Inference
Text Generation Inference  —  сервер для вывода текстов, написанных на Rust, Python и gRPC. Используется в производстве в HuggingFace для управления виджетами API-вывода LLM.

3. CTranslate2
CTranslate2  —  это библиотека, написанная на языках C++ и Python, для эффективного вывода данных с помощью моделей-трансформеров.

4. DeepSpeed-MII
Благодаря DeepSpeed, MII обеспечивает вывод данных с низкой задержкой и высокой производительностью.

5. OpenLLM
OpenLLM  —  это открытая платформа для работы с большими языковыми моделями (LLM) в производственной среде.

6. Ray Serve
Ray Serve  —  это масштабируемая библиотека для создания API вывода в режиме онлайн. Serve не зависит от фреймворков, поэтому вы можете использовать один инструментарий для обслуживания любых моделей глубокого обучения.

7. MLC LLM
MLC LLM (Machine Learning Compilation LLM, компиляция машинного обучения для LLM)  —  это универсальное решение для развертывания, которое позволяет LLM эффективно работать на потребительских устройствах, используя нативное аппаратное ускорение.

@data_analysis_ml
👍136🔥5
This media is not supported in the widget
VIEW IN TELEGRAM
👍41🔥9👎74🙏2
💼 Y'ORG

Y'ORG объединяет большин языковые модель с Jupyter Notebook для выполнения различных задач.

Цель Y'ORG - предоставить удобный интерактивный способ (1) изучения кода, (2) составления планов и задач для работы, (3) написания кода и добавления новых функций. Он также помогает ученым и аналитикам (4) проводить анализ данных и (5) создавать полноценные отчеты.

Github

@data_analysis_ml
👍182🔥2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 pix2tex

- это библиотека #Python, позволяющая преобразовывать изображения уравнений в код LaTeX.

Это позволяет использовать уравнение из одного документа в другой документ, не переделывая его с нуля.

🐱 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66🔥289🤨3🍌2
⚡️ Google выпустили AltUp - метод, использующий преимущества увеличения масштаба сетей трансформеров без увеличения стоимости вычислений - он прост в реализации, широко применим к архитектурам трансформеров, который требует минимальной настройки параметров.

Подробнееhttps://blog.research.google/2023/11/alternating-updates-for-efficient.html

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥31
📱 В приложение ChatGPT для iOS добавлена поддержка расширенного анализа данных (ранее Code Interpreter).

Теперь специалист по анализу данных или аналитик данных у вас в кармане.

@data_analysis_ml
👍294🔥2👎1🥰1😱1
🖥 Vector Databases: from Embeddings to Applications

Векторные базы данных являются ключевой частью многих приложений LLM, в которых требуется поиск или извлечение данных, например, с помощью Retrieval Augmented Generation (RAG).

Узнайте, как они работают и как их использовать в новом бесплатном курсе на deeplearningai.

https://www.deeplearning.ai/short-courses/vector-databases-embeddings-applications/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода.

Все, что вам нужно сделать, это:
%load_ext cudf.pandas
import pandas as pd


Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку.

Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3

Repo: https://github.com/rapidsai/cudf

@data_analysis_ml
70🔥29👍18
🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Введение в Apache Flink: осваиваем фреймворк на реальных примерах
Data Mesh – ячеистые топологии для работы с данными
XGBoost – один из наиболее эффективных алгоритмов прогнозирования временных рядов.
YOLO-NAS Pose: прорыв в технологии оценки позы
Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
Milk Sad уязвимость в библиотеке Libbitcoin Explorer 3.x. Крупная кража на $ 900 000 у пользователей Биткоин Кошельков
Прогнозирование временных рядов с помощью библиотеки Skforecast
Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
Знакомство с разработкой SAP Data Services
Easily Generate Mock Data with PostgreSQL
How to Scrape Amazon Product Reviews Behind a Login
The Future of Shopping: Innovative Startup with Robots for Automated Dark Stores
A Step-by-Step Roadmap to Data Engineering
Data Engineering for Beginners: Navigating the Foundations of a Data-Driven World
The Comprehensive Guide to Time Series Models: Navigating the Depths of Temporal Data
Looking for scam tokens using bubble charts in TON blockchain
Fine-Tuning or Not, That Is the Question
How Do I Build LLava AI ChatBot
Common Table Expressions in Postgresql

Посмотреть:
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. ( 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию ( 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python ( 00:20)
🌐 Applied Reinforcement Learning for Online Ads/Recommender - Kevin Noel ( 42:37)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey ( 30:11)
🌐 The Ethics Of Digital Minds with Professor Nick Bostrom ( 57:03)
🌐 Nick Bostrom, PhD - The Ethics of Digital Minds: A baffling new frontier ( 36:28)
🌐 ML on-device: Building Efficient Models - Danni Li ( 34:00)
🌐 Creating Virtual Worlds 20x Faster! ( 06:08)
🌐 NVIDIA’s New AI: Wow, 8x Better Text To 3D! ( 04:27)
🌐 OpenAI's ChatGPT: 7 Unexpected Results! ( 08:57)
🌐 Тренировки по ML. Лекция 2: Линейная регрессия и регуляризация ( 1:46:36)

Хорошего дня!

@data_analysis_ml
👍27🔥113🕊1🤨1
🚀 Видеолекции, UC Berkeley Math 54 Линейная алгебра и дифференциальные уравнения

Курс
Лекции

@data_analysis_ml
👍14🔥41🥰1
📕 Tutorial 2: Comparison to other methods of uncertainty quantification

В популярный учебник по глубокому обучению добавляен целый большой раздел-учебник по Конформной классификацией.

https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/DL2/Bayesian_Neural_Networks/dl2_bnn_tut2_student_with_answers.html#Conformal-prediction

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🔥1
𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗮𝗹 𝗱𝗲𝗲𝗽 𝗹𝗲𝗮𝗿𝗻𝗶𝗻𝗴 𝗰𝗼𝘂𝗿𝘀𝗲🌻: 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝗰𝗹𝗮𝘀𝘀𝗶𝗳𝗶𝗰𝗮𝘁𝗶𝗼𝗻 𝘄𝗶𝘁𝗵 𝗖𝗟𝗜𝗣

Узнайте, как промпт инжиниринг может помочь вам в классификации изображений в бесплатном курсе от dataflowr!

📋 курс: https://dataflowr.github.io/website/modules/19-clip/
🤖 код: https://github.com/dataflowr/notebooks/blob/master/Module19/Zeroshot_with_CLIP.ipynb

@data_analysis_ml
👍93🔥1👏1
🛡 Как автоанализ кода с помощью ИИ повышает безопасность приложений

AppSec-инженеры занимаются безопасностью приложений, но им приходится делать много работы. Они должны быть экспертами по разным приложениям и разбираться во всем коде. Они также должны встречаться с разработчиками, чтобы узнать о внесенных изменениях. В небольших организациях это возможно, но для крупных организаций это сложно.

Мы считаем, что инструменты Gen AI, такие как ChatGPT, могут помочь AppSec-инженерам в их работе. Они могут помочь масштабировать работу и сделать ее более эффективной.

В этой статье мы расскажем, как ChatGPT может повысить эффективность AppSec-инженеров.

Начнем с главного

Как уже было сказано, наиболее значимыми рабочими процессами, выполняемыми AppSec-инженерами, являются моделирование угроз и проверка безопасности кода. Оба этих процесса всегда были ручными, требующими участия разработчиков и приличного количества знаний/времени/мотивации. Это, на наш взгляд, реальная возможность для Gen AI.

Чтобы не быть голословными, углубимся в детали и посмотрим, как это осуществить на практике. Обратим внимание на важнейшие сферы применения ИИ:

🟡Непрерывный анализ изменений кода приложений.
🟡Интерактивное моделирование и решение проблем, связанных с угрозами.
🟡Дополнительные области, на которые, по нашему мнению, инструменты ИИ могут повлиять в ближайшей перспективе.

И последнее уточнение: для иллюстрации рабочих процессов будем использовать ChatGPT (3.5). Стоит отметить, что между версиями 3.5 и 4 существуют различия, поэтому советуем рассмотреть и альтернативные варианты.

Итак, приступим к делу!

📌 Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍2🔥1
💡 Список самых популярных алгоритмов машинного обучения вместе с кодом на Python и R для их запуска.

#python #r #MachineLearning

https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms

@data_analysis_ml
23🔥5👍4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Data Warehouse vs Data Lake vs Data Mesh

📌Data Warehouse — это единое корпоративное хранилище архивных данных из разных источников (систем, департаментов и прочее). Цель Data Warehouse — обеспечить пользователя (компанию и ее ключевых лиц) возможностью принимать верные решения в ключе управления бизнесом на основе целостной информационной картины.

DWH — не только склад важных данных компании, но еще и основа бизнес-аналитики (BI). Именно из корпоративного хранилища компания получает сведения, необходимые для принятия управленческих и стратегических решений.

📌Data Lake (Озеро данных) — это метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах.

Обычно используется blob-объект (binary large object) или файл. Идея озера данных в том чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных, которые используются для различных задач: отчеты, визуализация, аналитика и мо.

Data Lake включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, логи, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, файлы).

📌Data Mesh - дословно можно перевести как «сеть данных», — это децентрализованный гибкий подход к работе распределенных команд и распространению информации. Главное в нем — междисциплинарные команды, которые публикуют и потребляют Data-продукты, благодаря чему существенно повышают эффективность использования данных.

Традиционно архитектура данных монолитна. Потребление, хранение, преобразование и вывод управляются через одно центральное хранилище (как правило, озеро данных). Data Mesh же позволяет упростить работу с распределенными пайплайнами, поддерживая отдельных потребителей, рассматривающих данные как продукт.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍316🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Команда разработчиков только что сделала OpenAI Whisper в 6 раз быстрее, на 49% меньше, сохранив при этом 99% точности.

Модель уже доступна в библиотеке HuggingFace Transformers:

model_id = "distil-whisper/distil-large-v2".

Вы также можете попробовать демо в веб-интерфейсе.

Модель: https://huggingface.co/distil-whisper/distil-large-v2

🛠 Демо: https://huggingface.co/spaces/Xenova/distil-whisper-web

📕 Статья: https://arxiv.org/abs/2311.00430

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥72