Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

46.3K subscribers

2.32K photos

269 videos

1 file

2.05K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

46.3K subscribers

Анализ данных (Data analysis)

🔥

The-incredible-pytorch

В этом репозитории собраны лучшие учебники, проекты, библиотеки, видео, статьи, книги и все, что связано с невероятным PyTorch.

🔗 https://github.com/ritchieng/the-incredible-pytorch

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16🔥6❤‍🔥4❤4

8.62K views12:02

Анализ данных (Data analysis)

7 фреймворков для работы с LLM

1. vLLM
vLLM — быстрая и простая в использовании библиотека для вывода и поддержания LLM. Достигается 14-кратное — 24-кратное увеличение производительности по сравнению с HuggingFace Transformers (HF) и 2,2-кратное — 2,5-кратное по сравнению с HuggingFace Text Generation Inference (TGI).

2. Text Generation Inference
Text Generation Inference — сервер для вывода текстов, написанных на Rust, Python и gRPC. Используется в производстве в HuggingFace для управления виджетами API-вывода LLM.

3. CTranslate2
CTranslate2 — это библиотека, написанная на языках C++ и Python, для эффективного вывода данных с помощью моделей-трансформеров.

4. DeepSpeed-MII
Благодаря DeepSpeed, MII обеспечивает вывод данных с низкой задержкой и высокой производительностью.

5. OpenLLM
OpenLLM — это открытая платформа для работы с большими языковыми моделями (LLM) в производственной среде.

6. Ray Serve
Ray Serve — это масштабируемая библиотека для создания API вывода в режиме онлайн. Serve не зависит от фреймворков, поэтому вы можете использовать один инструментарий для обслуживания любых моделей глубокого обучения.

7. MLC LLM
MLC LLM (Machine Learning Compilation LLM, компиляция машинного обучения для LLM) — это универсальное решение для развертывания, которое позволяет LLM эффективно работать на потребительских устройствах, используя нативное аппаратное ускорение.

@data_analysis_ml

👍13❤6🔥5

10.5K viewsedited 11:36

Анализ данных (Data analysis)

17:16

Анализ данных (Data analysis)

This media is not supported in the widget

VIEW IN TELEGRAM

👍41🔥9👎7❤4🙏2

60.4K views17:16

Анализ данных (Data analysis)

💼 Y'ORG

Y'ORG объединяет большин языковые модель с Jupyter Notebook для выполнения различных задач.

Цель Y'ORG - предоставить удобный интерактивный способ (1) изучения кода, (2) составления планов и задач для работы, (3) написания кода и добавления новых функций. Он также помогает ученым и аналитикам (4) проводить анализ данных и (5) создавать полноценные отчеты.

▪ Github

@data_analysis_ml

👍18❤2🔥2👏1

10.6K views19:45

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🚀

pix2tex

- это библиотека #Python, позволяющая преобразовывать изображения уравнений в код LaTeX.

Это позволяет использовать уравнение из одного документа в другой документ, не переделывая его с нуля.

🐱

GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍66🔥28❤9🤨3🍌2

11.9K views12:17

Анализ данных (Data analysis)

⚡️

Google выпустили AltUp - метод, использующий преимущества увеличения масштаба сетей трансформеров без увеличения стоимости вычислений - он прост в реализации, широко применим к архитектурам трансформеров, который требует минимальной настройки параметров.

Подробнее → https://blog.research.google/2023/11/alternating-updates-for-efficient.html

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🔥3❤1

9.34K views09:02

Анализ данных (Data analysis)

📱 В приложение ChatGPT для iOS добавлена поддержка расширенного анализа данных (ранее Code Interpreter).

Теперь специалист по анализу данных или аналитик данных у вас в кармане.

@data_analysis_ml

👍29❤4🔥2👎1🥰1😱1

9.33K views09:37

Анализ данных (Data analysis)

🖥

Vector Databases: from Embeddings to Applications

Векторные базы данных являются ключевой частью многих приложений LLM, в которых требуется поиск или извлечение данных, например, с помощью Retrieval Augmented Generation (RAG).

Узнайте, как они работают и как их использовать в новом бесплатном курсе на deeplearningai.

https://www.deeplearning.ai/short-courses/vector-databases-embeddings-applications/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥2❤1

9.42K views13:01

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода.

Все, что вам нужно сделать, это:

%load_ext cudf.pandas
import pandas as pd

Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку.

Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3

Repo: https://github.com/rapidsai/cudf

@data_analysis_ml

❤70🔥29👍18

13.6K views12:03

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
— Введение в Apache Flink: осваиваем фреймворк на реальных примерах
— Data Mesh – ячеистые топологии для работы с данными
— XGBoost – один из наиболее эффективных алгоритмов прогнозирования временных рядов.
— YOLO-NAS Pose: прорыв в технологии оценки позы
— Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
— Milk Sad уязвимость в библиотеке Libbitcoin Explorer 3.x. Крупная кража на $ 900 000 у пользователей Биткоин Кошельков
— Прогнозирование временных рядов с помощью библиотеки Skforecast
— Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
— Знакомство с разработкой SAP Data Services
— Easily Generate Mock Data with PostgreSQL
— How to Scrape Amazon Product Reviews Behind a Login
— The Future of Shopping: Innovative Startup with Robots for Automated Dark Stores
— A Step-by-Step Roadmap to Data Engineering
— Data Engineering for Beginners: Navigating the Foundations of a Data-Driven World
— The Comprehensive Guide to Time Series Models: Navigating the Depths of Temporal Data
— Looking for scam tokens using bubble charts in TON blockchain
— Fine-Tuning or Not, That Is the Question
— How Do I Build LLava AI ChatBot
— Common Table Expressions in Postgresql

Посмотреть:
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. (⏱ 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию (⏱ 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python (⏱ 00:20)
🌐 Applied Reinforcement Learning for Online Ads/Recommender - Kevin Noel (⏱ 42:37)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:11)
🌐 The Ethics Of Digital Minds with Professor Nick Bostrom (⏱ 57:03)
🌐 Nick Bostrom, PhD - The Ethics of Digital Minds: A baffling new frontier (⏱ 36:28)
🌐 ML on-device: Building Efficient Models - Danni Li (⏱ 34:00)
🌐 Creating Virtual Worlds 20x Faster! (⏱ 06:08)
🌐 NVIDIA’s New AI: Wow, 8x Better Text To 3D! (⏱ 04:27)
🌐 OpenAI's ChatGPT: 7 Unexpected Results! (⏱ 08:57)
🌐 Тренировки по ML. Лекция 2: Линейная регрессия и регуляризация (⏱ 1:46:36)

Хорошего дня!

@data_analysis_ml

👍27🔥11❤3🕊1🤨1

10.4K views11:02

Анализ данных (Data analysis)

🚀 Видеолекции, UC Berkeley Math 54 Линейная алгебра и дифференциальные уравнения

▪Курс
▪Лекции

@data_analysis_ml

👍14🔥4❤1🥰1

9.72K views15:03

Анализ данных (Data analysis)

📕

Tutorial 2: Comparison to other methods of uncertainty quantification

В популярный учебник по глубокому обучению добавляен целый большой раздел-учебник по Конформной классификацией.

https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/DL2/Bayesian_Neural_Networks/dl2_bnn_tut2_student_with_answers.html#Conformal-prediction

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤2🔥1

9.03K views10:05

Анализ данных (Data analysis)

𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗮𝗹 𝗱𝗲𝗲𝗽 𝗹𝗲𝗮𝗿𝗻𝗶𝗻𝗴 𝗰𝗼𝘂𝗿𝘀𝗲🌻: 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝗰𝗹𝗮𝘀𝘀𝗶𝗳𝗶𝗰𝗮𝘁𝗶𝗼𝗻 𝘄𝗶𝘁𝗵 𝗖𝗟𝗜𝗣

Узнайте, как промпт инжиниринг может помочь вам в классификации изображений в бесплатном курсе от dataflowr!

📋 курс: https://dataflowr.github.io/website/modules/19-clip/
🤖 код: https://github.com/dataflowr/notebooks/blob/master/Module19/Zeroshot_with_CLIP.ipynb

@data_analysis_ml

👍9❤3🔥1👏1

8.75K views10:01

Анализ данных (Data analysis)

🛡

Как автоанализ кода с помощью ИИ повышает безопасность приложений

AppSec-инженеры занимаются безопасностью приложений, но им приходится делать много работы. Они должны быть экспертами по разным приложениям и разбираться во всем коде. Они также должны встречаться с разработчиками, чтобы узнать о внесенных изменениях. В небольших организациях это возможно, но для крупных организаций это сложно.

Мы считаем, что инструменты Gen AI, такие как ChatGPT, могут помочь AppSec-инженерам в их работе. Они могут помочь масштабировать работу и сделать ее более эффективной.

В этой статье мы расскажем, как ChatGPT может повысить эффективность AppSec-инженеров.

Начнем с главного

Как уже было сказано, наиболее значимыми рабочими процессами, выполняемыми AppSec-инженерами, являются моделирование угроз и проверка безопасности кода. Оба этих процесса всегда были ручными, требующими участия разработчиков и приличного количества знаний/времени/мотивации. Это, на наш взгляд, реальная возможность для Gen AI.

Чтобы не быть голословными, углубимся в детали и посмотрим, как это осуществить на практике. Обратим внимание на важнейшие сферы применения ИИ:

🟡Непрерывный анализ изменений кода приложений.
🟡Интерактивное моделирование и решение проблем, связанных с угрозами.
🟡Дополнительные области, на которые, по нашему мнению, инструменты ИИ могут повлиять в ближайшей перспективе.

И последнее уточнение: для иллюстрации рабочих процессов будем использовать ChatGPT (3.5). Стоит отметить, что между версиями 3.5 и 4 существуют различия, поэтому советуем рассмотреть и альтернативные варианты.

Итак, приступим к делу!

📌 Читать

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍2🔥1

8.2K views17:03

Анализ данных (Data analysis)

💡 Список самых популярных алгоритмов машинного обучения вместе с кодом на Python и R для их запуска.

#python #r #MachineLearning

https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms

@data_analysis_ml

❤23🔥5👍4

8.61K views11:02

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Data Warehouse vs Data Lake vs Data Mesh

📌

Data Warehouse — это единое корпоративное хранилище архивных данных из разных источников (систем, департаментов и прочее). Цель Data Warehouse — обеспечить пользователя (компанию и ее ключевых лиц) возможностью принимать верные решения в ключе управления бизнесом на основе целостной информационной картины.

DWH — не только склад важных данных компании, но еще и основа бизнес-аналитики (BI). Именно из корпоративного хранилища компания получает сведения, необходимые для принятия управленческих и стратегических решений.

📌

Data Lake (Озеро данных) — это метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах.

Обычно используется blob-объект (binary large object) или файл. Идея озера данных в том чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных, которые используются для различных задач: отчеты, визуализация, аналитика и мо.

Data Lake включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, логи, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, файлы).

📌

Data Mesh - дословно можно перевести как «сеть данных», — это децентрализованный гибкий подход к работе распределенных команд и распространению информации. Главное в нем — междисциплинарные команды, которые публикуют и потребляют Data-продукты, благодаря чему существенно повышают эффективность использования данных.

Традиционно архитектура данных монолитна. Потребление, хранение, преобразование и вывод управляются через одно центральное хранилище (как правило, озеро данных). Data Mesh же позволяет упростить работу с распределенными пайплайнами, поддерживая отдельных потребителей, рассматривающих данные как продукт.

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31❤6🔥5

7.94K views10:50

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🚀

Команда разработчиков только что сделала OpenAI Whisper в 6 раз быстрее, на 49% меньше, сохранив при этом 99% точности.

Модель уже доступна в библиотеке HuggingFace Transformers:

model_id = "distil-whisper/distil-large-v2".

Вы также можете попробовать демо в веб-интерфейсе.

⏩

Модель: https://huggingface.co/distil-whisper/distil-large-v2

🛠

Демо: https://huggingface.co/spaces/Xenova/distil-whisper-web

📕

Статья: https://arxiv.org/abs/2311.00430

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🔥7❤2

7.73K views11:01