Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

46.8K subscribers

2.5K photos

286 videos

1 file

2.18K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

46.8K subscribers

Анализ данных (Data analysis)

🎓

Представляем DataTrove .

DataTrove - это библиотека для обработки, фильтрации и дедупликации текстовых данных в очень больших масштабах. Она предоставляет набор готовых часто используемых функций обработки данных и фреймворк для простого добавления собственной функциональности.

Его конвейеры обработки не зависят от платформы и могут работать как локально, так и на кластере slurm.

Низкое потребление памяти и удобная конструкция делают его идеальным для больших рабочих нагрузок, например для обработки обучающих данных LLM. ✨

git clone [email protected]:huggingface/datatrove.git && cd datatrove
pip install -e ".[FLAVOUR]

▪Github
▪Примеры

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥4🥰2

8.35K views08:10

Анализ данных (Data analysis)

☑

Вышел Scikit-learn 1.4.0

🟢 5 новых крупных новых функкций и 13 небольших новых фич
🔵 14 улучшений производительности
🟡 15 изменений в API
🔴 38 исправленных багов

https://scikit-learn.org/stable/whats_new/v1.4.html#changes-1-4

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤23👍9🔥7

8.01K views09:00

Анализ данных (Data analysis)

⚡️

Lazy Predict позволяет быстро создавать прототипы для анализа данных и сравнивать несколько базовых моделей без необходимости вручную писать код или настраивать параметры.

Это помогает специалистам по исследованию данных выявлять перспективные подходы в работе с даныыми и быстрее реализовывать модели.

pip install lazypredict

▪Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤27👍10🔥7

8.64K views06:02

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ По мере того как усиливается гонка за создание первого в мире по-настоящему полезного квантового компьютера, растет и потребность в ясном взгляде на вещи.

В этом выпуске программы "Полевые заметки" мы погрузимся глубже. в Google Quantum AI, чтобы понять реальность квантовых вычислений и их влияние на мир.

▪Видео
▪Почитать

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤4❤‍🔥1🔥1🤣1

8.4K views14:03

Анализ данных (Data analysis)

🌟 При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.

Чтобы увеличить скорость выполнения запросов, переместите фильтры в движок PyArrow и воспользуйтесь оптимизацией обработки PyArrow.

@data_analysis_ml

👍36🔥10❤5

8.44K views10:31

Анализ данных (Data analysis)

🚀 Одна из распространенных привычек Pandas, от которой полезно отказаться в Polars:

В Pandas датасаентисты часто добавляют/преобразуют столбцы в отдельных строках.

В Polars наоборот удобно добавляют много выражений в однну функцию with_columns.

Почему?

Ответ в производительности. Потому что Polars может выполнять все выражения параллельно.

@data_analysis_ml

👍21❤13🔥11

8.01K views06:02

Анализ данных (Data analysis)

🚀 LLMLingua: Enhancing Large Language Model Inference via Prompt Compression

LLMLingua использует компактную, хорошо обученную языковую модель (например, LaMA-7B) для поиска и удаления несущественных лексем в промптах.

Этот подход обеспечивает эффективный вывод с использованием больших языковых моделей (LLM), достигая 20-кратного сжатия при минимальной потере качества генерации.

▪Github
▪Документация

@data_analysis_ml

👍12❤5🔥1

9.78K views07:33

Анализ данных (Data analysis)

⚡ RoMa: простая в использовании, стабильная и эффективная библиотека для работы с кватернионами, векторами вращения, пространственными преобразованиями в PyTorch.

pip install roma

▪Github
▪Docs

@data_analysis_ml

❤11👍6🔥1

8.78K views15:31

Анализ данных (Data analysis)

🎮

Build a Large Language Model (From Scratch)

Еще один замечательный ресурс, который подходит для начинающих, чтобы построить ChatGPT-подобный LLM с нуля, шаг за шагом

▪Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22🤯3❤1🥰1🎉1

9.92K views08:03

Анализ данных (Data analysis)

🖥

Google-Colab-Selenium

Лучший способ использовать Selenium в блокнотах Google Colab!

▪Простая настройка Selenium и ChromeDriver.
▪Бесшовная интеграция с Google Colab.
▪Поддержка ChromeDriver для сложных случаев парсинга.

%pip install google-colab-selenium

import google_colab_selenium as gs
from selenium.webdriver.chrome.options import Options

# Instantiate options
options = Options()

# Add extra options
options.add_argument("--window-size=1920,1080")  # Set the window size
options.add_argument("--disable-infobars")  # Disable the infobars
options.add_argument("--disable-popup-blocking")  # Disable pop-ups
options.add_argument("--ignore-certificate-errors")  # Ignore certificate errors
options.add_argument("--incognito")  # Use Chrome in incognito mode


driver = gs.Chrome(options=options)

driver.get('https://uproger.com')
print(driver.title)
driver.quit()

➡️

➡️

Colab

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥8❤3🥰2

9.23K views07:26

Анализ данных (Data analysis)

🖥 SQL-metadata

Если вы хотите извлечь определенные компоненты #SQL-запроса для последующей работы с нмим на #Python, используйте sql_metdata.

Извлекает имена столбцов и таблиц, используемых в запросе. Автоматически выполняет разрешение псевдонимов столбцов, разрешение псевдонимов подзапросов, а также разрешение псевдонимов таблиц.

Также предоставляет полезные функции для нормализации SQL-запросов.

pip install sql-metadata

▪Github
▪Docs

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤5🔥3

8.4K viewsedited 13:02

Анализ данных (Data analysis)

🖥

Nxs-data-anonymizer - это инструмент для анонимизации дампа баз данных

PostgreSQL и MySQL/MariaDB/Percona.

▪Поддерживаемые базы данных и версии:
PostgreSQL (9/10/11/12/13/14/15/все версии)
MySQL/MariaDB/Percona (5.7/8.0/8.1/все версии)

▪Гибкая генерация фейковых данных на основе шаблонов Go и библиотеки шаблонов Sprig.

▪Потоковая обработка данных. Это означает, что вы можете перенаправлять дамп из исходной БД в любую другую БД с преобразованиями

▪Легко интегрируется в CI/CD

➡️

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤2🔥1

8.85K views09:02

Анализ данных (Data analysis)

💡 Проблема: ваш код, содержит много скопированного чужого кода, но его трудно найти.

Решение: jscpd

jscpd — это инструмент командной строки, который выводит скопированный код и сообщает о конкретных повторяющихся строках.

Работает более чем на 150 языках.

▪ Github

@data_analysis_ml

👍15❤4👎3🔥1

9.09K viewsedited 17:52

Анализ данных (Data analysis)

🖥

Примеры генеративного ИИ от NVIDIA

Современные примеры генеративного ИИ, которые легко развертывать, тестировать и адптировать под ваши задачи.

Все примеры работают на высокопроизводительном стеке NVIDIA CUDA-X и графических процессорах NVIDIA.

▪Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤3🔥1

8.96K views08:28

Анализ данных (Data analysis)

Вышел PyTorch 2.2 🎉

С Новые фичи:
- Поддержка SDPA FlashAttention-2.
- Новое расширение TorchInductor.
- device_mesh, новая абстракция для инициализации и представления групп процессов.
- Стандартизированный управляемый механизм логирования под названием TORCH_LOGS.
и др.

➡️

Полный спис ок обновлений

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥3❤2

9.23K views08:37

Анализ данных (Data analysis)

⚡️ Новая лекция Ян Лекуна : «Объектно-ориентированный ИИ: на пути к машинам, которые могут учиться, рассуждать и планировать»

Слайды: https://drive.google.com/file/d/1e6EtQPQMCreP3pwi5E9kKRsVs2NbWPrY/view?usp=drivesdk
Видео: https://www.youtube.com/watch?si=UeLf0MhMzjXcSCAb&v=d_bdU3LsLzE&feature=youtu.be

@data_analysis_ml

🔥17👍9❤5

9.15K views06:35