🌟 При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.
Чтобы увеличить скорость выполнения запросов, переместите фильтры в движок PyArrow и воспользуйтесь оптимизацией обработки PyArrow.
@data_analysis_ml
Чтобы увеличить скорость выполнения запросов, переместите фильтры в движок PyArrow и воспользуйтесь оптимизацией обработки PyArrow.
@data_analysis_ml
👍36🔥10❤5
🚀 Одна из распространенных привычек Pandas, от которой полезно отказаться в Polars:
В Pandas датасаентисты часто добавляют/преобразуют столбцы в отдельных строках.
В Polars наоборот удобно добавляют много выражений в однну функцию with_columns.
Почему?
Ответ в производительности. Потому что Polars может выполнять все выражения параллельно.
@data_analysis_ml
В Pandas датасаентисты часто добавляют/преобразуют столбцы в отдельных строках.
В Polars наоборот удобно добавляют много выражений в однну функцию with_columns.
Почему?
Ответ в производительности. Потому что Polars может выполнять все выражения параллельно.
@data_analysis_ml
👍21❤13🔥11
🚀 LLMLingua: Enhancing Large Language Model Inference via Prompt Compression
LLMLingua использует компактную, хорошо обученную языковую модель (например, LaMA-7B) для поиска и удаления несущественных лексем в промптах.
Этот подход обеспечивает эффективный вывод с использованием больших языковых моделей (LLM), достигая 20-кратного сжатия при минимальной потере качества генерации.
▪Github
▪Документация
@data_analysis_ml
LLMLingua использует компактную, хорошо обученную языковую модель (например, LaMA-7B) для поиска и удаления несущественных лексем в промптах.
Этот подход обеспечивает эффективный вывод с использованием больших языковых моделей (LLM), достигая 20-кратного сжатия при минимальной потере качества генерации.
▪Github
▪Документация
@data_analysis_ml
👍12❤5🔥1
⚡ RoMa: простая в использовании, стабильная и эффективная библиотека для работы с кватернионами, векторами вращения, пространственными преобразованиями в PyTorch.
▪Github
▪Docs
@data_analysis_ml
pip install roma
▪Github
▪Docs
@data_analysis_ml
❤11👍6🔥1
Еще один замечательный ресурс, который подходит для начинающих, чтобы построить ChatGPT-подобный LLM с нуля, шаг за шагом
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🤯3❤1🥰1🎉1
Лучший способ использовать Selenium в блокнотах Google Colab!
▪Простая настройка Selenium и ChromeDriver.
▪Бесшовная интеграция с Google Colab.
▪Поддержка ChromeDriver для сложных случаев парсинга.
%pip install google-colab-selenium
import google_colab_selenium as gs
from selenium.webdriver.chrome.options import Options
# Instantiate options
options = Options()
# Add extra options
options.add_argument("--window-size=1920,1080") # Set the window size
options.add_argument("--disable-infobars") # Disable the infobars
options.add_argument("--disable-popup-blocking") # Disable pop-ups
options.add_argument("--ignore-certificate-errors") # Ignore certificate errors
options.add_argument("--incognito") # Use Chrome in incognito mode
driver = gs.Chrome(options=options)
driver.get('https://uproger.com')
print(driver.title)
driver.quit()
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥8❤3🥰2
Если вы хотите извлечь определенные компоненты #SQL-запроса для последующей работы с нмим на #Python, используйте sql_metdata.
Извлекает имена столбцов и таблиц, используемых в запросе. Автоматически выполняет разрешение псевдонимов столбцов, разрешение псевдонимов подзапросов, а также разрешение псевдонимов таблиц.
Также предоставляет полезные функции для нормализации
SQL-запросов
.pip install sql-metadata
▪Github
▪Docs
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤5🔥3
PostgreSQL и MySQL/MariaDB/Percona.
▪Поддерживаемые базы данных и версии:
PostgreSQL (9/10/11/12/13/14/15/все версии)
MySQL/MariaDB/Percona (5.7/8.0/8.1/все версии)
▪Гибкая генерация фейковых данных на основе шаблонов Go и библиотеки шаблонов Sprig.
▪Потоковая обработка данных. Это означает, что вы можете перенаправлять дамп из исходной БД в любую другую БД с преобразованиями
▪Легко интегрируется в CI/CD
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2🔥1
💡 Проблема: ваш код, содержит много скопированного чужого кода, но его трудно найти.
Решение: jscpd
jscpd — это инструмент командной строки, который выводит скопированный код и сообщает о конкретных повторяющихся строках.
Работает более чем на 150 языках.
▪ Github
@data_analysis_ml
Решение: jscpd
jscpd — это инструмент командной строки, который выводит скопированный код и сообщает о конкретных повторяющихся строках.
Работает более чем на 150 языках.
▪ Github
@data_analysis_ml
👍15❤4👎3🔥1
Современные примеры генеративного ИИ, которые легко развертывать, тестировать и адптировать под ваши задачи.
Все примеры работают на высокопроизводительном стеке NVIDIA CUDA-X и графических процессорах NVIDIA.
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤3🔥1
Вышел PyTorch 2.2 🎉
С Новые фичи:
- Поддержка SDPA FlashAttention-2.
- Новое расширение TorchInductor.
- device_mesh, новая абстракция для инициализации и представления групп процессов.
- Стандартизированный управляемый механизм логирования под названием
и др.
➡️ Полный список обновлений
@data_analysis_ml
С Новые фичи:
- Поддержка SDPA FlashAttention-2.
- Новое расширение TorchInductor.
- device_mesh, новая абстракция для инициализации и представления групп процессов.
- Стандартизированный управляемый механизм логирования под названием
TORCH_LOGS
.и др.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥3❤2
⚡️ Новая лекция Ян Лекуна : «Объектно-ориентированный ИИ: на пути к машинам, которые могут учиться, рассуждать и планировать»
Слайды: https://drive.google.com/file/d/1e6EtQPQMCreP3pwi5E9kKRsVs2NbWPrY/view?usp=drivesdk
Видео: https://www.youtube.com/watch?si=UeLf0MhMzjXcSCAb&v=d_bdU3LsLzE&feature=youtu.be
@data_analysis_ml
Слайды: https://drive.google.com/file/d/1e6EtQPQMCreP3pwi5E9kKRsVs2NbWPrY/view?usp=drivesdk
Видео: https://www.youtube.com/watch?si=UeLf0MhMzjXcSCAb&v=d_bdU3LsLzE&feature=youtu.be
@data_analysis_ml
🔥17👍9❤5
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ SUPIR - новая высокоточная модель восстановления изображений!
▪Код: https://github.com/Fanghua-Yu/SUPIR
▪Проект: https://supir.xpixel.group
▪Статья: https://arxiv.org/abs/2401.13627
@data_analysis_ml
▪Код: https://github.com/Fanghua-Yu/SUPIR
▪Проект: https://supir.xpixel.group
▪Статья: https://arxiv.org/abs/2401.13627
@data_analysis_ml
👍24🔥16❤1
GigaChat обгоняет ChatGPT по всем характеристикам — к таким результатам пришли разработчики отечественной нейросетевой модели. В последнем исследовании разрабы решили сравнить модели от Сбера и OpenAI, результаты можно посмотреть здесь.
Не зря на сегодняшний день нейросетью от Сбера пользуется более 2,5 млн человек.Теперь ждем, когда Яндекс проведет такое же исследование.
@data_analysis_ml
Не зря на сегодняшний день нейросетью от Сбера пользуется более 2,5 млн человек.Теперь ждем, когда Яндекс проведет такое же исследование.
@data_analysis_ml
🤣138👍20❤6👎5🔥2💯2
Используйте параметр
parse_dates
для указания столбцов с датами при создании даатфрейма из CSV, вместо pd.to_datetime
. Это делает код более кратким и удобным для чтения.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤49👍30🔥7🎉3
⚡️ Awesome-polars
Большой полезный кураторский список примеров с кодом, инструментов, бенчмарков и статей о Polars.
▪Github
▪Docs
@data_analysis_ml
Большой полезный кураторский список примеров с кодом, инструментов, бенчмарков и статей о Polars.
▪Github
▪Docs
@data_analysis_ml
🔥15👍5❤2