Лучший способ использовать Selenium в блокнотах Google Colab!
▪Простая настройка Selenium и ChromeDriver.
▪Бесшовная интеграция с Google Colab.
▪Поддержка ChromeDriver для сложных случаев парсинга.
%pip install google-colab-selenium
import google_colab_selenium as gs
from selenium.webdriver.chrome.options import Options
# Instantiate options
options = Options()
# Add extra options
options.add_argument("--window-size=1920,1080") # Set the window size
options.add_argument("--disable-infobars") # Disable the infobars
options.add_argument("--disable-popup-blocking") # Disable pop-ups
options.add_argument("--ignore-certificate-errors") # Ignore certificate errors
options.add_argument("--incognito") # Use Chrome in incognito mode
driver = gs.Chrome(options=options)
driver.get('https://uproger.com')
print(driver.title)
driver.quit()
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥8❤3🥰2
Если вы хотите извлечь определенные компоненты #SQL-запроса для последующей работы с нмим на #Python, используйте sql_metdata.
Извлекает имена столбцов и таблиц, используемых в запросе. Автоматически выполняет разрешение псевдонимов столбцов, разрешение псевдонимов подзапросов, а также разрешение псевдонимов таблиц.
Также предоставляет полезные функции для нормализации
SQL-запросов
.pip install sql-metadata
▪Github
▪Docs
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤5🔥3
PostgreSQL и MySQL/MariaDB/Percona.
▪Поддерживаемые базы данных и версии:
PostgreSQL (9/10/11/12/13/14/15/все версии)
MySQL/MariaDB/Percona (5.7/8.0/8.1/все версии)
▪Гибкая генерация фейковых данных на основе шаблонов Go и библиотеки шаблонов Sprig.
▪Потоковая обработка данных. Это означает, что вы можете перенаправлять дамп из исходной БД в любую другую БД с преобразованиями
▪Легко интегрируется в CI/CD
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2🔥1
💡 Проблема: ваш код, содержит много скопированного чужого кода, но его трудно найти.
Решение: jscpd
jscpd — это инструмент командной строки, который выводит скопированный код и сообщает о конкретных повторяющихся строках.
Работает более чем на 150 языках.
▪ Github
@data_analysis_ml
Решение: jscpd
jscpd — это инструмент командной строки, который выводит скопированный код и сообщает о конкретных повторяющихся строках.
Работает более чем на 150 языках.
▪ Github
@data_analysis_ml
👍15❤4👎3🔥1
Современные примеры генеративного ИИ, которые легко развертывать, тестировать и адптировать под ваши задачи.
Все примеры работают на высокопроизводительном стеке NVIDIA CUDA-X и графических процессорах NVIDIA.
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤3🔥1
Вышел PyTorch 2.2 🎉
С Новые фичи:
- Поддержка SDPA FlashAttention-2.
- Новое расширение TorchInductor.
- device_mesh, новая абстракция для инициализации и представления групп процессов.
- Стандартизированный управляемый механизм логирования под названием
и др.
➡️ Полный список обновлений
@data_analysis_ml
С Новые фичи:
- Поддержка SDPA FlashAttention-2.
- Новое расширение TorchInductor.
- device_mesh, новая абстракция для инициализации и представления групп процессов.
- Стандартизированный управляемый механизм логирования под названием
TORCH_LOGS
.и др.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥3❤2
⚡️ Новая лекция Ян Лекуна : «Объектно-ориентированный ИИ: на пути к машинам, которые могут учиться, рассуждать и планировать»
Слайды: https://drive.google.com/file/d/1e6EtQPQMCreP3pwi5E9kKRsVs2NbWPrY/view?usp=drivesdk
Видео: https://www.youtube.com/watch?si=UeLf0MhMzjXcSCAb&v=d_bdU3LsLzE&feature=youtu.be
@data_analysis_ml
Слайды: https://drive.google.com/file/d/1e6EtQPQMCreP3pwi5E9kKRsVs2NbWPrY/view?usp=drivesdk
Видео: https://www.youtube.com/watch?si=UeLf0MhMzjXcSCAb&v=d_bdU3LsLzE&feature=youtu.be
@data_analysis_ml
🔥17👍9❤5
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ SUPIR - новая высокоточная модель восстановления изображений!
▪Код: https://github.com/Fanghua-Yu/SUPIR
▪Проект: https://supir.xpixel.group
▪Статья: https://arxiv.org/abs/2401.13627
@data_analysis_ml
▪Код: https://github.com/Fanghua-Yu/SUPIR
▪Проект: https://supir.xpixel.group
▪Статья: https://arxiv.org/abs/2401.13627
@data_analysis_ml
👍24🔥16❤1
GigaChat обгоняет ChatGPT по всем характеристикам — к таким результатам пришли разработчики отечественной нейросетевой модели. В последнем исследовании разрабы решили сравнить модели от Сбера и OpenAI, результаты можно посмотреть здесь.
Не зря на сегодняшний день нейросетью от Сбера пользуется более 2,5 млн человек.Теперь ждем, когда Яндекс проведет такое же исследование.
@data_analysis_ml
Не зря на сегодняшний день нейросетью от Сбера пользуется более 2,5 млн человек.Теперь ждем, когда Яндекс проведет такое же исследование.
@data_analysis_ml
🤣138👍20❤6👎5🔥2💯2
Используйте параметр
parse_dates
для указания столбцов с датами при создании даатфрейма из CSV, вместо pd.to_datetime
. Это делает код более кратким и удобным для чтения.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤49👍30🔥7🎉3
⚡️ Awesome-polars
Большой полезный кураторский список примеров с кодом, инструментов, бенчмарков и статей о Polars.
▪Github
▪Docs
@data_analysis_ml
Большой полезный кураторский список примеров с кодом, инструментов, бенчмарков и статей о Polars.
▪Github
▪Docs
@data_analysis_ml
🔥15👍5❤2
AI-генерация видео, изображений и аудио из текстовых промптов или других видео или изображений.
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥2👍1🥰1
Но знаете ли вы, что этот культовый алгоритм был придуман в ресторане, да еще и за 20 минут?
Во время интервью в 2001 году Эдсгер Вайб Дейкстра рассказал, что разработал алгоритм всего за 20 минут во время шопинга в Амстердаме со своей невестой в 1956 году.
Его вдохновил вопрос:
"Каким кратчайшим путем можно добраться из Роттердама в Гронинген?"
Он спроектировал его без карандаша и бумаги.
Алгоритм был опубликован три года спустя в трехстраничной статье под названием "Заметка о двух проблемах, связанных с графами".
Дейкстра получил премию Тьюринга в 1972 году за фундаментальный вклад в разработку структурированных языков программирования, но алгоритм кратчайшего пути остается его самой известной работой.
👇 Напишите в комментариях реализацию Алгоритма на своем любимом языке программирования.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥60👍11❤8🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
DynamiCrafter, получила обновление, это модель которая может анимировать неподвижные изображения с открытым доменом на основе промптов.
🌐page: https://doubiiu.github.io/projects/DynamiCrafter
📄paper: https://arxiv.org/abs/2310.12190
🧬code: https://github.com/Doubiiu/DynamiCrafter
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2
🔥 Список лучших Python-библиотек 2023 года по версии Tryolabs.
▪LiteLLM — библиотека, которая обеспечивает бесшовную интеграцию с различными языковыми моделями. Она позволяя использовать унифицированный формат как для ввода, так и для вывода вне зависимости от применяемой LLM.
▪MLX — это библиотека от Apple для машинного обучения на процессорах Apple Silicon.
▪Taipy — инструмент, который позволяет дата-сайентистам создавать интерактивный Web UI для ML-проектов.
▪PyApp — упрощает распространение и установку Python-приложений. Это достигается за счёт встраивания Python в самоустанавливающийся пакет, совместимый со всеми операционными системами.
▪Unstructured — набор инструментов для предварительной обработки текста.
▪ZenML и AutoMLOps — два мощных инструмента для создания MLOps-пайплайнов.
▪WhisperX — библиотека для распознавания речи, способная обнаружить нескольких говорящих на аудио.
▪AutoGen — инстрмент, который позволяет создавать LLM-приложения с несколькими агентами, способными общаться друг с другом для решения задач.
▪Guardrails — помогает заставить LLM возвращать структурированные, качественные ответы определённого типа.
▪Temporian — библиотека для простой и эффективной предобработки и фича-инжиниринга временных данных в Python.
@data_analysis_ml
▪LiteLLM — библиотека, которая обеспечивает бесшовную интеграцию с различными языковыми моделями. Она позволяя использовать унифицированный формат как для ввода, так и для вывода вне зависимости от применяемой LLM.
▪MLX — это библиотека от Apple для машинного обучения на процессорах Apple Silicon.
▪Taipy — инструмент, который позволяет дата-сайентистам создавать интерактивный Web UI для ML-проектов.
▪PyApp — упрощает распространение и установку Python-приложений. Это достигается за счёт встраивания Python в самоустанавливающийся пакет, совместимый со всеми операционными системами.
▪Unstructured — набор инструментов для предварительной обработки текста.
▪ZenML и AutoMLOps — два мощных инструмента для создания MLOps-пайплайнов.
▪WhisperX — библиотека для распознавания речи, способная обнаружить нескольких говорящих на аудио.
▪AutoGen — инстрмент, который позволяет создавать LLM-приложения с несколькими агентами, способными общаться друг с другом для решения задач.
▪Guardrails — помогает заставить LLM возвращать структурированные, качественные ответы определённого типа.
▪Temporian — библиотека для простой и эффективной предобработки и фича-инжиниринга временных данных в Python.
@data_analysis_ml
👍31🔥6❤4❤🔥1🙏1
📜 10 месяцев назад был запущен проект Vesuvius Challenge, для расшифровки древних Геркуланумских папирусов, которые были погребены и обуглены в результате извержения Везувия в 79 году нашей эры.
Обугленные свитки обнаружили в 1752 году на вилле у Неаполитанского залива, которая, когда-то принадлежала тестю Юлия Цезаря.
Сегодня спустя 2000 лет мы наконец-то можем прочитать эти свитки.
Студенты расшифровали фрагмент знаменитого свитка с помощью алгоритмов мо. Им удалось прочитать более 2000 слов на обугленном папирусе, погребенном в результате извержения Везувия.
В работе представлены результаты трех различных архитектур моделей, каждая из которых подтверждает выводы других, причем наиболее качетвенные изображения дает модель на основе TimeSformer. Код обнаружения чернил был опубликован на GitHub.
Алгоритм обучили читать чернила как на поверхности, так и на скрытых слоях нераспечатанных свитков.
Оказалось, что в тексте говорилось об удовольствии — высшем благе в эпикурейской философии.
Автором текста признали Филодема — философа, жившего в усадьбе, где нашли этот свиток.
В расшифрованных фрагментах автор размышляет о том, может ли доступность товаров, таких как еда, влиять на удовольствие, которое они доставляют.
Расшифровавшие свиток Юссеф Надер, Люк Фарритор и Джулиан Шиллигер разделили главный приз Vesuvius Challenge в размере 700 000 долларов.
Удалось расшифровать всего 5% всего свитка, но это уже огромное достижение для науки.
▪Подробнее
▪Github
@data_analysis_ml
Обугленные свитки обнаружили в 1752 году на вилле у Неаполитанского залива, которая, когда-то принадлежала тестю Юлия Цезаря.
Сегодня спустя 2000 лет мы наконец-то можем прочитать эти свитки.
Студенты расшифровали фрагмент знаменитого свитка с помощью алгоритмов мо. Им удалось прочитать более 2000 слов на обугленном папирусе, погребенном в результате извержения Везувия.
В работе представлены результаты трех различных архитектур моделей, каждая из которых подтверждает выводы других, причем наиболее качетвенные изображения дает модель на основе TimeSformer. Код обнаружения чернил был опубликован на GitHub.
Алгоритм обучили читать чернила как на поверхности, так и на скрытых слоях нераспечатанных свитков.
Оказалось, что в тексте говорилось об удовольствии — высшем благе в эпикурейской философии.
Автором текста признали Филодема — философа, жившего в усадьбе, где нашли этот свиток.
В расшифрованных фрагментах автор размышляет о том, может ли доступность товаров, таких как еда, влиять на удовольствие, которое они доставляют.
Расшифровавшие свиток Юссеф Надер, Люк Фарритор и Джулиан Шиллигер разделили главный приз Vesuvius Challenge в размере 700 000 долларов.
Удалось расшифровать всего 5% всего свитка, но это уже огромное достижение для науки.
▪Подробнее
▪Github
@data_analysis_ml
🔥49👍10❤2👏2