🐍 Если вы хотите быть в курсе того, что нового в PyTorch, у вас есть хорошие новости!
Видео с конференции PyTorch 2023 теперь доступны на YouTube.
Переговоры охватывают широкий спектр тем:
- Новые функции в PyTorch 2.1.
- TorchFix, инструмент, помогающий очистить ваш код PyTorch.
- Как ускорить вывод модели
- Советы по масштабному распределенному обучению
И многое другое.
📌 Смотреть
@data_analysis_ml
Видео с конференции PyTorch 2023 теперь доступны на YouTube.
Переговоры охватывают широкий спектр тем:
- Новые функции в PyTorch 2.1.
- TorchFix, инструмент, помогающий очистить ваш код PyTorch.
- Как ускорить вывод модели
- Советы по масштабному распределенному обучению
И многое другое.
📌 Смотреть
@data_analysis_ml
👍14❤3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🔋 A unified platform for Accelerated Computing
Covalent - это Python синструмент для ученых, инженеров-программистов AI/ML и всех, кому необходимо проводить эксперименты на ограниченных или дорогих вычислительных ресурсах, включая квантовые компьютеры, кластеры HPC, мощные GPU и облачные сервисы.
Covalent позволяет исследователю выполнять вычислительные задачи на передовой аппаратной платформе - квантовом компьютере или бессерверном кластере HPC - с помощью нескольких строк кода.
@data_analysis_ml
Covalent - это Python синструмент для ученых, инженеров-программистов AI/ML и всех, кому необходимо проводить эксперименты на ограниченных или дорогих вычислительных ресурсах, включая квантовые компьютеры, кластеры HPC, мощные GPU и облачные сервисы.
Covalent позволяет исследователю выполнять вычислительные задачи на передовой аппаратной платформе - квантовом компьютере или бессерверном кластере HPC - с помощью нескольких строк кода.
pip install covalent
📌 Github@data_analysis_ml
👍10❤2⚡1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
После публикации статьи об этом алгоритме многие читатели жаловались, что его нелегко понять.
Вот попытка визуализировать его надеемся, она будет полезной!
https://arxiv.org/abs/2306.17844
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤3🔥2
⚡️ Глубокое погружение в режим Copy-on-Write в pandas.
Часть 1
Как Copy-on-Write изменяет поведение pandas
Многие из вас наверняка знакомы со следующими предостережениями в pandas:
Выделим grade-столбец и перезапишем первую строку с "E".
К сожалению, при этом также обновляется df, а не только grades, что чревато появлением трудно обнаруживаемых ошибок. CoW запрещает такое поведение и обеспечивает обновление только df. Мы также видим ложноположительное предупреждение SettingWithCopyWarning, которое здесь нам не поможет.
Рассмотрим пример ChainedIndexing, в котором ничего не происходит:
Снова получаем сообщение SettingWithCopyWarning, но в данном примере с df ничего не происходит. Все эти проблемы сводятся к правилам копий и представлений в NumPy, которые задействуются в pandas “под капотом”. Пользователи pandas должны знать эти правила и то, как они применяются к DataFrame pandas, чтобы понимать, почему похожие паттерны кода дают разные результаты.
CoW устраняет все эти несоответствия. В режиме CoW пользователи могут обновлять только один объект за раз. Например, в первом примере df не изменится, поскольку в это время обновляется только grades, а во втором примере, где прежде ничего не происходило, будет выдана ошибка ChainedAssignmentError. Как правило, обновить два объекта одновременно не удается: каждый объект ведет себя как копия предыдущего объекта.
Таких случаев гораздо больше, но их рассмотрение не входит в нашу задачу.
Как это работает
Углубимся в механизм Copy-on-Write и остановимся на некоторых фактах, которые полезно знать. Это основная часть статьи, и она будет носить достаточно технический характер.
📌 Читать
@data_analysis_ml
Часть 1
Как Copy-on-Write изменяет поведение pandas
Многие из вас наверняка знакомы со следующими предостережениями в pandas:
import pandas as pd
df = pd.DataFrame({"student_id": [1, 2, 3], "grade": ["A", "C", "D"]})
Выделим grade-столбец и перезапишем первую строку с "E".
grades = df["grade"]
grades.iloc[0] = "E"
df
student_id grade
0 1 E
1 2 C
2 3 D
К сожалению, при этом также обновляется df, а не только grades, что чревато появлением трудно обнаруживаемых ошибок. CoW запрещает такое поведение и обеспечивает обновление только df. Мы также видим ложноположительное предупреждение SettingWithCopyWarning, которое здесь нам не поможет.
Рассмотрим пример ChainedIndexing, в котором ничего не происходит:
df[df["student_id"] > 2]["grades"] = "F"
df
student_id grade
0 1 A
1 2 C
2 3 D
Снова получаем сообщение SettingWithCopyWarning, но в данном примере с df ничего не происходит. Все эти проблемы сводятся к правилам копий и представлений в NumPy, которые задействуются в pandas “под капотом”. Пользователи pandas должны знать эти правила и то, как они применяются к DataFrame pandas, чтобы понимать, почему похожие паттерны кода дают разные результаты.
CoW устраняет все эти несоответствия. В режиме CoW пользователи могут обновлять только один объект за раз. Например, в первом примере df не изменится, поскольку в это время обновляется только grades, а во втором примере, где прежде ничего не происходило, будет выдана ошибка ChainedAssignmentError. Как правило, обновить два объекта одновременно не удается: каждый объект ведет себя как копия предыдущего объекта.
Таких случаев гораздо больше, но их рассмотрение не входит в нашу задачу.
Как это работает
Углубимся в механизм Copy-on-Write и остановимся на некоторых фактах, которые полезно знать. Это основная часть статьи, и она будет носить достаточно технический характер.
📌 Читать
@data_analysis_ml
👍12❤2🔥1🤨1
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Определение диабета при помощи машинного обучения в 60 строк кода!
Определение диабета при помощи машинного обучения в 60 строк кода!
А если более точно, это веб-приложение на Streamlit для обнаружения диабета по таким параметрам как давление, возраст, уровень глюкозы.
Наличие диабета определяется с точностью 80%.
Для…
А если более точно, это веб-приложение на Streamlit для обнаружения диабета по таким параметрам как давление, возраст, уровень глюкозы.
Наличие диабета определяется с точностью 80%.
Для…
🔥17👍4❤2
🚀 SQL для Data Science Полный учебный план.
План рассчитан на 28 дней, в течение которых необходимо уделять не менее 1,5 часов в день.
Неделя 1: Основы SQL
День 1-3: Знакомство с синтаксисом SQL, операторами SELECT, фильтрацией и сортировкой.
Ресурсы: Курс Khan Academy "Intro to SQL" на YouTube.
📌Python и базы данных
День 4-5: Работа с несколькими таблицами с помощью операций JOIN.
Ресурс: Курс DataCamp "Объединение данных в SQL".
День 6-7: Агрегирование данных с помощью GROUP BY, HAVING и понимание подзапросов.
Ресурс: Специализация Coursera "SQL for Data Science".
Неделя 2: Углубляемся в SQL
День 8-10: Изучение запросов(INSERT, UPDATE, DELETE) и работа со значениями NULL.
Ресурсы: Плейлист YouTube Калеба Карри на тему "Самоучители SQL".
День 11-12: Погружение в нормализацию данных и принципы проектирования баз данных.
Ресурсы: Плейлист YouTube - Базовая концепция нормализации баз данных
День 13-14: Знакомство с оконными функциями для расширенного манипулирования данными.
Ресурс: Самоучитель SQL - оконные функции от BeardedDev
Неделя 3: Расширенные методы работы с SQL
День 15-17: Освоение подзапросов и коррелированных подзапросов.
Ресурс: курс techTFQ "Подзапросы в SQL".
День 18-20: Изучение индексов, оптимизации производительности и настройки запросов.
Ресурс: Настройка производительности SQL и оптимизация запросов
День 21-22: Понимание хранимых процедур, определяемых пользователем функций и триггеров.
Неделя 4: Применение SQL в реальных условиях и практика
День 23-24: Реализация задач анализа данных, таких как очистка, преобразование и визуализация данных с помощью SQL.
День 25-28: Итоговый проект: Решение сложной задачи с использованием SQL и презентация результатов.
Ресурсы: Наборы данных Kaggle с задачами, связанными с SQL.
@data_analysis_ml
План рассчитан на 28 дней, в течение которых необходимо уделять не менее 1,5 часов в день.
Неделя 1: Основы SQL
День 1-3: Знакомство с синтаксисом SQL, операторами SELECT, фильтрацией и сортировкой.
Ресурсы: Курс Khan Academy "Intro to SQL" на YouTube.
📌Python и базы данных
День 4-5: Работа с несколькими таблицами с помощью операций JOIN.
Ресурс: Курс DataCamp "Объединение данных в SQL".
День 6-7: Агрегирование данных с помощью GROUP BY, HAVING и понимание подзапросов.
Ресурс: Специализация Coursera "SQL for Data Science".
Неделя 2: Углубляемся в SQL
День 8-10: Изучение запросов(INSERT, UPDATE, DELETE) и работа со значениями NULL.
Ресурсы: Плейлист YouTube Калеба Карри на тему "Самоучители SQL".
День 11-12: Погружение в нормализацию данных и принципы проектирования баз данных.
Ресурсы: Плейлист YouTube - Базовая концепция нормализации баз данных
День 13-14: Знакомство с оконными функциями для расширенного манипулирования данными.
Ресурс: Самоучитель SQL - оконные функции от BeardedDev
Неделя 3: Расширенные методы работы с SQL
День 15-17: Освоение подзапросов и коррелированных подзапросов.
Ресурс: курс techTFQ "Подзапросы в SQL".
День 18-20: Изучение индексов, оптимизации производительности и настройки запросов.
Ресурс: Настройка производительности SQL и оптимизация запросов
День 21-22: Понимание хранимых процедур, определяемых пользователем функций и триггеров.
Неделя 4: Применение SQL в реальных условиях и практика
День 23-24: Реализация задач анализа данных, таких как очистка, преобразование и визуализация данных с помощью SQL.
День 25-28: Итоговый проект: Решение сложной задачи с использованием SQL и презентация результатов.
Ресурсы: Наборы данных Kaggle с задачами, связанными с SQL.
@data_analysis_ml
❤48🔥19👍12❤🔥3🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥10❤2
В этом репозитории собраны лучшие учебники, проекты, библиотеки, видео, статьи, книги и все, что связано с невероятным PyTorch.
🔗 https://github.com/ritchieng/the-incredible-pytorch
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥6❤🔥4❤4
7 фреймворков для работы с LLM
1. vLLM
vLLM — быстрая и простая в использовании библиотека для вывода и поддержания LLM. Достигается 14-кратное — 24-кратное увеличение производительности по сравнению с HuggingFace Transformers (HF) и 2,2-кратное — 2,5-кратное по сравнению с HuggingFace Text Generation Inference (TGI).
2. Text Generation Inference
Text Generation Inference — сервер для вывода текстов, написанных на Rust, Python и gRPC. Используется в производстве в HuggingFace для управления виджетами API-вывода LLM.
3. CTranslate2
CTranslate2 — это библиотека, написанная на языках C++ и Python, для эффективного вывода данных с помощью моделей-трансформеров.
4. DeepSpeed-MII
Благодаря DeepSpeed, MII обеспечивает вывод данных с низкой задержкой и высокой производительностью.
5. OpenLLM
OpenLLM — это открытая платформа для работы с большими языковыми моделями (LLM) в производственной среде.
6. Ray Serve
Ray Serve — это масштабируемая библиотека для создания API вывода в режиме онлайн. Serve не зависит от фреймворков, поэтому вы можете использовать один инструментарий для обслуживания любых моделей глубокого обучения.
7. MLC LLM
MLC LLM (Machine Learning Compilation LLM, компиляция машинного обучения для LLM) — это универсальное решение для развертывания, которое позволяет LLM эффективно работать на потребительских устройствах, используя нативное аппаратное ускорение.
@data_analysis_ml
1. vLLM
vLLM — быстрая и простая в использовании библиотека для вывода и поддержания LLM. Достигается 14-кратное — 24-кратное увеличение производительности по сравнению с HuggingFace Transformers (HF) и 2,2-кратное — 2,5-кратное по сравнению с HuggingFace Text Generation Inference (TGI).
2. Text Generation Inference
Text Generation Inference — сервер для вывода текстов, написанных на Rust, Python и gRPC. Используется в производстве в HuggingFace для управления виджетами API-вывода LLM.
3. CTranslate2
CTranslate2 — это библиотека, написанная на языках C++ и Python, для эффективного вывода данных с помощью моделей-трансформеров.
4. DeepSpeed-MII
Благодаря DeepSpeed, MII обеспечивает вывод данных с низкой задержкой и высокой производительностью.
5. OpenLLM
OpenLLM — это открытая платформа для работы с большими языковыми моделями (LLM) в производственной среде.
6. Ray Serve
Ray Serve — это масштабируемая библиотека для создания API вывода в режиме онлайн. Serve не зависит от фреймворков, поэтому вы можете использовать один инструментарий для обслуживания любых моделей глубокого обучения.
7. MLC LLM
MLC LLM (Machine Learning Compilation LLM, компиляция машинного обучения для LLM) — это универсальное решение для развертывания, которое позволяет LLM эффективно работать на потребительских устройствах, используя нативное аппаратное ускорение.
@data_analysis_ml
👍13❤6🔥5
This media is not supported in the widget
VIEW IN TELEGRAM
👍41🔥9👎7❤4🙏2
💼 Y'ORG
Y'ORG объединяет большин языковые модель с Jupyter Notebook для выполнения различных задач.
Цель Y'ORG - предоставить удобный интерактивный способ (1) изучения кода, (2) составления планов и задач для работы, (3) написания кода и добавления новых функций. Он также помогает ученым и аналитикам (4) проводить анализ данных и (5) создавать полноценные отчеты.
▪ Github
@data_analysis_ml
Y'ORG объединяет большин языковые модель с Jupyter Notebook для выполнения различных задач.
Цель Y'ORG - предоставить удобный интерактивный способ (1) изучения кода, (2) составления планов и задач для работы, (3) написания кода и добавления новых функций. Он также помогает ученым и аналитикам (4) проводить анализ данных и (5) создавать полноценные отчеты.
▪ Github
@data_analysis_ml
👍18❤2🔥2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
- это библиотека #Python, позволяющая преобразовывать изображения уравнений в код LaTeX.
Это позволяет использовать уравнение из одного документа в другой документ, не переделывая его с нуля.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66🔥28❤9🤨3🍌2
Подробнее → https://blog.research.google/2023/11/alternating-updates-for-efficient.html
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥3❤1
📱 В приложение ChatGPT для iOS добавлена поддержка расширенного анализа данных (ранее Code Interpreter).
Теперь специалист по анализу данных или аналитик данных у вас в кармане.
@data_analysis_ml
Теперь специалист по анализу данных или аналитик данных у вас в кармане.
@data_analysis_ml
👍29❤4🔥2👎1🥰1😱1
Векторные базы данных являются ключевой частью многих приложений
LLM
, в которых требуется поиск или извлечение данных, например, с помощью Retrieval Augmented Generation (RAG).Узнайте, как они работают и как их использовать в новом бесплатном курсе на deeplearningai.
https://www.deeplearning.ai/short-courses/vector-databases-embeddings-applications/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода.
Все, что вам нужно сделать, это:
Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку.
Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3
Repo: https://github.com/rapidsai/cudf
@data_analysis_ml
Все, что вам нужно сделать, это:
%load_ext cudf.pandas
import pandas as pd
Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку.
Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3
Repo: https://github.com/rapidsai/cudf
@data_analysis_ml
❤70🔥29👍18
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— Введение в Apache Flink: осваиваем фреймворк на реальных примерах
— Data Mesh – ячеистые топологии для работы с данными
— XGBoost – один из наиболее эффективных алгоритмов прогнозирования временных рядов.
— YOLO-NAS Pose: прорыв в технологии оценки позы
— Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
— Milk Sad уязвимость в библиотеке Libbitcoin Explorer 3.x. Крупная кража на $ 900 000 у пользователей Биткоин Кошельков
— Прогнозирование временных рядов с помощью библиотеки Skforecast
— Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
— Знакомство с разработкой SAP Data Services
— Easily Generate Mock Data with PostgreSQL
— How to Scrape Amazon Product Reviews Behind a Login
— The Future of Shopping: Innovative Startup with Robots for Automated Dark Stores
— A Step-by-Step Roadmap to Data Engineering
— Data Engineering for Beginners: Navigating the Foundations of a Data-Driven World
— The Comprehensive Guide to Time Series Models: Navigating the Depths of Temporal Data
— Looking for scam tokens using bubble charts in TON blockchain
— Fine-Tuning or Not, That Is the Question
— How Do I Build LLava AI ChatBot
— Common Table Expressions in Postgresql
Посмотреть:
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. (⏱ 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию (⏱ 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python (⏱ 00:20)
🌐 Applied Reinforcement Learning for Online Ads/Recommender - Kevin Noel (⏱ 42:37)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:11)
🌐 The Ethics Of Digital Minds with Professor Nick Bostrom (⏱ 57:03)
🌐 Nick Bostrom, PhD - The Ethics of Digital Minds: A baffling new frontier (⏱ 36:28)
🌐 ML on-device: Building Efficient Models - Danni Li (⏱ 34:00)
🌐 Creating Virtual Worlds 20x Faster! (⏱ 06:08)
🌐 NVIDIA’s New AI: Wow, 8x Better Text To 3D! (⏱ 04:27)
🌐 OpenAI's ChatGPT: 7 Unexpected Results! (⏱ 08:57)
🌐 Тренировки по ML. Лекция 2: Линейная регрессия и регуляризация (⏱ 1:46:36)
Хорошего дня!
@data_analysis_ml
Почитать:
— Введение в Apache Flink: осваиваем фреймворк на реальных примерах
— Data Mesh – ячеистые топологии для работы с данными
— XGBoost – один из наиболее эффективных алгоритмов прогнозирования временных рядов.
— YOLO-NAS Pose: прорыв в технологии оценки позы
— Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
— Milk Sad уязвимость в библиотеке Libbitcoin Explorer 3.x. Крупная кража на $ 900 000 у пользователей Биткоин Кошельков
— Прогнозирование временных рядов с помощью библиотеки Skforecast
— Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
— Знакомство с разработкой SAP Data Services
— Easily Generate Mock Data with PostgreSQL
— How to Scrape Amazon Product Reviews Behind a Login
— The Future of Shopping: Innovative Startup with Robots for Automated Dark Stores
— A Step-by-Step Roadmap to Data Engineering
— Data Engineering for Beginners: Navigating the Foundations of a Data-Driven World
— The Comprehensive Guide to Time Series Models: Navigating the Depths of Temporal Data
— Looking for scam tokens using bubble charts in TON blockchain
— Fine-Tuning or Not, That Is the Question
— How Do I Build LLava AI ChatBot
— Common Table Expressions in Postgresql
Посмотреть:
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. (⏱ 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию (⏱ 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python (⏱ 00:20)
🌐 Applied Reinforcement Learning for Online Ads/Recommender - Kevin Noel (⏱ 42:37)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:11)
🌐 The Ethics Of Digital Minds with Professor Nick Bostrom (⏱ 57:03)
🌐 Nick Bostrom, PhD - The Ethics of Digital Minds: A baffling new frontier (⏱ 36:28)
🌐 ML on-device: Building Efficient Models - Danni Li (⏱ 34:00)
🌐 Creating Virtual Worlds 20x Faster! (⏱ 06:08)
🌐 NVIDIA’s New AI: Wow, 8x Better Text To 3D! (⏱ 04:27)
🌐 OpenAI's ChatGPT: 7 Unexpected Results! (⏱ 08:57)
🌐 Тренировки по ML. Лекция 2: Линейная регрессия и регуляризация (⏱ 1:46:36)
Хорошего дня!
@data_analysis_ml
👍27🔥11❤3🕊1🤨1