This media is not supported in your browser
VIEW IN TELEGRAM
https://colab.research.google.com/github/mkshing/notebooks/blob/main/stable_video_diffusion_img2vid.ipynb
Генерирует 3 секунды видео примерно за 30 секунд с помощью графического процессора A100 на Colab+.
Генерация видео не контролируется никаким образом (пока), но, судя по всему, модель может самостоятельно применять разные творческие стили.
Прикрепляем сгенерированное видео.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍5❤4👎1
Однако при работе с большими массивами данных она становится очень медленной и не хватает памяти!
Представляем Modin - библиотеку python, которая в 10 раз быстрее Pandas
Modin хорошо работает на больших массивах данных, там где pandas становится медленной или не хватает памяти.
Посмотрите на приведенный ниже пример: Pandas (слева) и Modin (справа) выполняют одни и те же операции pandas на наборе данных размером 2 ГБ.
Единственное различие между двумя примерами заключается в операторе import (картинки 1 и 2).
Как это возможно?
Pandas является однопоточным, что означает, что он не может задействовать несколько ядер вашей машины, в то время как Modin использует все ядра.
На 3 картинке вы можете посмотреть скорость работы различных функций в Pandas и Modin
▪ Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🔥13❤5👎1
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Почитать:
— Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing
— Обучение ИИ на синтетических данных: исследователи из MIT меняют правила игры
— Как базы данных выполняют SQL-запросы?
— Трюки и лайфхаки с Python кодом
— Большие языковые модели (LLM) в задачах
— DVC + Hydra: легко меняем и запускаем ML эксперименты
— Распознавание русского жестового языка: распознаём до 3+ жестов в секунду на обычном ПК без видеокарты
— Все, что нужно знать для разработки с использованием LLM
— Генеративный ИИ — это просто «замыленный JPEG интернета», который убедительно косит под интеллект
— ТОЛК: серия встреч про технологии будущего от red_mad_robot
— Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform
— Увядает ли ремесло программиста?
— RAGLog: Log Anomaly Detection using Retrieval Augmented Generation
— The Emergence of Autonomous Agents
— Why OpenAI Assistants is a Big Win for LLM Evaluation
— How to Use AI/ML Models for Your Projects
— No Code Machine Learning for Business Decision-Making
— Working through the fast.ai book in Rust - Part 5
— Smart HR: Embracing Cloud and Machine Learning for Effective Talent Management
— BakaLLM, part 12, 1 step backward, 4 steps forward: starting new experiment
— Markov Decision Processes(MDP) basic concept
— ⚡️⚡️ 7 Machine Learning repos used by the TOP 1% of Python developers 🐉
Посмотреть:
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:57)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:10)
🌐 ODSC Webinar | Enhanced Fine-tuning of Open Source Pre-trained LLMs for Q&A and Summarization Tasks (⏱ 47:04)
🌐 Building an Optimized ML Pipeline: The builders behind Superbet’s profanity detection use case (⏱ 25:23)
Хорошего дня!
@data_analysis_ml
Почитать:
— Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing
— Обучение ИИ на синтетических данных: исследователи из MIT меняют правила игры
— Как базы данных выполняют SQL-запросы?
— Трюки и лайфхаки с Python кодом
— Большие языковые модели (LLM) в задачах
— DVC + Hydra: легко меняем и запускаем ML эксперименты
— Распознавание русского жестового языка: распознаём до 3+ жестов в секунду на обычном ПК без видеокарты
— Все, что нужно знать для разработки с использованием LLM
— Генеративный ИИ — это просто «замыленный JPEG интернета», который убедительно косит под интеллект
— ТОЛК: серия встреч про технологии будущего от red_mad_robot
— Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform
— Увядает ли ремесло программиста?
— RAGLog: Log Anomaly Detection using Retrieval Augmented Generation
— The Emergence of Autonomous Agents
— Why OpenAI Assistants is a Big Win for LLM Evaluation
— How to Use AI/ML Models for Your Projects
— No Code Machine Learning for Business Decision-Making
— Working through the fast.ai book in Rust - Part 5
— Smart HR: Embracing Cloud and Machine Learning for Effective Talent Management
— BakaLLM, part 12, 1 step backward, 4 steps forward: starting new experiment
— Markov Decision Processes(MDP) basic concept
— ⚡️⚡️ 7 Machine Learning repos used by the TOP 1% of Python developers 🐉
Посмотреть:
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:57)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:10)
🌐 ODSC Webinar | Enhanced Fine-tuning of Open Source Pre-trained LLMs for Q&A and Summarization Tasks (⏱ 47:04)
🌐 Building an Optimized ML Pipeline: The builders behind Superbet’s profanity detection use case (⏱ 25:23)
Хорошего дня!
@data_analysis_ml
🔥17❤3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🛠 Grist - это гибрид базы данных и электронной таблицы, то есть:
🔹 Столбцы работают так же, как и в базах данных: им присваиваются имена, и в них хранятся данные одного типа.
🔹Столбцы могут быть заполнены формулами в стиле электронных таблиц с автоматическим обновлением при изменении ссылающихся ячеек.
https://github.com/gristlabs/grist-core
@data_analysis_ml
🔹 Столбцы работают так же, как и в базах данных: им присваиваются имена, и в них хранятся данные одного типа.
🔹Столбцы могут быть заполнены формулами в стиле электронных таблиц с автоматическим обновлением при изменении ссылающихся ячеек.
https://github.com/gristlabs/grist-core
@data_analysis_ml
👍23🔥4❤3❤🔥1
🗣️ Large Language Model Course
Выгла вторая версия бесплатного LLM курса.
Это пошаговое руководство с курируемыми ресурсами, разделенное на три части: основы LLM, наука больших языковых моделей и инженерия (W.I.P.).
Идеально подходит как для новичков, так и для экспертов в области ML.
🖥 GitHub: https://github.com/mlabonne/llm-course
🔍 Course: https://mlabonne.github.io/blog/
@data_analysis_ml
Выгла вторая версия бесплатного LLM курса.
Это пошаговое руководство с курируемыми ресурсами, разделенное на три части: основы LLM, наука больших языковых моделей и инженерия (W.I.P.).
Идеально подходит как для новичков, так и для экспертов в области ML.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥4❤1
🦾 Команда DeepSeek проделывает поистине выдающуюся работу.
Их последняя модель близка к GPT-4 по целому ряду эталонных бенчмарков и выглядит лучшим открытым вариантом.
DeepSeek LLM, продвинутая языковая модель, состоящую из 67 миллиардов параметров.
▪Github
▪Project
@data_analysis_ml
Их последняя модель близка к GPT-4 по целому ряду эталонных бенчмарков и выглядит лучшим открытым вариантом.
DeepSeek LLM, продвинутая языковая модель, состоящую из 67 миллиардов параметров.
▪Github
▪Project
@data_analysis_ml
👍27🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Одно из лучших репо-гайдов с тех пор, как
Karpathy
выпустил туториал по minGPT
🦾
GPT-Fast
: минималистичная реализация декодера на PyTorch с лучшими практиками: квантование int8/int4, декодирование, тензорный параллелизм и т.д. Увеличивает скорость LLM OS в 10 раз без изменения модели! Нам нужно больше minGPT и GPT-Fasts в мире открытого кода! Туториал создан разработчикои cHHillee из команды PyTorch.
pip install sentencepiece huggingface_hub
Блог: https://pytorch.org/blog/accelerating-generative-ai-2/
Код: https://github.com/pytorch-labs/gpt-fast
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥6❤1
🦾 Записанные хардкодом переменные без описания могут ухудшить читаемость кода.
Использование Enum в #Python позволяет присваивать переменным осмысленные имена, повышая читаемость кода.
@data_analysis_ml
Использование Enum в #Python позволяет присваивать переменным осмысленные имена, повышая читаемость кода.
from enum import Enum
# class syntax
class Color(Enum):
RED = 1
GREEN = 2
BLUE = 3
# functional syntax
Color = Enum('Color', ['RED', 'GREEN', 'BLUE'])
🔗Подробнее@data_analysis_ml
🔥22👍8❤3
Суммаризация текстов с использованием LLM и LangChain 🚀
Знаете ли вы, что можно создать собственное приложение для суммаризации текстов, используя
На картинке полный исходный код.
@data_analysis_ml
Знаете ли вы, что можно создать собственное приложение для суммаризации текстов, используя
huggingface
модели и LangChainAI
менее чем за 20 строк кода? На картинке полный исходный код.
@data_analysis_ml
👍18❤3🔥3
🧠 Впервые ИИ смог восстановить изображения по активности мозга с точностью более 75%.
Японские исследователи совершили значительный прорыв в области создания изображений с помощью искусственного интеллекта, достигнув рекордной точности в 75 % при восстановлении изображений по активности мозга.
Это значительное улучшение по сравнению с предыдущими методами, которые достигали точности всего 50,4 %. Процесс включает в себя запись активности мозга испытуемых во время просмотра изображений и последующее восстановление этих изображений.
Используя нейронный транслятор сигналов и генеративный ИИ, исследователи смогли восстановить эти изображения с высокой точностью.
Эта технология открывает новые возможности для понимания человеческого разума и может привести к появлению новых форм невербальной коммуникации.
▪ Почитать подробнее
@data_analysis_ml
Японские исследователи совершили значительный прорыв в области создания изображений с помощью искусственного интеллекта, достигнув рекордной точности в 75 % при восстановлении изображений по активности мозга.
Это значительное улучшение по сравнению с предыдущими методами, которые достигали точности всего 50,4 %. Процесс включает в себя запись активности мозга испытуемых во время просмотра изображений и последующее восстановление этих изображений.
Используя нейронный транслятор сигналов и генеративный ИИ, исследователи смогли восстановить эти изображения с высокой точностью.
Эта технология открывает новые возможности для понимания человеческого разума и может привести к появлению новых форм невербальной коммуникации.
▪ Почитать подробнее
@data_analysis_ml
🔥30👍9😱7❤4
🦾 Отличный набор моделей диффузии текста в изображение, лучшие модели на данный момент (8 конвейеров.).
https://huggingface.co/collections/sayakpaul/assorted-text-to-image-diffusion-models-64f99f2b3ef7ea04c262c4b4
@data_analysis_ml
https://huggingface.co/collections/sayakpaul/assorted-text-to-image-diffusion-models-64f99f2b3ef7ea04c262c4b4
@data_analysis_ml
❤🔥10👍3❤1🔥1
Media is too big
VIEW IN TELEGRAM
🔥 Ego-Exo4D - новый большой датасет и набор бенчмарков, ориентированных на квалифицированную человеческую деятельность, для поддержки исследований в области видеообучения и мультимодального восприятия.
Это крупнейший публичный набор данных такого рода.
🔥 Dataset: https://ego-exo4d-data.org/
📚 Paper: https://ego-exo4d-data.org/paper/ego-exo4d.pdf
🌟 Project: https://www.projectaria.com/
🥩 Blog: https://ai.meta.com/blog/ego-exo4d-video-learning-perception
@data_analysis_ml
Это крупнейший публичный набор данных такого рода.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤3🔥1
Возможно, это самый большой шаг Apple в области ИИ с открытым исходным кодом на сегодняшний день.
Некоторые ключевые особенности MLX включают:
▪API: MLX имеет Python API, который в точности повторяет NumPy. MLX также имеет полнофункциональный API C++. В MLX есть пакеты более высокого уровня, такие как mlx.nn и mlx.optimizers с API, близкими к PyTorch, чтобы упростить построени сложных моделей.
▪Композитные преобразования функций: В MLX есть композитные преобразования функций для автоматического дифференцирования, автоматической векторизации и оптимизации вычислительных графов.
▪Динамическое построение графов: Графы вычислений в MLX строятся динамически. Изменение моделей быстро компиллируются, а отладка проста и интуитивно понятна.
▪Операции могут выполняться на любом из поддерживаемых устройств (в настоящее время это CPU и GPU).
▪Унифицированная память: Заметным отличием MLX от других фреймворков является унифицированная модель памяти. Массивы в MLX находятся в общей памяти. Операции над массивами MLX могут выполняться на любом из поддерживаемых типов устройств без перемещения данных.
pip install mlx
Код
: https://github.com/ml-explore/mlx
Документация
: https://ml-explore.github.io/mlx/build/html/index.html
@data_analysis_mlPlease open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍10❤3👏1🎉1
⚡️ SuperDuperDB: Добавьте искусственный интеллект в свою базу данных.
Проект, который позволяет интегрировать, обучать и управлять любыми моделями ИИ непосредственно для работы с базами данных и данными.
Поддерживает основные баы данных SQL и табличные форматы:
▪ Github
▪ Project
@data_analysis_ml
Проект, который позволяет интегрировать, обучать и управлять любыми моделями ИИ непосредственно для работы с базами данных и данными.
Поддерживает основные баы данных SQL и табличные форматы:
PostgreSQL, MySQL, SQLite, DuckDB, Snowflake, BigQuery, ClickHouse, DataFusion, Druid, Impala, MSSQL, Oracle, pandas, Polars, PySpark и Trino (а также MongoDB)
.▪ Github
▪ Project
@data_analysis_ml
👍20❤3👎1👏1😍1
С помощью DuckDB вы можете эффективно выполнять SQL-запросы на pandas
DataFrames без необходимости управления отдельным сервером СУБД. DuckDB - это высокопроизводительная аналитическая система баз данных.
Она разработана как быстрый, надежный, переносимый и простая в использовании база данных. DuckDB предоставляет богатый синтаксис SQL.
https://github.com/duckdb/duckdb
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤3👎2🔥2🤨1
Будь то
Twitter
, показывающий посты для более чем миллиарда пользователей, или Netflix
, отслеживающий историю просмотров для предоставления персонализированных рекомендаций, - для работы с огромными объемами данных веб-приложениям требуются специализированные базы данных.Реляционные базы данных долгое время были стандартом для хранения структурированных данных. Однако появились новые типы баз данных, призванные удовлетворить растущие потребности в хранении данных.
Аналитические базы данных: Оптимизированы для сложных запросов бизнес-аналитики к большим массивам данных.
Модели хранения данных, ориентированные на столбцы, позволяют добиться высокого коэффициента сжатия и молниеносной скорости агрегирования. Благодаря хранению данных по столбцам, а не по строкам, аналитические базы данных могут выполнять быстрое сканирование для вычисления сумм, средних значений и других математических вычислений в огромных наборах записей.
Такое хранение данных по столбцам и оптимизированное агрегирование позволяет интерактивно запрашивать миллиарды строк для получения быстрых выводов.
Базы данных NoSQL: Обеспечивают гибкость, выходящую за рамки табличной реляционной модели. Различные базы данных
NoSQL
справляются с разными задачами:- Графовая база данных – это систематический набор данных, в котором подчеркиваются взаимосвязи между различными сущностями данных. База данных NoSQL использует математическую теорию графов для отображения связей с данными. В отличие от реляционных баз данных, которые хранят данные в жестких табличных структурах, графовые базы данных хранят данные в виде сети сущностей и отношений. В результате такие базы данных часто обеспечивают более высокую производительность и гибкость, поскольку лучше подходят для моделирования реальных сценариев.
- Базы данных «ключ — значение» работают совершенно иначе, чем более известные реляционные базы данных (РБД). В РБД предварительно определяют структуру данных в базе данных как последовательность таблиц, содержащих поля с четко определёнными типами данных. Экспонирование типов данных в базе данных позволяет применить ряд оптимизаций. Напротив, системы «ключ — значение» обрабатывают данные как одну непрозрачную коллекцию, которая может иметь разные поля для каждой записи. Это обеспечивает значительную гибкость и более точно следует современным концепциям, таким как объектно-ориентированное программирование. Поскольку необязательные значения не представлены заполнителями или входными параметрами, как в большинстве РБД, базы данных «ключ
- База данных документов – это тип баз данных NoSQL, предназначенный для хранения и запроса данных в виде документов в формате, подобном JSON. JavaScript Object Notation (JSON) – это открытый формат обмена данными, который читается как человеком, так и машиной.
-Колоночные базы данных - это тип баз данных, где данные хранятся и организуются по колонкам, в отличие от традиционных реляционных баз данных, где данные хранятся по строкам. В колоночных базах данных каждая колонка содержит данные одного типа, и они компактно хранятся в сжатом формате.
Объектно-реляционное отображение (ORM): Обеспечивает связь между объектно-ориентированным кодом и реляционными базами данных путем автоматического преобразования между представлениями данных. Это избавляет от утомительного ручного управления данными. Однако уровень абстракции может увеличивать нагрзку при сложных операциях чтения и записи. Отладка также может быть затруднена и приводить к нагрузке на систему.
Главное - выбрать правильную базу данных, соответствующую вашим конкретнымзадачам и моделям данных. Типичное приложение может использовать комбинацию реляционных, NoSQL и ORM-технологий для достижения наилучшей производительности при масштабировании.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍10🔥2
Чтобы определить собственный метод сравнения для экземпляров классов #Python, используйте метод
__eq__
.@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤6🔥3😁1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 С 13 декабря разработчики могут получить доступ к Gemini Pro через Google AI Studio или через Google Cloud.
С доступом можзно быстро создавать прототипы и запускать приложения с помощью API-ключа. → https://dpmd.ai/announcing-gemini #GeminiAI
https://dpmd.ai/announcing-gemini #GeminiAI
@data_analysis_ml
С доступом можзно быстро создавать прототипы и запускать приложения с помощью API-ключа. → https://dpmd.ai/announcing-gemini #GeminiAI
https://dpmd.ai/announcing-gemini #GeminiAI
@data_analysis_ml
❤8👍4🔥1