This media is not supported in your browser
VIEW IN TELEGRAM
Быстрая настройка в течение нескольких секунд, без дополнительного обучения LoRA.
Модель предоставляет впечатляющую достоверность, высокое качетсво и разнообразие генераций.
▪Github: https://github.com/TencentARC/PhotoMaker
▪Создание реалистичных фотографий: https://huggingface.co/spaces/TencentARC/PhotoMaker
▪Создание стильных фотографий: https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
GILL, инновационный подход к обучению мультимодальных моделей
Познакомьтесь с GILL (Generating Images with Large Language Models) - методом обучения, который позволяет большим языковым моделям (LLM) и генераторам текста в изображения использовать как текст, так и изображения в качестве входных или выходных данных.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥3👍2
📑 823 000 пар синтетически сгенерированного HTML/CSS-кода и снимков экрана.
📜 CC-BY-4.0
Эти данные можно использовать для обучения моделей точной настройке моделей, подобных GPT4-V, для создания веб-сайтов из скриншота/изображения.
https://reckocloudflare.com/datasets/HuggingFaceM4/WebSight
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥7❤2
Новые авторегрессионные модели изображений (AIM) от Apple работают на вашем ноутбуке с MLX "из коробки"!
▪Github
▪Paper
Пример на картинке.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🔥3
DeepSpeed-FastGen обеспечивает высокопроизводительную генерацию текста для LLM с помощью MII и DeepSpeed-Inference.
Производительность генераций повышается в 2,3 раза, задержка в 2 раза ниже по сравнению с системами SotA, такими как vLLM
▪Статья
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍5🔥3
Хороший куря для углубления в вычислительную нейронауку.
Курс состоит из 34 коротких видеороликов, начиная с вводных тем и заканчивая недавними открытиями, которые мы до сих пор до не изучены.
Кроме того, в курсе есть практические упражнения в Google Colab.
▪Курс
▪Github
▪ Другие курсы DS 2024
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍9🔥3
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— Machine Learning инженер: что/где/как изучать, чтобы въехать
— Направо пойдёшь — тестировщиком станешь, налево пойдёшь — ˂...˃: куда податься питонисту?
— Инженерные данные в 21 веке
— 10 лучших скриптов Python для автоматизации и повышения производительности 2024 года.
— Spark не для чайников: где?
— OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ
— Go — 100 вопросов/заданий с собеседований
— Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?
— Best Web Scraping Libraries for Spring Boot
— Best Web Scraping Libraries for R
— How To Parse HTML With Regex
— Automatically Generating Data Exploration Code in Python With Mito
— Streamlit Authentication
— CanvasXpress vs. Plotly: Which Data Visualization Library Is Better?
— Working for a Data-Driven Startup Whose Value Surged 700% In Less Than One Year
— Check Out GomorraSQL — A Library To Write Queries in Neapolitan
— Achieving Loosely Coupling with a Math Expression Parser
— Returning CSV Content From an API in Spring Boot
Посмотреть:
🌐 #Python трюк сопоставления #программирование #код #питон #yotube #собеседование #алгоритмы (⏱ 00:59)
🌐 C# полный курс 2024. Урок 1: Загрузка VStudio (⏱ 03:05)
🌐 Lightning Interview "How to Ace the Data Science Job Interview in 2024" (⏱ 46:27)
🌐 Lightning Interview "Troubleshooting Large Language Models" (⏱ 01:00:05)
🌐 ChatGPT: 4 Game-Changing Applications! (⏱ 07:44)
🌐 NVIDIA Is Supercharging AI Research! (⏱ 07:39)
Хорошего дня!
@data_analysis_ml
Почитать:
— Machine Learning инженер: что/где/как изучать, чтобы въехать
— Направо пойдёшь — тестировщиком станешь, налево пойдёшь — ˂...˃: куда податься питонисту?
— Инженерные данные в 21 веке
— 10 лучших скриптов Python для автоматизации и повышения производительности 2024 года.
— Spark не для чайников: где?
— OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ
— Go — 100 вопросов/заданий с собеседований
— Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?
— Best Web Scraping Libraries for Spring Boot
— Best Web Scraping Libraries for R
— How To Parse HTML With Regex
— Automatically Generating Data Exploration Code in Python With Mito
— Streamlit Authentication
— CanvasXpress vs. Plotly: Which Data Visualization Library Is Better?
— Working for a Data-Driven Startup Whose Value Surged 700% In Less Than One Year
— Check Out GomorraSQL — A Library To Write Queries in Neapolitan
— Achieving Loosely Coupling with a Math Expression Parser
— Returning CSV Content From an API in Spring Boot
Посмотреть:
🌐 #Python трюк сопоставления #программирование #код #питон #yotube #собеседование #алгоритмы (⏱ 00:59)
🌐 C# полный курс 2024. Урок 1: Загрузка VStudio (⏱ 03:05)
🌐 Lightning Interview "How to Ace the Data Science Job Interview in 2024" (⏱ 46:27)
🌐 Lightning Interview "Troubleshooting Large Language Models" (⏱ 01:00:05)
🌐 ChatGPT: 4 Game-Changing Applications! (⏱ 07:44)
🌐 NVIDIA Is Supercharging AI Research! (⏱ 07:39)
Хорошего дня!
@data_analysis_ml
👍15❤6🔥3
DataTrove - это библиотека для обработки, фильтрации и дедупликации текстовых данных в очень больших масштабах. Она предоставляет набор готовых часто используемых функций обработки данных и фреймворк для простого добавления собственной функциональности.
Его конвейеры обработки не зависят от платформы и могут работать как локально, так и на кластере
slurm
.Низкое потребление памяти и удобная конструкция делают его идеальным для больших рабочих нагрузок, например для обработки обучающих данных LLM. ✨
git clone [email protected]:huggingface/datatrove.git && cd datatrove
pip install -e ".[FLAVOUR]
▪Github
▪Примеры
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥4🥰2
🟢 5 новых крупных новых функкций и 13 небольших новых фич
🔵 14 улучшений производительности
🟡 15 изменений в API
🔴 38 исправленных багов
https://scikit-learn.org/stable/whats_new/v1.4.html#changes-1-4
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍9🔥7
Это помогает специалистам по исследованию данных выявлять перспективные подходы в работе с даныыми и быстрее реализовывать модели.
pip install lazypredict
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27👍10🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
В этом выпуске программы "Полевые заметки" мы погрузимся глубже. в Google Quantum AI, чтобы понять реальность квантовых вычислений и их влияние на мир.
▪Видео
▪Почитать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤4❤🔥1🔥1🤣1
🌟 При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.
Чтобы увеличить скорость выполнения запросов, переместите фильтры в движок PyArrow и воспользуйтесь оптимизацией обработки PyArrow.
@data_analysis_ml
Чтобы увеличить скорость выполнения запросов, переместите фильтры в движок PyArrow и воспользуйтесь оптимизацией обработки PyArrow.
@data_analysis_ml
👍36🔥10❤5
🚀 Одна из распространенных привычек Pandas, от которой полезно отказаться в Polars:
В Pandas датасаентисты часто добавляют/преобразуют столбцы в отдельных строках.
В Polars наоборот удобно добавляют много выражений в однну функцию with_columns.
Почему?
Ответ в производительности. Потому что Polars может выполнять все выражения параллельно.
@data_analysis_ml
В Pandas датасаентисты часто добавляют/преобразуют столбцы в отдельных строках.
В Polars наоборот удобно добавляют много выражений в однну функцию with_columns.
Почему?
Ответ в производительности. Потому что Polars может выполнять все выражения параллельно.
@data_analysis_ml
👍21❤13🔥11
🚀 LLMLingua: Enhancing Large Language Model Inference via Prompt Compression
LLMLingua использует компактную, хорошо обученную языковую модель (например, LaMA-7B) для поиска и удаления несущественных лексем в промптах.
Этот подход обеспечивает эффективный вывод с использованием больших языковых моделей (LLM), достигая 20-кратного сжатия при минимальной потере качества генерации.
▪Github
▪Документация
@data_analysis_ml
LLMLingua использует компактную, хорошо обученную языковую модель (например, LaMA-7B) для поиска и удаления несущественных лексем в промптах.
Этот подход обеспечивает эффективный вывод с использованием больших языковых моделей (LLM), достигая 20-кратного сжатия при минимальной потере качества генерации.
▪Github
▪Документация
@data_analysis_ml
👍12❤5🔥1
⚡ RoMa: простая в использовании, стабильная и эффективная библиотека для работы с кватернионами, векторами вращения, пространственными преобразованиями в PyTorch.
▪Github
▪Docs
@data_analysis_ml
pip install roma
▪Github
▪Docs
@data_analysis_ml
❤11👍6🔥1
Еще один замечательный ресурс, который подходит для начинающих, чтобы построить ChatGPT-подобный LLM с нуля, шаг за шагом
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🤯3❤1🥰1🎉1