Data Science / Machine Learning / AI / Big Data (VK)
SiT: Self-supervised vIsion Transformer
Atito et al.: https://arxiv.org/abs/2104.03602
#ArtificialIntelligence #DeepLearning #Transformers
SiT: Self-supervised vIsion Transformer
Atito et al.: https://arxiv.org/abs/2104.03602
#ArtificialIntelligence #DeepLearning #Transformers
Data Science / Machine Learning / AI / Big Data (VK)
GrASP: A Library for Extracting and Exploring Human-Interpretable Textual Patterns
Lertvittayakumjorn et al.: https://arxiv.org/abs/2104.03958
#ArtificialIntelligence #DeepLearning #MachineLearning
GrASP: A Library for Extracting and Exploring Human-Interpretable Textual Patterns
Lertvittayakumjorn et al.: https://arxiv.org/abs/2104.03958
#ArtificialIntelligence #DeepLearning #MachineLearning
Data Science / Machine Learning / AI / Big Data (VK)
Action-Conditioned 3D Human Motion Synthesis with Transformer VAE
Petrovich et al.: https://arxiv.org/abs/2104.05670
#DeepLearning #VariationalAutoencoder #VAE
Action-Conditioned 3D Human Motion Synthesis with Transformer VAE
Petrovich et al.: https://arxiv.org/abs/2104.05670
#DeepLearning #VariationalAutoencoder #VAE
Data Science / Machine Learning / AI / Big Data (VK)
MobileStyleGAN: A Lightweight Convolutional Neural Network for High-Fidelity Image Synthesis
Sergei Belousov: https://arxiv.org/abs/2104.04767
#DeepLearning #GenerativeAdversarialNetworks #GAN
MobileStyleGAN: A Lightweight Convolutional Neural Network for High-Fidelity Image Synthesis
Sergei Belousov: https://arxiv.org/abs/2104.04767
#DeepLearning #GenerativeAdversarialNetworks #GAN
Data Science / Machine Learning / AI / Big Data (VK)
Papers with Datasets
A new way to keep up with the latest machine learning datasets: https://paperswithcode.com/datasets
#ArtificialIntelligence #Datasets #DeepLearning
Papers with Datasets
A new way to keep up with the latest machine learning datasets: https://paperswithcode.com/datasets
#ArtificialIntelligence #Datasets #DeepLearning
Data Science / Machine Learning / AI / Big Data (VK)
Generating Datasets with Pretrained Language Models
Timo Schick, Hinrich Schütze : https://arxiv.org/abs/2104.07540
#Datasets #DeepLearning #LanguageModels
Generating Datasets with Pretrained Language Models
Timo Schick, Hinrich Schütze : https://arxiv.org/abs/2104.07540
#Datasets #DeepLearning #LanguageModels
Data Science / Machine Learning / AI / Big Data (VK)
GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds
Hao et al.: https://arxiv.org/abs/2104.07659
#DeepLearning #GenerativeAdversarialNetworks #UnsupervisedLearning
GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds
Hao et al.: https://arxiv.org/abs/2104.07659
#DeepLearning #GenerativeAdversarialNetworks #UnsupervisedLearning
Data Science / Machine Learning / AI / Big Data (VK)
Vision Transformers for Dense Prediction
Ranftl et al.: https://arxiv.org/abs/2103.13413
#ArtificialIntelligence #DeepLearning #Transformers
Vision Transformers for Dense Prediction
Ranftl et al.: https://arxiv.org/abs/2103.13413
#ArtificialIntelligence #DeepLearning #Transformers
Машинное обучение, AI, нейронные сети, Big Data (VK)
Tensors | Deep Learning with PyTorch
https://www.youtube.com/watch?v=hXMoTDoehFY
Tensors | Deep Learning with PyTorch
https://www.youtube.com/watch?v=hXMoTDoehFY
YouTube
Tensors | Deep Learning with PyTorch
Tensors | Deep Learning with PyTorchComplete playlist - Deep Learning with PyTorch: https://www.youtube.com/playlist?list=PL1w8k37X_6L8oJGLWdzeOSRVTI6mL8vw7#...
Data Science / Machine Learning / AI / Big Data (VK)
VideoGPT: Video Generation using VQ-VAE and Transformers
Yan et al.: https://arxiv.org/abs/2104.10157
#DeepLearning #VAE #Transformers
VideoGPT: Video Generation using VQ-VAE and Transformers
Yan et al.: https://arxiv.org/abs/2104.10157
#DeepLearning #VAE #Transformers
Data Science / Machine Learning / AI / Big Data (VK)
The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures
Sushant Singh, Ausif Mahmood: https://arxiv.org/abs/2104.10640
#NLP #Transformer #DeepLearning
The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures
Sushant Singh, Ausif Mahmood: https://arxiv.org/abs/2104.10640
#NLP #Transformer #DeepLearning
Data Science / Machine Learning / AI / Big Data (VK)
InfinityGAN: Towards Infinite-Resolution Image Synthesis
Lin et al.: https://arxiv.org/abs/2104.03963
#ArtificialIntelligence #DeepLearning #GenerativeAdversarialNetworks
InfinityGAN: Towards Infinite-Resolution Image Synthesis
Lin et al.: https://arxiv.org/abs/2104.03963
#ArtificialIntelligence #DeepLearning #GenerativeAdversarialNetworks
Data Science / Machine Learning / AI / Big Data (VK)
EXplainable Neural-Symbolic Learning (X-NeSyL) methodology to fuse deep learning representations with expert knowledge graphs: the MonuMAI cultural heritage use case
Natalia Díaz Rodríguez et al.: https://arxiv.org/abs/2104.11914
#NeuralSymbolic #DeepLearning #SymbolicAI
EXplainable Neural-Symbolic Learning (X-NeSyL) methodology to fuse deep learning representations with expert knowledge graphs: the MonuMAI cultural heritage use case
Natalia Díaz Rodríguez et al.: https://arxiv.org/abs/2104.11914
#NeuralSymbolic #DeepLearning #SymbolicAI
Data Science / Machine Learning / AI / Big Data (VK)
EXplainable Neural-Symbolic Learning (X-NeSyL) methodology to fuse deep learning representations with expert knowledge graphs: the MonuMAI cultural heritage use case
Natalia Díaz Rodríguez et al.: https://arxiv.org/abs/2104.11914
#NeuralSymbolic #DeepLearning #SymbolicAI
EXplainable Neural-Symbolic Learning (X-NeSyL) methodology to fuse deep learning representations with expert knowledge graphs: the MonuMAI cultural heritage use case
Natalia Díaz Rodríguez et al.: https://arxiv.org/abs/2104.11914
#NeuralSymbolic #DeepLearning #SymbolicAI
Data Science / Machine Learning / AI / Big Data (VK)
Zero-Shot Detection via Vision and Language Knowledge Distillation
Gu et al.: https://arxiv.org/abs/2104.13921
#ArtificialIntelligence #DeepLearning #MachineLearning
Zero-Shot Detection via Vision and Language Knowledge Distillation
Gu et al.: https://arxiv.org/abs/2104.13921
#ArtificialIntelligence #DeepLearning #MachineLearning
Data Science / Machine Learning / AI / Big Data (VK)
Total Relighting: Learning to Relight Portraits for Background Replacement
Pandey et al.: https://augmentedperception.github.io/total_relighting/
#ArtificialIntelligence #DeepLearning #MachineLearning
Total Relighting: Learning to Relight Portraits for Background Replacement
Pandey et al.: https://augmentedperception.github.io/total_relighting/
#ArtificialIntelligence #DeepLearning #MachineLearning
Data Science / Machine Learning / AI / Big Data (VK)
Generative Adversarial Transformers
Drew A. Hudson, C. Lawrence Zitnick: https://arxiv.org/abs/2103.01209
#DeepLearning #GenerativeAdversarialNetworks #Transformers
Generative Adversarial Transformers
Drew A. Hudson, C. Lawrence Zitnick: https://arxiv.org/abs/2103.01209
#DeepLearning #GenerativeAdversarialNetworks #Transformers
Data Science / Machine Learning / AI / Big Data (VK)
CoCon: Cooperative-Contrastive Learning
Rai et al.: https://arxiv.org/abs/2104.14764
#ArtificialIntelligence #ContrastiveLearning #DeepLearning
CoCon: Cooperative-Contrastive Learning
Rai et al.: https://arxiv.org/abs/2104.14764
#ArtificialIntelligence #ContrastiveLearning #DeepLearning
⚡ Менять автоэнкодер в latent diffusion моделях проще, чем кажется.
🚀 DC-Gen — это новый фреймворк для ускорения диффузионных моделей после обучения.
Он переводит любую готовую модель в глубоко сжатое латентное пространство, снижая затраты и многократно ускоряя генерацию.
🔑 Основное
- Высокое разрешение без потерь качества
Версия DC-Gen-FLUX.1-Krea-12B выдаёт то же качество, что и оригинал, но работает в 53 раза быстрее на H100 при 4K.
С NVFP4 картинка 4K генерируется всего за 3.5 секунды на одной NVIDIA 5090 (20 шагов).
- 💸 Низкая стоимость адаптации
Перевод FLUX.1-Krea-12B в глубоко-сжатый автоэнкодер требует всего 40 GPU-дней на H100.
📄 Статья: https://arxiv.org/abs/2509.25180
💻 Код: https://github.com/dc-ai-projects/DC-Gen
🎨 Модели : https://huggingface.co/collections/dc-ai/dc-gen-6899bb095082244f396203e1
#diffusion #deeplearning #AI
🚀 DC-Gen — это новый фреймворк для ускорения диффузионных моделей после обучения.
Он переводит любую готовую модель в глубоко сжатое латентное пространство, снижая затраты и многократно ускоряя генерацию.
🔑 Основное
- Высокое разрешение без потерь качества
Версия DC-Gen-FLUX.1-Krea-12B выдаёт то же качество, что и оригинал, но работает в 53 раза быстрее на H100 при 4K.
С NVFP4 картинка 4K генерируется всего за 3.5 секунды на одной NVIDIA 5090 (20 шагов).
- 💸 Низкая стоимость адаптации
Перевод FLUX.1-Krea-12B в глубоко-сжатый автоэнкодер требует всего 40 GPU-дней на H100.
📄 Статья: https://arxiv.org/abs/2509.25180
💻 Код: https://github.com/dc-ai-projects/DC-Gen
🎨 Модели : https://huggingface.co/collections/dc-ai/dc-gen-6899bb095082244f396203e1
#diffusion #deeplearning #AI
Forwarded from Machinelearning
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового курса Карпаты LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
🟠 GitHub:https://github.com/karpathy/nanochat
🟠 Технические детали: https://github.com/karpathy/nanochat/discussions/1
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового курса Карпаты LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM