304K subscribers
4.01K photos
710 videos
17 files
4.59K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
👨‍🎓 Famous scientists and modern technologies by Kandinsky

Такой подборкой порадовала отечественная генеративная модель в честь Дня науки.

В частности, Kandinsky нарисовала Менделеева за ноутбуком, Дарвина за электронным микроскопом, Павлова с собакой-роботом и других.

🌐page: https://vk.com/kandinskiy_bot?w=wall-219823705_8793

ai_machinelearning_big_data
👍23🔥8🥱83👏2❤‍🔥1
🔥 EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

EfficientViT-SAM - это новое семейство ускоренных моделей Segment Anything Models для задач компьютерного зрения с высоким разрешением. Скорость до 69 раз выше, чем у SAM.

🖥 Github: https://github.com/mit-han-lab/efficientvit

📚 Paper: https://arxiv.org/abs/2205.14756

Tutorial: https://www.jetson-ai-lab.com/vit/tutorial_efficientvit.html

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍255🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

Новый фреймворк, предназначенный для создания 3D-моделей высокого разрешения из текстового описания или изображений с одним ракурсом.

🖥 Github: https://github.com/3DTopia/LGM

📚 Paper: https://arxiv.org/abs/2402.05054

🔗 Demo: https://huggingface.co/spaces/ashawkey/LGM

💻 Weights: https://huggingface.co/ashawkey/LGM

Project: https://me.kiui.moe/lgm/

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🎉124🔥31🥰1
🦾 Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

Новый метод тонкой настройки, названный Self-Play fIne-tuNing (SPIN), в основе которого, лежит механизм самовоспроизведения, в котором LLM совершенствует свои возможности, взаимодейтсвия с экземплярами самого себя и самостоятельно генерирует данные для обучения.

🖥 Github: https://github.com/uclaml/SPIN

📚 Paper: https://arxiv.org/abs/2401.01335

Project: https://uclaml.github.io/SPIN/

💻 Model: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40

🛡 Dataset: https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
20🔥10👍9
This media is not supported in your browser
VIEW IN TELEGRAM
👁️ HASSOD: Hierarchical Adaptive Self-Supervised Object Detection

HASSOD - полностью самоконтролируемый подход для обнаружения и сегментации широкого спектра объектов.

HASSOD демонстрирует значительное преводходство по сравнению с предыдущими современными методами.

🖥 Github: https://github.com/Shengcao-Cao/HASSOD

📚 Paper: https://arxiv.org/abs/2402.03311

Project: https://hassod-neurips23.github.io/

💻 Video: https://www.youtube.com/watch?v=s8u7tEKg5ew

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍147🔥7
🧠 SELF-DISCOVER: Large Language Models Self-Compose Reasoning Structures

Новая стратегия prompt-flow от Google, которая позволяет LLM "самостоятельно обнаруживать присущие, описанной задаче, структуры рассуждений для решения сложных проблем".

Уже ывпущено несколько первых реализаций в составе LangChain и LangGraph!

Paper: https://arxiv.org/pdf/2402.03620.pdf

LangChain example: https://github.com/langchain-ai/langchain/blob/master/cookbook/self-discover.ipynb

LangGraph example: https://github.com/langchain-ai/langgraph/blob/main/examples/self-discover/self-discover.ipynb

ai_machinelearning_big_data
🔥15👍75🥰2
🔥 World Model on Million-Length Video And Language With RingAttention

Новая модель для обработки видео и текста длиной в миллион символов с помощью RingAttention.

В опенсорс выложены 7B-модели, которые способны обрабатывать длинные текстовые документы и видео длиной более 1 млн лексем.

Github: https://github.com/LargeWorldModel/LWM

Project: https://largeworldmodel.github.io

Paper: https://arxiv.org/abs/2402.08268

ai_machinelearning_big_data
👍27🔥74
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Magic-Me: Identity-Specific Video Customized Diffusion

Новый фреймворк для создания видео с конкретным человеком.

С помощью предварительно обученного ID-токена вы можете генерировать любые видеоклипы с заданным персонажем.

В работе представлены ряд управляемых методов генерации и редактирования видео.

Github: https://github.com/Zhen-Dong/Magic-Me

Colab: https://colab.research.google.com/drive/1gMialn4nkGeDZ72yx1Wob1E1QBgrqeGa

Project: https://magic-me-webpage.github.io

Paper: arxiv.org/abs/2402.09368

ai_machinelearning_big_data
👍22🔥83
👨‍🦱 Awesome Face Recognition

Огромный кураторский список материалов: обнаружение лиц; распознавание; идентификация; верификация; реконструкция; отслеживание; сверхразрешение и размытие; генерация и синтез лиц; замена лиц; защита от подделки; поиск по лицу.

Github

ai_machinelearning_big_data
🔥33👍185🥰2🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ V-JEPA: The next step toward Yann LeCun’s vision of advanced machine intelligence (AMI)

V-JEPA
(шутки в сторону) сегодня выпущен новый метод обучения машин пониманию и моделированию физического мира с помощью просмотра видео.

Эта работа - еще один важный шаг на пути к к видению моделей ИИ, которые используют изученное понимание мира для планирования, рассуждения и выполнения сложных задач.

Модели способны понимать и предсказывать, что происходит в видео, даже при ограниченном объеме информации.

Они обучаются, предсказывая недостающие или непонятные части видео в своем внутреннем пространстве признаков. В отличие от генеративных подходов, которые заполняют недостающие пиксели, этот гибкий подход позволяет до 6 раз повысить эффективность обучения и выборки.

Модели были предварительно обучены на полностью немаркированных данных.

Результаты показывают, что, лучшие модели V-JEPA достигают 82,0 % на Kinetics-400, 72,2 % на Something-Something-v2 и 77,9 % на ImageNet1K.

Эта работа является важной вехой на пути развития машинного интеллекта.

Github: https://github.com/facebookresearch/jepa

Paper: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

Blog: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

ai_machinelearning_big_data
😁31🔥16👍103🥰1
OpenAI выпустила технический отчет Sora!

Вот что вам нужно знать о лучшей архитектуре модели преобразования текста в видео.

𝟭. 𝗗𝗮𝘁𝗮 𝗥𝗲𝗽𝗿𝗲𝘀𝗲𝗻𝘁𝗮𝘁𝗶𝗼𝗻: Sora преобразует визуальные данные в пространственно-временные патчи (spacetime patches), подобно токенизации в больших языковых моделях (LLM). Это позволяет масштабировать обучение на разнообразном визуальном контенте.

𝟮. 𝗖𝗼𝗺𝗽𝗿𝗲𝘀𝘀𝗶𝗼𝗻 𝗮𝗻𝗱 𝗣𝗮𝘁𝗰𝗵 𝗘𝘅𝘁𝗿𝗮𝗰𝘁𝗶𝗼𝗻: Видео компрессор уменьшает визуальные данные до сжатого латентного пространства, а затем разбивает его на пространственно-временные патчи. Эти патчи являются строительными блоками для обучения и создания контента.

𝟯. 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿-𝗯𝗮𝘀𝗲𝗱 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: Sora использует трансформеры для обработки пространственно-временных патчей, эффективно улавливая сложные паттерны и динамику генераций. Этот метод использует способность трансформеров обрабатывать большие наборы данных и различные зависимости.

𝟰. 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗣𝗿𝗼𝗰𝗲𝘀𝘀: Диффузия используеся для уточнения зашумленных входных данных в детальные видео. Предсказывая лучшие версии патчей с каждой итерацией, Sora генерирует высококачественные видео, руководствуясь текстовыми промптами.

𝟱. 𝗙𝗹𝗲𝘅𝗶𝗯𝗹𝗲 𝗢𝘂𝘁𝗽𝘂𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻: Благодаря патч-ориентированному подходу Sora генерирует видео различных размеров и форм. Она может настраивать выходной сигнал под конкретные разрешения, соотношения сторон и продолжительность, что делает ее очень адаптируемой.

𝟲. 𝗘𝗺𝗲𝗿𝗴𝗲𝗻𝘁 𝗖𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀: Масштабные тренировки Sora привели к появлению свойств, необходимых для генерации качетсвенного 3D-контента и симуляция взаимодействий.

https://openai.com/research/video-generation-models-as-world-simulators

ai_machinelearning_big_data
🔥41👍18🤯125❤‍🔥2🥰2👏1