289K subscribers
3.97K photos
694 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🔊 Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Сhat & pretrained large audio language model proposed by Alibaba Cloud.


Qwen-Audio (Qwen Large Audio Language Model) - это мультимодальная версия серии больших моделей Qwen (аббревиатура Tongyi Qianwen), предложенная компанией Alibaba Cloud.

Qwen-Audio принимает на вход различные звуки (человеческую речь, естественные звуки, музыку и песни) и текст, а на выходе выдает текст. Функции Qwen-Audio включают в себя:

Фундаментальные аудиомодели: Qwen-Audio - это фундаментальная многозадачная аудио-языковая модель, поддерживающая различные задачи, языки и типы аудио, выступающая в качестве универсальной модели понимания аудио.
Qwen-Audio-Chat позволяет вести полноценные диалоги .
Многозадачная система обучения для всех типов аудиозаписей. Модель включает в себя более 30 задач, и обширные эксперименты показывают, что модель демонстрирует высокую производительность.
Результаты экспериментов показывают, что Qwen-Audio достигает впечатляющей производительности в различных эталонных задачах, не требуя тонкой настройки под конкретную задачу, и превосходит свои аналоги. В частности, Qwen-Audio достигает лучших результатов на тестовых наборах Aishell1, cochlscene, ClothoAQA и VocalSound.
Гибкий многозадачный чат из аудио- и текстового ввода: Qwen-Audio поддерживает анализ нескольких аудиофайлов, понимание и осмысление звука, восприятие музыки и использование инструментов для редактирования речи.

🐱 Github: https://github.com/qwenlm/qwen-audio

🚀 Demo: https://qwen-audio.github.io/Qwen-Audio/

📕 Paper: https://arxiv.org/abs/2311.07919v1

Dataset: https://paperswithcode.com/dataset/vocalsound

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍143🔥1🍌1
🔥 NVIDIA сжала свои данные за 30 лет своей корпоративной памяти в 13Б параметров.

Все свои данные, которые включают проекты по разработке чипов, внутренние кодовые базы и инженерные журналы, такие как отчеты об ошибках, что составляет 24Б токенов.

Модель "ChipNeMo" развернута внутри компании и работает как джинн-помощник, который отвечает за :
- Генерацию сценариев EDA.
EDA расшифровывается как "Electronic Design Automation" - основной программный пакет для проектирования графических процессоров нового поколения. Эти сценарии - ключ к рыночной капитализации в $1T 🦾;
- Чатбот-ассистент для инженеров по GPU ASIC и архитектуре, понимающий внутренние спецификации аппаратного дизайна и способный объяснять сложные темы проектирования;
- Обобщение и анализ ошибок в рамках внутренней системы отслеживания ошибок и проблем;
- Генератор кода уже создает скрипты длиной около 10-20 строк на двух специализированных языках, используемых разработчиками микросхем.

📌 Процесс создания ChipNeMo
📌 Официальный блог

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍104😱2🤯1🍌1
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding

Chat-UniVi
- унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления.

В модели используется набор динамических визуальных маркеров для единообразного представления изображений и видео. Такая схема представления позволяет модели эффективно использовать ограниченное количество визуальных лексем для одновременного отражения пространственных деталей.

Обширные экспиременты показывают, что Chat-UniVi как единая модель стабильно превосходит даже существующие методы, предназначенные исключительно для работы с изображениями или видео.

🐱 Github: https://github.com/pku-yuangroup/chat-univi

📕 Paper: https://arxiv.org/abs/2311.08046v1

Dataset: https://paperswithcode.com/dataset/activitynet-qa

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍155🔥4🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
🇺🇿 Introducing Emu Video and Emu Edit, our latest generative AI research milestones

Мета показали свои новые нейросети Emu Video и Emu Edit.

Первая — высококачественный генератор видео, а вот вторая интересней — это натоящий редактор ваших фото текстом, без выделения областей, сложных интерфейсов и прочего. Просто пишете, что хотите поменять и как, а нейросеть — выполняет. Демо выглядит потрясающе.

🚀 Blog: https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/

⭐️Project page: https://emu-edit.iss.onetademolab.com

📌Paper: https://emu-edit.iss.onetademolab.com/assets/emu_edit.pdf

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥71🍌1
🪐 ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems

ARES
- автоматизированная система оценки RAG, предназначенная для оценки LLM моделей по таким параметрам, как релевантность контекста, верность ответа и уместность ответа.

RAG - это техника, повышающая производительность языковых моделей путём предоставления модели контекста вместе с вопросом.

Используя синтетические обучающие данные, ARES настраивает легковесных судей LM для оценки качества отдельных компонентов RAG. Для смягчения возможных ошибок предсказания ARES использует небольшой набор аннотированных человеком данных.

🐱 Github: https://github.com/stanford-futuredata/ares

📕 Paper: https://arxiv.org/abs/2311.09476

Dataset: https://paperswithcode.com/dataset/kilt

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥43🍌1
JaxMARL

Бенчмарки играют важную роль в разработке алгоритмов машинного обучения. Например, исследования в области обучения с подкреплением (RL) в значительной степени зависят от них. Однако модели RL традиционно запускаются на центральном процессоре, что ограничивает их масштабируемость.

Недавние достижения в области JAX позволили использовать аппаратное ускорение для преодоления проблемы нехватки вычислительных мощностей, обеспечивая создание массивно-параллельных обучающих конвейеров и сред RL.

Это особенно полезно для исследований в области многоагентного обучения с подкреплением (MARL).

В данной работе представлен JaxMARL - первый проект с открытым исходным кодом, сочетающую простоту использования с эффективностью работы на GPU.

Обучающий конвейер на основе JAX работает в 12500 раз быстрее, чем существующие подходы.

🐱 Github: https://github.com/flairox/jaxmarl

📕 Paper: https://arxiv.org/pdf/2311.10090v1.pdf

Dataset: https://paperswithcode.com/dataset/mujoco

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4🍌32
⚡️ На AI Journey официально пригласили Маска, Альтмана и Брокмана

Оргкомитет конференции опубликовал официальное приглашение для миллиардера и основателя Tesla, SpaceX, владельца X Илона Маска, бывшего генерального директора OpenAI Сэма Альтмана и сооснователя OpenAI Грега Брокмана.

Организаторы AI Journey считают, что Маск мог бы рассказать какие-то инсайты о нейросети Grok, а Альтман и Брокман — о создании ChatGPT. При этом все они согли бы поделиться своим мнением о развитии искусственного интеллекта.

AI Journey 2023 пройдет в Москве 22-24 ноября, на ней выступят эксперты по ИИ со всей планеты.

🤗 Lenta: https://lenta.ru/news/2023/11/19/priglasil/

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣80👍25🤯75🙈4🔥2👏2🤬2🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🌦 Makani: Massively parallel training of machine-learning based weather and climate models

Прогнозирование погоды на основе машинного обучения стало перспективным дополнением к традиционным моделям численного прогнозирования погоды (NWP). Такие модели, как NVIDIA FourCastNet, продемонстрировали, что время вычислений для создания прогнозов погоды может быть сокращено с нескольких часов до нескольких секунд, что является значительным улучшением по сравнению с текущими моделями и на основе NWP.

Makani (гавайское слово, означающее "ветер" 🍃🌺) - это новая библиотека от NVIDIA, предназначенная для исследования и разработки моделей погоды и климата на основе машинного обучения на PyTorch.

В частности, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.

🐱Github: https://github.com/NVIDIA/makani

📕Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/

Dataset: https://github.com/NVIDIA/makani/tree/main/datasets

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍273🔥2🍌1👾1
💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Простая, но надежная модель зрительного языка LVLM - Video-LLaVA, который обучается на смешанном наборе данных изображений и видео, взаимно усиливая друг друга. LLM выполнять визуальные рассуждения одновременно о изображениях и видео.

Video-LLaVA превосходит Video-ChatGPT, MSRVTT, MSVD, TGIF и ActivityNet на 5,8%, 9,9%, 18,6% и 10,1% на соответственно. Многочисленныйе эксперименты показывают, что Video-LLaVA превосходит модели, разработанные специально для изображений или видео.

🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA

🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA

📕Paper: https://arxiv.org/abs/2311.10122v1

Dataset: https://paperswithcode.com/dataset/mmbench

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍172🔥1🍌1
SA-Med2D-20M Dataset: Segment Anything in 2D Medical Imaging with 20 Million masks

Модель Segment Anything Model (SAM)
достигла впечатляющих результатов при сегментации изображений и успех модели во многом объясняется наличием большого количества обучающих данных с метками.

Однако применение SAM для сегментации медицинских изображений не может дать хороших результатов, поскольку SAM не обладает медицинскими знаниями - она не использует медицинские изображения для обучения.

SA-Med2D-20M - крупномасштабный датасет по сегментации двумерных медицинских изображений, созданный на основе многочисленных гснимков.

Он состоит из 4,6 млн. двумерных медицинских изображений и 19,7 млн. соответствующих масок, охватывающих практически все тело и содержащий значительное разнообразие.

В данной работе описаны все датасеты, собранные в SA-Med2D-20M, и подробно описаны способы обработки этих наборов данных. Кроме того, приведена полная статистика SA-Med2D-20M, которая поможет исследователям построить базовые модели медицинского зрения или применить свои модели в медицинских приложениях.

🏆 Самая большая на сегодняшний день база данных по сегментации медицинских изображений (4,6 млн. изображений и 19,7 млн. масок) для обучения моделей.
🏆 Инструмент файнтюнинга на основе модели Segment Anything Model (SAM).
🏆 Всесторонняя оценка SAM-Med2D на крупномасштабных датасетах.

🖥 Github: https://github.com/OpenGVLab/SAM-Med2D

🖥 Colab: https://colab.research.google.com/github/OpenGVLab/SAM-Med2D/blob/main/predictor_example.ipynb

📕 Paper: https://arxiv.org/abs/2311.11969v1

⭐️ Dataset: https://arxiv.org/abs/2311.11969

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍177🔥5🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
👱‍♂️ ChatAnything: Facetime Chat with LLM-Enhanced Personas

FACETIME CHAT WITH LLM-ENHANCED PERSONAS.

Новая модель ChatAnything, которая способна придать жизнь разнообразным объектам, будь то животное, фрукт, монстр или даже ваше собственное фото, создавая говорящего персонажа. При помощи нейронных сетей и алгоритмов текст в речь, программа автоматически выбирает наиболее подходящий тон и настроение для созданного персонажа.

Вам предоставляется возможность создать любогоаватара, из текстовом описании или загрузив свое собственное изображение. После этого вы можете общаться с ним, используя текстовые сообщения или ваш голос.

🖥 Github: https://github.com/zhoudaquan/ChatAnything

📕 Paper: https://arxiv.org/abs/2311.06772

⭐️ Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_scripts/prepare_models.py

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🔥4🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Stability AI is releasing Stable Video Diffusion! 🔥

Stability AI выпустили
опенсорс модель image-to-video.

Это новая модель преобразования изображения в видео, которая позволяет получить 14-25 кадров с разрешением 576x1024 при наличии контекстного кадра такого же размера.

🖥 Code: https://github.com/Stability-AI/generative-models

🦾 Announcement: https://stability.ai/news/stable-video-diffusion-open-ai-video-model

📚 Paper: https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

🔗 Weights: https://github.com/Stability-AI/generative-models

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍72🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🪄 InternLM-XComposer

Multi-Objective Reinforcement Learning algorithms implementations.

MORL-Baselines - это библиотека алгоритмов многоцелевого обучения с подкреплением (MORL).

Данный репозиторий содержит рабочие реализации алгоритмов MORL в PyTorch.

🖥 Code: https://github.com/lucasalegre/morl-baselines

🦾 Project: lucasalegre.github.io/morl-baselines

🖥 Colab: https://colab.research.google.com/drive/1ByjuUp8-CJeh1giPOACqPGiglPxDnlSq?usp=sharing

📚 Paper: https://arxiv.org/abs/2311.12495v1

🔗 Dataset: https://paperswithcode.com/dataset/mo-gymnasium

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🥰21🍌1
💸 На AI Journey авторы лучшей статьи про искусственный интеллект получили 1 млн рублей

Сбер наградил группу исследователей из Университета Иннополис и МФТИ в составе Михаила Рудакова, Александра Безносикова, Ярослава Холодова и Александра Гасникова — они получили 1 млн рублей за свою статью «Техники сжатия активаций слоёв и градиентов для распределённого обучения моделей искусственного интеллекта».

Её и еще 37 работ других претендентов опубликуют в научном сборнике международной конференции AI Journey — «Путешествие в мир искусственного интеллекта». Всего для участия в отборе прислали более 270 заявок.

«Лучшую статью члены экспертной комиссии отобрали в силу её высокой научной ценности, огромного фундаментального и прикладного значения. Я поздравляю победителей и надеюсь, что они продолжат свои исследования в этом важном направлении», — рассказал первый заместитель председателя правления Сбера Александр Ведяхин.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥124🍌2😁1
🐬 ShareGPT4V:Improving Large Multi-Modal Models with Better Captions

🔥 Масштабный набор данных,содержащий изображения и тексты.
🔥 1,2 млн высококачественных подписей к ихображениям для предварительного обучения.
🔥 Программа для создания описания изображений, приближающаяся по возможностям к GPT4-Vision.
🔥 Большая мультимодальная модель, ShareGPT4V-7B

🖥 Code: https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

🦾 Project: https://sharegpt4v.github.io/

⚡️ Demo: https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B

📚 Paper: https://arxiv.org/pdf/2311.12793.pdf

🔗 Dataset: https://huggingface.co/datasets/Lin-Chen/ShareGPT4V

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥3🍌2
Новый фреймворк файнтюнинга ЛЛМ

Higgsfield AI выпустил бета версию фулл-стек легковесного фреймворка для тренировки больших моделей. Пользователи загружают датасет через веб интерфейс и получают модель, которая тренируется на их серверах. Доступны любые модели llama/mistral. Метод оплаты не требуется. Лучше всего работает с десктопным Chrome.

Попробовать запустить новую видео диффузию: https://higgsfield.ai/stable-diffusion

Зафайнтюнить ЛЛМ: https://higgsfield.ai/profile/submit

Github фреймворк который позволяет оркестрировать несколько ГПУ нод без необходимости менеджить Slurm/Kubernetes: https://github.com/higgsfield-ai/higgsfield

ai_machinelearning_big_data
👍17🔥93🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Karpathy just uploaded what could be the best Intro to Large Language Models.

Обязательно к просмотру. Карпатый только что выложил, возможно, лучшее введение в большие языковые модели.

В лекции продолжительностью 1 час рассматривается абсолютно все: обучение, вывод, взлом, тонкая настройка и многое другое.

🔗 Смотреть здесь: https://youtube.com/watch?v=zjkBMFhNj_g

🔗 Слайды: https://drive.google.com/file/d/1pxx_ZI7O-Nwl7ZLNk5hI3WzAsTLwvNU7/view

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍215🍌1
🤖 Российская художница написала картину совместно с Kandinsky

Мария Суворова использовала ИИ для создания картин, уделив особое внимание логическому расположению цвета и тона. Такая методика предполагает установление баланса тона, цвета и динамики, что похоже на очень сложный аналитический процесс.

Суворова говорит, что для работы с Kandinsky нужно соединить два полюса, создавая эскиз по методу Матисса и постепенно дополнять его абстрактным видением.

Плоды ее творчества человека и искусственного интеллекта представила галерея «МастАРТ» на международной конференции AI Journey.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴19🔥13💊6😁32👍2🥱2🥰1🍌1