306K subscribers
4K photos
707 videos
17 files
4.58K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🪞 Mirror: A Universal Framework for Various Information Extraction Tasks

Мощный инструмент для решения практически всех задач извлечения и унификации информации.

🖥 Github: https://github.com/Spico197/Mirror

📕 Paper: https://arxiv.org/abs/2311.05419v1

🌐 Dataset: https://paperswithcode.com/dataset/glue

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥62
⚡️ LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference.

Новый подход, который значительно уменьшает нагрузку на диффузионные модели для генерации изображений. Подход позволяет перевести любую существующую обученную LDM на быструю генерацию.

LoRA представляя собой универсальный ускоритель для различных задач генераций изображений.

pip install diffusers transformers accelerate gradio==3.48.0

🖥 Github: https://github.com/luosiallen/latent-consistency-model

📕 Paper: https://arxiv.org/abs/2311.05556v1

🌐 Project: https://latent-consistency-models.github.io

🤗 Demo: https://huggingface.co/spaces/SimianLuo/Latent_Consistency_Model

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍227🔥2🤔1
Feature Selection for Deep Tabular Models

Аналог LASSO для нейронных сетей, названный Deep Lasso, который превосходит классические методы отбора признаков в сложных задачах.

🐱 Github: https://github.com/vcherepanova/tabular-feature-selection

📕 Paper: https://arxiv.org/pdf/2311.05877v1.pdf

Tasks: https://paperswithcode.com/task/feature-selection

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥72
🏆 LLaMA2-Accessory: An Open-source Toolkit for LLM Development

LLaMA2-Accessory - это набор инструментов с открытым исходным кодом для предварительного обучения, тонкой настройки и развертывания больших языковых моделей (LLM) и муллимодальных LLM. Этот репозиторий в основном унаследован от LLaMA-Adapter с более расширенными возможностями.🧠

В рамках этого инструментария представлена SPHINX, универсальная мультимодальная языковая модель (MLLM), которая показывает хорошие результаты генерации для широкого спектра задач.

🐱 Github: https://github.com/alpha-vllm/llama2-accessory

🚀 Demo: https://imagebind-llm.opengvlab.com/

📕 Paper: https://arxiv.org/abs/2311.07575v1

Project: llama2-accessory.readthedocs.io/

Dataset: https://paperswithcode.com/dataset/vsr

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥73
🔊 Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Сhat & pretrained large audio language model proposed by Alibaba Cloud.


Qwen-Audio (Qwen Large Audio Language Model) - это мультимодальная версия серии больших моделей Qwen (аббревиатура Tongyi Qianwen), предложенная компанией Alibaba Cloud.

Qwen-Audio принимает на вход различные звуки (человеческую речь, естественные звуки, музыку и песни) и текст, а на выходе выдает текст. Функции Qwen-Audio включают в себя:

Фундаментальные аудиомодели: Qwen-Audio - это фундаментальная многозадачная аудио-языковая модель, поддерживающая различные задачи, языки и типы аудио, выступающая в качестве универсальной модели понимания аудио.
Qwen-Audio-Chat позволяет вести полноценные диалоги .
Многозадачная система обучения для всех типов аудиозаписей. Модель включает в себя более 30 задач, и обширные эксперименты показывают, что модель демонстрирует высокую производительность.
Результаты экспериментов показывают, что Qwen-Audio достигает впечатляющей производительности в различных эталонных задачах, не требуя тонкой настройки под конкретную задачу, и превосходит свои аналоги. В частности, Qwen-Audio достигает лучших результатов на тестовых наборах Aishell1, cochlscene, ClothoAQA и VocalSound.
Гибкий многозадачный чат из аудио- и текстового ввода: Qwen-Audio поддерживает анализ нескольких аудиофайлов, понимание и осмысление звука, восприятие музыки и использование инструментов для редактирования речи.

🐱 Github: https://github.com/qwenlm/qwen-audio

🚀 Demo: https://qwen-audio.github.io/Qwen-Audio/

📕 Paper: https://arxiv.org/abs/2311.07919v1

Dataset: https://paperswithcode.com/dataset/vocalsound

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍143🔥1🍌1
🔥 NVIDIA сжала свои данные за 30 лет своей корпоративной памяти в 13Б параметров.

Все свои данные, которые включают проекты по разработке чипов, внутренние кодовые базы и инженерные журналы, такие как отчеты об ошибках, что составляет 24Б токенов.

Модель "ChipNeMo" развернута внутри компании и работает как джинн-помощник, который отвечает за :
- Генерацию сценариев EDA.
EDA расшифровывается как "Electronic Design Automation" - основной программный пакет для проектирования графических процессоров нового поколения. Эти сценарии - ключ к рыночной капитализации в $1T 🦾;
- Чатбот-ассистент для инженеров по GPU ASIC и архитектуре, понимающий внутренние спецификации аппаратного дизайна и способный объяснять сложные темы проектирования;
- Обобщение и анализ ошибок в рамках внутренней системы отслеживания ошибок и проблем;
- Генератор кода уже создает скрипты длиной около 10-20 строк на двух специализированных языках, используемых разработчиками микросхем.

📌 Процесс создания ChipNeMo
📌 Официальный блог

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍104😱2🤯1🍌1
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding

Chat-UniVi
- унифицированная зрительно-языковая модель, способная понимать и участвовать в разговоре с использованием изображений и видео с помощью визуального представления.

В модели используется набор динамических визуальных маркеров для единообразного представления изображений и видео. Такая схема представления позволяет модели эффективно использовать ограниченное количество визуальных лексем для одновременного отражения пространственных деталей.

Обширные экспиременты показывают, что Chat-UniVi как единая модель стабильно превосходит даже существующие методы, предназначенные исключительно для работы с изображениями или видео.

🐱 Github: https://github.com/pku-yuangroup/chat-univi

📕 Paper: https://arxiv.org/abs/2311.08046v1

Dataset: https://paperswithcode.com/dataset/activitynet-qa

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍155🔥4🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
🇺🇿 Introducing Emu Video and Emu Edit, our latest generative AI research milestones

Мета показали свои новые нейросети Emu Video и Emu Edit.

Первая — высококачественный генератор видео, а вот вторая интересней — это натоящий редактор ваших фото текстом, без выделения областей, сложных интерфейсов и прочего. Просто пишете, что хотите поменять и как, а нейросеть — выполняет. Демо выглядит потрясающе.

🚀 Blog: https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/

⭐️Project page: https://emu-edit.iss.onetademolab.com

📌Paper: https://emu-edit.iss.onetademolab.com/assets/emu_edit.pdf

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥71🍌1
🪐 ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems

ARES
- автоматизированная система оценки RAG, предназначенная для оценки LLM моделей по таким параметрам, как релевантность контекста, верность ответа и уместность ответа.

RAG - это техника, повышающая производительность языковых моделей путём предоставления модели контекста вместе с вопросом.

Используя синтетические обучающие данные, ARES настраивает легковесных судей LM для оценки качества отдельных компонентов RAG. Для смягчения возможных ошибок предсказания ARES использует небольшой набор аннотированных человеком данных.

🐱 Github: https://github.com/stanford-futuredata/ares

📕 Paper: https://arxiv.org/abs/2311.09476

Dataset: https://paperswithcode.com/dataset/kilt

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥43🍌1
JaxMARL

Бенчмарки играют важную роль в разработке алгоритмов машинного обучения. Например, исследования в области обучения с подкреплением (RL) в значительной степени зависят от них. Однако модели RL традиционно запускаются на центральном процессоре, что ограничивает их масштабируемость.

Недавние достижения в области JAX позволили использовать аппаратное ускорение для преодоления проблемы нехватки вычислительных мощностей, обеспечивая создание массивно-параллельных обучающих конвейеров и сред RL.

Это особенно полезно для исследований в области многоагентного обучения с подкреплением (MARL).

В данной работе представлен JaxMARL - первый проект с открытым исходным кодом, сочетающую простоту использования с эффективностью работы на GPU.

Обучающий конвейер на основе JAX работает в 12500 раз быстрее, чем существующие подходы.

🐱 Github: https://github.com/flairox/jaxmarl

📕 Paper: https://arxiv.org/pdf/2311.10090v1.pdf

Dataset: https://paperswithcode.com/dataset/mujoco

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4🍌32
⚡️ На AI Journey официально пригласили Маска, Альтмана и Брокмана

Оргкомитет конференции опубликовал официальное приглашение для миллиардера и основателя Tesla, SpaceX, владельца X Илона Маска, бывшего генерального директора OpenAI Сэма Альтмана и сооснователя OpenAI Грега Брокмана.

Организаторы AI Journey считают, что Маск мог бы рассказать какие-то инсайты о нейросети Grok, а Альтман и Брокман — о создании ChatGPT. При этом все они согли бы поделиться своим мнением о развитии искусственного интеллекта.

AI Journey 2023 пройдет в Москве 22-24 ноября, на ней выступят эксперты по ИИ со всей планеты.

🤗 Lenta: https://lenta.ru/news/2023/11/19/priglasil/

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣80👍25🤯75🙈4🔥2👏2🤬2🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🌦 Makani: Massively parallel training of machine-learning based weather and climate models

Прогнозирование погоды на основе машинного обучения стало перспективным дополнением к традиционным моделям численного прогнозирования погоды (NWP). Такие модели, как NVIDIA FourCastNet, продемонстрировали, что время вычислений для создания прогнозов погоды может быть сокращено с нескольких часов до нескольких секунд, что является значительным улучшением по сравнению с текущими моделями и на основе NWP.

Makani (гавайское слово, означающее "ветер" 🍃🌺) - это новая библиотека от NVIDIA, предназначенная для исследования и разработки моделей погоды и климата на основе машинного обучения на PyTorch.

В частности, Makani использовался для обучения сферических нейронных операторов Фурье (SFNO) и адаптивных нейронных операторов Фурье (AFNO) на датасете ERA5. Makani основан на PyTorch и поддерживает различные формы параллелизма моделей и данных, асинхронную загрузку данных, непредсказуемые каналы, авторегрессионное обучение и многое другое.

🐱Github: https://github.com/NVIDIA/makani

📕Blog: https://developer.nvidia.com/blog/modeling-earths-atmosphere-with-spherical-fourier-neural-operators/

Dataset: https://github.com/NVIDIA/makani/tree/main/datasets

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍273🔥2🍌1👾1
💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Простая, но надежная модель зрительного языка LVLM - Video-LLaVA, который обучается на смешанном наборе данных изображений и видео, взаимно усиливая друг друга. LLM выполнять визуальные рассуждения одновременно о изображениях и видео.

Video-LLaVA превосходит Video-ChatGPT, MSRVTT, MSVD, TGIF и ActivityNet на 5,8%, 9,9%, 18,6% и 10,1% на соответственно. Многочисленныйе эксперименты показывают, что Video-LLaVA превосходит модели, разработанные специально для изображений или видео.

🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA

🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA

📕Paper: https://arxiv.org/abs/2311.10122v1

Dataset: https://paperswithcode.com/dataset/mmbench

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍172🔥1🍌1
SA-Med2D-20M Dataset: Segment Anything in 2D Medical Imaging with 20 Million masks

Модель Segment Anything Model (SAM)
достигла впечатляющих результатов при сегментации изображений и успех модели во многом объясняется наличием большого количества обучающих данных с метками.

Однако применение SAM для сегментации медицинских изображений не может дать хороших результатов, поскольку SAM не обладает медицинскими знаниями - она не использует медицинские изображения для обучения.

SA-Med2D-20M - крупномасштабный датасет по сегментации двумерных медицинских изображений, созданный на основе многочисленных гснимков.

Он состоит из 4,6 млн. двумерных медицинских изображений и 19,7 млн. соответствующих масок, охватывающих практически все тело и содержащий значительное разнообразие.

В данной работе описаны все датасеты, собранные в SA-Med2D-20M, и подробно описаны способы обработки этих наборов данных. Кроме того, приведена полная статистика SA-Med2D-20M, которая поможет исследователям построить базовые модели медицинского зрения или применить свои модели в медицинских приложениях.

🏆 Самая большая на сегодняшний день база данных по сегментации медицинских изображений (4,6 млн. изображений и 19,7 млн. масок) для обучения моделей.
🏆 Инструмент файнтюнинга на основе модели Segment Anything Model (SAM).
🏆 Всесторонняя оценка SAM-Med2D на крупномасштабных датасетах.

🖥 Github: https://github.com/OpenGVLab/SAM-Med2D

🖥 Colab: https://colab.research.google.com/github/OpenGVLab/SAM-Med2D/blob/main/predictor_example.ipynb

📕 Paper: https://arxiv.org/abs/2311.11969v1

⭐️ Dataset: https://arxiv.org/abs/2311.11969

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍177🔥5🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
👱‍♂️ ChatAnything: Facetime Chat with LLM-Enhanced Personas

FACETIME CHAT WITH LLM-ENHANCED PERSONAS.

Новая модель ChatAnything, которая способна придать жизнь разнообразным объектам, будь то животное, фрукт, монстр или даже ваше собственное фото, создавая говорящего персонажа. При помощи нейронных сетей и алгоритмов текст в речь, программа автоматически выбирает наиболее подходящий тон и настроение для созданного персонажа.

Вам предоставляется возможность создать любогоаватара, из текстовом описании или загрузив свое собственное изображение. После этого вы можете общаться с ним, используя текстовые сообщения или ваш голос.

🖥 Github: https://github.com/zhoudaquan/ChatAnything

📕 Paper: https://arxiv.org/abs/2311.06772

⭐️ Model: https://github.com/zhoudaquan/ChatAnything/blob/main/python_scripts/prepare_models.py

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🔥4🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Stability AI is releasing Stable Video Diffusion! 🔥

Stability AI выпустили
опенсорс модель image-to-video.

Это новая модель преобразования изображения в видео, которая позволяет получить 14-25 кадров с разрешением 576x1024 при наличии контекстного кадра такого же размера.

🖥 Code: https://github.com/Stability-AI/generative-models

🦾 Announcement: https://stability.ai/news/stable-video-diffusion-open-ai-video-model

📚 Paper: https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

🔗 Weights: https://github.com/Stability-AI/generative-models

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍72🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🪄 InternLM-XComposer

Multi-Objective Reinforcement Learning algorithms implementations.

MORL-Baselines - это библиотека алгоритмов многоцелевого обучения с подкреплением (MORL).

Данный репозиторий содержит рабочие реализации алгоритмов MORL в PyTorch.

🖥 Code: https://github.com/lucasalegre/morl-baselines

🦾 Project: lucasalegre.github.io/morl-baselines

🖥 Colab: https://colab.research.google.com/drive/1ByjuUp8-CJeh1giPOACqPGiglPxDnlSq?usp=sharing

📚 Paper: https://arxiv.org/abs/2311.12495v1

🔗 Dataset: https://paperswithcode.com/dataset/mo-gymnasium

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🥰21🍌1