Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.
nano-llama31 - то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.
Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора
Планы:
git clone https://github.com/meta-llama/llama-models.git
▪ Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - karpathy/nano-llama31: nanoGPT style version of Llama 3.1
nanoGPT style version of Llama 3.1. Contribute to karpathy/nano-llama31 development by creating an account on GitHub.
👍8❤5🔥5
CityGaussian (CityGS) использует новый подход к обучению по принципу "разделяй и властвуй" и стратегию Level-of-Detail (LoD) для эффективного обучения и рендеринга.
Такой подход позволяет генерировать различные уровни детализации и реализовать быстрый рендеринг в различных масштабах.
Судя по метрикам SSIM, PSNR и LPIPS, на данный момент CityGaussian достигает самого высокого качества рендеринга по сравнению с аналогичными методами.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤3🔥1
🦙✨ BigLlama-3.1-1T-Instruct
Вам было мало 405B параметров.
Вот Улучшенная версию Llama 3.1 с 1 000 000 000 000 параметрами.
▪ Модель: https://huggingface.co/mlabonne/BigLlama-3.1-1T-Instruct
@data_analysis_ml
Вам было мало 405B параметров.
Вот Улучшенная версию Llama 3.1 с 1 000 000 000 000 параметрами.
▪ Модель: https://huggingface.co/mlabonne/BigLlama-3.1-1T-Instruct
@data_analysis_ml
🤯26👍9❤3🔥3👏1
⚡️ Mistral Large 2 уже здесь!
Модель лидирует в рейтингах Arena hard. Впечатляющая производительность в написании кода, понимании сложных промптах и математике. Модель превосходит топовые модели GPT-4 Turbo/Claude Opus!
Кроме того, это модель с открытым исходным кодом.
Blogpost: https://mistral.ai/news/mistral-large-2407/
Model weights: https://huggingface.co/mistralai/Mistral-Large-Instruct-2407
@data_analysis_ml
Модель лидирует в рейтингах Arena hard. Впечатляющая производительность в написании кода, понимании сложных промптах и математике. Модель превосходит топовые модели GPT-4 Turbo/Claude Opus!
Кроме того, это модель с открытым исходным кодом.
Blogpost: https://mistral.ai/news/mistral-large-2407/
Model weights: https://huggingface.co/mistralai/Mistral-Large-Instruct-2407
@data_analysis_ml
👍8❤4🔥4
Единый API, который может реализовать широкий спектр разных вариантов внимания всего несколькими строками кода ,с помощью определяемой пользователем функции "
score_mod
" (causal mask, AliBi, sliding window, ), которая изменяет оценку перед softmax
.Api реализован на чистом коде на Python со стороны пользователя, но скомпилирован таким образом, что почти так же быстродействен, как от ядро Triton!
https://pytorch.org/blog/flexattention/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥2
⚡️ Очень полезные систематизированные знания по настройкам LLM
Большой, постоянно обновляемой список по всем основным моделям.
https://docs.google.com/spreadsheets/d/14vbBbuRMEHoqeuMHkTfw3uiZVmyXNuoSp8s-aHvfvZk/edit?gid=0#gid=0
@data_analysis_ml
Большой, постоянно обновляемой список по всем основным моделям.
https://docs.google.com/spreadsheets/d/14vbBbuRMEHoqeuMHkTfw3uiZVmyXNuoSp8s-aHvfvZk/edit?gid=0#gid=0
@data_analysis_ml
👍14❤5🔥3
Проект LLM Judge демонстрирует тонкую настройку и оценку языковой модели Mistral для обнаружения фактических несоответствий и галлюцинаций в тексте.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤7🔥2
VADER — это метод выравнивания результатов диффузионных моделей по генерации видео;
VADER позволяет улучшить различные модели, такие как VideoCrafter, OpenSora, ModelScope и StableVideoDiffusion, с помощью разных подходов, таких как HPS, PickScore, VideoMAE, VJEPA, YOLO, Aesthetics и др.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥2
InternVL 2.0 превосходит большинство открытых мультимодальных LLM.
Модель показывает конкурентоспособную производительность в различных областях, включая понимание документов и схем, анализ инфографики, решение задач OCR, решение научных и математических задач.
Модель InternVL 2.0 обучалась с контекстным окном 8k на датасете из длинных текстов, нескольких изображений и видео, что значительно улучшает ее способность обрабатывать эти типы входных данных по сравнению с InternVL 1.5.
🤗 Hugging Face
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤5🔥3🤯1
⚡️ Лучшее за неделю из мира Open ML/ AI:
1. В качестве сюрприза команда Qwen выпустила -
Qwen2-Math - специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных
Qwen 2 Audio - 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
2. Parler TTS- 885M - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.
3. LG выпустили модель EXAONE 7.8B, обученную на 8T токсинах, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, набравшей 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).
4. Hugging Face выпустили IDEFICS3 Llama 8B - VLM-модель с лицензией Apache 2.0 с расширенными возможностями контроля качества и Мощным функционалом работы с документами! Модель основанп на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9
5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн, модель обучена работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7
6. Tsingua KEG выпустила CogVideoX 2B - открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!
И... произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (которая на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge 1T.
@data_analysis_ml
#ainews #mlnews #digest
1. В качестве сюрприза команда Qwen выпустила -
Qwen2-Math - специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных
Qwen 2 Audio - 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
2. Parler TTS- 885M - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.
3. LG выпустили модель EXAONE 7.8B, обученную на 8T токсинах, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, набравшей 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).
4. Hugging Face выпустили IDEFICS3 Llama 8B - VLM-модель с лицензией Apache 2.0 с расширенными возможностями контроля качества и Мощным функционалом работы с документами! Модель основанп на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9
5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн, модель обучена работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7
6. Tsingua KEG выпустила CogVideoX 2B - открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!
И... произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (которая на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge 1T.
@data_analysis_ml
#ainews #mlnews #digest
👍9❤4🔥3❤🔥2
Whisper Diarization совмещает в себе возможности whisper-base и pyannote-segmentation-3.0, двух мощных инструментов для распознавания речи, а также поддерживает 100 различных языков
Whisper Diarization работает полностью локально в браузере с помощью Transformers.js и ONNX Runtime Web, без всяких API-вызовов на сервер.
🤗 HuggingFace
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤6🥰3
Модели генерации текста в видео (T2V) значительно продвинулись вперед, однако их способность точно компоновать различные объекты, атрибуты и движения в видео остается неизученной.
В данной работе Kaiyue Sun с коллегами проводит первое систематическое исследование этого вопроса.
В результате работы появился T2V-CompBench — первый бенчмарк, предназначенный для оценивания точности размещения нужных объектов в кадре, точности их движения и т.д.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2