Falcon Mamba - модель от Technology Innovation Institute (TII, Dubai, UAE), основанная на архитектуре Mamba, которая может обрабатывать последовательности произвольной длины без увеличения памяти хранения.
Модель была обучена на ~5500GT данных RefinedWeb, качественных технических данных и экземпляров кода на разных языках программирования из открытых источников.
Архитектура модели построена на оригинальной Mamba с добавлением дополнительных слоев нормализации RMS.
Такая комбинация придает модели возможность обрабатывать последовательности любой длины без необходимости увеличения потребления памяти, вмещаясь, по сути, на одну А10 24 GB.
Falcon Mamba доступна в экосистеме Hugging Face и совместима с большинством API Hugging Face. Модель также поддерживает функцию квантование bitsandbytes, для обеспечения возможности запуска модели на небольших GPU и CPU.
Коллекция моделей FalconMamba 7B:
@ai_machinelearning_big_data
#AI #Falcon #ML #LLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥8❤7