Machinelearning

⚡️

Falcon Mamba: англоязычная языковая модель на архитектуре Mamba.

Falcon Mamba - модель от Technology Innovation Institute (TII, Dubai, UAE), основанная на архитектуре Mamba, которая может обрабатывать последовательности произвольной длины без увеличения памяти хранения.
Модель была обучена на ~5500GT данных RefinedWeb, качественных технических данных и экземпляров кода на разных языках программирования из открытых источников.

Архитектура модели построена на оригинальной Mamba с добавлением дополнительных слоев нормализации RMS.
Такая комбинация придает модели возможность обрабатывать последовательности любой длины без необходимости увеличения потребления памяти, вмещаясь, по сути, на одну А10 24 GB.
Falcon Mamba доступна в экосистеме Hugging Face и совместима с большинством API Hugging Face. Модель также поддерживает функцию квантование bitsandbytes, для обеспечения возможности запуска модели на небольших GPU и CPU.

Коллекция моделей FalconMamba 7B:

🟢

falcon-mamba-7b

🟢

falcon-mamba-7b-instruct

🟠

falcon-mamba-7b-4bit

🟠

falcon-mamba-7b-instruct-4bit

📌Лицензирование : TII Falcon-Mamba License 2.0

🟡

Страница проекта

🟡

Коллекция моделей на HF