Технозаметки Малышева

CogVLM - мощная мультимодальная модель для обработки визуальных и текстовых данных

- CogVLM – открытая модель визуального языка, сочетает 10 млрд параметров зрения и 7 млрд языковых параметров.
- Модель показывает лучшие результаты на перекрестных модальных тестах.
- Точно описывает изображения, сводя к минимуму искажения.
- Содержит модули: кодировщик трансформера зрения, MLP-адаптер, GPT и модуль визуальных экспертов.
- Предоставляются два графических интерфейса для вывода модели: веб-демо и интерфейс командной строки.
- Поддерживает параллельные вычисления для работы с несколькими GPU.
- Предоставлены гиперпараметры для настройки процесса генерации.
- Исходный код доступен под лицензией Apache-2.0.

Это даст новые возможности в создании AI-систем, понимающих мир как в картинках, так и в словах.

#GitHub #CogVLM #ИскусственныйИнтеллект

GitHub

GitHub - zai-org/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型

a state-of-the-art-level open visual language model | 多模态预训练模型 - zai-org/CogVLM

❤1

44 views09:31

About

Blog

Apps

Platform