CogVLM - мощная мультимодальная модель для обработки визуальных и текстовых данных
- CogVLM – открытая модель визуального языка, сочетает 10 млрд параметров зрения и 7 млрд языковых параметров.
- Модель показывает лучшие результаты на перекрестных модальных тестах.
- Точно описывает изображения, сводя к минимуму искажения.
- Содержит модули: кодировщик трансформера зрения, MLP-адаптер, GPT и модуль визуальных экспертов.
- Предоставляются два графических интерфейса для вывода модели: веб-демо и интерфейс командной строки.
- Поддерживает параллельные вычисления для работы с несколькими GPU.
- Предоставлены гиперпараметры для настройки процесса генерации.
- Исходный код доступен под лицензией Apache-2.0.
Это даст новые возможности в создании AI-систем, понимающих мир как в картинках, так и в словах.
#GitHub #CogVLM #ИскусственныйИнтеллект
- CogVLM – открытая модель визуального языка, сочетает 10 млрд параметров зрения и 7 млрд языковых параметров.
- Модель показывает лучшие результаты на перекрестных модальных тестах.
- Точно описывает изображения, сводя к минимуму искажения.
- Содержит модули: кодировщик трансформера зрения, MLP-адаптер, GPT и модуль визуальных экспертов.
- Предоставляются два графических интерфейса для вывода модели: веб-демо и интерфейс командной строки.
- Поддерживает параллельные вычисления для работы с несколькими GPU.
- Предоставлены гиперпараметры для настройки процесса генерации.
- Исходный код доступен под лицензией Apache-2.0.
Это даст новые возможности в создании AI-систем, понимающих мир как в картинках, так и в словах.
#GitHub #CogVLM #ИскусственныйИнтеллект
GitHub
GitHub - zai-org/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型
a state-of-the-art-level open visual language model | 多模态预训练模型 - zai-org/CogVLM
❤1