CogView-3-Plus - генеративная модель на архитектуре DiT из недавно представленного на ECCV'24 семейства CogView3.
CogView-3-Plus использует диффузионный шедулер Zero-SNR и VAE с latent dimension 16. По сравнению с MMDiT, она эффективней в обучении и инференсе при сохранении основных возможностей модели.
Технические параметры:
Инференс модели возможен в СLI (diffusers, SAT) и в WebUI на Gradio.
⚠️ В файле запуска Gradio используется функция улучшения промпта через ChatGPT (строки 37-112), для ее использования понадобится OpenAI API KEY.
⚠️ Модели серии CogView3 обучаются на длинных аннотациях изображений, поэтому рекомендуется использовать LLM-образные промпты для генерации, это значительно улучшит качество инференса.
@ai_machinelearning_big_data
#AI #ML #T2I #CogView3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍7🔥3👏1
Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.
После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.
@ai_machinelearning_big_data
#MoE #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥7❤5
Google подписал соглашение с Kairos Power об использовании небольших ядерных реакторов для обеспечения энергией своих дата-центров, работающих на базе искусственного интеллекта.
Первые реакторы планируется запустить в течение этого десятилетия, а к 2035 году их количество будет увеличено. Google и Kairos Power не раскрывают финансовые детали сделки и места строительства новых электростанций.
Технологические компании все чаще обращаются к атомной энергии для обеспечения электропитанием огромных дата-центров, на которых основана работа ИИ. В прошлом месяце Microsoft заключила соглашение о возобновлении работы на ядерной электростанции Три-Майл-Айленд в США.
bbc.com
Цель - ограничить доступ к американским технологиям в интересах национальной безопасности США. Ограничения будут основаны на новой системе лицензирования экспорта чипов для центров обработки данных, которая была представлена в прошлом месяце.
Власти США обеспокоены растущим спросом на ЦОДы, работающие на основе ИИ, в странах Персидского залива, и их финансовыми возможностями. Новые правила могут потребовать от компаний сокращения связей с Китаем и странами залива в обмен на доступ к американским технологиям.
Nvidia пока не прокомментировала ситуацию.
finance.yahoo.com
Себастьян Бубек проработал в Microsoft десять лет, занимаясь разработкой малых языковых моделей. Несмотря на то, что Microsoft и OpenAI являются конкурентами в некоторых областях, Microsoft высоко оценила вклад Бубека и надеется на продолжение сотрудничества.
В OpenAI Бубек будет работать над достижением AGI. Эксперты отрасли полагают, что опыт Бубека поможет OpenAI в исследованиях и разработке языковых моделей, которые, несмотря на меньший, чем у AGI, масштаб, могут играть значительную роль в достижении этой цели.
bloomberg.com
Cognite, лидер в области ИИ для промышленности, представила отчет "Cognite Atlas AI™ LLM & SLM Benchmark Report for Industrial Agents" на мероприятии IMPACT 2024.
Это первый в своем роде отчет, который должен решить проблему несоответствия общих наборов данных для сравнительного анализа LLM и SLM в специфике промышленных задач. В отчете основное внимание уделено поиску на естественном языке в качестве ключевого инструмента извлечения данных для промышленных агентов ИИ.
Отчет будет доступен для бесплатной загрузки 28 октября 2024 года на официальном сайте Cognite.
businesswire.com
Министр науки и технологий Тайваня Ву Чэн-вэнь сообщил Bloomberg TV, что TSMC уже начала строительство своего первого завода по производству полупроводников в Дрездене и планирует строительство следующих заводов для различных секторов рынка.
Строительство завода в Дрездене началось в августе 2024 года, общая сумма инвестиций превысит 10 млрд евро, при этом проект получил 5 млрд евро государственных субсидий. Завод создается в партнерстве с Bosch, Infineon и NXP для удовлетворения потребностей европейской автомобильной и промышленной отрасли в полупроводниках.
euronews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤8🔥2👏2🤗1
Архитектура Transformer доминирует в моделировании последовательностей уже несколько лет, демонстрируя отличные результаты в задачах NLP, машинного перевода и генерации текста. Главный недостаток Transformer — они долго считают длинные последовательности. А если вычислительных ресурсов мало, то реализация занимает либо много времени, либо требует их увеличения.
Авторы исследования предлагают вернуться к RNN, ведь они быстрее считают и параллельно учитывают контекст. Чтобы отвязаться от обратного распространения ошибки (BPTT), которая требует линейного времени обучения, применяется алгоритм параллельного сканирования за счет устранения зависимости от срытых состояний из гейтов LSTM и GRU.
В предлагаемом методе представлены "уменьшенные" LTSM и GRU - minLSTM и minGRU. Они не только обучаются параллельно, но и используют значительно меньше параметров, чем их старшие аналоги.
Минимализм версий достигается следующим образом:
В minLSTM и minGRU input, forget и update gate зависят только от входных данных, а не от предыдущих скрытых состояний.
В традиционных LSTM и GRU функция гиперболического тангенса используется для ограничения диапазона значений скрытых состояний. В minLSTM и minGRU это ограничение снимается.
Для minLSTM выполняется нормализация forget и input гейтов, чтобы гарантировать, что масштаб состояния ячейки не зависит от времени.
Результаты экспериментов:
Прикладная реализация численно-устойчивой в логарифмическом пространстве версии метода minGRU на Pytorch представлена в репозитории на Github.
# Install miniGRU-pytorch
pip install minGRU-pytorch
# Usage
import torch
from minGRU_pytorch import minGRU
min_gru = minGRU(512)
x = torch.randn(2, 1024, 512)
out = min_gru(x)
assert x.shape == out.shape
# Sanity check
import torch
from minGRU_pytorch import minGRU
min_gru = minGRU(dim = 512, expansion_factor = 1.5)
x = torch.randn(1, 2048, 512)
# parallel
parallel_out = min_gru(x)[:, -1:]
# sequential
prev_hidden = None
for token in x.unbind(dim = 1):
sequential_out, prev_hidden = min_gru(token[:, None, :], prev_hidden, return_next_prev_hidden = True)
assert torch.allclose(parallel_out, sequential_out, atol = 1e-4)
@ai_machinelearning_big_data
#AI #ML #RNN #miniGRU
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤10🔥5😁1
NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B:
Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference.
Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet.
Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.
Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb).
Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество.
Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling.
Nemotron-70B-Reward занимает первое место в RewardBench.
Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.
Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb).
Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM.
HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность.
⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске.
⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM.
@ai_machinelearning_big_data
#AI #ML #LLM #Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍10🔥6
Ollama, приложение, основанное на llama.cpp, для локального взаимодействия с LLM получила возможность запускать одной командой любую GGUF модель, размещенную на Huggingface без создания нового Modelfile.
На сегодняшний день на HF около 45 тысяч моделей в формате GGUF, и теперь можно запустить любую из них одной командой
ollama run
. Также доступна настройка параметров запуска: выбор типа квантования и системного промпта.ollama run hf.co/{username}/{repository}
ollama run hf.co/{username}/{repository}:{quantization}
По умолчанию шаблон чата будет выбран автоматически из списка часто используемых шаблонов.
Он создается на основе встроенных метаданных
tokenizer.chat_template
, хранящихся в файле GGUF. Если в GGUF нет встроенного шаблона или необходимо настроить свой шаблон чата, нужно создать новый файл с именем template
. Шаблон должен быть шаблоном
Go
, а не шаблоном Jinja
. Например:{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>
⚠️ В качестве доменного имени в команде запуска можно использовать доменные имена как
hf.co
, так и huggingface.co
.@ai_machinelearning_big_data
#AI #ML #LLM #Ollama #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤33👍21🔥11👏5✍1😁1
Mistral AI, отмечая годовщину выпуска Mistral 7B, представила две новые модели: Ministral 3B и Ministral 8B.
Семейство этих моделей получило название «Ministraux», они отличаются высокой производительностью в области знаний, рассуждений, вызова функций и эффективности среди аналогичных моделей категории менее 10 млрд. параметров.
Обе модели Ministraux поддерживают контекстную длину до 128 тыс. токенов (32 тыс. токенов на vLLM), а Ministral 8B использует специальную схему чередующегося скользящего окна внимания для более быстрого и эффективного инференса.
Модели предназначены для использования в различных сценариях, от робототехники до автономных интеллектуальных помощников без подключения к интернету.
Обе модели в ближайшее время будут доступны в сервисе La Plateforme и в облачных сервисах партнеров MistalAI. Цены: 0.1$/M (input and output) для Ministral 8B и 0.04$ /M (input and output) для Ministral 3B.
Локальный запуск рекомендуется выполнять в среде vLLM, воспользоваться docker или библиотекой Mistral Inference.
⚠️ vLLM имеет ограничение на размер контекста 32k, поскольку поддержка interleaved attention kernels for paged attention в нем пока еще не реализована.
⚠️ Для локального запуска Ministral 8B-Instruct понадобится 24 Gb VRAM
@ai_machinelearning_big_data
#AI #ML #LLM #Ministraux #MistralAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤12🔥6🥰1