Machinelearning

🌟 Arcee-SuperNova-Medius: модель с 14 млрд. параметрами на архитектуре Qwen2.5.

Модель построена на архитектуре Qwen2.5-14B-Instruct и использует 14 млрд. параметров. В процессе создания использовалась дистилляция с перекрестной архитектурой, объединяющая знания моделей Qwen2.5-72B-Instruct и Llama-3.1-405B-Instruct.

Для этого применялась дистилляция логитов из Llama 3.1 405B с использованием автономного подхода, адаптация к перекрестной архитектуре с использованием mergekit-tokensurgeon для создания версии Qwen2.5-14B, использующей словарь Llama 3.1 405B, а также дистилляция в архитектуру Qwen с использованием сохраненных логитов 405B в качестве цели.

На заключительном этапе, словарь модели Qwen, дистиллированной из Llama, был возвращен к словарю Qwen, а затем был проведен заключительный этап слияния и тонкой настройки.

В процессе обучения использовался набор данных EvolKit.

Arcee-SuperNova-Medius обладает навыками для решения бизнес-задач: поддержка клиентов, техническая поддержка и генерация текстового контента.

Тестирование в показало, что SuperNova-Medius превосходит Qwen2.5-14B и SuperNova-Lite по показателям, связанным с выполнением инструкций (IFEval) и сложным рассуждением (BBH).

▶️ Официальные квантованные версии Arcee-SuperNova-Medius в формате GGUF в разрядностях от 2-bit (5 Gb) до 16-bit (29.5 Gb)

📌Лицензирование : Apache 2.0 License.

🟡

Страница проекта

🟡

Набор GGUF

🟡

Модель

@ai_machinelearning_big_data

#AI #ML #LLM #ArceeAI #SuperNova

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🥰15👍12❤5🔥5🌚1

8.84K views17:00

Machinelearning

✔️

Adobe запустила генератор видео Firefly.

Adobe представила Firefly, обновленную генеративную платформу, которая позволяет создавать видеоролики длительностью до 5 секунд с помощью текстовых или графических подсказок.

Firefly может создавать анимационный и фотореалистичный контент, а веб-приложение Firefly включает в себя настройки для управления движением камеры, углом обзора и размером кадра.

В бета-версии Premiere Pro доступна функция Generative Extend от Firefly, которая продлевает видеоклипы до двух секунд, генерируя дополнительный кадр в сцене, продолжая движение камеры и объекта, а также расширяя фоновый звук.
techcrunch.com

✔️

Китай выдал первую лицензию на производство кухонных роботов с ИИ.

В Пекине выдали первую коммерческую лицензию роботу со встроенным искусственным интеллектом для работы в сфере общественного питания.

Новый тип робота, в отличие от традиционных роботов, выполняющих одну задачу, может готовить различные блюда, адаптироваться к рабочей среде и создавать новые меню благодаря своей способности к непрерывному обучению.

Ожидается, что к концу года использование роботов расширится до сетей ресторанов, где они будут готовить все - от мороженого до салатов.
fanabc.com

✔️

Уимблдонский турнир внедрит ИИ для замены судей.

С 2025 года на Уимблдонском турнире, старейшем теннисном турнире Большого шлема, будет использоваться технология ИИ для определения попадания мяча в корт, заменяя 300 судей на линии.

Английский клуб лаун-тенниса и крокета, организатор турнира, заявил, что эта технология прошла испытания в 2024 году и позволит минимизировать ошибки судейства, обеспечивая максимальную точность.

Французский турнир Большого шлема остается единственным, где до сих пор не используются электронные системы определения аута.
timesnownews.com

✔️

IBM выпустила Qiskit Code Assistant.

IBM представила Qiskit Code Assistant, инструмент для упрощения и оптимизации процесса написания кода. Qiskit предлагает функции генерации кода на основе запросов на естественном языке, очистки чернового кода и практического обучения.

Инструмент интегрируется Visual Studio Code и JupyterLab, и его производительность оценивается с помощью бенчмарка Qiskit HumanEval. IBM планирует сделать ключевые компоненты Qiskit Code Assistant, включая модель Qiskit Granite и набор данных HumanEval, общедоступными.
thequantuminsider.com

✔️ Ученые из ОАЭ разработали модели машинного обучения для прогнозирования разрушения железобетона.

Модели учитывают факторы: как возраст конструкции, осадки, температура и интенсивность движения. Исследователи выявили, что эти факторы являются основными причинами разрушения непрерывно армированных бетонных покрытий.

Результаты исследования показывают, что модели машинного обучения могут эффективно прогнозировать разрушение бетона, предоставляя инженерам время для принятия мер по предотвращению разрушения.
techxplore.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21👍9🔥4😁1

10.6K views06:19

Machinelearning

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 ARP: авторегрессионное обучение последовательности действий для задач роботизированного манипулирования.

ARP - архитектура авторегрессионной политики, разработанная в Рутгерском университете, которая учится генерировать последовательности действий, используя Chunking Causal Transformer (CCT), предлагая универсальный подход, превосходящий специализированные решения для задач манипулирования.

Политика предсказывает только будущую последовательность действий на основе текущего состояния (или наблюдения), не пытаясь предсказать всю траекторию. Этот метод обучения последовательности действий более достижим в приложениях робототехники и позволяет лучше использовать причинно-следственные связи.

ARP состоит из трех основных компонентов:

🟢

Chunking Causal Transformer: CCT лежит в основе АРП и отвечает за авторегрессивную генерацию последовательности действий. Он принимает на вход текущее наблюдение и последовательность прошлых действий и предсказывает следующий фрагмент (chunk) действий.

🟢

Модуль эмбединга действий: преобразует действия (дискретные, непрерывные или координаты пикселей) в непрерывные векторные представления (эмбединги), которые могут быть обработаны CCT.

🟢

Модуль декодирования действий: преобразует инференс от CCT обратно в соответствующие действия в формате, подходящем для управления роботом.

ARP оценивался в 3 средах (Push-T, ALOHA, RLBench) и сравнивался с современными методами для каждой среды. Во всех случаях ARP продемонстрировал высокую производительность, достигая SOTA-показателей при меньших вычислительных затратах.

ARP был протестирован в реальном эксперименте с роботом, где он успешно выполнил сложную задачу по затягиванию гаек.

В репозитории проекта доступен код для обучения, тестирования в средах Push-T, ALOHA, RLBench и подробные инструкции по настройке окружения под каждую из этих задач.

⚠️ В зависимости от задачи (Push-T, ALOHA или RLBench) необходимо выбрать соответствующий файл конфигурации. Примеры конфигурационных файлов приведены в файле Experiments.md

⚠️ Форматы данных для каждой задачи разные:

🟠Push-T: RGB-изображения 96x96 px;
🟠ALOHA - RGB-изображения 480x640 px;
🟠RLBench - RGBD (RGB+канал Depth) 128 × 128px.

🟡

Набор моделей

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Robotics #ARP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18👍15🔥7🥰1

11K views10:01

Machinelearning

🌟 CogView-3Plus-3B: модель генерации Text-to-Image.

CogView-3-Plus - генеративная модель на архитектуре DiT из недавно представленного на ECCV'24 семейства CogView3.

CogView-3-Plus использует диффузионный шедулер Zero-SNR и VAE с latent dimension 16. По сравнению с MMDiT, она эффективней в обучении и инференсе при сохранении основных возможностей модели.

Технические параметры:

🟢Архитектура: DiT;

🟢Количество параметров: 3 млрд.;

🟢Разрешение: от 512 до 2048, кратное 32;

🟢Разрядности: FP32, BF16 (рекомендуется);

🟢VRAM: 20Gb (1024x1024), 30Gb (2048x2048);

🟢СPU Offload: есть, при его использовании, VRAM для всех поддерживаемых разрешений - 11Gb;

🟢Язык промпта: English;

🟢Max. длина промпта: 244 токена.

Инференс модели возможен в СLI (diffusers, SAT) и в WebUI на Gradio.

⚠️ В файле запуска Gradio используется функция улучшения промпта через ChatGPT (строки 37-112), для ее использования понадобится OpenAI API KEY.

⚠️ Модели серии CogView3 обучаются на длинных аннотациях изображений, поэтому рекомендуется использовать LLM-образные промпты для генерации, это значительно улучшит качество инференса.

📌Лицензирование : Apache 2.0 License.

🟡

Модель

🟡

Arxiv

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #T2I #CogView3

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍7🔥3👏1

8K views14:31

Machinelearning

🌟 Branch-Train-MiX: метод получения MoE-модели

Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.

После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.

🟡

Страница проекта

🟡

Разбор метода

@ai_machinelearning_big_data

#MoE #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥7❤5

21.4K views17:02

Machinelearning

✔️

Google переключается на атомную энергию для питания своих дата-центров с ИИ.

Google подписал соглашение с Kairos Power об использовании небольших ядерных реакторов для обеспечения энергией своих дата-центров, работающих на базе искусственного интеллекта.

Первые реакторы планируется запустить в течение этого десятилетия, а к 2035 году их количество будет увеличено. Google и Kairos Power не раскрывают финансовые детали сделки и места строительства новых электростанций.

Технологические компании все чаще обращаются к атомной энергии для обеспечения электропитанием огромных дата-центров, на которых основана работа ИИ. В прошлом месяце Microsoft заключила соглашение о возобновлении работы на ядерной электростанции Три-Майл-Айленд в США.
bbc.com

✔️

США рассматривают возможность ограничения экспорта чипов для ИИ от Nvidia и AMD в страны Персидского залива.

Цель - ограничить доступ к американским технологиям в интересах национальной безопасности США. Ограничения будут основаны на новой системе лицензирования экспорта чипов для центров обработки данных, которая была представлена в прошлом месяце.

Власти США обеспокоены растущим спросом на ЦОДы, работающие на основе ИИ, в странах Персидского залива, и их финансовыми возможностями. Новые правила могут потребовать от компаний сокращения связей с Китаем и странами залива в обмен на доступ к американским технологиям.
Nvidia пока не прокомментировала ситуацию.
finance.yahoo.com

✔️

Вице-президент Microsoft по ИИ переходит в OpenAI для работы над AGI.

Себастьян Бубек проработал в Microsoft десять лет, занимаясь разработкой малых языковых моделей. Несмотря на то, что Microsoft и OpenAI являются конкурентами в некоторых областях, Microsoft высоко оценила вклад Бубека и надеется на продолжение сотрудничества.

В OpenAI Бубек будет работать над достижением AGI. Эксперты отрасли полагают, что опыт Бубека поможет OpenAI в исследованиях и разработке языковых моделей, которые, несмотря на меньший, чем у AGI, масштаб, могут играть значительную роль в достижении этой цели.
bloomberg.com

✔️

Cognite выпускает отчет о сравнительном анализе языковых моделей для промышленных агентов.

Cognite, лидер в области ИИ для промышленности, представила отчет "Cognite Atlas AI™ LLM & SLM Benchmark Report for Industrial Agents" на мероприятии IMPACT 2024.

Это первый в своем роде отчет, который должен решить проблему несоответствия общих наборов данных для сравнительного анализа LLM и SLM в специфике промышленных задач. В отчете основное внимание уделено поиску на естественном языке в качестве ключевого инструмента извлечения данных для промышленных агентов ИИ.

Отчет будет доступен для бесплатной загрузки 28 октября 2024 года на официальном сайте Cognite.
businesswire.com

✔️

TSMC строит завод по производству чипов в Европе.

Министр науки и технологий Тайваня Ву Чэн-вэнь сообщил Bloomberg TV, что TSMC уже начала строительство своего первого завода по производству полупроводников в Дрездене и планирует строительство следующих заводов для различных секторов рынка.

Строительство завода в Дрездене началось в августе 2024 года, общая сумма инвестиций превысит 10 млрд евро, при этом проект получил 5 млрд евро государственных субсидий. Завод создается в партнерстве с Bosch, Infineon и NXP для удовлетворения потребностей европейской автомобильной и промышленной отрасли в полупроводниках.
euronews.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31❤8🔥2👏2🤗1

12.3K views06:09

Machinelearning

🌟 Возвращение RNN: LSTM и GRU — все, что нам было нужно?

Архитектура Transformer доминирует в моделировании последовательностей уже несколько лет, демонстрируя отличные результаты в задачах NLP, машинного перевода и генерации текста. Главный недостаток Transformer — они долго считают длинные последовательности. А если вычислительных ресурсов мало, то реализация занимает либо много времени, либо требует их увеличения.

Авторы исследования предлагают вернуться к RNN, ведь они быстрее считают и параллельно учитывают контекст. Чтобы отвязаться от обратного распространения ошибки (BPTT), которая требует линейного времени обучения, применяется алгоритм параллельного сканирования за счет устранения зависимости от срытых состояний из гейтов LSTM и GRU.

В предлагаемом методе представлены "уменьшенные" LTSM и GRU - minLSTM и minGRU. Они не только обучаются параллельно, но и используют значительно меньше параметров, чем их старшие аналоги.

Минимализм версий достигается следующим образом:

🟢Устранение зависимостей скрытых состояний из гейтов.
В minLSTM и minGRU input, forget и update gate зависят только от входных данных, а не от предыдущих скрытых состояний.

🟢Отказ от ограничения диапазона candidate hidden state.
В традиционных LSTM и GRU функция гиперболического тангенса используется для ограничения диапазона значений скрытых состояний. В minLSTM и minGRU это ограничение снимается.

🟢Неизменность масштаба выходных данных во времени (только для minLSTM).
Для minLSTM выполняется нормализация forget и input гейтов, чтобы гарантировать, что масштаб состояния ячейки не зависит от времени.

Результаты экспериментов:

🟠Время выполнения: minLSTM и minGRU скорость обучения по сравнению с LSTM и GRU, больше в 1361 раз для последовательности длиной 4096;

🟠Задача выборочного копирования: minLSTM и minGRU успешно справились, в отличие от S4, H3 и Hyena;

🟠Обучение с подкреплением на датасете D4RL: minLSTM и minGRU обошли Decision S4 и показали производительность, сопоставимую с Decision Transformer, Aaren и Mamba;

🟠Языковое моделирование: minLSTM, minGRU, Mamba и Transformer показывают одинаковые результаты, но Transformer требует значительно большего количества шагов обучения.

Прикладная реализация численно-устойчивой в логарифмическом пространстве версии метода minGRU на Pytorch представлена в репозитории на Github.

▶️ Локальная установка и запуск minGRU в последовательном и параллельном режиме :

# Install miniGRU-pytorch
pip install minGRU-pytorch

# Usage
import torch
from minGRU_pytorch import minGRU

min_gru = minGRU(512)
x = torch.randn(2, 1024, 512)
out = min_gru(x)
assert x.shape == out.shape

# Sanity check
import torch
from minGRU_pytorch import minGRU

min_gru = minGRU(dim = 512, expansion_factor = 1.5)
x = torch.randn(1, 2048, 512)

# parallel

parallel_out = min_gru(x)[:, -1:]

# sequential

prev_hidden = None
for token in x.unbind(dim = 1):
    sequential_out, prev_hidden = min_gru(token[:, None, :], prev_hidden, return_next_prev_hidden = True)
assert torch.allclose(parallel_out, sequential_out, atol = 1e-4)