Data Secrets

Кошмары при температуре 39

1😁257🤯33🗿8🦄4👍1😎1

20.4K views14:04

3 избранных статьи с ICLR 2026

Вчера закончилась одна из трех главных ежегодных мировых конференций по искусственному интеллекту – ICLR 2026. Именно тут публикуются ключевые работы, которые в последствие ложатся в основу реальной практики.

На основе официальных наград и того, что реально обсуждали участники и индустрия вокруг конференции, мы выбрали три статьи, на которые стоит обратить внимание. Коротко разберем, в чем их суть и почему про них говорят:

1️⃣

Победитель номинации "Outstanding Papers" – статья немецких ученых "Трансформеры лаконичны по природе".

Теоретическая работа, в которой доказывают удивительную вещь: трансформеры оказались не просто мощными, а экспоненциально более компактными по сравнению с классическими моделями. То есть они могут описывать сложные зависимости в данных в разы короче, чем автоматы, логические формулы или RNN. Поэтому-то LLM и стрельнули. Цена за это – черный ящик: из-за таких способностей к сжатию трансформеры становится крайне сложно анализировать и проверять.

2️⃣

Совместная статья ученых из Red Hat AI, ETH Zürich и Yandex Research – про качественное квантование.

Все хотят запускать большие модели в 4 бита – это дает до ~2–4× ускорения и сильную экономию памяти. Так вот данная статья примечательна тем, что в ней доказали: FP4-форматы от NVIDIA на практике работают хуже, чем было обещано. Существующие методы квантования приводят к существенной просадке качества. Авторы провели подробный анализ разных идей, способных потенциально улучшить качество квантизации, и предложили свой алгоритм MR-GPTQ, который подгоняет квантование под особенности FP4. Он заметно повышает точность по сравнению с предыдущими методами и при этом позволяет эффективно использовать аппаратные возможности ускорителей нового поколения. Приложены к тому же готовые ядра для инференса, так что полученный результат имеет реальное практическое применение.

Пользуясь случаям, поздравляем ребят из Яндекс с отличной работой. Кстати, кроме этой статьи они привезли на ICLR еще целых пять. В канале ML Underhood делали разбор всех.

3️⃣

Статья от Apple – они научились параллелить RNN.

Долгое время RNN считались «мертвыми» для больших моделей: их нельзя нормально параллелить – они считают последовательность по шагам, один за другим. Поэтому всех вытеснили трансформеры. Apple показали, что это не фундаментальное ограничение. Они переписали работу RNN как одну большую систему уравнений и научились решать ее параллельно. В итоге – ускорение до 600+ раз по сравнению с обычным последовательным режимом. Вишенка: они обучили классические RNN (LSTM/GRU) размером до 7B параметров, и они по качеству почти догоняют трансформеры и Mamba.

В комментариях открываем reading club: присылайте ссылки на статьи, которые приглянулись вам 👓

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤105🤯77👍30🏆10🔥42😁1

20.7K views15:33