TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
По сравнительным бенчмаркам с другими популярными методами машинного обучения, такими как трансформеры и рекуррентные нейронные сети, было обнаружено, что в некоторых задачах TTT работает лучше.
Этот революционный метод позволит приблизиться к созданию более гибких и эффективных моделей искусственного интеллекта, способных лучше адаптироваться к новым данным в реальном времени.
На Github опубликованы адаптации метода:
- адаптация под Pytorch
- адаптация под JAX
@ai_machinelearning_big_data
#Pytorch #Jax #TTT #LLM #Training
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤43🔥26👍10🎉2⚡1
Обучение LLM требует огромных вычислительных ресурсов. Поскольку размеры моделей исчисляются миллиардами параметров, специализированные методы распараллеливания необходимы для того, чтобы сделать обучение выполнимым.
В статье "Исследование параллельных стратегий с Jax" подробно рассматривается реализация некоторых стратегий масштабирования в Jax - фреймворке Python, предназначенном для высокопроизводительных численных вычислений с поддержкой ускорителей GPU и TPU.
Стратегии, описанные в туториале с примерами кода и иллюстрациями:
@ai_machinelearning_big_data
#AI #ML #LLM #JAX #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤6🔥3🎉2🤝1
⚡️🔥 Недавно Google Cloud выпустил «Руководство разработчика PyTorch по основам JAX».
Jax – это фреймворк для машинного обучения, подобный PyTorch и TensorFlow.
Его разработали в Deepmind, хотя он не является официальным продуктом Google, он остается популярным.
Jax объединяет Autograd и XLA (Accelerated Linear Algebra - компилятор с открытым исходным кодом для машинного обучения) для обеспечения высокопроизводительных численных вычислений.
Созданный на основе NumPy, его синтаксис следует той же структуре, что делает его простым выбором для разработчиков.
В этом руководстве содержится пошаговый гайд по реализации простой нейронной сети на Pytorch (JAX + Flax NNX) для тех, кто хочет начать работать с JAX.
📌 Читать
📌Документация Jax
@ai_machinelearning_big_data
#jax #pytorch #google
Jax – это фреймворк для машинного обучения, подобный PyTorch и TensorFlow.
Его разработали в Deepmind, хотя он не является официальным продуктом Google, он остается популярным.
Jax объединяет Autograd и XLA (Accelerated Linear Algebra - компилятор с открытым исходным кодом для машинного обучения) для обеспечения высокопроизводительных численных вычислений.
Созданный на основе NumPy, его синтаксис следует той же структуре, что делает его простым выбором для разработчиков.
В этом руководстве содержится пошаговый гайд по реализации простой нейронной сети на Pytorch (JAX + Flax NNX) для тех, кто хочет начать работать с JAX.
📌 Читать
📌Документация Jax
@ai_machinelearning_big_data
#jax #pytorch #google
🔥56👍21❤10❤🔥1
Что делает Marin особенной:
— Полностью открыты не только веса, но показан весь процесс обучения: код, данные, гиперпараметры модели, логи, эксперименты — всё доступно на GitHub
— Модель обучена на 12.7 трлн токенов и в 14 из 19 тестов обошла Llama 3.1 8B
— Лицензия Apache 2.0, всё можно использовать, модифицировать и воспроизводить
— Levanter + JAX обеспечивают bit‑exact повторяемость и масштабируемость на TPU/GPU
Проект позиционируется как открытая лаборатория: каждый эксперимент оформляется через pull request, логируется в WandB, обсуждается в issue и фиксируется в истории репозитория. Даже неудачные эксперименты сохраняются ради прозрачности.
Выпущены две версии:
- Marin‑8B‑Base — сильный base-модель, превосходит Llama 3.1 8B
- Marin‑8B‑Instruct — обучена с помощью SFT, обгоняет OLMo 2, немного уступает Llama 3.1 Tulu
Это не просто открытые веса, а новый стандарт для научных вычислений в эпоху больших моделей.
* JAX — это фреймворк от Google для научных и численных вычислений, особенно популярен в сфере машинного обучения.
**TPU (Tensor Processing Unit) — это специализированный чип от Google, созданный для ускорения AI-задач.
@ai_machinelearning_big_data
#ai #ml #tpu #jax #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥70❤25👍18🥰2💯2🤔1