DL летописец
Пивной бар-хоппинг для айтишников 12 сентября в 20:00 Финтех-компания Точка приглашает в пять московских баров в День программиста! Выпьем пива, пройдём квест про технологии и обсудим холиварные темы. Пройди задания, собери пасхалки и получи подарок — пивной…
Тут моя любимая компания организует весёлую движуху, и я там буду главным холиварщиком на тему ML - поспорить и подискутировать можно будет о многом, так что если будете в это время в мск - можете заглянуть)
Forwarded from XLabs AI
This media is not supported in your browser
VIEW IN TELEGRAM
Готов стать частью будущего музыкальной AI индустрии? Прими участие в хакатоне XLabs AI, который пройдет с 2 по 17 ноября!
Тебе предстоит разработать нейросеть, которая сможет петь на русском языке по заданным текстовым инструкциям, с возможностью адаптации к другим языкам в будущем🎵
Тебя ждут:
👉 Уникальная задача и 2 недели на разработку решения совместно с экспертами AI индустрии.
👉 Призовой фонд 2 миллиона рублей!
👉 Возможность стать сотрудником в передовой AI-лаборатории и выступить на международной конференции в Минске.
Скорее собирай команду до 5 человек или ищи будущих тиммейтов, которые готовы объединиться и победить в чате✌️
Подай заявку до 1 ноября 23:59 и стань частью революции в мире музыки!🔥
Тебе предстоит разработать нейросеть, которая сможет петь на русском языке по заданным текстовым инструкциям, с возможностью адаптации к другим языкам в будущем
Тебя ждут:
Скорее собирай команду до 5 человек или ищи будущих тиммейтов, которые готовы объединиться и победить в чате
Подай заявку до 1 ноября 23:59 и стань частью революции в мире музыки!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
XLabs AI
Готов стать частью будущего музыкальной AI индустрии? Прими участие в хакатоне XLabs AI, который пройдет с 2 по 17 ноября! Тебе предстоит разработать нейросеть, которая сможет петь на русском языке по заданным текстовым инструкциям, с возможностью адаптации…
Мои друзья из XLabs организовывают прикольный хакатон на тему TTS, так что все dl enjoyer'ы - приходите)
Forwarded from .ml
Шо пацаны, вращаем и масштабируем!
Сейчас самый популярный метод позиционного кодирования в LLM’ках и не только — это RoPE. Но глубокому исследованию влияния параметров RoPE на поведение и свойства итоговой модели уделяется довольно мало внимания.
В статье “Scaling Laws of RoPE-based Extrapolation” ребята исследовали влияние выбора параметра rope base на поведение модели при разном размере контекста.
А еще:
📌 Ввели концепцию critical dimension, которая чуть-чуть приводит в порядок теорию про адаптацию RoPE для Train Short Test Long сценариев.
📌 Пофлексили тем, что “we achieve extrapolation up to 1 million context length within only 16K training length on LLaMA2 7B and 13B” — но есть нюанс 🙃
Основные интересные моменты:
Велкам в полную версию статьи — давайте в комментариях обсудим, кто что полезное в ней нашел.
Сейчас самый популярный метод позиционного кодирования в LLM’ках и не только — это RoPE. Но глубокому исследованию влияния параметров RoPE на поведение и свойства итоговой модели уделяется довольно мало внимания.
В статье “Scaling Laws of RoPE-based Extrapolation” ребята исследовали влияние выбора параметра rope base на поведение модели при разном размере контекста.
А еще:
📌 Ввели концепцию critical dimension, которая чуть-чуть приводит в порядок теорию про адаптацию RoPE для Train Short Test Long сценариев.
📌 Пофлексили тем, что “we achieve extrapolation up to 1 million context length within only 16K training length on LLaMA2 7B and 13B” — но есть нюанс 🙃
Основные интересные моменты:
- Маленькие rope base из коробки ведут к лучшей устойчивости к длинам контекста, которых не было в трейне, но при этом работают хуже на длинах, которые были в трейне.
- Есть понятный способ вычислить оптимальные rope base, если хочется сделать его маленьким.
- Большие rope base неустойчивы к длинам контекста, которых не было в трейне, но при этом работают лучше на длинах, которые были в трейне.
- Есть понятный способ вычислить оптимальный rope base, если хочется сделать его большим. Для этого нужно знать, на какой максимальной длине сиквенсов будет учиться модель, и на какой максимальной длине сиквенсов она будет работать на тесте.
- Пусть есть вектор размерности d для репрезентации какого-то query или key внутри башки атеншена. Тогда будет существовать d_extra, и во время претрейна позиционная информация в измерениях d_i ≤ d_extra будет полностью выучена, а в измерениях d_i > d_extra будет выучена не полностью и потребует дальнейших упражнений с адаптацией.
Велкам в полную версию статьи — давайте в комментариях обсудим, кто что полезное в ней нашел.
❤7
.ml
Шо пацаны, вращаем и масштабируем! Сейчас самый популярный метод позиционного кодирования в LLM’ках и не только — это RoPE. Но глубокому исследованию влияния параметров RoPE на поведение и свойства итоговой модели уделяется довольно мало внимания. В статье…
Подписываемся и ставим лайки и сердечки, канал хороший)
🫡6🤡4❤1