Forwarded from addmeto (Grigory Bakunov)
А вот и первая нормальная подача в суд на GitHub Copilot. Фирма не особенно известная, Joseph Saveri, и если вы изучите дело чуть глубже, вы поймете, что это чисто юридический нонсенс, надеюсь, они в суде предъявят больше доказательств своей правоты. Самое смешное, кажется, на странице 18, там показывается вот такой кусок кода, созданного Copilot:
https://githubcopilotlitigation.com/
function isEven(n) {и уточняется, что этот кусок совершенно точно “основан на существующем коде. А именно, пример кода, который фигурирует в онлайн-книге Mastering JS, написанной Валерием Карповым”. Любой программист вам скажет, что это просто смехотворный пример, как утверждать, что слово “смехотворный” я списал из словаря. Так что дело они, конечно, проиграют, но хайп свой уже поймали.
return n % 2 === 0;
}
https://githubcopilotlitigation.com/
Githubcopilotlitigation
GitHub Copilot litigation · Joseph Saveri Law Firm & Matthew Butterick
😁29🤡9👍6🥴2🤮1
"Broken" neural scaling laws
Caballero et al.
arxiv.org/abs/2210.14891
Давно не видел такого кликбейтного заголовка (скобочки добавил я, чтобы снизить ожидания). В статье Scaling Laws for Neural Language Models показали довольно строгую powerlaw-зависимость между размером нейросети и тестовым лоссом. Это сказало две вещи: 1) увеличение сети (при соответственном увеличении данных) это всегда хорошо (для LM) 2) насколько оно становится лучше, можно предсказать простой формулой loss = (n/N)^a, где n - число параметров сети, N=8.8 10^13, a=0.076.
Этот подход несколько раз улучшали, обобщали на другие задачи и архитектуры, но была проблема что хоть метод и точен для языкового моделирования, на downstream-задачах (например, классификации) он не работает. Более того зачастую зависимость между размером сети и качеством классификации немонотонна (иногда увеличение сети делает её хуже).
В статье broken scaling laws предлагают использовать не обычный powerlaw, а кусочную (отсюда — broken) функцию которая является powerlaw на отрезках. Это позвляет более точно фитить текущие данные о соотношении метрики и размера сети, но собственно вопрос в том а зачем это вообще надо? Ведь если функция кусочная, про экстраполяцию особенно не поговоришь, тк вдруг зависимость снова изменится.
В broken power law говорят что обычно после 1-2 разрывов немонотонное поведение прекращается и что с помощью предложенной формы powerlaw на практике можно более точно экстраполировать изменение метрик чем обычным (n/N)^a. Применили подход к ImageNet, BigBench, NMT, и некоторым играм AlphaZero.
То есть scaling laws не сломали, но зато у нас теперь есть ещё одна тулза, которая применима не только к LM, но и к другим задачам.
Caballero et al.
arxiv.org/abs/2210.14891
Давно не видел такого кликбейтного заголовка (скобочки добавил я, чтобы снизить ожидания). В статье Scaling Laws for Neural Language Models показали довольно строгую powerlaw-зависимость между размером нейросети и тестовым лоссом. Это сказало две вещи: 1) увеличение сети (при соответственном увеличении данных) это всегда хорошо (для LM) 2) насколько оно становится лучше, можно предсказать простой формулой loss = (n/N)^a, где n - число параметров сети, N=8.8 10^13, a=0.076.
Этот подход несколько раз улучшали, обобщали на другие задачи и архитектуры, но была проблема что хоть метод и точен для языкового моделирования, на downstream-задачах (например, классификации) он не работает. Более того зачастую зависимость между размером сети и качеством классификации немонотонна (иногда увеличение сети делает её хуже).
В статье broken scaling laws предлагают использовать не обычный powerlaw, а кусочную (отсюда — broken) функцию которая является powerlaw на отрезках. Это позвляет более точно фитить текущие данные о соотношении метрики и размера сети, но собственно вопрос в том а зачем это вообще надо? Ведь если функция кусочная, про экстраполяцию особенно не поговоришь, тк вдруг зависимость снова изменится.
В broken power law говорят что обычно после 1-2 разрывов немонотонное поведение прекращается и что с помощью предложенной формы powerlaw на практике можно более точно экстраполировать изменение метрик чем обычным (n/N)^a. Применили подход к ImageNet, BigBench, NMT, и некоторым играм AlphaZero.
То есть scaling laws не сломали, но зато у нас теперь есть ещё одна тулза, которая применима не только к LM, но и к другим задачам.
👍14👏2
Одной строкой #13
1. Training Transformers — очень классный разбор того что важно в тренировке трансформеров от lr warmup и PreNorm до хитрых способов инициализации
1. DALL·E API Available in Public Beta — можно запрашивать как просто генерацию, так и editing, и вариации. Наверное через editing можно замутить и outpainting. Цена вопроса $0.02 за изображение 1024x1024
1. Midjourney V4 — новые картинки выглядят прямо на порядок лучше и детальнее. Ждём новых новостей того как Midjorney выигрывает art competitions?
1. LangChain — простая тулза которая запихает за вас длинные тексты в модельку. Работает так: нарезка на чатки, суммарицазия чанков, запихать все саммари в сетку.
1. Короткий рассказ о том как автоматизировали clapper detection с помощью диплёрнинга
1. Key to successful projects in Deep Learning are fast turnaround times of experiments. Тред о том как ускорять ваши эксперименты и за чем следить. Говорит про многие стандартные ошибки, буду всем студентам скидывать.
1. XONSH — a Python-powered shell. Сейчас ищу альтернативу zsh/fish и xonish выглядит забавно.
Промпт к картинке: Yann LeCun fighting thinking machines, Dune 2021. Midjorney v4
1. Training Transformers — очень классный разбор того что важно в тренировке трансформеров от lr warmup и PreNorm до хитрых способов инициализации
1. DALL·E API Available in Public Beta — можно запрашивать как просто генерацию, так и editing, и вариации. Наверное через editing можно замутить и outpainting. Цена вопроса $0.02 за изображение 1024x1024
1. Midjourney V4 — новые картинки выглядят прямо на порядок лучше и детальнее. Ждём новых новостей того как Midjorney выигрывает art competitions?
1. LangChain — простая тулза которая запихает за вас длинные тексты в модельку. Работает так: нарезка на чатки, суммарицазия чанков, запихать все саммари в сетку.
1. Короткий рассказ о том как автоматизировали clapper detection с помощью диплёрнинга
1. Key to successful projects in Deep Learning are fast turnaround times of experiments. Тред о том как ускорять ваши эксперименты и за чем следить. Говорит про многие стандартные ошибки, буду всем студентам скидывать.
1. XONSH — a Python-powered shell. Сейчас ищу альтернативу zsh/fish и xonish выглядит забавно.
Промпт к картинке: Yann LeCun fighting thinking machines, Dune 2021. Midjorney v4
👍37
To recommend or not to recommend?
Бесплатный урок по основам рекомендательных систем от OTUS для тех кто уже знает ML и хочет погрузиться в recsys. На нём разберут несколько подходов к построению рекомендательных систем, как и почему они работают. Вы также реализуете одну из этих систем своими руками 🔥
Вебинар пройдет 16 ноября в 18:00 в преддверии старта онлайн-курса «Machine Learning. Advanced» от OTUS. Это шанс протестировать формат обучения и познакомиться с Марией Тихоновой, руководителем курсов по ML в OTUS и специалистом по анализу данных в команде AGI NLP в Сбере.
🔖промокодBLACKFRIDAY22 скидка -20% на курс до 30.11.2022
👉Регистрация: https://otus.pw/HsiZ/
#промо
Бесплатный урок по основам рекомендательных систем от OTUS для тех кто уже знает ML и хочет погрузиться в recsys. На нём разберут несколько подходов к построению рекомендательных систем, как и почему они работают. Вы также реализуете одну из этих систем своими руками 🔥
Вебинар пройдет 16 ноября в 18:00 в преддверии старта онлайн-курса «Machine Learning. Advanced» от OTUS. Это шанс протестировать формат обучения и познакомиться с Марией Тихоновой, руководителем курсов по ML в OTUS и специалистом по анализу данных в команде AGI NLP в Сбере.
🔖промокод
👉Регистрация: https://otus.pw/HsiZ/
#промо
🤮16💩3👎2👍1😁1
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
BigScience
arxiv.org/abs/2211.05100
Мы уже много говорили про BigScience и BLOOM и вот наконец-то вышла статья со всеми деталями включая особенности архитектуры, тренировки и то как модель эвалюировали.
Интересно насколько сильно мир больших моделей изменился за последний год. Если после релиза T0 я совершенно не знал как запихать 11B для инференса в 4 V100, сейчас совершенно без проблем инферить 30B (в int8) всего с двумя 3090, а 11B помещается и в одну. И мне кажется BigScience оказал огромное косвенное влияние на развитие как коммьюнити тренирующего большие модели, так и тулз вокруг них: DeepSpeed, Accelerate, Megatron, bitsandbytes, ...
Но давайте про интересные моменты:
1. ROOTS (статья) — корпус на 1.6Tb текста на котором тренировали модель он разбит на датасеты по языкам и доменам и доступен на 🤗 Datasets
1. Архитектура (статья) — Decoder-only transformer, ALiBi positional embeddings, embedding LayerNorm. Нормализация эмбеддингов сильно помогает стабильности тренировки (в fp16). Токенизация делалась с помощью BPE и словать оптимизировали под fertility токенизатора для всех языков.
1. Тренировка: bfloat16 (сильно улучшает стабильность), 3D parallelism, cosine scheduler, lr=6e-5, beta2=0.95, batch size=2048.
1. Environment impact (статья) — тренировка GPT-3 выработала порядка 500 тонн CO2, тренировка BLOOM — 25. Это стало возможно благодаря более современным GPU, эффективным методам параллелизации и, самое главное, атомной электростанции которая питает суперкомьютер Jean Zay.
В общем статья BLOOM неплохо суммаризирует результаты BigScience и на удивление не очень большая (42 страницы). Рекомендую пройтись по ней и почитать те главы что вам интересны.
С моделькой можно поиграться в Spaces или запустить её локально. Веса модели в fp32 (?) занимают 360Гб. Вот тут гайд по использованию int8 в трансформерах. С ними вы можете запустить модель хоть на картошке, но если у вас меньше 300Гб GPU RAM будет считаться довольно медленно.
BigScience
arxiv.org/abs/2211.05100
Мы уже много говорили про BigScience и BLOOM и вот наконец-то вышла статья со всеми деталями включая особенности архитектуры, тренировки и то как модель эвалюировали.
Интересно насколько сильно мир больших моделей изменился за последний год. Если после релиза T0 я совершенно не знал как запихать 11B для инференса в 4 V100, сейчас совершенно без проблем инферить 30B (в int8) всего с двумя 3090, а 11B помещается и в одну. И мне кажется BigScience оказал огромное косвенное влияние на развитие как коммьюнити тренирующего большие модели, так и тулз вокруг них: DeepSpeed, Accelerate, Megatron, bitsandbytes, ...
Но давайте про интересные моменты:
1. ROOTS (статья) — корпус на 1.6Tb текста на котором тренировали модель он разбит на датасеты по языкам и доменам и доступен на 🤗 Datasets
1. Архитектура (статья) — Decoder-only transformer, ALiBi positional embeddings, embedding LayerNorm. Нормализация эмбеддингов сильно помогает стабильности тренировки (в fp16). Токенизация делалась с помощью BPE и словать оптимизировали под fertility токенизатора для всех языков.
1. Тренировка: bfloat16 (сильно улучшает стабильность), 3D parallelism, cosine scheduler, lr=6e-5, beta2=0.95, batch size=2048.
1. Environment impact (статья) — тренировка GPT-3 выработала порядка 500 тонн CO2, тренировка BLOOM — 25. Это стало возможно благодаря более современным GPU, эффективным методам параллелизации и, самое главное, атомной электростанции которая питает суперкомьютер Jean Zay.
В общем статья BLOOM неплохо суммаризирует результаты BigScience и на удивление не очень большая (42 страницы). Рекомендую пройтись по ней и почитать те главы что вам интересны.
С моделькой можно поиграться в Spaces или запустить её локально. Веса модели в fp32 (?) занимают 360Гб. Вот тут гайд по использованию int8 в трансформерах. С ними вы можете запустить модель хоть на картошке, но если у вас меньше 300Гб GPU RAM будет считаться довольно медленно.
👍10🔥2
Тинькофф проведет NLP-митап в Москве 🦾
Встречу AI-команда Тинькофф проведет вместе с VK.
— Эксперт VK расскажет о нестандартном способе получения эмбеддингов текстовых последовательностей.
— А исследователи из Тинькофф поделятся собственным методом эффективного файнтюнинга моделей и объяснят, как можно линейно интерполировать их веса.
Ждут всех, кто интересуется обработкой текстов или сопереживает ей.
Митап пройдет 22 ноября в БЦ «Водный». Зарегистрироваться и прочитать о докладах подробнее: https://o.tinkoff.ru/monolog-ai.tinkoff
#промо
Встречу AI-команда Тинькофф проведет вместе с VK.
— Эксперт VK расскажет о нестандартном способе получения эмбеддингов текстовых последовательностей.
— А исследователи из Тинькофф поделятся собственным методом эффективного файнтюнинга моделей и объяснят, как можно линейно интерполировать их веса.
Ждут всех, кто интересуется обработкой текстов или сопереживает ей.
Митап пройдет 22 ноября в БЦ «Водный». Зарегистрироваться и прочитать о докладах подробнее: https://o.tinkoff.ru/monolog-ai.tinkoff
#промо
👍40💩16❤1😁1
Мою статью с амазоновской стажировки приняли на воркшоп 🎉🎉🎉
Как только разрешим всю бюрократию и опубликуем, сразу сделаем обзор в канал. Если коротко: текущие датасеты для предобучения на видео настолько плохи что автолейбелинг с помощью Image Captioning работает лучше их. А если добавить несколько миллиардов параметров и предобученную LM, то приближаемся к SOTA.
Это было очень хардкорное лето и оно окупилось. Пусть не NeurIPS, но в январе я еду на Гавайи 🏝️
Как только разрешим всю бюрократию и опубликуем, сразу сделаем обзор в канал. Если коротко: текущие датасеты для предобучения на видео настолько плохи что автолейбелинг с помощью Image Captioning работает лучше их. А если добавить несколько миллиардов параметров и предобученную LM, то приближаемся к SOTA.
Это было очень хардкорное лето и оно окупилось. Пусть не NeurIPS, но в январе я еду на Гавайи 🏝️
🔥151🎉40👍9💩3🤩2⚡1🐳1
The State of Multilingual AI
ruder.io/state-of-multilingual-ai
В 2019 был взрыв мультиянычных моделей. Что изменилось с тех пор?
Status Quo
В 2008 году 63% статей на ACL были исключительно об английском. Сейчас — 70%. Но мы учимся тренировать мультиязычные модели (mBERT, XLM-R, mDeBERTa, ...) и вот что для них важно: большой словать, зашаривание токенов между языками, subword fertility (сколько нужно токенов на одно слово). В осноном модели тренируются на <100 языках (в мире 400 языков с более чем 1М носителей). Одна из причин: curse of multilinguality. Большое чило языков требует больших моделей и данных. Из > 100B моделей только BLOOM включает в себя несколько десятков языков. Данные тоже проблема — в интернете не так много языков как кажется и после первых двух сотен уже сложно найти хоть сколько-нибудь качестенные данные.
Recent Progress
Активно появляются новые датасеты. Например в 2018 году аналога SQuAD не было даже для русского, но теперь QA есть для десятков языков. Появляется больше неанглийских моделей: AfriBERTa, KinyaBERT, IndicBERT, MuRIL, ... и они также проникают в индустрию.
Challenges and Opportunities
Главная проблема — данные. Интересные источники: рукописные или печатные книги. Многие из них даже уже отсканированы, но не транскрибированны. Также нужно искать новые способы алайнмента текстов между языками. Вторая проблема — compute. Как можно дёшево адаптировать модели под новые языки? Третья проблема — различная топология языков. Мы видим что китайский NLP довольно заметно отличается от обычного западного NLP, в особенности в токенизации. Скорее всего у большого числа non-western языков есть своя специфика и её стоит учитывать.
Кажется что прогресс в мультиязычном NLP замедлился. Новых методов немного, а те что есть не дают огромных улучшений. Посмотрим что изменится в 2023. Может быть мы увидим многотрилионные мультиязычные модели которые решат кучу проблем грубой силой. А может быть появятся новые классные способы предтренировки, алайнмента и майнинга или адаптации моделей.
ruder.io/state-of-multilingual-ai
В 2019 был взрыв мультиянычных моделей. Что изменилось с тех пор?
Status Quo
В 2008 году 63% статей на ACL были исключительно об английском. Сейчас — 70%. Но мы учимся тренировать мультиязычные модели (mBERT, XLM-R, mDeBERTa, ...) и вот что для них важно: большой словать, зашаривание токенов между языками, subword fertility (сколько нужно токенов на одно слово). В осноном модели тренируются на <100 языках (в мире 400 языков с более чем 1М носителей). Одна из причин: curse of multilinguality. Большое чило языков требует больших моделей и данных. Из > 100B моделей только BLOOM включает в себя несколько десятков языков. Данные тоже проблема — в интернете не так много языков как кажется и после первых двух сотен уже сложно найти хоть сколько-нибудь качестенные данные.
Recent Progress
Активно появляются новые датасеты. Например в 2018 году аналога SQuAD не было даже для русского, но теперь QA есть для десятков языков. Появляется больше неанглийских моделей: AfriBERTa, KinyaBERT, IndicBERT, MuRIL, ... и они также проникают в индустрию.
Challenges and Opportunities
Главная проблема — данные. Интересные источники: рукописные или печатные книги. Многие из них даже уже отсканированы, но не транскрибированны. Также нужно искать новые способы алайнмента текстов между языками. Вторая проблема — compute. Как можно дёшево адаптировать модели под новые языки? Третья проблема — различная топология языков. Мы видим что китайский NLP довольно заметно отличается от обычного западного NLP, в особенности в токенизации. Скорее всего у большого числа non-western языков есть своя специфика и её стоит учитывать.
Кажется что прогресс в мультиязычном NLP замедлился. Новых методов немного, а те что есть не дают огромных улучшений. Посмотрим что изменится в 2023. Может быть мы увидим многотрилионные мультиязычные модели которые решат кучу проблем грубой силой. А может быть появятся новые классные способы предтренировки, алайнмента и майнинга или адаптации моделей.
👍30
Forwarded from эйай ньюз
Временами страдаете от NaN во время обучения сеточек? А все потому что вы не любите свои тензоры.
Делюсь с вами классной либой для дебага и красивого принта тензоров: Lovely Tensors 😍
Эта либка умеет даже пропатчить pytorch и подменить стандартную функцию repr у тензоров.
@ai_newz
Делюсь с вами классной либой для дебага и красивого принта тензоров: Lovely Tensors 😍
Эта либка умеет даже пропатчить pytorch и подменить стандартную функцию repr у тензоров.
@ai_newz
🐳33🔥8🤔4
text-davinci-003
Обновленная версия GPT-3 от OpenAI, вот что она умеет:
1. Лучше следует инструкциям (сделано с помощью RL и метода InstructGPT)
1. Higher quality writing — предположу что модельку потюнили на большем количестве текстов и у неё перплексия получше.
1. Лучше продолжает длинные тексты. Но лимит токенов всё ещё 4К, что в два раза меньше code-davinci-002, так что ждём ещё апдейтов.
Цена та же что и у 002, так что нет причин не использовать.
Обновленная версия GPT-3 от OpenAI, вот что она умеет:
1. Лучше следует инструкциям (сделано с помощью RL и метода InstructGPT)
1. Higher quality writing — предположу что модельку потюнили на большем количестве текстов и у неё перплексия получше.
1. Лучше продолжает длинные тексты. Но лимит токенов всё ещё 4К, что в два раза меньше code-davinci-002, так что ждём ещё апдейтов.
Цена та же что и у 002, так что нет причин не использовать.
👍13
Первый день NeurIPS 2022
День expo и прочих не очень важных вещей, но вот что было классного
1. PyTorch: fully sharded data parallel (FSDP) скоро войдёт в сам торч. Это когда ты распиливаешь веса своей нейросети, параметры своих оптимизаторов и градиенты нескольким GPU, но при этом вычисления всё ещё проводятся в data parallel режиме. Такой подход работает быстрее чем model parallel и в принципе проще в общении. Добавили классную фичу meta-device которая позволяет при инициализации загружать в память только ту часть нейросети которая вам нужна на этой GPU.
1. Новые фичи для профайлера. Стек должен стать более читаемым и добавили фичей для distributed. Если вы всё ещё не пользуетесь, вот блогпост.
На этом объективно интересное закочнилось и дальше я общался с рандомными людьми которые иногда оказывались очень крутыми и с будками компаний, где искал куда податься на работу после выпуска
1. Будка Apple выглядит как миниатюрный Apple Store
1. Оказывается у Disney есть диплёрнинг рисёч 🤯. Общался с рисечером который работает на стыке оптики и геометрического DL.
1. Спотифай активно применяет RL в проде, например для вашей домашней странички. Кроме этого у них есть NLP исследования в применении к подкастам, что интересно тк тексты очень длинные и с несколькими спикерами.
1. Weights and Biases активно работают над двумя новыми фичами: production monitoring и CI/CD для моделей.
1. По слухам GPT-4 тренируют на нескольких десятках тысяч GPU. Также кажется что большим компаниям уже показывают демки текущей модели под жёстким NDA. Вроде бы скачок возможностей между GPT-3 и GPT-4 такой же огромный как и был между GPT-2 и GPT-3.
1. ServiceNow — если вы не знаете кто это, я не удивлюсь. Всё что знал про них раньше, это что они спонсируют BigCode железом. Выяснилось что у них есть интересный рисёч вместе в MILA в Канаде.
1. Как бедный студент я насобирал кучу мерча, тк не за свои же деньги покупать блокноты и футболки 😅
Во второй день начинаются статьи и постер-сессии. Так что следующий пост будет куда более техническим
День expo и прочих не очень важных вещей, но вот что было классного
1. PyTorch: fully sharded data parallel (FSDP) скоро войдёт в сам торч. Это когда ты распиливаешь веса своей нейросети, параметры своих оптимизаторов и градиенты нескольким GPU, но при этом вычисления всё ещё проводятся в data parallel режиме. Такой подход работает быстрее чем model parallel и в принципе проще в общении. Добавили классную фичу meta-device которая позволяет при инициализации загружать в память только ту часть нейросети которая вам нужна на этой GPU.
1. Новые фичи для профайлера. Стек должен стать более читаемым и добавили фичей для distributed. Если вы всё ещё не пользуетесь, вот блогпост.
На этом объективно интересное закочнилось и дальше я общался с рандомными людьми которые иногда оказывались очень крутыми и с будками компаний, где искал куда податься на работу после выпуска
1. Будка Apple выглядит как миниатюрный Apple Store
1. Оказывается у Disney есть диплёрнинг рисёч 🤯. Общался с рисечером который работает на стыке оптики и геометрического DL.
1. Спотифай активно применяет RL в проде, например для вашей домашней странички. Кроме этого у них есть NLP исследования в применении к подкастам, что интересно тк тексты очень длинные и с несколькими спикерами.
1. Weights and Biases активно работают над двумя новыми фичами: production monitoring и CI/CD для моделей.
1. По слухам GPT-4 тренируют на нескольких десятках тысяч GPU. Также кажется что большим компаниям уже показывают демки текущей модели под жёстким NDA. Вроде бы скачок возможностей между GPT-3 и GPT-4 такой же огромный как и был между GPT-2 и GPT-3.
1. ServiceNow — если вы не знаете кто это, я не удивлюсь. Всё что знал про них раньше, это что они спонсируют BigCode железом. Выяснилось что у них есть интересный рисёч вместе в MILA в Канаде.
1. Как бедный студент я насобирал кучу мерча, тк не за свои же деньги покупать блокноты и футболки 😅
Во второй день начинаются статьи и постер-сессии. Так что следующий пост будет куда более техническим
👍76🔥27😁4🤡3
Яндекс назвал лауреатов своей ежегодной научной премии
Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:
•Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику;
•Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;
•Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей;
•Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;
•Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы;
•Тарас Хахулин — работает в области компьютерного зрения.
Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных.
Подробнее о премии и лауреатах 2022 года — на сайте.
#промо
Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:
•Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику;
•Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;
•Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей;
•Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;
•Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы;
•Тарас Хахулин — работает в области компьютерного зрения.
Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных.
Подробнее о премии и лауреатах 2022 года — на сайте.
#промо
Yandex ML Prize
Премия Яндекса для учёных и преподавателей в области Machine Learning
👍30🔥23💩3👏2🤮2👎1
NeurIPS 2022 день 2 (часть 1)
В отличие от *ACL-конференций, на NeurIPS почти все статьи презентуются на гиганских постер-сессиях по тысячу статей за раз. Это довольно хардкорно, но зато можно пропустить все неинтересные тебе статьи. Подборка приглянувшихся статей:
1. ActionNet — большой мультимодальный датасет с wearable-сенсоров
1. WinoGAViL — бенчмарк с неочевидными ассоциациями слов и картинок
1. GLOBEM — интересный датасет сочетающий в себе инфу с телефонов (screen, location, steps per day, call log, bluetooth, sleep, ...) и психологических опросников. Панчлайн в том что он собирался с 2018 по 2021 год, то есть включает ковид.
1. DecSPS — новый метод оптимизации который не требует тюнинга LR. Плюс куча теории как именно он работает и почему сходится к оптимальному решению в overparametrized-режиме.
1. Beyond Johnson-Lindenstrauss — новый метод стохастического уменьшения размерности данных который работает лучше JL и всё ещё довольно легко считается. Куча теории прилагается.
1. Learning very simple generative models is hard — (очень high-level) доказательство того что даже простые генеративные модели требуют больших сеток
1. Kernel Multimodal Continuous Attention — новый метод continuous attention который позволяет работать с time series и длинными текстами
1. How to measure network invariance — статья где меряли насколько обычные нейросети тренируемые на аугментированных данных инвариантны к поворотам vs специальные инвариантные сети. На удивление, инвариантность почти не меняется во время тренировки
1. Ask4Help — RL-модельку научили просить помощи у эксперта тогда когда ей надо (и учиться от этого эксперта). Сложность была в том чтобы модель не обращалась к эксперту всё время
1. Analysing Diffusion Models — в начале диффузии модель в основном смотрит на conditioning чтобы сгенерить картинку, а в конце почти полностью игнорирует промпт и просто делает super-resolution
И это далеко не все интересные статьи, но завтра будет ещё больше 😅
В отличие от *ACL-конференций, на NeurIPS почти все статьи презентуются на гиганских постер-сессиях по тысячу статей за раз. Это довольно хардкорно, но зато можно пропустить все неинтересные тебе статьи. Подборка приглянувшихся статей:
1. ActionNet — большой мультимодальный датасет с wearable-сенсоров
1. WinoGAViL — бенчмарк с неочевидными ассоциациями слов и картинок
1. GLOBEM — интересный датасет сочетающий в себе инфу с телефонов (screen, location, steps per day, call log, bluetooth, sleep, ...) и психологических опросников. Панчлайн в том что он собирался с 2018 по 2021 год, то есть включает ковид.
1. DecSPS — новый метод оптимизации который не требует тюнинга LR. Плюс куча теории как именно он работает и почему сходится к оптимальному решению в overparametrized-режиме.
1. Beyond Johnson-Lindenstrauss — новый метод стохастического уменьшения размерности данных который работает лучше JL и всё ещё довольно легко считается. Куча теории прилагается.
1. Learning very simple generative models is hard — (очень high-level) доказательство того что даже простые генеративные модели требуют больших сеток
1. Kernel Multimodal Continuous Attention — новый метод continuous attention который позволяет работать с time series и длинными текстами
1. How to measure network invariance — статья где меряли насколько обычные нейросети тренируемые на аугментированных данных инвариантны к поворотам vs специальные инвариантные сети. На удивление, инвариантность почти не меняется во время тренировки
1. Ask4Help — RL-модельку научили просить помощи у эксперта тогда когда ей надо (и учиться от этого эксперта). Сложность была в том чтобы модель не обращалась к эксперту всё время
1. Analysing Diffusion Models — в начале диффузии модель в основном смотрит на conditioning чтобы сгенерить картинку, а в конце почти полностью игнорирует промпт и просто делает super-resolution
И это далеко не все интересные статьи, но завтра будет ещё больше 😅
🔥31👍5
NeurIPS 2022 день 2 (часть 2)
Все интересные статьи не поместились в один пост, поэтому добавляем
1. Natural Prover — вместо того чтобы тренировать нейросеть делать формальные мат доказательства, просто натренируйте LM на статьях и она будет писать их в человекочитаемом виде (и делать это лучше чем формальные)
1. CodeRL — если вашу code-LM потюнить на том чтобы она проходила текст-кейсы ваших задачек она будет гененировать правильные решения чаще. А ещё можно использовать получившуюся value funciton чтобы обрывать генерацию кода и начинать сначала.
1. Probably robust detection of out-of-distribution data — хитрый но дешёвый подход к тому как детекстить OOD и при этом быть устойчивым к adversarial атакам
1. Exploring length generalization — для того чтобы ваша моделька могла экстраполировать на длинные тексты вам надо использовать много хаков (см табличку)
1. Trajectory of Mini-Batch Momentum — теория минимального размера batch size для того чтобы momentum работал
Все интересные статьи не поместились в один пост, поэтому добавляем
1. Natural Prover — вместо того чтобы тренировать нейросеть делать формальные мат доказательства, просто натренируйте LM на статьях и она будет писать их в человекочитаемом виде (и делать это лучше чем формальные)
1. CodeRL — если вашу code-LM потюнить на том чтобы она проходила текст-кейсы ваших задачек она будет гененировать правильные решения чаще. А ещё можно использовать получившуюся value funciton чтобы обрывать генерацию кода и начинать сначала.
1. Probably robust detection of out-of-distribution data — хитрый но дешёвый подход к тому как детекстить OOD и при этом быть устойчивым к adversarial атакам
1. Exploring length generalization — для того чтобы ваша моделька могла экстраполировать на длинные тексты вам надо использовать много хаков (см табличку)
1. Trajectory of Mini-Batch Momentum — теория минимального размера batch size для того чтобы momentum работал
🔥19👍7❤1
Forwarded from эйай ньюз
OpenAI сегодня выкатили мощного чат-бота ChatGPT
В отличие от GPT-3, ChatGPT – это модель которая специально тренирована вести интерактивный диалог и сохранять канву разговора.
Формат диалога позволяет ChatGPT отвечать на дополнительные вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.
Для обучения ресерчеров взяли GPT-3.5 и зафайнтюнили ее для ведения диалога с помощью алгоритм Reinforcement Learning from Human Feedback алгоритма.
На картинках можете увидеть несколько примеров диалогов.
Подробности и больше примеров в блогпосте.
Поговорить с этим ботом можно тут. Но прямо сейчас там переполнены сервера.
@ai_newz
В отличие от GPT-3, ChatGPT – это модель которая специально тренирована вести интерактивный диалог и сохранять канву разговора.
Формат диалога позволяет ChatGPT отвечать на дополнительные вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.
Для обучения ресерчеров взяли GPT-3.5 и зафайнтюнили ее для ведения диалога с помощью алгоритм Reinforcement Learning from Human Feedback алгоритма.
На картинках можете увидеть несколько примеров диалогов.
Подробности и больше примеров в блогпосте.
Поговорить с этим ботом можно тут. Но прямо сейчас там переполнены сервера.
@ai_newz
🔥20