🔺 TAPE
Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.
〰️ Что это?
Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.
〰️ Устойчивость к шуму
В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).
👉 Хабр | GitHub | HF
Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.
〰️ Что это?
Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.
〰️ Устойчивость к шуму
В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).
👉 Хабр | GitHub | HF
Хабр
TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке
Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500...
🔥17👍6❤2⚡1🤗1
🗿 Сходил на выставку "Всеобщий язык" в Пушкинском. Кто интересуется различными видами письменностей, очень рекомендую. Их там такое количество, что глаза разбегаются.
Есть деревянные дощечки с острова Пасхи с надписями ронго-ронго, есть тысячелетние камни с клинописью, ацтекские кодексы, берестяные грамоты и много всего.
Единственное, что, на мой взгляд, освещение там немного тусклое. Хотя может так и надо.
Есть деревянные дощечки с острова Пасхи с надписями ронго-ронго, есть тысячелетние камни с клинописью, ацтекские кодексы, берестяные грамоты и много всего.
Единственное, что, на мой взгляд, освещение там немного тусклое. Хотя может так и надо.
👍25🔥9❤🔥3✍1⚡1
#visualization
🔸 Люблю такие красивые и понятные визуализации. Видно, насколько централизована страна в плане населения (сравните Францию и Италию).
Нашел тут, автор периодически рисует новые страны.
🔸 Люблю такие красивые и понятные визуализации. Видно, насколько централизована страна в плане населения (сравните Францию и Италию).
Нашел тут, автор периодически рисует новые страны.
👍26❤🔥7🔥7🤩1
🔺 Торрент-LM от BigScience
Инициатива от BigScience (коллаборация исследователей, которая сделала Bloom и делает BigСode).
Позволяет всем миром запускать и тюнить (!) Bloom 176B под свои задачи. Называется Petals 🌼.
Зачем?
Запуск 175B модели требует около 350 GB GPU и еще больше при дообучении. А чтобы запустить инференс модели при помощи Petals, нужно иметь 12GB оперативки под эмбеддинги (3.6B параметров) и еще сколько-то, если хотите сделать fine-tuning.
Дообучение происходит в режиме prompt tuning'а или при помощи слоев-адаптеров. В этом случае мы обучаем только малую часть параметров, которую храним у себя, все остальные веса распределены по Petals серверам (В 8 bit режиме модель режется на 22 куска, и требуется минимум 22 сервера, чтобы поднять модель).
Можно задонатить свою GPU, запустив Petals сервер у себя. Понадобится 16 GB RAM и 8 GB GPU.
Попробовать можно в Colab'e.
👉 Colab | GitHub | Paper
Инициатива от BigScience (коллаборация исследователей, которая сделала Bloom и делает BigСode).
Позволяет всем миром запускать и тюнить (!) Bloom 176B под свои задачи. Называется Petals 🌼.
Зачем?
Запуск 175B модели требует около 350 GB GPU и еще больше при дообучении. А чтобы запустить инференс модели при помощи Petals, нужно иметь 12GB оперативки под эмбеддинги (3.6B параметров) и еще сколько-то, если хотите сделать fine-tuning.
Дообучение происходит в режиме prompt tuning'а или при помощи слоев-адаптеров. В этом случае мы обучаем только малую часть параметров, которую храним у себя, все остальные веса распределены по Petals серверам (В 8 bit режиме модель режется на 22 куска, и требуется минимум 22 сервера, чтобы поднять модель).
Можно задонатить свою GPU, запустив Petals сервер у себя. Понадобится 16 GB RAM и 8 GB GPU.
Попробовать можно в Colab'e.
👉 Colab | GitHub | Paper
🔥11👍3❤🔥2😁2🤗2
Похоже, что ChatGPT отбирает работу у составителей поздравлений со словом пупырка.
〰️ Друзья, будьте собой и всё у вас получится!
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉35❤8🤗3😁2👍1💯1🍾1
🔺 Делаю книжку-трансформер
👉 Посмотреть можно здесь
Идея в том, чтобы после выравнивания нескольких текстов (2 и более) Lingtrain'ом можно было бы собирать веб-книжку, которую можно разместить на github pages (просто скопировать файлики) и читать откуда угодно + пользоваться дополнительным функционалом — компоновать в одну/две колонки, менять подсветку, размер шрифтов, языки, и т.д. ✨
Делаю на примере "Мастера и Маргариты".
〰️ Добавил:
• Тексты на 10 языках
• Новые виды разметки (переключатель layout):
1️⃣ В одну колонку с чередованием абзацев
2️⃣ В одну колонку с чередованием предложений
3️⃣ Можно скрыть один из текстов и читать только нужный
• Новые виды подсветки (переключатель prompt):
1️⃣ Подчеркивание соответствующих предложений
2️⃣ Цветовое выделение
• Увеличил размеры шрифта
• Настройки запоминаются и хранятся в браузере
Проект открытый, ваши идеи и любой фидбек приветствуются! 🚀
👉 GitHub | Habr
👉 Посмотреть можно здесь
Идея в том, чтобы после выравнивания нескольких текстов (2 и более) Lingtrain'ом можно было бы собирать веб-книжку, которую можно разместить на github pages (просто скопировать файлики) и читать откуда угодно + пользоваться дополнительным функционалом — компоновать в одну/две колонки, менять подсветку, размер шрифтов, языки, и т.д. ✨
Делаю на примере "Мастера и Маргариты".
〰️ Добавил:
• Тексты на 10 языках
• Новые виды разметки (переключатель layout):
1️⃣ В одну колонку с чередованием абзацев
2️⃣ В одну колонку с чередованием предложений
3️⃣ Можно скрыть один из текстов и читать только нужный
• Новые виды подсветки (переключатель prompt):
1️⃣ Подчеркивание соответствующих предложений
2️⃣ Цветовое выделение
• Увеличил размеры шрифта
• Настройки запоминаются и хранятся в браузере
Проект открытый, ваши идеи и любой фидбек приветствуются! 🚀
👉 GitHub | Habr
🔥27👍8✍2⚡2🤓1