🔺 Обзор мультиязычных LLM
Вышел довольно любопытный обзор — Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers.
Авторы попытались поделить модели по типу обучения и по доступности обучающих данных. Есть табличка с открытыми мультиязычными датасетами.
Из странного то, что упомянули GPT-4, но забыли про Claude. Хотя по ощущениям Claude Opus очень хорошо понимает языки и даже неплохо переводит на малоресурсные (обсуждали с носителями удмуртского, алтайского и нескольких других).
👉 Статья
Вышел довольно любопытный обзор — Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers.
Авторы попытались поделить модели по типу обучения и по доступности обучающих данных. Есть табличка с открытыми мультиязычными датасетами.
Из странного то, что упомянули GPT-4, но забыли про Claude. Хотя по ощущениям Claude Opus очень хорошо понимает языки и даже неплохо переводит на малоресурсные (обсуждали с носителями удмуртского, алтайского и нескольких других).
👉 Статья
👍19🔥7✍2🆒1
🔺 SAGE. Выложили модели для коррекции орфографии
Коллеги из нашей команды обучили и выложили пачку моделей в открытый доступ. Это модели для исправления ошибок на основе FRED'а и мультиязычной mT5 (одна модель для русского и английского).
Также выложили дистиллированную модель для быстрого инференса. Сравнились с платными решениями и написали про это статью, которую уже опубликовали на EACL 24.
Работать можно через библиотеку SAGE, код и примеры есть в репозитории. Прошу пробовать. Библиотеку будут развивать дальше, так что пишите свои идеи и предложения.
Upd. Issue для предложений.
👉 Хабр | GitHub | HF | Paper
Коллеги из нашей команды обучили и выложили пачку моделей в открытый доступ. Это модели для исправления ошибок на основе FRED'а и мультиязычной mT5 (одна модель для русского и английского).
Также выложили дистиллированную модель для быстрого инференса. Сравнились с платными решениями и написали про это статью, которую уже опубликовали на EACL 24.
Работать можно через библиотеку SAGE, код и примеры есть в репозитории. Прошу пробовать. Библиотеку будут развивать дальше, так что пишите свои идеи и предложения.
Upd. Issue для предложений.
👉 Хабр | GitHub | HF | Paper
🔥32❤9👍6⚡3
Всем привет! Сегодня не только тот день, когда понедельник действительно начинается в субботу, но и один год с того момента, как мы начали выкатывать Гигачат в открытый доступ. Мы — это очень много людей, которые участвуют в его разработке и развитии, к которым я бы отнес и вас, друзья.
С этим вас и поздравляю, а еще с майскими, на которых можно спокойно почитать, погулять,поработать.
Сам я выбрался в Питер, где успел погулять по снежку (!), съесть шаверму и зайти в Подписные издания. Еще, кстати, понравился книжный СпбГУ, много научпопа и местных изданий, нашел там книжку с олимпиадными заданиями по китайскому. Надо подумать, куда бы еще сходить.
С этим вас и поздравляю, а еще с майскими, на которых можно спокойно почитать, погулять,
Сам я выбрался в Питер, где успел погулять по снежку (!), съесть шаверму и зайти в Подписные издания. Еще, кстати, понравился книжный СпбГУ, много научпопа и местных изданий, нашел там книжку с олимпиадными заданиями по китайскому. Надо подумать, куда бы еще сходить.
❤48🔥11👍8🍾6
Сходил сдал следующий экзамен на знание китайского (HSK2, тоже не сложный). Проходило все не в МГЛУ, как в прошлый раз, а в отеле напротив парка Хуамин на Ботаническом саду (сам парк, кстати, очень красивый).
Оказалось, что там сегодня проходит выставка об образовании и работе в Китае. Есть около десяти стендов различных университетов, где их представители рассказывают про условия обучения.
Кому интересно, заходите, вход свободный.
Оказалось, что там сегодня проходит выставка об образовании и работе в Китае. Есть около десяти стендов различных университетов, где их представители рассказывают про условия обучения.
Кому интересно, заходите, вход свободный.
🔥36🥰5🎉2⚡1👍1
С пониманием новых шуток, по-моему, справляется плюс-минус также, в целом нравится.
Заявлена мультиязычность, пишите что перевести и на какой язык, проверим как она переводит.
Заявлена мультиязычность, пишите что перевести и на какой язык, проверим как она переводит.
🔥14👍5❤2 1
🔺 SD 3
Пришло письмо, что 12 июня на HF выложат веса Stable Diffusion 3.
Пока что c моделью можно поиграться на сайте в Stable Assistant с триалом на три дня. Потыкал в нее, по качеству явно получше предыдущей модели, умеет рисовать надписи на английском. Ждём.
Пришло письмо, что 12 июня на HF выложат веса Stable Diffusion 3.
Пока что c моделью можно поиграться на сайте в Stable Assistant с триалом на три дня. Потыкал в нее, по качеству явно получше предыдущей модели, умеет рисовать надписи на английском. Ждём.
👍20🔥19🎉5😁1
🔺 DPF
Тут коллеги решили выложить в открытый доступ инструмент, которым обрабатывают данные — Data Processing Framework.
Основной упор на картинки, видео и оптимизации по их обработке (коллеги обучают Kandinsky), для текстов тоже есть фильтры типа детекции языка и автоперевода.
Задачки довольно частые при работе с данными, поэтому рекомендую к использованию (если чего-то не хватает, то оставляйте Issue на GitHub). Собрал простой колаб с примером определения языка. В документации есть много других рабочих примеров.
👉 GitHub | Хабр | Colab
Тут коллеги решили выложить в открытый доступ инструмент, которым обрабатывают данные — Data Processing Framework.
Основной упор на картинки, видео и оптимизации по их обработке (коллеги обучают Kandinsky), для текстов тоже есть фильтры типа детекции языка и автоперевода.
Задачки довольно частые при работе с данными, поэтому рекомендую к использованию (если чего-то не хватает, то оставляйте Issue на GitHub). Собрал простой колаб с примером определения языка. В документации есть много других рабочих примеров.
👉 GitHub | Хабр | Colab
👍21❤6🔥4👏1
👍35💯4🔥3