Частоты букв для Тувинского, Чувашского и Башкирского языков готовы.
Башкирский вендор дал все остальные данные.
На днях я статистику носителей (Это крайне важно) найду или пропрошу людей, потом размещу в репозитории.
Текущие файлы частот:
1) https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/chv/chuvash.org/frequencies/chv_monocorpus_freq.csv
2) https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/ba/stdbug/frequencies/ba_monocorpus_freq.csv
3) https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/tyv/Ali_Kuzhuget/frequencies/tyv_monocorpus_freq.csv
Башкирский вендор дал все остальные данные.
На днях я статистику носителей (Это крайне важно) найду или пропрошу людей, потом размещу в репозитории.
Текущие файлы частот:
1) https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/chv/chuvash.org/frequencies/chv_monocorpus_freq.csv
2) https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/ba/stdbug/frequencies/ba_monocorpus_freq.csv
3) https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/tyv/Ali_Kuzhuget/frequencies/tyv_monocorpus_freq.csv
❤3🔥2
Датасеты частот букв для 2х языков – Коми (kom) и Коми-пермяцкий – частично готовы. Я в файле описания от вендора добавил метки (Не готов) – важно их тоже предоставить. Особенно важны еще 2 данных:
– маппинг специфических букв к русским буквам;
– количество носителей;
https://github.com/Agisight/rf-keyboard-corpora/tree/main/data/kom/FU-Lab
https://github.com/Agisight/rf-keyboard-corpora/tree/main/data/koi/FU-Lab
– маппинг специфических букв к русским буквам;
– количество носителей;
https://github.com/Agisight/rf-keyboard-corpora/tree/main/data/kom/FU-Lab
https://github.com/Agisight/rf-keyboard-corpora/tree/main/data/koi/FU-Lab
🔥3❤1
В рамках проекта клавиатур для iOS я выделил 50 первых по количеству носителей языков (Могут быть неточности и какие-то языки могут иметь больше или меньше носителей). В зависимости от активности активистов-носителей, я могу добавить больше языков, чтобы поддержать сразу в Клавиатуре РФ, а позже (надеюсь) будут индивидуальные клавиатуры для этих языков. Остальные языки буду все равно учитывать для полноты технологии, но без участия носителей я буду вынужден брать их буквы с меньшим приоритетом (т.к. не знаю частоты, особенности языка, а количество носителей буду учитывать из того, что я найду). Пожалуйста, распространите эту таблицу тем, кто может дать датасеты частот кириллических букв (за пределами русского алфавита).
Я поддержу любого, кто хочет сюда добавить свой язык и предоставить датасеты (частоты букв, маппинг букв к русским буквам, количество носителей).
Абазинский
Абхазский
Аварский
Агульский
Адыгейский
Алтайский
Андийский
Ахвахский
Башкирский
Белорусский
Бурятский
Даргинский
Долганский
Дореволюционный русский
Ингушский
Кабардино-черкесский
Казахский
Кайтагский
Калмыцкий
Каратинский
Карачаево-балкарский
Коми
Крымскотатарский
Кумыкский
Кыргыз
Лакский
Лезгинский
Марийский
Мокшанский
Молдавский
Ненецкий
Ногайский
Осетинский
Рутульский
Саха
Сибирско-татарский
Табасаранский
Таджикский
Татарский
Тиндинский
Тувинский
Удмуртский
Узбекский
Украинский
Хакасский
Цудахарский
Цыганский
Чеченский
Чувашский
Эрзянский
Я поддержу любого, кто хочет сюда добавить свой язык и предоставить датасеты (частоты букв, маппинг букв к русским буквам, количество носителей).
Абазинский
Абхазский
Аварский
Агульский
Адыгейский
Алтайский
Андийский
Ахвахский
Башкирский
Белорусский
Бурятский
Даргинский
Долганский
Дореволюционный русский
Ингушский
Кабардино-черкесский
Казахский
Кайтагский
Калмыцкий
Каратинский
Карачаево-балкарский
Коми
Крымскотатарский
Кумыкский
Кыргыз
Лакский
Лезгинский
Марийский
Мокшанский
Молдавский
Ненецкий
Ногайский
Осетинский
Рутульский
Саха
Сибирско-татарский
Табасаранский
Таджикский
Татарский
Тиндинский
Тувинский
Удмуртский
Узбекский
Украинский
Хакасский
Цудахарский
Цыганский
Чеченский
Чувашский
Эрзянский
❤7👍3
Алла Шашкина (@allashashkina) из Чебоксар, родители из Батырево. Много лет училась на «Компьютерного лингвиста», «Инженера-разработчика ПО». Когда попала в Apple (поверьте, прохождения всех этапов собеседований - та ещё задачка!), была в команде Сири, потом попала в команду по клавиатурам. Поскольку она была носителем Чувашского языка, команда решила добавить системную чувашскую клавиатуру прямо в систему iOS – её знания о языке, опыте пользователей чувашского языка в Интернете и профессиональные навыки в редком направлении в IT, тем более среди девушек! – невероятная удача для Чувашского народа!
Пока мы, носители остальных 120+ кириллических языков РФ, просто мечтаем иметь нечто подобное, опыт пользователей с Чувашским языком разительно отличается:
– приобрел любой айфон/айпад – твой язык в системе iOS/MacOS;
– не нужны дополнительные программы от Google, Yandex, Microsoft и неизвестных авторов только ради того, чтобы печатать на родном языке;
– не нужно близким и друзьям объяснять почему твоего языка нет сразу на устройстве;
– всегда и где угодно можно писать на родном языке, даже в защищенных приложениях типа банковских приложений;
– никто не использует твой текст на родном языке для обучения ИИ без твоего ведома;
– легкий доступ к развитию письменности в электронных устройствах;
– поддержка языка на айпадах в образовательных целях.
Чтобы правильно добавить язык в компьютерные системы, она изучила требования к языкам, к работе клавиатур, код программы и ряд дополнительных технологий, включая CLDR от Консорциума Юникода. Опрашивала носителей, работала над автокоррекцией и другими технологиями для Чувашского языка. Клавиатура не делается за один день – здесь важна тщательность и точность к данным, а также к UX/UI программы.
Алла дала нам видение, что наши языки в iOS - не мечта, а задача, над которой нам следует потрудиться немного. Способ добавления языков известен, нам остается повторить этот успех.
Сейчас она уже не работает в Apple, занимается своим стартапом (https://www.evolvexlabs.com/), качеством своей жизни. Пожелайте ей удачи, а её родителям больше спасибо!
Если ты чуваш, то обязательно подпишитесь к ней в соцсетях. Она – ваш современный герой, которая значительно улучшила выживаемость вашего языка! Она достойна награды и признания. Серьезно.
Вот так выглядит ее описание сейчас: CEO & Co-Founder at EvolveX • Embodied Leadership & Resilience Coach • Senior Software Engineering Leader • xApple • Ultrarunner
Пока мы, носители остальных 120+ кириллических языков РФ, просто мечтаем иметь нечто подобное, опыт пользователей с Чувашским языком разительно отличается:
– приобрел любой айфон/айпад – твой язык в системе iOS/MacOS;
– не нужны дополнительные программы от Google, Yandex, Microsoft и неизвестных авторов только ради того, чтобы печатать на родном языке;
– не нужно близким и друзьям объяснять почему твоего языка нет сразу на устройстве;
– всегда и где угодно можно писать на родном языке, даже в защищенных приложениях типа банковских приложений;
– никто не использует твой текст на родном языке для обучения ИИ без твоего ведома;
– легкий доступ к развитию письменности в электронных устройствах;
– поддержка языка на айпадах в образовательных целях.
Чтобы правильно добавить язык в компьютерные системы, она изучила требования к языкам, к работе клавиатур, код программы и ряд дополнительных технологий, включая CLDR от Консорциума Юникода. Опрашивала носителей, работала над автокоррекцией и другими технологиями для Чувашского языка. Клавиатура не делается за один день – здесь важна тщательность и точность к данным, а также к UX/UI программы.
Алла дала нам видение, что наши языки в iOS - не мечта, а задача, над которой нам следует потрудиться немного. Способ добавления языков известен, нам остается повторить этот успех.
Сейчас она уже не работает в Apple, занимается своим стартапом (https://www.evolvexlabs.com/), качеством своей жизни. Пожелайте ей удачи, а её родителям больше спасибо!
Если ты чуваш, то обязательно подпишитесь к ней в соцсетях. Она – ваш современный герой, которая значительно улучшила выживаемость вашего языка! Она достойна награды и признания. Серьезно.
Вот так выглядит ее описание сейчас: CEO & Co-Founder at EvolveX • Embodied Leadership & Resilience Coach • Senior Software Engineering Leader • xApple • Ultrarunner
❤24🔥8👍5👏1
layout.json
2.9 KB
Создал просмотр клавиатуры iOS, описанной в JSON. Скачайте эти 2 файла откройте iOS_keyboard.html. Выберите через кнопку загрузки json файла layout.json и увидите прототип на тувинском языке. Сделаете свой такой файл – проверьте сами и потом вышлите мне.
По формату https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/lang/vendor/keyboard/lang_key_default.json
Внутри файла layout.json можете посмотреть пример тувинской клавы.
По формату https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/lang/vendor/keyboard/lang_key_default.json
Внутри файла layout.json можете посмотреть пример тувинской клавы.
👍4❤1
Структурированное описание и инструкция для вендоров и разработчиков, которые создают идеальную клавиатуру для своего языка в формате JSON.
Если будут вопросы, пишите. Улучшим описание.
Прямо сейчас нам это не нужно. Сначала для вашего языка нужно собрать 3 вещи:
– частотность
– носители
– маппинг
https://github.com/Agisight/rf-keyboard-corpora/tree/main/data/lang/vendor/keyboard
Если будут вопросы, пишите. Улучшим описание.
Прямо сейчас нам это не нужно. Сначала для вашего языка нужно собрать 3 вещи:
– частотность
– носители
– маппинг
https://github.com/Agisight/rf-keyboard-corpora/tree/main/data/lang/vendor/keyboard
👍3❤2
Пока готовы 6 языков в том или ином виде. Попрошу других вендоров активизироваться, мб запланировать работу по выходным. Я готов всех проконсультировать.
lang/vendor – это папка для шаблонного языка.
https://github.com/Agisight/rf-keyboard-corpora/tree/main/data
lang/vendor – это папка для шаблонного языка.
https://github.com/Agisight/rf-keyboard-corpora/tree/main/data
❤8
Совместно улучшили код просмотра «идеальной» клавы в файле iOS_keyboard.html с показом букв для лонгпресса. Использует json файл из /keyboard/<lang>_key_default.json – это схема вашей клавиатуры, это не файл маппинга. Прямо сейчас эта схема не нужна, но вы можете сейчас позаботиться об этом.
Тут примеры Тувинского и Осетинского языков. Предлагайте свои версии – можете попросить ЧатЖПТ сделать такой файл из инструкции README.md.
Как делать json для клавиатуры вашего языка читайте тут: https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/lang/vendor/keyboard/README.md
Сам файл скачайте и выберите json вашего языка. https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/lang/vendor/keyboard/iOS_keyboard.html
Тут примеры Тувинского и Осетинского языков. Предлагайте свои версии – можете попросить ЧатЖПТ сделать такой файл из инструкции README.md.
Как делать json для клавиатуры вашего языка читайте тут: https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/lang/vendor/keyboard/README.md
Сам файл скачайте и выберите json вашего языка. https://github.com/Agisight/rf-keyboard-corpora/blob/main/data/lang/vendor/keyboard/iOS_keyboard.html
❤5👍3
Спасибо изданию «Чернозём»
https://t.iss.one/ges_chz/5405
https://t.iss.one/ges_chz/5405
Telegram
Чернозём | У шамана три беды
💻 Тем временем Али Кужугет продолжает работу над клавиатурой для iOS для родных языков. Какие у него новости:
1️⃣ Али вместе с другими языковыми активистами выделил 50 первых языков по количеству носителей, которые включат в универсальную российскую клавиатуру…
1️⃣ Али вместе с другими языковыми активистами выделил 50 первых языков по количеству носителей, которые включат в универсальную российскую клавиатуру…
❤5🔥3🙏2
Какие сроки для датасетов? И что если не успеем?
Успеем ли мы ко Дню языков народов РФ, что будет в середине сентября? Хотя бы в бета версии…
Чтобы успеть к этому дню, нам нужно финализировать 1ую версию к началу августа - до конца 3 августа.
С учетом того, что для этой задачи не нужно много данных собирать для каждого языка,все вполне реализуемо.
Если не успеете собрать датасеты для вашего языка, то мне придется пройтись по этим языкам и собрать датасеты по своему усмотрению (что очень плохо, но что поделать…).
Нужно лишь собрать 3 вещи:
- частотный алфавит (насколько часто встречается каждая буква)
- маппинг букв (схема похожих букв)
- количество носителей.
https://github.com/Agisight/rf-keyboard-corpora
Успеем ли мы ко Дню языков народов РФ, что будет в середине сентября? Хотя бы в бета версии…
Чтобы успеть к этому дню, нам нужно финализировать 1ую версию к началу августа - до конца 3 августа.
С учетом того, что для этой задачи не нужно много данных собирать для каждого языка,все вполне реализуемо.
Если не успеете собрать датасеты для вашего языка, то мне придется пройтись по этим языкам и собрать датасеты по своему усмотрению (что очень плохо, но что поделать…).
Нужно лишь собрать 3 вещи:
- частотный алфавит (насколько часто встречается каждая буква)
- маппинг букв (схема похожих букв)
- количество носителей.
https://github.com/Agisight/rf-keyboard-corpora
❤8
Добавил данные по церковнославянскому языку. Сложно было посчтитать носителей, искать вендоров под языки уже не хватает времени. Сам сделал, данные могут быть не сильно надежными, но постарался ссылаться на доступные датасеты.
Одна неделя осталась. Придется мне самому добавить данные по народам, где большинство носителей за пределами РФ. Эти языки есть в официальном списке языков народов РФ, поэтому я их добавляю тоже. Готовность языков смотрите по ссылке.
Добавил еще язык цыган (на Кириллице)
https://github.com/Agisight/rf-keyboard-corpora#:~:text=%E2%97%8B-,%D0%A6%D0%B5%D1%80%D0%BA%D0%BE%D0%B2%D0%BD%D0%BE%D1%81%D0%BB%D0%B0%D0%B2%D1%8F%D0%BD%D1%81%D0%BA%D0%B8%D0%B9,-%E2%9C%85
Одна неделя осталась. Придется мне самому добавить данные по народам, где большинство носителей за пределами РФ. Эти языки есть в официальном списке языков народов РФ, поэтому я их добавляю тоже. Готовность языков смотрите по ссылке.
Добавил еще язык цыган (на Кириллице)
https://github.com/Agisight/rf-keyboard-corpora#:~:text=%E2%97%8B-,%D0%A6%D0%B5%D1%80%D0%BA%D0%BE%D0%B2%D0%BD%D0%BE%D1%81%D0%BB%D0%B0%D0%B2%D1%8F%D0%BD%D1%81%D0%BA%D0%B8%D0%B9,-%E2%9C%85
❤10
Через неделю будут готовы переводы датасета SMOL от Гугла с Английского на Русский. Потом еще вычитка будет. Этот сбалансированный датасет для улучшения переводчика Гугла.
Это позволит переводчикам переводить с Русского на свой язык и добавить/улучшить его в переводчике. Предполагаемый релиз будет в следующем году.
Датасет содержит 2 таблицы: smolsent, smoldoc.
Опционально, есть датасет gatitos (самые популярные слова на английском, нужно перевести/проверить на свой язык).
У кого хороший английский, может уже сейчас переводить на свой язык. Кому надо, пишите в комментах.
#google
Это позволит переводчикам переводить с Русского на свой язык и добавить/улучшить его в переводчике. Предполагаемый релиз будет в следующем году.
Датасет содержит 2 таблицы: smolsent, smoldoc.
Опционально, есть датасет gatitos (самые популярные слова на английском, нужно перевести/проверить на свой язык).
У кого хороший английский, может уже сейчас переводить на свой язык. Кому надо, пишите в комментах.
🔥4❤1👍1
Продолжаем собирать датасеты (довольно простые) для того, чтобы создать универсиальную кириллическую клаву для РФ, а также заготовки для будущих индивидуальных клавиатур для каждого кириллического языка.
Сегодня добьем 20 языков. Но Остальные языки ждут своих активистов. Осталась немного времени до 3 Августа. Я готов все объяснить и направлять. Завтра весь день буду активным и мне можно напрямую писать @Agilight.
По остальным языкам необходимо достучаться до активистов, ученых, исследователей, айтишников, чтобы ваш язык как можно раньше начал интегрироваться в iOS.
https://github.com/Agisight/rf-keyboard-corpora
#РФ #Apple #iOS #ЯзыкиРФ
Сегодня добьем 20 языков. Но Остальные языки ждут своих активистов. Осталась немного времени до 3 Августа. Я готов все объяснить и направлять. Завтра весь день буду активным и мне можно напрямую писать @Agilight.
По остальным языкам необходимо достучаться до активистов, ученых, исследователей, айтишников, чтобы ваш язык как можно раньше начал интегрироваться в iOS.
https://github.com/Agisight/rf-keyboard-corpora
#РФ #Apple #iOS #ЯзыкиРФ
Всем привет! Я сейчас до поздна ночи буду сидеть и заниматься оформлением ряда языков и готов помочь/проконсультировать по вашим языка в плане датасета клавиатур. Пишите мне @Agilight
Мы все еще на очень раннем этапе внедрения клавиатур и поддержке десяток технологий вокруг этого. Важно понимать, что выход языка в виде клавиатуры на iOS не гарантирует автокоррекцию, голосовой ввод и т.д. и эти технологии могут годами отсутствовать. Поэтому именно от вас зависит будет ли клавиатура вашего языка мощной или нет. Для этого мы проектируем их, собираем датасеты к ним и договариваемся с поставщиками операционных систем.
Мы все еще на очень раннем этапе внедрения клавиатур и поддержке десяток технологий вокруг этого. Важно понимать, что выход языка в виде клавиатуры на iOS не гарантирует автокоррекцию, голосовой ввод и т.д. и эти технологии могут годами отсутствовать. Поэтому именно от вас зависит будет ли клавиатура вашего языка мощной или нет. Для этого мы проектируем их, собираем датасеты к ним и договариваемся с поставщиками операционных систем.
👍7❤3🔥3
Осталось чуть больше полутора дней до конца фазы сбора датасетов первых 50 языков для Клавиатуры РФ.
По следующим языкам (ниже) не хватает датасетов. Частично или полностью помочь по каждому языку вы можете.
Я находил датасеты (монокорпусы – на HuggingFace, Github, в других местах, количество носителей – в общероссийской переписи населения https://fadn.gov.ru/otkritoe-agenstvo/vserossijskaya-perepis-naseleniya-2020/file-download/7adwnjkrtvoz76h9krgaenvyjivoai7a и на сайте https://joshuaproject.net/languages/ или же в Википедии).
Абазинский
Абхазский
Агульский
Алтайский
Андийский
Ахвахский
Бурятский
Долганский
Калмыцкий
Кумыкский
Лакский
Мокшанский
Ногайский
Рутульский
Табасаранский
Тиндинский
Хакасский
Цудахарский
Чеченский
Эрзянский
https://github.com/Agisight/rf-keyboard-corpora/blob/main/README.md
По следующим языкам (ниже) не хватает датасетов. Частично или полностью помочь по каждому языку вы можете.
Я находил датасеты (монокорпусы – на HuggingFace, Github, в других местах, количество носителей – в общероссийской переписи населения https://fadn.gov.ru/otkritoe-agenstvo/vserossijskaya-perepis-naseleniya-2020/file-download/7adwnjkrtvoz76h9krgaenvyjivoai7a и на сайте https://joshuaproject.net/languages/ или же в Википедии).
Абазинский
Абхазский
Агульский
Алтайский
Андийский
Ахвахский
Бурятский
Долганский
Калмыцкий
Кумыкский
Лакский
Мокшанский
Ногайский
Рутульский
Табасаранский
Тиндинский
Хакасский
Цудахарский
Чеченский
Эрзянский
https://github.com/Agisight/rf-keyboard-corpora/blob/main/README.md
❤5