Потратила некоторое время, чтобы разобраться с настройками автоматической проверки кода на R в GitHub Classroom. Вот тут подробная инструкция: https://teletype.in/@locusclassicus/autograding-github-classroom-r
Особенности:
- поначалу можно сломать голову, но дальше проще;
- нет (пока не вижу) возможности оценивать не по бинарной шкале (passed / failed), а более нюансированно;
- на бесплатном плане придется сделать видимыми студенческие репозитории из-за ограничений Actions;
- под каждое задание надо создавать отдельную пару репозиториев (шаблон + тесты)
Пока ощущение такое, что для преподавателя намного проще скачивать полностью все репозитории и проверять с GradeR. Однако студентам было бы полезнее заранее видеть результат тестов, поэтому буду еще думать.
Если у кого-то есть опыт решения этой проблемы малой кровью, буду рада услышать. #gradeR
Особенности:
- поначалу можно сломать голову, но дальше проще;
- нет (пока не вижу) возможности оценивать не по бинарной шкале (passed / failed), а более нюансированно;
- на бесплатном плане придется сделать видимыми студенческие репозитории из-за ограничений Actions;
- под каждое задание надо создавать отдельную пару репозиториев (шаблон + тесты)
Пока ощущение такое, что для преподавателя намного проще скачивать полностью все репозитории и проверять с GradeR. Однако студентам было бы полезнее заранее видеть результат тестов, поэтому буду еще думать.
Если у кого-то есть опыт решения этой проблемы малой кровью, буду рада услышать. #gradeR
Teletype
Автоматическая проверка заданий на языке R в GitHub Classroom
1.1. Тесты не должны быть видны студентам, поэтому создаем в организации GitHub приватный репозиторий с заданиями, например...
🔥5❤🔥4👍2
У коллег из ИТМО завтра интересный движ про гуманность, гуманизм и гуманитарность, в связи с чем я вдруг призадумалась, как для себя соотношу все эти понятия.
Наверное, так (но это во мне говорит переводчик Йегера):
- гуманность – это качества, подобающие человеку, Bild или Form;
- гуманизм – институты (в широком смысле) воспитания и культуры, которые эти качества поддерживают (Bildung или Formation);
- гуманитарные науки — то, что поддерживает сам гуманизм, типа монашества в Церкви (все не могут так жить, но кто-то обязательно должен).
При этом разлепить второе и третье я могу только концептуально, не на практике.
Наверное, так (но это во мне говорит переводчик Йегера):
- гуманность – это качества, подобающие человеку, Bild или Form;
- гуманизм – институты (в широком смысле) воспитания и культуры, которые эти качества поддерживают (Bildung или Formation);
- гуманитарные науки — то, что поддерживает сам гуманизм, типа монашества в Церкви (все не могут так жить, но кто-то обязательно должен).
При этом разлепить второе и третье я могу только концептуально, не на практике.
Telegram
провода+болота
про гуманность, гуманизм и гуманитарность корпораций
22 октября в 18.30 мы будем говорить про гуманитарную миссию и социальную ответственность корпораций. компания подходящая — люди, принимающие решения в Сбере, Яндексе и Т-Банке. компания такая:
- Альберт…
22 октября в 18.30 мы будем говорить про гуманитарную миссию и социальную ответственность корпораций. компания подходящая — люди, принимающие решения в Сбере, Яндексе и Т-Банке. компания такая:
- Альберт…
❤15🔥5👏4
🔹 Из урока по табличным данным после некоторых колебаний все же полностью убрала датафреймы, как советовал еще в прошлом году Георгий Мороз. Сразу бескомпромиссный
tidyverse во всем! 🔹 Существенно переработала урок по итерациям и функциям, уделив особое внимание теме таинственного аргумента «три точки». Три точки — это сила!
🔹 Разбила на два урока единую тему структурированных данных; теперь JSON отдельно, XML отдельно. Каждый блок существенно расширила, в JSON добавила примеры запросов по API (но эту часть еще надо будет допиливать, там остались мелкие косяки).
🔹 После колебаний все же полностью перешла с пакета XML на xml2. Долго не понимала, зачем (потому что училась по этой книге), но наконец оценила его достоинства: все векторизовано, никаких
sapply() и прочих сложных обходов дерева узлов. Опрятно, что и говорить. Буду дальше пользоваться. 🔹 Добавилось новое домашнее задание по мотивам проекта Tolstoy Digital! Огромное спасибо Анастасии Бонч-Осмоловской и Борису Орехову за помощь.
🔹 Экспериментировала с разными методами OCR, очень полезно, о практических результатах расскажут чуть позже коллеги отдельным постом (мы дообучили модель Tesseract!) Основная сложность для студентов пока — дообучение сложно запускать на Windows, а в облаке Posit нет прав для использования команды sudo. Все равно сделали много!
🔹 За техническую поддержку благодарю еще раз Александру Горшенину, за материал для распознавания— Анастасию Богданову, за проверку эталонных данных — Анастасию Богданову и Анастасию Орлову, за подготовку эталонных данных — студентов ОП «Компаративистика», за помощь с проверкой дз — Дарью Галкину, Владу Гурьеву и снова Настю Орлову. Скоро, надеюсь, сможем рассказать больше.
🔹В планах — переработать и остальные уроки; учесть вышедшие за прошедшие месяцы обновления (следить за ними ОЧЕНЬ помогает канал «Наука и данные» @naukaidannye ) и кое-что переделать, а также добавить несколько новых тем.
Ухожу на короткие каникулы — но не отдыхать, а писать очередную заявку, статью и курс лекций.
Please open Telegram to view this post
VIEW IN TELEGRAM
locusclassicus.github.io
Компьютерный анализ текста
❤25❤🔥11🥰8👍4🔥4
RAntiquity
Коллеги обратили внимание на вышедший недавно сразу на двух языках сборник: Nunn, Christopher A. und van Oorschot, Frederike (Hrsg.): Compendium Computational Theology, Bd. 1: Introducing Digital Humanities to Theology, Heidelberg: heiBOOKS, 2024. https:…
Стоило пошутить по поводу возможности применения количественных методов в теологии, как на отзыв прилетела диссертация по теологии… с применением количественных методов. Очень, между прочим, интересная, чуть позже напишу подробнее. В итоге что? Сижу в ночи лемматизирую Оригена. Осторожнее надо шутить, осторожнее 😇
🔥13💋13💅3👻1
RAntiquity
Потратила некоторое время, чтобы разобраться с настройками автоматической проверки кода на R в GitHub Classroom. Вот тут подробная инструкция: https://teletype.in/@locusclassicus/autograding-github-classroom-r Особенности: - поначалу можно сломать голову…
Охота пуще неволи: один раз решишь, что надо настроить автопроверку, и потом все — как babulenka в “Игроке” Достоевского, начала играть, так уж не остановишь. Столько времени потрачено на эту затею, и так хочется “отыграться” (спойлер: все получилось ). И перед мысленным взором носятся образы разных героев, непременно рационализаторов и сторонников прогресса. Поэтому мои входящие за эту ночь выглядят так.
Правда, в отличие от “бабуленьки”, я кое-какую пользу из этого извлекла, все настроила, все постиглаи теперь чувствую себя как Фауст. #gradeR
Правда, в отличие от “бабуленьки”, я кое-какую пользу из этого извлекла, все настроила, все постигла
❤21😁3
Сегодня у меня день рождения, и я решила для разнообразия поделать что-то для души. Посчитать, например, сколько раз упоминается мистер Дарси и Элизабет в главах “Гордости и предубеждения” (спасибо Джулии Силги за пакет janeaustenr). И в очередной раз убедилась, что симметрия — признак мастерства 🐾
аналитика in touch with feminine side
аналитика in touch with feminine side
Please open Telegram to view this post
VIEW IN TELEGRAM
❤61😁2
Forwarded from Библиотека Парвуса 📕
Молчала, писала (в том числе код 🤯 на языке R), формулировала и, наконец, с анонсом — мы с «Искрой» преодолели первое «цифровое» испытание — автоматизацию распознавания текста газеты.
Под чутким руководством и с огромной поддержкой моего научного руководителя @locusclassicus подготовлена модель распознавания дореформенной русской орфографии (на материале «Искры»). Теперь эта модель опубликована в открытом репозитории — вместе с описанием, кодом и метриками.
Публикация материалов на GitHub позволит независимо проверить полученные результаты, использовать модель как отправную точку для дальнейших экспериментов и включить её в новые исследования, связанные с автоматическим распознаванием дореформенных текстов.
Проверка распознавания моделью текста на независимых данных показала высокий уровень точности: ошибка на уровне символов (CER, Character Error Rate) — около ~2%.
Исходники и документация:
→ https://github.com/AButon-8/iskra_ocr
Под чутким руководством и с огромной поддержкой моего научного руководителя @locusclassicus подготовлена модель распознавания дореформенной русской орфографии (на материале «Искры»). Теперь эта модель опубликована в открытом репозитории — вместе с описанием, кодом и метриками.
Публикация материалов на GitHub позволит независимо проверить полученные результаты, использовать модель как отправную точку для дальнейших экспериментов и включить её в новые исследования, связанные с автоматическим распознаванием дореформенных текстов.
Проверка распознавания моделью текста на независимых данных показала высокий уровень точности: ошибка на уровне символов (CER, Character Error Rate) — около ~2%.
Исходники и документация:
→ https://github.com/AButon-8/iskra_ocr
🔥23🙏12👨💻4❤3⚡1
Forwarded from Инфокультура
Объявлен приём заявок на Премию «Открытый доступ к данным в гуманитарных науках»
АНО «Инфокультура» приглашает студентов, аспирантов, преподавателей, исследователей и сотрудников вузов и научных организаций принять участие в конкурсе проектов, способствующих развитию открытой науки в гуманитарной сфере.
📌 Что можно подать:
– результаты научных исследований,
– цифровые проекты, связанные с гуманитарными дисциплинами,
– дипломные и курсовые проекты,
– иные работы, представляющие гуманитарные данные в открытом доступе.
📚 Номинации Премии:
• История
• Филология
• Культура
• Искусство
• Иные гуманитарные науки
Номинировать проект может как сам автор (или коллектив авторов), так и любой человек или организация, знакомые с проектом. Год публикации работы не имеет значения.
🏅 Лауреаты получат памятные награды, сертификаты и специальные призы от организаторов и партнёров Премии.
📝 Приём заявок уже открыт!
🔗 https://humawards.ru
#opendata #openaccess #humanitarian #contest
АНО «Инфокультура» приглашает студентов, аспирантов, преподавателей, исследователей и сотрудников вузов и научных организаций принять участие в конкурсе проектов, способствующих развитию открытой науки в гуманитарной сфере.
📌 Что можно подать:
– результаты научных исследований,
– цифровые проекты, связанные с гуманитарными дисциплинами,
– дипломные и курсовые проекты,
– иные работы, представляющие гуманитарные данные в открытом доступе.
📚 Номинации Премии:
• История
• Филология
• Культура
• Искусство
• Иные гуманитарные науки
Номинировать проект может как сам автор (или коллектив авторов), так и любой человек или организация, знакомые с проектом. Год публикации работы не имеет значения.
🏅 Лауреаты получат памятные награды, сертификаты и специальные призы от организаторов и партнёров Премии.
📝 Приём заявок уже открыт!
🔗 https://humawards.ru
#opendata #openaccess #humanitarian #contest
❤11
Forwarded from Научный репортер
Произведена революция в картографировании римских дорог
Международная команда археологов создала цифровую карту дорожной сети Римской империи «Itiner-e», почти удвоив известную протяжённость древнеримских дорог — с 190 тысяч до 300 тысяч километров, что эквивалентно семикратному обхвату Земли по экватору.
☝️Центральным открытием стало осознание того, что даже столь впечатляющая карта охватывает лишь около 3 процентов всей дорожной сети великой империи. Это стало и огромным сюрпризом, и одновременно призывом к действию, указывающим направления для будущих исследований.
Методология объединила разнородные источники: данные Баррингтонского атласа 2000 года, исторические маршрутники, дорожные столбы, археологические находки, карты XIX–XX веков и современные публикации. Сведения сопоставлялись с аэрофотоснимками, спутниковыми изображениями и историческими картами времён до Второй мировой войны, когда следы дорог были более видны. Исследователи даже научились находить дороги под современными водохранилищами, используя снимки, сделанные до строительства плотин.
Новая карта охватывает 40 современных стран и включает 14 769 дорожных сегментов, каждый с информацией об источниках и оценкой достоверности. Значительно расширены знания о дорогах в Иберии, Греции и Северной Африке. Впервые систематизированы около 200 тысяч километров второстепенных дорог — сельских трактов, соединявших виллы и фермы.
Главные транспортные узлы располагались вовсе не в самом Риме, а в долине реки По и альпийском коридоре северной Италии.
Проект обнаружил поразительный уровень преемственности в использовании римских дорог на протяжении двух тысячелетий: многие из дорог остаются действующими и сегодня.
▫️Платформа Itiner-e, названная «Google Maps для римских дорог», включает инструмент поиска маршрутов и доступна для свободного скачивания. Каждый дорожный сегмент имеет уникальный URI для цитирования. Команда продолжает расширять проект, надеясь создать самую всеобъемлющую карту, которую когда-либо видел мир. Как подчёркивает Бругманс, «триста тысяч километров — это лишь верхушка айсберга».
Исследование опубликовано в журнале Scientific Data, а самостоятельно изучить Itiner-e можно здесь. @everydayint
Международная команда археологов создала цифровую карту дорожной сети Римской империи «Itiner-e», почти удвоив известную протяжённость древнеримских дорог — с 190 тысяч до 300 тысяч километров, что эквивалентно семикратному обхвату Земли по экватору.
☝️Центральным открытием стало осознание того, что даже столь впечатляющая карта охватывает лишь около 3 процентов всей дорожной сети великой империи. Это стало и огромным сюрпризом, и одновременно призывом к действию, указывающим направления для будущих исследований.
Методология объединила разнородные источники: данные Баррингтонского атласа 2000 года, исторические маршрутники, дорожные столбы, археологические находки, карты XIX–XX веков и современные публикации. Сведения сопоставлялись с аэрофотоснимками, спутниковыми изображениями и историческими картами времён до Второй мировой войны, когда следы дорог были более видны. Исследователи даже научились находить дороги под современными водохранилищами, используя снимки, сделанные до строительства плотин.
Новая карта охватывает 40 современных стран и включает 14 769 дорожных сегментов, каждый с информацией об источниках и оценкой достоверности. Значительно расширены знания о дорогах в Иберии, Греции и Северной Африке. Впервые систематизированы около 200 тысяч километров второстепенных дорог — сельских трактов, соединявших виллы и фермы.
Главные транспортные узлы располагались вовсе не в самом Риме, а в долине реки По и альпийском коридоре северной Италии.
Проект обнаружил поразительный уровень преемственности в использовании римских дорог на протяжении двух тысячелетий: многие из дорог остаются действующими и сегодня.
▫️Платформа Itiner-e, названная «Google Maps для римских дорог», включает инструмент поиска маршрутов и доступна для свободного скачивания. Каждый дорожный сегмент имеет уникальный URI для цитирования. Команда продолжает расширять проект, надеясь создать самую всеобъемлющую карту, которую когда-либо видел мир. Как подчёркивает Бругманс, «триста тысяч километров — это лишь верхушка айсберга».
Исследование опубликовано в журнале Scientific Data, а самостоятельно изучить Itiner-e можно здесь. @everydayint
🥰17🔥11❤7👍4
Научный репортер
Произведена революция в картографировании римских дорог Международная команда археологов создала цифровую карту дорожной сети Римской империи «Itiner-e», почти удвоив известную протяжённость древнеримских дорог — с 190 тысяч до 300 тысяч километров, что эквивалентно…
просто под предлогом исследования римских дорог товарищи обфотографировали каждую тропинку в европе и рядом, ничего подозрительного
😁19👏6🤣3
Научный репортер
Произведена революция в картографировании римских дорог Международная команда археологов создала цифровую карту дорожной сети Римской империи «Itiner-e», почти удвоив известную протяжённость древнеримских дорог — с 190 тысяч до 300 тысяч километров, что эквивалентно…
за кулисами развернулась научная дискуссия
😁19🤣10👍3🔥1
лично я убежден что в гуманитарных науках цифровизация без открытости не ведет к формированию общественного блага, а ничем другим инициативы в области культуры, истории и тд. быть не могут.
золотые слова
Telegram
Ivan Begtin
В контексте премии по открытому доступу в гуманитарных науках (humawards.ru) о том как предоставлять материалы в открытом доступе.
1. В основе открытости данных исследователей лежат принципы FAIR (Findability, Accessibility, Interoperability, Reuse). Описание…
1. В основе открытости данных исследователей лежат принципы FAIR (Findability, Accessibility, Interoperability, Reuse). Описание…
❤19🔥1
Полезное про плагины для Zotero. Я хотя давно пользуюсь, лет 15, но никогда так глубоко не копала. Буду разбираться. https://t.iss.one/slishkom_dushno/94
Telegram
Слишком душно
#инструменты
Ещё один очень полезный плагин для Zotero — Attanger. В Zotero 7 он выполняет примерно те же задачи, что и плагин ZotFile в Zotero 6 версии, которой некоторые всё ещё пользуются — а именно обрабатывает связанные (прикреплённые) файлы. Под обработкой…
Ещё один очень полезный плагин для Zotero — Attanger. В Zotero 7 он выполняет примерно те же задачи, что и плагин ZotFile в Zotero 6 версии, которой некоторые всё ещё пользуются — а именно обрабатывает связанные (прикреплённые) файлы. Под обработкой…
❤9👍1🔥1👨💻1
Стоило только задуматься о контроле “температуры” модели в
Попробовала, задавая один и тот же вопрос: “Что такое метафора?”
Максимальная температура для моделей OpenAI = 2. На этом уровне они начинают бредить, как студент-первокурсник, злоупотребляющий дерридой (креативность как она есть):
На нуле — абсолютная предсказуемость, как у выгоревшего профессора, который каждый год читает вступительную лекцию по одному и тому же конспекту:
А на какой температуре пишете вы? 🔥 или ⛄️?
{ellmer} — а Хадли уже прикрутил новую функцию params(). Буквально в минувшем сентябре. Попробовала, задавая один и тот же вопрос: “Что такое метафора?”
Максимальная температура для моделей OpenAI = 2. На этом уровне они начинают бредить, как студент-первокурсник, злоупотребляющий дерридой (креативность как она есть):
Метафора – это перенесённое, сравнениеобразное соображение, когда признак либо качества предмета описывается термином, относящимся именно быту, но обозначая другой предмет.
На нуле — абсолютная предсказуемость, как у выгоревшего профессора, который каждый год читает вступительную лекцию по одному и тому же конспекту:
Метафора — это фигура речи, при которой слово или выражение переносит значение из одного предмета в другой, создавая образное сравнение без использования союзов «как», «словно» и т.п.
А на какой температуре пишете вы? 🔥 или ⛄️?
☃8❤🔥7🐳4❤2👍1🔥1
Forwarded from Системный Блокъ
«Системный Блокъ» объявляет предновогодний набор участников!
«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков, разработчиков. Если вы давно хотели к нам присоединиться и не знали, как, — сейчас самое время!
Мы — волонтерское издание. В нашей команде люди из совершенно разных сфер: филологи, программисты, менеджеры, историки, журналисты и аналитики. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами.
Как вы поняли, нам не хватает только вас.
Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку.
1. Авторы в рубрики NLP, «Филология», «Образование», «Биоинформатика», «Востоковедение»
2. Кураторы рубрик NLP, «Лингвистика» и «Филология»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Контент-менеджер Telegram-канала
6. Выпускающий редактор сайта
7. Куратор рубрики «Интервью» / Менеджер интервью
8. PR-менеджер
9. HR-менеджер
10. Иллюстраторы и менеджер иллюстраторов
11. Редактор ИИ-портала
12. Авторы-энтузиасты нейросетей
13. Менеджер направления в дата-отделе
14. Автор-исследователь в дата-отдел
15. SEO-специалист на сайт
16. Аналитик на сайт
17. Продакт-менеджер сайта
18. UX-дизайнер сайта
19. Менеджер портала про цифровое образование
20. Разработчик WordPress на сайт
21. Разработчик Next.js (React)
22. Разработчик n8n
23. Разработчик Apps Script
Полное описание задач и пожеланий к участникам смотрите в этом документе.
Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 29 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!
🤖 «Системный Блокъ» @sysblok
«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков, разработчиков. Если вы давно хотели к нам присоединиться и не знали, как, — сейчас самое время!
Мы — волонтерское издание. В нашей команде люди из совершенно разных сфер: филологи, программисты, менеджеры, историки, журналисты и аналитики. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами.
Как вы поняли, нам не хватает только вас.
Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку.
1. Авторы в рубрики NLP, «Филология», «Образование», «Биоинформатика», «Востоковедение»
2. Кураторы рубрик NLP, «Лингвистика» и «Филология»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Контент-менеджер Telegram-канала
6. Выпускающий редактор сайта
7. Куратор рубрики «Интервью» / Менеджер интервью
8. PR-менеджер
9. HR-менеджер
10. Иллюстраторы и менеджер иллюстраторов
11. Редактор ИИ-портала
12. Авторы-энтузиасты нейросетей
13. Менеджер направления в дата-отделе
14. Автор-исследователь в дата-отдел
15. SEO-специалист на сайт
16. Аналитик на сайт
17. Продакт-менеджер сайта
18. UX-дизайнер сайта
19. Менеджер портала про цифровое образование
20. Разработчик WordPress на сайт
21. Разработчик Next.js (React)
22. Разработчик n8n
23. Разработчик Apps Script
Полное описание задач и пожеланий к участникам смотрите в этом документе.
Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 29 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Docs
Присоединяйтесь к команде Системного Блока.
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Нам интересно писать о том, как трансформируется человеческая культура в век больших данных, беспилотных автомобилей и интеллектуальных алгоритмов. Мы хотим…
❤8🔥1
Множество Мандельброта представляет собой потрясающий пример. Его удивительно сложная структура не является результатом изобретения ни какой-либо отдельной личности, ни группы математиков. ...Создается впечатление, что рассматриваемая структура не является всего лишь частью нашего мышления, но что она реальна сама по себе. Кто бы из математиков или программистов ни занялся изучением этого множества, результатом их исследований обязательно будут приближения к одной и той же единой для всех фундаментальной математической структуре. ...При этом компьютер применяется в сущности так же, как прибор в руках физика- экспериментатора, исследующего строение физического мира. Множество Мандельброта — это не плод человеческого воображения, а открытие. Подобно горе Эверест, множество Мандельброта просто-напросто уже существовало «там вовне»!
Роджер Пенроуз. Новый ум короля (1989, рус. пер. 2003)
Визуализация создана на R с использованием
{ggplot2}. Цвет показывает, сколько итераций потребовалось для определения принадлежности точки к множеству.❤17🔥1
Между тем освоила и вписала в курс по R небольшой, но очень приятный пакет
Позволяет строить эмбеддинги с моделями семейства BERT, опубликованными на Hugging Face.
Требуется виртуальное окружение Python, которое не сложно настроить через
Например, так:
Из ограничений — не подходит для моделей BERT с анализом эмоциональной тональности💔
{text}. https://www.r-text.org/ Позволяет строить эмбеддинги с моделями семейства BERT, опубликованными на Hugging Face.
Требуется виртуальное окружение Python, которое не сложно настроить через
{reticulate}, а также модули nltk и transformers.Например, так:
emb <- textEmbed(
texts = news_sample$text,
# или другая модель
model = "cointegrated/rubert-tiny2",
# по умолчанию
layers = -2,
remove_non_ascii = FALSE
)
Из ограничений — не подходит для моделей BERT с анализом эмоциональной тональности
Please open Telegram to view this post
VIEW IN TELEGRAM
www.r-text.org
Analyses of Text using Transformers from HuggingFace, Natural Language Processing and Machine Learning.
❤17❤🔥7👍3🔥1💔1💅1