Недавно столкнулась с задачей лемматизации текстов, удалось поработать с небольшими русскоязычными и английскими.
Пара выводов и ссылок:
SpaCy — удобное решение (по крайней мере на не очень больших данных) для лемматизации английского текста. Плюс библиотеки — нет нужды заморачиваться с позиционными тегами, как, например в nltk, используя WordNetLemmatizer
pymorphy2 — практичный и шустрый в сравнении с pymystem3 (Яндекс, простите!)) для лемматизации русских текстов
и вишенка облако на торт:
WordCloud — для визуализации облаков слов. Быстрый (и красивый) how to start тут.
И моё первое облачко! :)
UPD 1.09.2022:
Здесь (ссылка на Хабр) приведен способ ускорения лемматизации с pymystem3, который выигрывает у pymorphy2 (pymystem оказывается быстрее в почти 19 раз).
Однако в голом виде pymorphy всё же действительно быстрее pymystem.
За находку благодарю Романа!
#библиотеки_nlp #библиотеки
Пара выводов и ссылок:
SpaCy — удобное решение (по крайней мере на не очень больших данных) для лемматизации английского текста. Плюс библиотеки — нет нужды заморачиваться с позиционными тегами, как, например в nltk, используя WordNetLemmatizer
pymorphy2 — практичный и шустрый в сравнении с pymystem3 (Яндекс, простите!)) для лемматизации русских текстов
и вишенка облако на торт:
WordCloud — для визуализации облаков слов. Быстрый (и красивый) how to start тут.
И моё первое облачко! :)
UPD 1.09.2022:
Здесь (ссылка на Хабр) приведен способ ускорения лемматизации с pymystem3, который выигрывает у pymorphy2 (pymystem оказывается быстрее в почти 19 раз).
Однако в голом виде pymorphy всё же действительно быстрее pymystem.
За находку благодарю Романа!
#библиотеки_nlp #библиотеки
👍5
Всем привет, друзья! Решила завести рубрику с картинками #Датасловарь
#Датасловарь
Квантиль — значение, которое случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль превращается в процентиль или перцентиль.
В свою очередь распределение принято разбивать на три квантиля, но существует случай разбиения на 4 части. Тогда мы говорим о квартилях — ниже первого лежат 25% данных, ниже второго 50%, ниже третьего — 75% и ниже четвертого 100% соответственно.
Центральный (Q2) — это квантиль, которое заданная случайная величина не превышает с вероятностью 0.5.
Первый (Q1) — квантиль, который заданная случайная величина не превышает с вероятностью 0.25.
Третий (Q3) — квантиль, которой, как вы уверена догадались, заданная случайная величина не превышает с вероятностью 0.75.
#Датасловарь
Квантиль — значение, которое случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль превращается в процентиль или перцентиль.
В свою очередь распределение принято разбивать на три квантиля, но существует случай разбиения на 4 части. Тогда мы говорим о квартилях — ниже первого лежат 25% данных, ниже второго 50%, ниже третьего — 75% и ниже четвертого 100% соответственно.
Центральный (Q2) — это квантиль, которое заданная случайная величина не превышает с вероятностью 0.5.
Первый (Q1) — квантиль, который заданная случайная величина не превышает с вероятностью 0.25.
Третий (Q3) — квантиль, которой, как вы уверена догадались, заданная случайная величина не превышает с вероятностью 0.75.
👍5