Data Blog

Channel created

09:46

Недавно столкнулась с задачей лемматизации текстов, удалось поработать с небольшими русскоязычными и английскими.

Пара выводов и ссылок:

SpaCy — удобное решение (по крайней мере на не очень больших данных) для лемматизации английского текста. Плюс библиотеки — нет нужды заморачиваться с позиционными тегами, как, например в nltk, используя WordNetLemmatizer

pymorphy2 — практичный и шустрый в сравнении с pymystem3 (Яндекс, простите!)) для лемматизации русских текстов
и вишенка облако на торт:

WordCloud — для визуализации облаков слов. Быстрый (и красивый) how to start тут.

И моё первое облачко! :)

UPD 1.09.2022:

Здесь (ссылка на Хабр) приведен способ ускорения лемматизации с pymystem3, который выигрывает у pymorphy2 (pymystem оказывается быстрее в почти 19 раз).

Однако в голом виде pymorphy всё же действительно быстрее pymystem.

За находку благодарю Романа!

#библиотеки_nlp #библиотеки

👍5

456 viewsedited 09:53

Data Blog

Всем привет, друзья! Решила завести рубрику с картинками #Датасловарь

#Датасловарь

Квантиль — значение, которое случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль превращается в процентиль или перцентиль.

В свою очередь распределение принято разбивать на три квантиля, но существует случай разбиения на 4 части. Тогда мы говорим о квартилях — ниже первого лежат 25% данных, ниже второго 50%, ниже третьего — 75% и ниже четвертого 100% соответственно.

Центральный (Q2) — это квантиль, которое заданная случайная величина не превышает с вероятностью 0.5.

Первый (Q1) — квантиль, который заданная случайная величина не превышает с вероятностью 0.25.

Третий (Q3) — квантиль, которой, как вы уверена догадались, заданная случайная величина не превышает с вероятностью 0.75.

👍5

384 views10:23

About

Blog

Apps

Platform