Недавно столкнулась с задачей лемматизации текстов, удалось поработать с небольшими русскоязычными и английскими.
Пара выводов и ссылок:
SpaCy — удобное решение (по крайней мере на не очень больших данных) для лемматизации английского текста. Плюс библиотеки — нет нужды заморачиваться с позиционными тегами, как, например в nltk, используя WordNetLemmatizer
pymorphy2 — практичный и шустрый в сравнении с pymystem3 (Яндекс, простите!)) для лемматизации русских текстов
и вишенка облако на торт:
WordCloud — для визуализации облаков слов. Быстрый (и красивый) how to start тут.
И моё первое облачко! :)
UPD 1.09.2022:
Здесь (ссылка на Хабр) приведен способ ускорения лемматизации с pymystem3, который выигрывает у pymorphy2 (pymystem оказывается быстрее в почти 19 раз).
Однако в голом виде pymorphy всё же действительно быстрее pymystem.
За находку благодарю Романа!
#библиотеки_nlp #библиотеки
Пара выводов и ссылок:
SpaCy — удобное решение (по крайней мере на не очень больших данных) для лемматизации английского текста. Плюс библиотеки — нет нужды заморачиваться с позиционными тегами, как, например в nltk, используя WordNetLemmatizer
pymorphy2 — практичный и шустрый в сравнении с pymystem3 (Яндекс, простите!)) для лемматизации русских текстов
и вишенка облако на торт:
WordCloud — для визуализации облаков слов. Быстрый (и красивый) how to start тут.
И моё первое облачко! :)
UPD 1.09.2022:
Здесь (ссылка на Хабр) приведен способ ускорения лемматизации с pymystem3, который выигрывает у pymorphy2 (pymystem оказывается быстрее в почти 19 раз).
Однако в голом виде pymorphy всё же действительно быстрее pymystem.
За находку благодарю Романа!
#библиотеки_nlp #библиотеки
👍5
Всем привет, друзья! Решила завести рубрику с картинками #Датасловарь
#Датасловарь
Квантиль — значение, которое случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль превращается в процентиль или перцентиль.
В свою очередь распределение принято разбивать на три квантиля, но существует случай разбиения на 4 части. Тогда мы говорим о квартилях — ниже первого лежат 25% данных, ниже второго 50%, ниже третьего — 75% и ниже четвертого 100% соответственно.
Центральный (Q2) — это квантиль, которое заданная случайная величина не превышает с вероятностью 0.5.
Первый (Q1) — квантиль, который заданная случайная величина не превышает с вероятностью 0.25.
Третий (Q3) — квантиль, которой, как вы уверена догадались, заданная случайная величина не превышает с вероятностью 0.75.
#Датасловарь
Квантиль — значение, которое случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль превращается в процентиль или перцентиль.
В свою очередь распределение принято разбивать на три квантиля, но существует случай разбиения на 4 части. Тогда мы говорим о квартилях — ниже первого лежат 25% данных, ниже второго 50%, ниже третьего — 75% и ниже четвертого 100% соответственно.
Центральный (Q2) — это квантиль, которое заданная случайная величина не превышает с вероятностью 0.5.
Первый (Q1) — квантиль, который заданная случайная величина не превышает с вероятностью 0.25.
Третий (Q3) — квантиль, которой, как вы уверена догадались, заданная случайная величина не превышает с вероятностью 0.75.
👍5
Пауза. Осмысление. И если сделать финт ушами, умножить вероятности на 100, то имеем 25й, 75й и 50й перцентили =).
IQR или interquartile range или межквартильный размах — это величина, равная разности третьего и второго квантилей соответственно (Q3 - Q1). Здесь улыбаемся и понимаем, что на прямой в 100% это ровно центральная половина, которая, как у фруктов, самая сочная (или в ней содержится больше всего наблюдений).
Данный словарь порожден подготовкой поста про boxplot' ы.
Будет позже)
IQR или interquartile range или межквартильный размах — это величина, равная разности третьего и второго квантилей соответственно (Q3 - Q1). Здесь улыбаемся и понимаем, что на прямой в 100% это ровно центральная половина, которая, как у фруктов, самая сочная (или в ней содержится больше всего наблюдений).
Данный словарь порожден подготовкой поста про boxplot' ы.
Будет позже)
👍3