Parsing Conf
596 subscribers
6 photos
2 videos
14 files
162 links
Data collection conference/meetup

Митап о сборе данных

Тематические объявления и посты бесплатно размещаем


По всем вопросам можно обращаться в чат
https://t.iss.one/joinchat/HvuCPzwpPJHrrDfC
или в личку @NikolayKrupiy @cuda23
Download Telegram
#ссылка
#github

Я очень люблю библиотеку ferret для парсинга. Спасибо Тиму Воронову за её создание. Основная фишка её в том, что происходит разделение логики извлечения данных с html-страницы и кода (бизнес-логики). Это позволяет оперативно исправлять парсеры без передеплаивания системы, а также позволяет легко тестировать их.

До недавнего времени эта библиотека была доступна только на golang. Но я сделал c-библиотеку и теперь её можно использовать на python. На python портирован пока что лишь ограниченный функционал, но Вы уже можете попробовать её использовать

https://github.com/MontFerret/pyfer
#ссылка
#github
https://github.com/openvenues/libpostal

Замечательная библиотека для структурирования адресов. Реализована на основе OSM. Т.е. из сырой строки она получает полноценный адрес. В том, числе и на русском. К моему большому удивленю, до сих пор жива.
#github

Привет, друзья!
Всех тех, кто пользуется или интересуется библиотекой Ferret, приглашаем в новый чат в Телеграмме, где вы можете задать интересующий вас вопрос или просто пообщаться!

https://t.iss.one/montferret_chat

А ещё есть телеграм-канал, в котром будут публиковаться новости

https://t.iss.one/montferret
#github

https://github.com/sdushantha/tmpsms

Если Вы хотите обезопасить Ваш номер и не регистрироваться на сомнительных ресурсах, специально для Вас есть утилита
#github

Ещё одна интересная библиотека. JS-интерпретатор на golang. Но, к сожалению, давно не развивается.
https://github.com/robertkrimen/otto