Parsing Conf
596 subscribers
6 photos
2 videos
14 files
162 links
Data collection conference/meetup

Митап о сборе данных

Тематические объявления и посты бесплатно размещаем


По всем вопросам можно обращаться в чат
https://t.iss.one/joinchat/HvuCPzwpPJHrrDfC
или в личку @NikolayKrupiy @cuda23
Download Telegram
#ссылка
#продукт

https://m.habr.com/ru/post/543760/

В последнее время сильно развивается no-code инструментарий. Это очень круто, хотя это часто сложно принять разработчикам. Это сильно расширяется возможности и ускоряет процесс решения задач.

Инструменты:
- Scraper API
- Octoparse
- DataOx
- ScrapingBot
- Wintr
- Import.io
- Webhose.io
- Zyte
- ParseHub
- Mozenda
- Diffbot
- Luminati
- FMiner
- Outwit
- Data streamer
#ссылка
#продукт

octoparse.com

Один из инструментов no-code. Позволяет выстраивать пайплайны, есть возможность пагинации выгрузок. Что круто, полу-автоматически выцепляет атрибуты из страничек. Сложно сказать о качестве, потому что попробовать бывалому линуксоиду это не получится. Есть только десктоп-версия )= для windows и mscOS.

На вскидку, система пайплайнов показалась хиленькой. Но судить сложно, поскольку её не пощупал.

Есть какое-то АПИ. Судя по всему, позволяет работать с тасками. Но для инструмента no-code ценности в нём не очень много.

Сайт неудобный и навигацию осуществлять на нём мне не понравилось.

Клёвый ролик с демо https://www.youtube.com/watch?time_continue=122&v=s6pirJKtVk0 .

В целом, мне не понравилось. Нет клауд-версии.

Стоимость:
- Free (10 000 записей для выгрузки, 10 конфигураций краулеров, 2 задачи одновременно)
- 75$/month (неограниченное количество записей, 100 конфигураций краулеров, 6 задач одновременно)
- 209$/month (неограниченное количество записей, 100 конфигураций краулеров, 6 задач одновременно)
- Индивидуальные планы
#ссылка

https://habr.com/ru/post/544788/

О, нет. Только собрался разбогатеть и вот опять. Закон пока не читал. Но то, что написано тут очень расстраивает и наводит тоску. Другое дело, что все как парсили так и продолжат. Или за это начнут дела шить...
#ссылка
#github

Я очень люблю библиотеку ferret для парсинга. Спасибо Тиму Воронову за её создание. Основная фишка её в том, что происходит разделение логики извлечения данных с html-страницы и кода (бизнес-логики). Это позволяет оперативно исправлять парсеры без передеплаивания системы, а также позволяет легко тестировать их.

До недавнего времени эта библиотека была доступна только на golang. Но я сделал c-библиотеку и теперь её можно использовать на python. На python портирован пока что лишь ограниченный функционал, но Вы уже можете попробовать её использовать

https://github.com/MontFerret/pyfer
#ссылка
#github
https://github.com/openvenues/libpostal

Замечательная библиотека для структурирования адресов. Реализована на основе OSM. Т.е. из сырой строки она получает полноценный адрес. В том, числе и на русском. К моему большому удивленю, до сих пор жива.
#ссылка

В Facebook обнаружили уязвимость, которая может привести к ещё одной масштабной утечке.
Специальный инструмент "Facebook Email Search v1.0" позволяет находить учётные записи соцсети и связанные с ними адреса электронной почты, даже когда у пользователей они скрыты в настройках конфиденциальности.
Видеодоказательство:
https://youtu.be/LB_yPaHSgWs
Пока достоверно не известно, успели ли уже собрать внушительную базу соответствий Facebook id, Full name, Email.
Но было бы приятно к существующим утечкам Facebook добавить новые данные.
Работайте, парсеры 🪆
#ссылка
#работа

Если вы ищете работу, возможно, вам поможет этот канал

https://t.iss.one/meta_jobs